搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

21.RE: 关于词典中的词性标注

发布时间：2009-08-06 08:08 t By akira

感謝您的建議最初合併字典後，用較長的內文 + IN BOOLEAN MODE 搜尋，會有 0 筆資料的情況，後來反覆縮短原文查詢發現，多數與 att = un 有關聯，只是不敢武斷就是了。本週一，狠心將 un 完全調成 a (形容词)，同時完全移除只...

22.RE: 2009/5 scws-1.0.2更新发布,加入词性语义消岐规则

发布时间：2009-05-25 18:05 t By redboy

没有找到更新后的 php_scws.dll 文件，请问在哪儿可以下载到最新（1.0.2）的版本？还有一个问题，就是如何添加修改词库？？谢谢

23.RE: 关于词典中的词性标注

发布时间：2009-08-05 06:08 t By akira

得助於 xdb词典导入导出工具，已經完成 UTF8 chs + cht 的合併，也自己加了一些詞, 目前使用中，感覺很好。想回應的是自己在合併過程中，碰到的情況。在個別將 dict_chs(t).utf8.xdb 導出，倒入資料庫處理時發現，有重複的字...

24.RE: [bug] 获取统计词时的词性过滤处理有问题

发布时间：2011-10-26 16:10 t By hightman

... v,n 结果只有 n 的，测试~v,n,vn 结果还是会出现包含这些词性的。这。。。似乎完全有BUG，稍后查。 [/quote] 感谢 magike 网友再度来信指出，目前已经在CVS中作了修正，预计在下一版本同时发布。看了一下确实是宏定义的...

25.关于词典中的词性标注

发布时间：2007-06-09 12:06 t By hightman

...多错误的条目。主要表现在不是词的列在词里，还有词性标注错误的。本词典中的标注使用的是北大版本的标注集（见附录），在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务，希望本着有一纠一的原则...

26.RE:1268

发布时间：2008-04-08 13:04 t By ianlow

可以添加对词性的判断,以及词性的权重比,应该可以达到你想要的效果~ 例如:在SCWS分析以上三句词性得到: 你/r 给/v 我/r 买/v 的/uj 衣服/n 你/r 看/v 的/uj 书/n 一/m 件/q 衣服/n 以此可以看出,其中匹配的是你/r 的/uj 衣服/n ...

27.RE: 「清除标点符号断词」错误回报

发布时间：2010-05-16 22:05 t By hightman

清除符号本质上是根据词性来处理的。勾上词性后发现这些被清除的词性都是 un 所以会被清除，这是因为词典的数据不对导致的，之前的繁体词典是一位朋友帮忙整理的，可能有所缺漏和不对。

... $text string 要判断的文本 $xattr string 要判断的词性, 参见 getTops 的说明 {return} bool 文本中是否包含指定词性的词汇源码: sdk/php/lib/XSTokenizer.class.php#L382 (显示) public function hasWord($text, $xattr){ $text = $this->applySet...

29.在 Xunsearch 使用 SCWS

...源参数文本 _$text_ 中的起始偏移位置 - *attr* 这个词汇的词性，使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇调...

30.自定义词典产生的故障

更新时间：2012-04-29 20:04 t By yunxiaoad2

自定义了dict_user.txt 出现奇怪现象，所有词性都变成了string(3)，而且还出现了乱码： array(3) { ["off"]=> int(0) ["attr"]=> string(3) "@�" ["word"]=> string(15) "重庆鸡公煲" } array(3) { ["off"]=> int(0) ["attr"]=> string(3) "ns�" ["word"]=> string(6) "重庆" ...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索