搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

31.RE: 我想过滤由‘人’‘得’‘到’‘直’　这几个字组成的关键字

发布时间：2010-05-31 01:05 t By hightman

...滤的词新增加文本词典，属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。因为你是包含的作法的话，是不是“人们”“人家”“人民”全都要过滤了？？这样肯定不合适，所以建议直接根据词性过滤...

32.RE: 遇到一个分词错误的问题

发布时间：2014-02-10 10:02 t By hightman

rule.utf8.ini里那些调节是通过常用词性组合来改变权重，这要求词典的词性必须十分准确才行

33.XSTokenizerScws::getTops

...text string 待分词的文本 $limit string 在返回结果的词性过滤, 多个词性之间用逗号分隔, 以~开头取反如: 设为 n,v 表示只返回名词和动词; 设为 ~n,v 则表示返回名词和动词以外的其它词 $xattr {return} array 返回词...

34.如何修正分词错误

更新时间：2012-01-06 16:01 t By worldwind

...分词为：现在时/n 间/f 期待分词结果：现在时间 ②词性方面如何修正呢？例如，希望将，“了”的词性由 v 改为： e 新建一个userdic辞书，然后添加：了 1.0 1.0 e 通过：scws_add_dict(s, "/usr/local/scws/etc/userdict.utf8...

35.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

更新时间：2010-11-13 10:11 t By snakeyasin

...次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性"，字段时间用空格或制表符分开，数量不限，可自行对齐以美化。 3) 除“词语”外，其它字段可忽略不写。若忽略，TF和IDF默认值为 1.0 而词性为 "@" 4) 由于 tx...

36.RE: 遇到一个分词错误的问题

发布时间：2014-02-11 11:02 t By robinjia

...，还是恶俗？大家怎么看的？”这个句子，无论怎么调整词性语法规则表都是会分成“武松杀 /nr 嫂 /ng 雕塑 /n 是 /v 艺术 /n ， /un 还是 /n 恶俗 /n ？ /un 大家 /r 怎么 /r 看 /v 的 /uj ？ /un”。我的理解是，这是因为程序里并没有判...

37.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

发布时间：2012-11-06 22:11 t By umland

...次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性"，字段时间用空格或制表符分开，数量不限，可自行对齐以美化。 3) 除“词语”外，其它字段可忽略不写。若忽略，TF和IDF默认值为 1.0 而词性为 "@" 4) 由于 tx...

38.[2013] SCWS-1.2.2 发布，BSD协议、支持自定义词库、PHP5.4

更新时间：2013-07-11 21:07 t By hightman

...布于 2011-04-20[/b] 修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 调整将数字后面的独立 % 纳入整词作为百分比，如 33.3% 作为整词而不再是 33.3 和 % 修改连字符(-)和下划线(_)的规则，当出...

39.关于scws和词库的一些建议

更新时间：2011-04-23 21:04 t By lauxinz

...属性的词，假如品牌的属性设置为pp,因为这些纯英文词的词性切分后都为/en。在非法词过滤时也是如此，不能使用scws_has_word()函数来判断是否有指定属性的词，假如非法词属性为*，非法的英文单词切分后属性为/en。另外有两个...

40.XSTokenizerScws

... scws 版本号 XSTokenizerScws hasWord() 判断是否包含指定词性的词 XSTokenizerScws setCharset() 设置字符集 XSTokenizerScws setDict() 设置分词词典, 支持 TXT/XDB 格式 XSTokenizerScws setDuality() 设置散字二元组合 XSTokenizerScws ...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索