搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

更新时间：2012-03-07 10:03 t By hightman

...指最长匹配吗？分词在 scws/xunsearch 结合时作了很多特殊处理，保障查全率和准确率。比如“管理制度”　解析为　“管理制度”　OR　“管理 AND 制度”

更新时间：2013-12-03 14:12 t By luopuya

...------- 我自己尝试调tf-idf都失败了，感觉这些词是被特殊处理的，没有按tf-idf来算？因为量词太多，不可能一个个从词典用!删去……

更新时间：2010-05-29 01:05 t By baobao

谢谢马老师 [ 应该是吧:-）]的及时回复。我在研读代码的时候，看到有段代码注释着，是对半字的处理，并不是很理解，对于文字都是1-4字节的UTF-8存储编码。半字是种什么情况呢？

发布时间：2011-10-28 13:10 t By hightman

谢谢。不过字段数目前要突破就会出现很多不兼容的情况。这个要慎重处理呢。

发布时间：2012-04-05 10:04 t By hightman

...search暂时还没有提供这项功能，但可以先变通的如下方式处理：在提取API后面自己再简单加个判断？现在新版 1.3.1 提供了 scws 接口，只要把这些黑词加到自定义词典，并取一个独特的词性，那么就可以用 XSTokenizerScws::hasWord() ...

发布时间：2012-07-16 12:07 t By hightman

自定义词不支持这样的。这样的在SCWS预处理阶段就已经被分割了。

发布时间：2011-08-24 14:08 t By hightman

在虚拟机中使用SCWS并不需要任何特殊的处理

发布时间：2013-07-30 11:07 t By hightman

这个你还是在切分结果中再处理吧，把数字和量词重新合成

更新时间：2012-03-06 01:03 t By coo

...不会检测的，如果你重复添加就会有多条，这个你要自己处理的呃我看官方文档说使用文档更新语句话他会先判断是否存在，存在就更新，不存在就添加，但是效率要比直接添加慢，因为有个判断过程

发布时间：2010-12-10 15:12 t By hightman

...abc币，如果你设置了abc币为词，它仍然无法切割，会被预处理器先切为我有很多 + abc + 币