这个应该没办法,所有的调整都是基于词典,也就是词典的优先级最最高了。 可以用程序扫出类似的词来删除它们,因为互联网语料库这些自动都列到词里了。
...df.php [/url](用于新词添加时不知怎么设tf,idf的话) 基于SCWS自动分类演示:[url=http://www.ftphp.com/scws/demo/a.php]http://www.ftphp.com/scws/demo/a.php[/url](输入一段文字系统自动给出最合适的分类建议) [size=x-large]-- [color=#DAA520]新增或变动的...
如果你了解scws就会知道它其实对散字也是自动二元处理。 你所谓的一元是一个字一个词?你也可以拓展 XSTokenizer 自己实现分词
在xunsearch缓存仅仅用于缓存ini文件,所以基本上不需要用到memcached这样重型需要TCP连接的开销。 因为一台服务器上你也不会开多少个搜索项目啊,就算没有缓存问题也不大。 目前自动支持apc\eacc\xcache
...' pid='432' dateline='1326431112'] 对于字段搜索,内部转换时会自动加上一些括号,所以可能超标了。 [/quote] 那只能缩短搜索语句了呀?有什么其他方案么?老是给你添麻烦,呵呵 ,抱歉那。 [/quote] 呆会发布1.3.0把长度扩...