用scws的MYSQL插件就不需要另外存一份了,而且操作也简便,对表设计和操作不需要做任何额外的处理。其它差别不大吧
我电脑APACHE+PHP 4GB内存 E6300处理器 PHP简易中文分词(SCWS) 第4版(GBK) 在我电脑上用你默认的分词内容"陈凯歌并不是..." 第一次0.8xxxs 第二次0.098711013793945 而你们演示的就快多了 0.0039410591125488 为什么差距这么大?
清除符号本质上是根据词性来处理的。勾上词性后发现这些被清除的词性都是 un 所以会被清除,这是因为词典的数据不对导致的,之前的繁体词典是一位朋友帮忙整理的,可能有所缺漏和不对。
...将其合成为一个词。 复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getResult("是一"); [/code]
[quote='hightman' pid='3556' dateline='1274018936'] 用scws的MYSQL插件就不需要另外存一份了,而且操作也简便,对表设计和操作不需要做任何额外的处理。其它差别不大吧 [/quote] 好的 谢谢
... it first http://bbs.xunsearch.com/showthread.php?tid=7 按照这个贴子处理,还是不行。 没有 ln -s libuuid.so.1.0 libuuid.so; 这个文件。[hr] 除了把系统重装,并且装成32位之外,还有什么好方法吗?
使用mysql做数据源生成索引越来越慢,最开始1w条处理时间3秒左右,到300w条数据时1w条需30秒左右,这个咋破?
我的系统不知道为何,用户输入的关键字搜索,并不进行处理,也就是得不到热门搜索的功能,页面中我也增加了$search->getRelatedQuery()的调用,但是却没有任何内容。 请问我该如何排查问题出在什么地方? 热门搜索词是空的,但...