...个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,...
...tring 执行分词, $callback 作为回调函数,可选。参数是切割好的词组成的数组。若未设定 callback 则该函数返回切好的词组成的数组。[color=red][b]特别注意:[/b]由于本函数一次性全部操作完成才返回, 若文本过长建议一行行传入切割...
...ecv the data from server completely (SIZE:0/8, REASON:closed); 以前都好的,我看了下论坛里以前的错误,是在 $xs = new XS(VENDOR_PATH.'sdk/php/app/'.$xs_config); $search = $xs->search; 下加上 $search->setTimeout(0);//设置链接不超时 但是加了后问题依旧...
...效果比较差,我们目前采用两个分析器配合使用来达到最好的效果,要是scws能处理得了像email,host,url和tag之类的分类,那效率应该是更棒了 谢谢你们的无私开源这么好的作品
...据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全文检索 , 此次 全文 搭配 数据库 进行 。 测试...
又是一些分词错误. "一天都坐在办公室,有什么好的 活动方法能防止手脚冰冷"分成”一/m 天都/ns 坐在/v 办公室/n ,/un 有/v 什么/r 好/a 的/uj 活动/vn 方法/n 能/v 防止/v 手脚/n 冰冷/z“,其中的“天都”不合理; ”租房合同上标明...
今天刚安装好了,用了很舒服。但有些分好的词都带有某些不重要的字。 如“我的秘密花园”里面的‘我’,‘的’我是都想去掉的。看了你的回帖,但是摸不着头脑是如何通过透过scws_get_result()取数据时自行排除... 还请...
...于人物英文名以3个字母为单位建立索引的确可以达到很好的效果,中文名以一个汉字为单位。 最后贴出我的代码给有需要的人: [php] class XSTokenizerUnary implements XSTokenizer { private $length = 1; // 默认切分长度 public function __...
...立了两个项目,对应两个网站,大家可以测试下。效果蛮好的(已经抛弃了hdwiki自带的tag搜索和全文搜索,仅保留了它的title搜索)! a, 中文PubMed搜索 http://www.chinapubmed.net/pub/search.php 这个词条约50万(6200个纯手工打造,其他...
...喜预警雷达太阳能朗你 太阳能 ac dc转换器 智能城市未来好的发展abb压力变送器看看"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5); print_r($top); dict.txt 词不多时候没事 3000-4000没事 但是里面词 在多些 apache 出现 假死的状态 ...