我想将收集的词加入到词库中去,用以提高切词的准确度,不知道如何添加。 还有,我想问问,Windows版的“php_scws.dll”文件有没有更新到1.0.3版 非常感谢。
... $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组 源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表
...符串传入, 紧接着循环调用 get_result() 方法取回一系列分好的词 // 直到 get_result() 返回 false 为止 // 返回的词是一个关联数组, 包含: word 词本身, idf 逆词率(重), off 在text中的偏移, len 长度, attr 词性 // $text = "中国航天官员应邀到...
... $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组 源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表
...据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。 [url=http://www.dot66.net/search2.php]http://www.dot66.net/search2.php[/url] 2. 自动分类...
...个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。 查到原因了,是因为词库里居然有个错误的词叫“民医院”!! 建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,...
...tring 执行分词, $callback 作为回调函数,可选。参数是切割好的词组成的数组。若未设定 callback 则该函数返回切好的词组成的数组。[color=red][b]特别注意:[/b]由于本函数一次性全部操作完成才返回, 若文本过长建议一行行传入切割...
...据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全文检索 , 此次 全文 搭配 数据库 进行 。 测试...
今天刚安装好了,用了很舒服。但有些分好的词都带有某些不重要的字。 如“我的秘密花园”里面的‘我’,‘的’我是都想去掉的。看了你的回帖,但是摸不着头脑是如何通过透过scws_get_result()取数据时自行排除... 还请...
...位置 - *attr* 这个词汇的词性,使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇 调用 [XSToenizerScws::getTops] 可以简单...