搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.请问如何将没有的词添加到词库中去？Windows版的DLL有没有编译好的1.0.3的版本？

发布时间：2009-05-28 02:05 t By redboy

我想将收集的词加入到词库中去，用以提高切词的准确度，不知道如何添加。还有，我想问问，Windows版的“php_scws.dll”文件有没有更新到1.0.3版非常感谢。

2.XSTokenizer::getTokens

... $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表

3.求救PSCWS4问题

发布时间：2010-07-21 10:07 t By FG2008

...符串传入, 紧接着循环调用 get_result() 方法取回一系列分好的词 // 直到 get_result() 返回 false 为止 // 返回的词是一个关联数组, 包含: word 词本身, idf 逆词率(重), off 在text中的偏移, len 长度, attr 词性 // $text = "中国航天官员应邀到...

4.XSTokenizer

... $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表

5.试使用 libscws 做了2个小东西

发布时间：2007-06-11 16:06 t By hightman

...据库进行。测试中大概有 45万篇文章，约900万个词（是分好的词不是字）。检索效果还不错，如果纯单词进行检索效果相当好。长句略慢。。。。 [url=http://www.dot66.net/search2.php]http://www.dot66.net/search2.php[/url] 2. 自动分类...

6.RE: 对医院的分词不太理想

更新时间：2010-09-07 18:09 t By hightman

...个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。查到原因了，是因为词库里居然有个错误的词叫“民医院”！！建议删除该词重新生成词典或，写一个附加词典标记为删除。内容如下，保存为名字 del.txt，...

7.PHP4版简易中文分词(PSCWS) 第2/3版

发布时间：2007-06-06 09:06 t By hightman

...tring 执行分词, $callback 作为回调函数，可选。参数是切割好的词组成的数组。若未设定 callback 则该函数返回切好的词组成的数组。[color=red][b]特别注意：[/b]由于本函数一次性全部操作完成才返回, 若文本过长建议一行行传入切割...

8.关于分词的几个问题

发布时间：2007-06-12 16:06 t By listdo

...据库进行。测试中大概有 45万篇文章，约900万个词（是分好的词不是字）。检索效果还不错，如果纯单词进行检索效果相当好。长句略慢。。。。[/quote] 分词结果: [quote]1 . 全文检索，此次全文搭配数据库进行。测试...

9.麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个字”

发布时间：2010-08-20 19:08 t By johnbaby

今天刚安装好了，用了很舒服。但有些分好的词都带有某些不重要的字。如“我的秘密花园”里面的‘我’，‘的’我是都想去掉的。看了你的回帖，但是摸不着头脑是如何通过透过scws_get_result()取数据时自行排除... 还请...

...位置 - *attr* 这个词汇的词性，使用北大标注 - *word* 分好的词条 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索解决方案'; $words = $tokenizer->getResult($text); print_r($words); ~~~ ### 提取重要词汇调用 [XSToenizerScws::getTops] 可以简单...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索