搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

231.RE: Windows7 分词准确率极低

更新时间：2010-12-31 02:12 t By pittece

debug了一下，发现是在class XDB_R::_check_header()里面执行 if ($fstat['size'] != $hdr['fsize']) return false就返回了。请问这说明什么问题呢？[hr] 事实上，$hdr['fsize'] = 13245833，而$fstat['size']就是dict.xdb文件的大小4497408 ，那为什么$hdr['fsize']会等...

232.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-28 11:11 t By hightman

对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可，以上步骤根据不同用户权限略有不同。

233.C版简易中文分词-cscwsd-0.0.3 发布

发布时间：2007-06-06 10:06 t By hightman

...下：运行后在本地绑定一个端口（缺省是 4700）监听处理分词服务，无其它功能。针对输入的文字进行分词后然后原样输出，注意每次输入均以 "\n" 作为处理标记，即一行处理一次并返回。这样作的目的在于提高分词的效率和通...

234.RE: 第四版遇到（）和中英文混合分词的问题。

发布时间：2009-06-14 21:06 t By hightman

楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确

235.遇到一个分词错误的问题

发布时间：2014-02-08 16:02 t By robinjia

...j ？ /un 后来发现可以通过修改rule.utf8.ini里的规则来调整分词结果，不知道有没有更好的办法？

236.split无效

更新时间：2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

237.split无效

更新时间：2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

238.2007简易分词第4版(scws-0.1.x)体验

发布时间：2007-06-06 11:06 t By hightman

...专名自动识别，也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右，召回率有 92% 以上。这套程序的开发其实很早就开始做基础工作了，持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写，功能基本实...

239.RE: 提高人民生活水平的分词有误

更新时间：2011-01-04 14:01 t By hightman

多谢，此问题源于 rules.ini 中的词性修正。当初把单个字的动词+名词重点提升了权重。参见这贴子：http://www.hightman.cn/bbs/showthread.php?tid=575&page=1&highlight=hightman#pid3092 当初解决”结合成分子时“ ”学人家人肉“ 。。之类，所...

240.RE: 如何使分词結果不包含一个單字的词?..

发布时间：2010-08-20 18:08 t By johnbaby

[quote='hightman' pid='3622' dateline='1278485881'] 目前没有这个内置选项,建议在透过scws_get_result()取数据时自行排除... [/quote] 建议在透过scws_get_result()取数据时自行排除... 不是很理解啊。麻烦站长解释一下啊。

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索