搜索

大约有 546 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0049秒)

231.RE: Windows7 分词准确率极低

更新时间:2010-12-31 02:12 t By pittece

debug了一下,发现是在class XDB_R::_check_header()里面执行 if ($fstat['size'] != $hdr['fsize']) return false就返回了。请问这说明什么问题呢?[hr] 事实上,$hdr['fsize'] = 13245833, 而$fstat['size']就是dict.xdb文件的大小4497408 ,那为什么$hdr['fsize']会等...

232.RE: 我想使用系统自动的分词功能,可是只看到有接口

发布时间:2011-11-28 11:11 t By hightman

对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可,以上步骤根据不同用户权限略有不同。

233.C版简易中文分词-cscwsd-0.0.3 发布

发布时间:2007-06-06 10:06 t By hightman

...下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,无其它功能。针对输入的文字进行分词后然后原样输出,注意每次输入均以 "\n" 作为处理标记,即一行处理一次并返回。这样作的目的在于提高分词的效率和通...

234.RE: 第四版遇到()和中英文混合分词的问题。

发布时间:2009-06-14 21:06 t By hightman

楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确

235.遇到一个分词错误的问题

发布时间:2014-02-08 16:02 t By robinjia

...j ? /un 后来发现可以通过修改rule.utf8.ini里的规则来调整分词结果,不知道有没有更好的办法?

236.split无效

更新时间:2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行 这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

237.split无效

更新时间:2014-07-23 11:07 t By q398044828

index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行 这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...

238.2007简易分词第4版(scws-0.1.x)体验

发布时间:2007-06-06 11:06 t By hightman

...专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写,功能基本实...

239.RE: 提高人民生活水平 的分词有误

更新时间:2011-01-04 14:01 t By hightman

多谢,此问题源于 rules.ini 中的词性修正。当初把单个字的动词+名词重点提升了权重。 参见这贴子:http://www.hightman.cn/bbs/showthread.php?tid=575&page=1&highlight=hightman#pid3092 当初解决”结合成分子时“ ”学人家人肉“ 。。 之类,所...

240.RE: 如何使分词結果不包含一个單字的词?..

发布时间:2010-08-20 18:08 t By johnbaby

[quote='hightman' pid='3622' dateline='1278485881'] 目前没有这个内置选项,建议在透过scws_get_result()取数据时自行排除... [/quote] 建议在透过scws_get_result()取数据时自行排除... 不是很理解啊。麻烦站长解释一下啊。

  • 时间不限
  • 按相关性排序