我想咨询一个问题。SCWS官网简介上指出,SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。 上面的准确率是如何计算出来的呢?或者有其他类似的标准测试工具吗?谢谢!
...Win7 (并且开了爬虫在采集) 1个CENTOS(就是我现在用来测试xunsearch的机器) -------------- 使用了[b]xunsearch 1.3.2[/b] 测试结果 [b]测试关键词一:杭州(第一次搜索)[/b] 大约有 302,502 项符合查询结果, 库内数据总量为 15,419,9...
... 64位系统,下载安装了最新版scws,安装过程还算顺利。 测试时发现以下怪现象: 本人使用15000个左右的学校名称做分词测试,约1400条记录返回空白,其它则貌似正常,不知何故。 比如:北京大学、中国人民大学返回空白,...
...回空数组。 ~~~ [php] // 假设在本意是在 demo 项目中搜索 "测试",但不小心打成了 "侧试" $search->setQuery('侧试'); $docs = $search->search(); // 由于拼写错误,这种情况返回的数据量可能极少甚至没有,因此调用下面方法试图进行修正 $...
2007年最新的 SCWS 第4版已于近日开发完成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这...
从结果看应该是 scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整.
测试代码如下,导致搜索:塔里木,会搜索不到结果。 require_once '/home/wlx/xunsearch/sdk/php/lib/XS.php'; $xs=new XS('westdc'); $tokenizer = new XSTokenizerScws; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的...
...的工具兼容性很讨厌。 [/quote] 呵呵,多谢楼主。 我测试的是FreeBSD 8.1 AMD64的操作系统,可以修改源代码解决吗?
...为词典制作和查询的方式都较另外二者灵活. 在今天做测试时, 有遇到一个关于复合分词问题, 类似于"官方網站"这样的词汇, 默认配置下是作为单一词划出, 于是搜索"網站"时不可见. 如果设定-M 为 3 (0011) 可以解决这个问题, 但...
... , “ 北海365” 作为一个词。怎么就不行呢。[hr] 经过测试,还发现。 不加载任何字典和规则。 数字是照样能给分词出来的。。似乎默认就把一窜数字就是一个词 这样来分[hr] 那如果是这样就麻烦了。。怎么能解决 中文+数...