我在本地系统 进行 字典更新。然后上传到FTP 。但是 FTP 里面显示的时间和 服务器显示时间不一样。不仔细还真看不出来这个问题。
我想咨询一个问题。SCWS官网简介上指出,SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。 上面的准确率是如何计算出来的呢?或者有其他类似的标准测试工具吗?谢谢!
... 64位系统,下载安装了最新版scws,安装过程还算顺利。 测试时发现以下怪现象: 本人使用15000个左右的学校名称做分词测试,约1400条记录返回空白,其它则貌似正常,不知何故。 比如:北京大学、中国人民大学返回空白,...
...,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的...
2007年最新的 SCWS 第4版已于近日开发完成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这...
...的工具兼容性很讨厌。 [/quote] 呵呵,多谢楼主。 我测试的是FreeBSD 8.1 AMD64的操作系统,可以修改源代码解决吗?
从结果看应该是 scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整.
测试代码如下,导致搜索:塔里木,会搜索不到结果。 require_once '/home/wlx/xunsearch/sdk/php/lib/XS.php'; $xs=new XS('westdc'); $tokenizer = new XSTokenizerScws; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的...
...为词典制作和查询的方式都较另外二者灵活. 在今天做测试时, 有遇到一个关于复合分词问题, 类似于"官方網站"这样的词汇, 默认配置下是作为单一词划出, 于是搜索"網站"时不可见. 如果设定-M 为 3 (0011) 可以解决这个问题, 但...
... , “ 北海365” 作为一个词。怎么就不行呢。[hr] 经过测试,还发现。 不加载任何字典和规则。 数字是照样能给分词出来的。。似乎默认就把一窜数字就是一个词 这样来分[hr] 那如果是这样就麻烦了。。怎么能解决 中文+数...