我想咨询一个问题。SCWS官网简介上指出,SCWS中文分词系统(Simple Chinese Word Segmentation)经小范围测试准确率在 90% ~ 95% 之间。 上面的准确率是如何计算出来的呢?或者有其他类似的标准测试工具吗?谢谢!
...V2 @ 3.30GHz | 频率:3292.520 | 二级缓存:8192 KB 内存:32G 操作系统:CentOS 6.x 硬盘:sata 2代 7200转 ------ 真实的内存只有16G, 上面的CENTOS是虚拟出来的 这个服务器现在运行了: 3个XP(基本没运行什么) 1个Win7 (并且开了爬虫在采...
原先使用windows版本,现迁移到ubuntu 64位系统,下载安装了最新版scws,安装过程还算顺利。 测试时发现以下怪现象: 本人使用15000个左右的学校名称做分词测试,约1400条记录返回空白,其它则貌似正常,不知何故。 比如:北...
...入法,加上方言口音,乱用同音字现象非常普遍。 所以系统在综合分析索引库内的词汇、用户搜索日志基础上建立了一个庞大的纠错体系,支持英文拼写 纠错、中文同音字纠错、拼音转换等。 使用这些功能都非常简单,直接...
...emo/scws/v48.php]UTF-8版[/url](词库较旧) 目前全部使用 *Unix* 系统下的标准C开发,全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库 (.a或.so形式),在开发和使用上都比较方...
从结果看应该是 scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整.
...; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的汇交数据'; $words = $tokenizer->getResult($text); print_r($words);
... 之类的不兼容,汗。。。手上没有BSD8.1还测不了,autoconf系统的工具兼容性很讨厌。 [/quote] 呵呵,多谢楼主。 我测试的是FreeBSD 8.1 AMD64的操作系统,可以修改源代码解决吗?
Hi Hightman, 您好! 非常感谢您做的scws分词和xunsearch系统, 最近我们在做网站的搜寻服务, 考察了coreseek, sphinx-for-chinese 和 xunsearch 这三个系统, 觉得还是 xunsearch 比较适合, 因为词典制作和查询的方式都较另外二者灵活. 在今天做...
...返回的分词 却只有: 365 “北海”不见了 如果我启动系统自带词典 那么“北海”又就被分成一个词。 但是我想明确的分词 , “ 北海365” 作为一个词。怎么就不行呢。[hr] 经过测试,还发现。 不加载任何字典和规则。 ...