刚在本地布了一套环境测试,使用同一段文字,演示的分词结果和我本地的结果不同,检查设置项没发现问题所在,所以问一下请大家帮忙看看是什么问题。 [b]分词内容:[/b] [quote] 本报长沙讯 22日晚7点50分左右,湖南农...
2007年最新的 SCWS 第4版已于近日开发完成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这...
...远。[hr] hightman 你在这里试试。下面是我放到服务器上测试的页面。跟官方代码一样的。 [code]http://jjabc.com/test/scws.php[/code]
...ws/v48.php]http://www.hightman.cn/demo/scws/v48.php[/url] 在我服务器测试时候,分词结果与你上面显示的分词结果完全不对 请问是什么原因? [[i] 本帖最后由 amyding 于 2008-8-21 11:39 编辑 [/i]]
...,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的...
...分词正确了[hr] 不过,又出现了奇怪的问题,我在原来的测试文本后面随便加了两个字母,分词又不对了。我继续增加字母,有时候对,有时候不对。(GBK版本)
...支持太弱,xunsearch又提供了非常方便、简洁的接口,目前测试结果比较理想。 补充:当前总数据量15万条,数据库不到300M,每天增长中。
...以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat Linux (as3,as4) FreeBSD 4.x 5.x 6.x。目前只支持 GBK 编码。 这个小程序的基本工作方式如下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,...
...ULTISHORT 选项,更为合理有效,符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正 scws.c 中 __PARSE_XATTR__ 宏的 BUG 导致 scws_get_tops 和 scws_get_words 的 xattr 参数工作不正常的问题 5) 移除 scws.c ...
...,地名,数字年代等规则识别来达到基本分词,经小范围测试大 概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取 等场合运用。首次雏形版本发布于 2005 年底。 本系统支持的汉字编码包括 GBK、UTF-8