1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。 [url=http://www.dot66.net/search2.php]http://www.dot66.net/...
...句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整. [/quote] 谢谢您的回复,词典是用README中提供的命令生成的 /usr/local/scws/bin/gen_scws_dict ...
...内容后就会慢了。相同的内容过后几次都超快。 [hr] 再测试一次,文本: SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 ************** 第一次提交 ********************************* No. WordString Attr Weight(times)...
...mg][/align] 易联网络于4月份 开放100个[color=red]免费[/color]测试的美国空间 该服务器位于美国德洲数据中心. 点这里查看该免费空间更详细参数点下面连接 产品编号GR002 http://78921.net/vpsus.html 注:测试空间为150m 不提供mysql 和 ...
...~~ [php] // 假设曾经有一次 search 调用 $docs = $search->setQuery('测试')->setLimit(5)->search(); // 必须在 search() 之后调用 $count = $search->lastCount; $count = $search->getLastCount(); ~~~ 直接获取搜索匹配数 ---------------- 通过 [XSSearch::count] 调用可以直...
...后展开使用,而不是自行创建对象。后面章节中的 相关测试代码如果没有特别编写,其中的 `$search` 均为通过类似以下的方式获取的索引对象: ~~~ [php] require '$prefix/sdk/php/lib/XS.php'; $xs = new XS('demo'); // 建立 XS 对象,项目名称为...
...,地名,数字年代等规则识别来达到基本分词,经小范围测试大 概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取 等场合运用。首次雏形版本发布于 2005 年底。 本系统支持的汉字编码包括 GBK、UTF-8
...单字(基于scws功能) 8.支持标点过滤(基于scws功能) 简单测试结果: AMD 64位台式机四核CPU,程序加载词库后占用21M内存,使用10进程不间断请求请求,内存无增加,CPU使用率在30%多 项目地址:http://code.google.com/p/http-scws/ 官方...
...以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat Linux (as3,as4) FreeBSD 4.x 5.x 6.x。目前只支持 GBK 编码。 这个小程序的基本工作方式如下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,...
...分割符是使用"\n",所以将"\r"换在“\n”即可,现在正在测试linux下的分割符是不是"\r\n"![/color]