...6秒, 换算完毕大概是 1.5MB文本/秒) 测试过程中开启了散字自动二元聚合, 长词自动补切为短词, 开启了人名地名数字智能识别等功能, 基本上是针对搜索引擎专用的分词配置, 效果还是比较令人满意的!! [code] +--[scws(scws-cli/1.0.0)]-----...
...写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都...
...p/README + 其中开机自动启动可以找这个脚本"/etc/rc.local ",然后加入: /usr/local/xunsearch/bin/xs-ctl.sh restart 就行。 3\待命令运行结束后,如果没有出错中断,则表示顺利安装完成,然后就可以...
...p/README + 其中开机自动启动可以找这个脚本"/etc/rc.local ",然后加入: /usr/local/xunsearch/bin/xs-ctl.sh restart 就行。 3\待命令运行结束后,如果没有出错中断,则表示顺利安装完成,然后就可以...
...end_text 函数被调用前,没有加载词典和规则集时,系统会自动在scws.default.fpath(ini配置)中查找相应的字符集词典。词典和规则文件的命名方式为 dict[.字符集].xdb 和 rules[.字符集].ini ,当字符集是 gbk 时中括号里面的部分则不需要...
...set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->add_dict("/usr/myapp/dict_extra.txt",SCWS_XDICT_TXT); $so->set_rule(ini_get('scws.defau...
...人+中国人”三个词。 $so->set_multi(false); //设定将文字自动以二字分词法聚合 $so->set_duality(true); //要进行分词的语句 $so->send_text("朝鲜近日播放的一个纪录片中,发现"); //获取分词结果,如果提取高频词用get_tops方法 while ($wo...
...库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词后不能从使...
...文件 - lib/XS.class.php 未合并带注释的入口文件,会自动加载其它 .class.php 文件 - util/RequireCheck.php 命令行运行,用于检测您的 PHP 环境是否符合运行条件 - util/IniWizzaard.php 命令行运行,用于帮助您编写 xunsearch 项目...
...询分析器,升级整合最新的 xapian-1.2.8、scws-1.1.9 2. 新增自动同义词搜索功能,详见同义词专题文档 [url]http://www.xunsearch.com/doc/php/guide/special.synonym[/url] 3. 调优服务端参数,大幅度提升并发处理能力(3~5倍),精简服务端日志 ...