...AGS 4) 改变数字字母单独成词时的规则,当其中同时包含2个连续字母以及2个连续数字时强制拆分。例:原先单独的 iso9001 是整词,新规则切为 iso+9001 而 i9001 则保持不变仍为。这样做更有利于全文检索。 [b]scws-1.1.7 发布于 2011-05...
hightman, 您好,我将过滤器做了以下处理: 1,放在/usr/local/xunsearch/sdk/php/lib/下面,并且赋予755权限; 2,运行命令util/Indexer.php --rebuild --source=mysql://隐藏 --sql="select did, tag, title, content from wiki_doc" --filter=/usr/local/xunsearch/sdk/php/lib/M...
你好,您的分词插件很好,但有个问题,我用这个插件做的相关度插件,实践中相关度并不大。 例如“你给我买的衣服“ match "你看的书" 和"一件衣服" 代码匹配出来相关度最大的是"你看的书",因为有2个词相同,而按照我...
...il/Quest.php demo pid:2 util/Quest.php demo "第三篇 OR pid:1" 这三个里,只有第二个、第三模式(pid:2、"第三篇 OR pid:1")能成功,第一个不行。 util/Quest.php demo "subject:小弟 OR pid:49" 这样也不行。 能不能,给个示例说一下,怎么弄。 ...
... ini 中指定路径下的词典和规则文件 $so->send_text("我是一个中国人");; while ($tmp = $so->get_result()) { foreach($tmp as $k=>$v){ echo $v['word']."|"; } print_r($tmp); } $so->close(); 我用的版本是:php_scws.dll(2) PHP扩展库 Windows/PHP 5.2.x 准确: 95%, 召...
每次更新都是期望改进,而不是倒退呵。 1.1.2 目前已经放入 [url]http://www.ftphp.com/scws/down/scws-1.1.2.tar.bz2[/url] 供下载。 您说的 1.1.2 在分词效果上比 1.1.8 还要好,可否指出哪几个实例 ?
有个问题,在演示地址中,统计词性: 需要屏蔽 ~vn,~nr时, 仅第一个有效,不能设置多个
1. 需要重启 xs-searchd 2. 只读取 dict_user.txt 3. 系统的同时生效,但 dict_user.txt 优先级更高 4. 词性完全可以自定义,但最多 2个字节
我下了中文分詞系统1.2.2 在linux环境下安装成功了,但是分词时,会被分成一个一个的汗字 比如:我是一个中国人 分词后就变成了:我 是 一 个 中 国 人