应该是分词词典没有正确加载。 如果你在php.ini中没有正确指定路径的话scws.default.fpath以及字符集 scws.default.charset 你应该在分词代码中明确指定这些 $s->add_dict(); 或 $scws->set_dict(); 还有 $scws->set_charset() 应该在此之前调用
void scws_set_multi(scws_t s, int mode); 描述:设定分词执行时是否执行针对长词复合切分。(例如:中国人->中国+人+中国人)。参数 mode 表示复合分词法的级别,取值为 1 ~ 15。mode 设定值,1~15。[b]按位与[/b]的 1|2|4|8 依次表示 短词|二...
呵呵,多谢hightman![hr] 再针对第三个问题问一下: 如果实现二元分词但无但无单字分词的话以下组合中,是不是要去掉SCWS_MULTI_SHORT? SCWS_MULTI_SHORT | SCWS_MULTI_DUALITY | SCWS_MULTI_ZMAIN | SCWS_MULTI_ZALL
对只要编译一下 scws 扩展就可以了。在 xunsearch-full-xxx 下面有 scws-1.1.8/phpext 在此目录下 phpize ./configure make && make install 即可,以上步骤根据不同用户权限略有不同。
楼上你的情况是因为你对API使用不正确, scws_get_result 应该循环调用 while ($words = scws_get_result($sh)) { foreach ($words as $word) { print_r($word); } } 此外, 繁体词库很不完善, 缺词太多而且有一些词也不正确
... public XSSearch setScwsMulti(int $level) $level int 要设置的分词复合等级 {return} XSSearch 返回自身对象以支持串接操作 源码: sdk/php/lib/XSSearch.class.php#L444 (显示) public function setScwsMulti($level){ $level = intval($level); if ($level >=...
[quote='hightman' pid='3622' dateline='1278485881'] 目前没有这个内置选项,建议在透过scws_get_result()取数据时自行排除... [/quote] 建议在透过scws_get_result()取数据时自行排除... 不是很理解啊。麻烦站长解释一下啊。
刚看到这个分词系统, 很感兴趣, 但是还不太会用, hightman能不能给个比较规范的步骤, 介绍一下怎样在c代码里调用scws的分词功能? 多谢
自定义分词器 `Xunsearch` 默认内置了功能强大的 [SCWS][1] 分词系统,也附加提供了一些简单常见的分词规则, 但考虑到用户的个性需求,特意提供了自定义分词器的功能。 > note: 自定义分词器存在一个缺陷,它不支持存...