...增词库 $cws->set_ignore(true); //var_dump($cws); //添加中文分词 $cws->send_text($a); dict_extra.txt 已经增加了一行:享鑫 1 1 n,但是“享鑫金属”还是只有金属被匹配出来
测试代码如下,导致搜索:塔里木,会搜索不到结果。 require_once '/home/wlx/xunsearch/sdk/php/lib/XS.php'; $xs=new XS('westdc'); $tokenizer = new XSTokenizerScws; $text = '塔里木河下游浅层地下水变化的生态效应及生态系统健康评价研究项目的...
比如比如我希望用SCWS能搜索 一个关键词的信息,但是现在虽然内容里面有很多这包含这个词语的信息了, 但是搜索的时候却搜索不到. 应该如何处理呢? 如果是修改rules.ini文件的话,难道是加到[special]这个位置吗???
枪王你的作法是对的,“王之王”是自动识别人名的原因。 山楂树之恋,想分成”山楂树“+”树之恋“目前是没有办法做到了~毕竟复合分也没办法把一个字拆到2个词里。
麻烦看下: 例如: 跑马的时候非常的卡 跑马-的-时候-非常-的卡 最后分出来的"的卡"很明显是不正确的,请问下是否有办法解决, 应该是分成"跑马-的-时候-非常-的-卡" 感谢!!![hr] 我找到了楼主原先的一个回复: 建议把这...
这里需要用到 set_multi,不过鉴于该词先单字后多字,所以达不到“云“+”计算“的效果。 使用 txt 附加词典时请显式地先指定 xdb 词典,以便 txt 词典后生效。 $so->add_dict('dict.xdb', SCWS_XDICT_XDB); $so->add_dict('dict.txt', SCWS_XDICT_TXT); [c...
使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...
...的演示程序(源代码另存为)。 UTF-8版本的一直不成功,分词结果就如我最开始的截图; GBK版本的在保存文件的时候选择文件编码为ANSI,就一切正常了。如果编码选择GB2312,就会出现随便输入一些字符,时行时不行。 然后,...