...想要的结果,希望hightman 能够指点一下,用什么方法可以添加上述2个自定义词呢? 1、在dict_user.txt 里添加了自定义词,系统不能提取到上面2个词 2、在 /etc/rules.utf8.ini里添加专业的词,我在 [special] 下添加了上述2个词,结果...
scws源码中写死的…… 超过2个字符的英文数字都在第一步被预处理了,所以想要改这个恐怕了也会比较麻烦。
不好意思。。这一阵忙着毕业 很久没来看了。。 问题是, 我在添加了自定义的词库之后, 哪怕里面一个词都没有, 也是一个词都分不出来阿
支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。
[quote='hightman' pid='1078' dateline='1346301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 ...
...。 比如: new.txt(这个文件里,试过一个词也没有、添加个别词两种情况); $so = scws_new(); //$so->add_dict('', SCWS_XDICT_TXT); $so->send_text('广州建筑工程监理有限公司中山分公司'); $sk = $so->get_result(); 结果是:广州建筑工程监...
...刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好多并不是我定义的词语,而且好多还把我定义的词组分解为多个,还想问一下...
问题是系统在使用自定义词库的时候,添加的词能不能算是基词?是否使用同义词的时候可以进行关联? 就目前的情况是添加了自定义词之后,如果这个词不算是基词,关联的同义词就无效、、、、