scws源码中写死的…… 超过2个字符的英文数字都在第一步被预处理了,所以想要改这个恐怕了也会比较麻烦。
支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。
search.log 的生成是有一些规则判断和调整的,并不是如你所说的。自定义词典也会纳入考虑,但过于复杂的搜索语句是不会记录的。
自定义词库有些词无效。。 有的是3个以上的,有些是4个以上的,不定。。 ubuntu linux环境,自编译安装 比如顶置的例子我这里是这样的 ; dict_extra.txt 我是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 ...
...下:“最多只支持2位” 这种限制是在 /etc/rules.utf8.ini 中定义的,还是在源码里处理的? 如果要修改,使其支持更大长度的分词,该从哪里入手呢? 麻烦了!
不好意思。。这一阵忙着毕业 很久没来看了。。 问题是, 我在添加了自定义的词库之后, 哪怕里面一个词都没有, 也是一个词都分不出来阿
网页设计 分词后变成 网页设计 网页 设计 我想把网页设计就分为网页设计一个词,不需要搜索出含有网页跟设计的内容。 我在dict_user.txt加入 网页设计 这个词,好像并没有效果,还是搜索出来含有网页跟设计的文档。
我也发现是这样的问题,我现在最新1.1.7,自定义一个词库后(),原词库就没有用了。 比如: new.txt(这个文件里,试过一个词也没有、添加个别词两种情况); $so = scws_new(); //$so->add_dict('', SCWS_XDICT_TXT); $so->send_text('广州...