那我将自定义词典的方式变成利用scws提供的方法扩充内置词典,是否就能够让自定义词被search.log记录的可能性增大呢
嗯。词库我看到了,我是想在这个基础上做加入一些新的自己的就可以,您的这个支持,动态词库吗? 还有请问哪里能下载到,你的词库原文件。没编译过的。[hr] 我看到scws的代码都集成到xapian的queryparser中了,我想直接加入新...
通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
...在一个英文句子里提取其中词频比较高的名词。想到用自定义词典,自己整理英文词。但是发现一个问题。。比如hip pop这样也是一个名词,那现在自定义词典里肯定不能有空格的啊。老大能不能把这个也解决一下,这样的话,...
我想问一下,自定义的词典里,只有word,没有其它TF、IDF、Attr可以吗?能生成吗。 因为我试了直接加载TXT的太慢了,想转换成XDB。
如果只要文章中有Linux出现就算是Linux相关文章的话,其实是不需要分词了,直接用全文搜索Linux就好了。 只是SCWS目前看前来它的自定义词典不支持超过3个字,如果可以的话,可以通过自定义“Linux优化”来指定分词
如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb');