建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
...中不少都是词库没有加载上,却没有加以判断,结果发现分词结果不准确。 其实在scws文档中有这么一句话: [i][b]注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成功与失败。[/b][/i] 调...
看了一下基本上说内置了中文分词 内置中文分词 好处我想应该索引会相对的小一些 但是坏处就是要维护词库 新出词语不用立马根据 所以问一下是否支持一元分词 这样就可以实现类似mysql like方式的搜索了
如股票名: *ST海龙 已经在词库中,但分词结果: “ST”和“海龙” 请问有现成的解决办法吗? 经反复测试,ST海龙可以拆分,*ST海龙不可拆分
这个分词系统虽说是简易的,但是我觉得还是过于强大了 譬如说像我们行业类网站,要分的词不多,屈指可数,也可能就几百个 如果能提供分词方法,和一个自己可以添加的词库就好了 呵呵 谢谢