建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
[quote='caoagui' pid='4121' dateline='1300441376'] 一段文字里有些英文单词, 但是不想进行分词和统计 加入到词典里, 用!, 但是没有用 咋办? [/quote] 这个可以在get_tops的时候设定 可选择去掉英文属性分词 如下:$tops = $pscws->get...
...uote='hightman' pid='7573' dateline='1325211638'] 不知你在说什么。英文不需要词典啊!! [/quote] 我知道英文不需要词典 关键就是这个不需要词典 他的英文分词就没办法控制了,比如我要做计算机专业的分词,其中很多就需要用到一...
1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词...
...b]scws-1.1.6 发布于 2011-04-20[/b] 修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 修改连字符(-)和下划线(_)...