建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
[quote='caoagui' pid='4121' dateline='1300441376'] 一段文字里有些英文单词, 但是不想进行分词和统计 加入到词典里, 用!, 但是没有用 咋办? [/quote] 这个可以在get_tops的时候设定 可选择去掉英文属性分词 如下:$tops = $pscws->get...
...uote='hightman' pid='7573' dateline='1325211638'] 不知你在说什么。英文不需要词典啊!! [/quote] 我知道英文不需要词典 关键就是这个不需要词典 他的英文分词就没办法控制了,比如我要做计算机专业的分词,其中很多就需要用到一...
...常感谢! 我刚试了下,针对我的需求来说,对于人物英文名以3个字母为单位建立索引的确可以达到很好的效果,中文名以一个汉字为单位。 最后贴出我的代码给有需要的人: [php] class XSTokenizerUnary implements XSTokenizer { p...
全部是英文单词 数据来源: twitter tumblr amazon alibaba flickr 等的标签 原来多是词组形式 改成了scws的单字形式 没有附加任何属性 也就是说全部使用默认属性 参考 http://www.xunsearch.com/doc/php/guide/index.dict