建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
[quote='caoagui' pid='4121' dateline='1300441376'] 一段文字里有些英文单词, 但是不想进行分词和统计 加入到词典里, 用!, 但是没有用 咋办? [/quote] 这个可以在get_tops的时候设定 可选择去掉英文属性分词 如下:$tops = $pscws->get...
...uote='hightman' pid='7573' dateline='1325211638'] 不知你在说什么。英文不需要词典啊!! [/quote] 我知道英文不需要词典 关键就是这个不需要词典 他的英文分词就没办法控制了,比如我要做计算机专业的分词,其中很多就需要用到一...
...不可以是多个词组成的短语。 > tip: 独立词汇的意思对于英文来说就是一个单词,对于中文来说必须是 `scws` 词库中的一个词。 > _Xunsearch_ 的同义词不同于 _Xapian_,会智能进行字段匹配和转换,您只需维护通用词库。 英文同...
...常感谢! 我刚试了下,针对我的需求来说,对于人物英文名以3个字母为单位建立索引的确可以达到很好的效果,中文名以一个汉字为单位。 最后贴出我的代码给有需要的人: [php] class XSTokenizerUnary implements XSTokenizer { p...