通常英文是不需要分词的,但很多时候词性是需要的,比如nike,dior这类品牌英文。 目前默认词性都是en,有什么办法可否自定义词典来改变他的词性。 还有个问题,就是纯数字的词性为什么是en呢,不是m? 望赐教。
我在自己的网站上使用scws做分词,当文章中有类似PC-BSD之类有连字符的英文词时,都分成类“PC - BSD”,但这是个软件名,本不应分开,英文中加-号的一般都视为一个词,按理说不应分开的,有什么方法解决吗?
各位达人们,请问xs的英文模糊匹配怎么做?之前好像也有人发过贴,就是类似mysql like的效果,但是没有回复。 我自己曾尝试过几个做法,但都失败了 1. 利用xs自带的scws,这个英文明显是根据空格分词的,所以达不到效果 2...
...似乎特别的窄…… 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中只能有...
...究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Email: shuyinglee@126.com[hr] 使用方法: 1.To patch tar xfvj sc...
... id [subject] index = both tokenizer =xlen(2) 二元分词只能对英文生效,对中文不生效 同时急于需要一元分词,主要是做黑词筛选用,因为有的时候就要搜索某些一元词,比如 武器 near/2 售,但是不能实现
...定义了个词库,可是一用这个词库,就分不出来,数字和英文除外。 比如我定义“南瓜汤”,“番茄汤”作为一个词库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希望得到...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
...,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目前采用两个分析器配合使用来达到最好的效果...
...不可以是多个词组成的短语。 > tip: 独立词汇的意思对于英文来说就是一个单词,对于中文来说必须是 `scws` 词库中的一个词。 > _Xunsearch_ 的同义词不同于 _Xapian_,会智能进行字段匹配和转换,您只需维护通用词库。 英文同...