开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索

大约有 50 项符合查询结果，库内数据总量为 3,513 项。（搜索耗时：0.0064秒）

31.强烈建议支持词库里的词可以是纯英文单词

更新时间：2011-04-24 01:04 t By lauxinz

建议支持词库里的词可以是纯英文单词，虽然在分词时英文单词可以自动识别切分开，但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。比如：我要从一些商品名中提取一些品牌：adidas nike。。。对商品名分词...

32.二元分词问题

发布时间：2011-11-14 17:11 t By icebolt

... id [subject] index = both tokenizer =xlen(2) 二元分词只能对英文生效，对中文不生效同时急于需要一元分词，主要是做黑词筛选用，因为有的时候就要搜索某些一元词，比如武器 near/2 售,但是不能实现

33.RE: 怎样才能字母数字汉字组合按照词典分成一个词语呢？

更新时间：2013-07-03 11:07 t By shuyinglee

...究了一下源代码，最终功夫不负有心人，成功的避过了中英文混合，使用字典中的词语分词，我用的是 scws-1.2.1.tar.bz2 这个版本，因为不能发附件，如果大家需要联系我： Email: shuyinglee@126.com[hr] 使用方法： 1.To patch tar xfvj sc...

34.关于scws和词库的一些建议

更新时间：2011-04-23 21:04 t By lauxinz

建议支持词库里的词可以是纯英文单词，虽然在分词时英文单词可以自动识别切分开，但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。比如：我要从一些商品名中提取一些品牌：adidas nike。。。对商品名分词...

35.RE: 二元分词问题

更新时间：2011-11-15 13:11 t By icebolt

以前的二元分词只支持英文，最后找到问题 public function getTokens($value, XSDocument $doc = null) { $terms = array(); for ($i = 0; $i < mb_strlen($value,"utf-8"); $i += $this->arg) { $terms[] = mb_substr($value, $i, $this->arg,"utf-8"); } return $terms; }...

36.RE: 对于分词的一些困惑

发布时间：2010-10-13 17:10 t By hightman

由于分词规则开头会先进行中英文粗分，那时就强行把数字、字母与多字节的汉字拆分开。只有夹在汉字中间的1～2个数字或字终才被允许和汉字组合，比如“T恤” ”Q币“ 这种。假设你的词典里有”北海36“，被分的句子是...

37.自定义字典的问题

发布时间：2011-03-14 22:03 t By zfzeng

...定义了个词库，可是一用这个词库，就分不出来，数字和英文除外。比如我定义“南瓜汤”，“番茄汤”作为一个词库，(测试用的，只放2个词在词库)，然后对这句话进行分词“我爱喝南瓜汤，番茄汤”进行分词，希望得到...

38.请问一下，xdb与txt词库那个读取效率更高

发布时间：2013-06-29 21:06 t By 阿弟2013

...，不知道xdb与txt相比，那个效率更高另外，scws对于中英文分词效果不是很好，即文中的中文分得还可以，但对于页面中的英文部分，包括email,url,host这类处理效果比较差，我们目前采用两个分析器配合使用来达到最好的效果...

39.RE: 如何优化xunsearch

发布时间：2013-07-29 12:07 t By gilroy

研究了一下源代码，最终功夫不负有心人，成功的避过了中英文混合，使用字典中的词语分词，我用的是在调整每次读取数据的大小和缓冲区大小时有不同的情况

40.三个问题需要求教

发布时间：2011-01-17 11:01 t By nftw

1，当英文或数字与汉字链接时，词性会被视为un。如"LG集团"，LG与集团紧连着，这种情况下，我希望把LG也视为en。能不能通过修改rules改变呢？因为我不是太理解un指的是什么，好像助词'的'、标点符号等都被视为un。我在插入...