搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

发布时间：2014-02-11 11:02 t By robinjia

...。我的理解是，这是因为程序里并没有判断武松已经是一个词了，而当它看到武这个字时，于是看到这是个前缀，而在武这个字后面至多可以跟着两个字，所以将杀也一起加进去了。而后面的词性语法规则对这句里的词性无法...

发布时间：2010-09-22 09:09 t By hightman

...杂，而且多数用不到，所以一直缺这个文档。 rules.ini 是一个规则，比如像姓名或路名或章节数字之类，可以规定某些字凑在一起就视为整体，可以规定某些字开头或某些字结尾的N个字组成词组，基本上就是这样子。比如姓名...

更新时间：2013-05-08 02:05 t By xj307

...中的内容： 1,关于 xunsearch 的 DEMO 项目测试,项目测试是一个很有意思的行为！,1314336158 2,测试第二篇,这里是第二篇文章的内容,1314336160 3,项目测试第三篇,俗话说，无三不成礼，所以就有了第三篇,1314336168 搜索“测试”或“...

更新时间：2013-01-07 15:01 t By rocl

...-时候-非常-的-卡" 感谢！！！[hr] 我找到了楼主原先的一个回复: 建议把这些要过滤的词新增加文本词典，属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。尝试了下,是可以的!!!多谢

发布时间：2014-06-06 11:06 t By bigxu

全文检索的单位通常是“词”。通常认为，一个普通的字没有意义。实在有必要你可以自定义分词器，按字索引。

发布时间：2014-04-22 15:04 t By zhoutian

在使用scws分词的时候，如果输入40多个“卡”字，最后分出来的那个词少了一个字节，就是说在utf8下原本3字节的一个“卡”字，变成了两个字节，形成了一个乱码。在线测试也会出现这种情况，大家怎么解决啊？？？

发布时间：2010-08-22 00:08 t By hightman

返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字

发布时间：2010-09-10 14:09 t By johnbaby

[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢！

发布时间：2012-02-04 15:02 t By jdcn123

...反作用怎样消除孩子的嫉妒请问怎么去除分词中一个字的关键词。因为我不需要分词结果中有一个字的。麻烦高手过来看看。应该怎样解决。谢谢了。

发布时间：2013-07-12 17:07 t By zhuaijay

我想请教一下，我用scws分割了一篇文章，里面把一些词典库里收录了的四字成语分割成一个字一个字的了，这是为什么？有没有什么设置方法能让它被正确地分割出来的？谢谢了~