搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

发布时间：2011-11-16 11:11 t By hightman

这个要考虑一些用户没有安装MBSTRING扩展的情况。像你这样你可以考虑自己拓展一个 Tokenizer 类，然后根据自己需要生成 tokens 就可以了。二元分词并不是直接分成N长的若干段，而是 ABCD => AB + BC + CD 你的作法会把 ABCD => AB+CD ...

发布时间：2012-07-16 12:07 t By hightman

自定义词不支持这样的。这样的在SCWS预处理阶段就已经被分割了。

发布时间：2013-07-10 13:07 t By siamon

... 官方能否在没个ini文件里面直接进行指定这个过滤器。这样无论是通过管理工具，还是通过sdk 导入数据都可以默认掉用这个过滤器。这样更便于整个项目的管理。以后如果我想修改过滤规则，紧紧只需要修改一个文件就可以...

发布时间：2013-07-10 13:07 t By siamon

... 官方能否在没个ini文件里面直接进行指定这个过滤器。这样无论是通过管理工具，还是通过sdk 导入数据都可以默认掉用这个过滤器。这样更便于整个项目的管理。以后如果我想修改过滤规则，紧紧只需要修改一个文件就可...

发布时间：2012-02-22 17:02 t By linren119

我想实现这样的功能，比如搜索“杭州西湖”这样的关键字，xunsearch默认的是“杭州and西湖”，setFuzzy开启模糊匹配后，是“杭州or西湖”,可是我想得到的搜索结果是：先and,后or，难道只能$search->search('(杭州 AND 西湖) OR (杭州 OR ...

发布时间：2012-03-22 13:03 t By wodeln

...典，自己整理英文词。但是发现一个问题。。比如hip pop这样也是一个名词，那现在自定义词典里肯定不能有空格的啊。老大能不能把这个也解决一下，这样的话，大家一起提供英文的词典，是不是就可以解决中英文混合分词了...

更新时间：2011-01-17 16:01 t By hightman

...是 unknown, 如果需要你可以自己添加一个”LG集团“的词，这样它会被当作一个整词。通常 un 是指不存在于词库中的字词，对于你这个情况，你可以修改 libscws/scws.c 第 680 行把 attr_un 改为 attr_en 即可，如果需要严格一点可以先...

发布时间：2012-02-23 13:02 t By hightman

...的搜索。只要库内有那个“词”。比如：陈百强-不.mp3 这样分词的结果是 [color=red]陈百强陈百百强不[/color] 这样搜索”不“，搜索”陈百强“，”陈百“，”百强“都可以搜索到，怎么会不能搜索单字呢，当然如果你非要搜...

发布时间：2013-07-19 09:07 t By tisswb

[quote='net_li' pid='4355' dateline='1374126126'] 没人给解答下吗？ [/quote] 可以使用1.4.7测试版本，这样就可以设置分词的setMulti属性，设置成11就能把所有单字都分出来，但是这样数据文件会变大，个人权衡效率问题吧

更新时间：2011-01-04 23:01 t By hightman

多谢建议，这样是否还会转换成需要词典导出的功能了呢，呵呵。只是默认的词库过大，导出其实蛮不方便，还是借助命令行比较好。等1.1.6估计会加上这个功能 export_dict(); import_dict() 之类的，直接可以把xdb导出为数组或把...