这个要考虑一些用户没有安装MBSTRING扩展的情况。 像你这样你可以考虑自己拓展一个 Tokenizer 类,然后根据自己需要生成 tokens 就可以了。 二元分词并不是直接分成N长的若干段,而是 ABCD => AB + BC + CD 你的作法会把 ABCD => AB+CD ...
... 官方能否在没个ini文件里面直接进行指定这个过滤器。 这样无论是通过管理工具,还是通过sdk 导入数据都可以默认掉用这个过滤器。 这样更便于整个项目的管理。 以后如果我想修改过滤规则,紧紧只需要修改一个文件就可以...
... 官方能否在没个ini文件里面直接进行指定这个过滤器。 这样无论是通过管理工具,还是通过sdk 导入数据都可以默认掉用这个过滤器。 这样更便于整个项目的管理。 以后如果我想修改过滤规则,紧紧只需要修改一个文件就可...
我想实现这样的功能,比如搜索“杭州 西湖”这样的关键字,xunsearch默认的是“杭州and西湖”,setFuzzy开启模糊匹配后,是“杭州or西湖”,可是我想得到的搜索结果是:先and,后or,难道只能$search->search('(杭州 AND 西湖) OR (杭州 OR ...
...典,自己整理英文词。但是发现一个问题。。比如hip pop这样也是一个名词,那现在自定义词典里肯定不能有空格的啊。老大能不能把这个也解决一下,这样的话,大家一起提供英文的词典,是不是就可以解决中英文混合分词了...
...是 unknown, 如果需要你可以自己添加一个”LG集团“的词,这样它会被当作一个整词。 通常 un 是指不存在于词库中的字词,对于你这个情况,你可以修改 libscws/scws.c 第 680 行把 attr_un 改为 attr_en 即可,如果需要严格一点可以先...
...的搜索。只要库内有那个“词”。 比如:陈百强-不.mp3 这样分词的结果是 [color=red]陈百强 陈百 百强 不[/color] 这样搜索”不“,搜索”陈百强“,”陈百“,”百强“都可以搜索到,怎么会不能搜索单字呢,当然如果你非要搜...
[quote='net_li' pid='4355' dateline='1374126126'] 没人给解答下吗? [/quote] 可以使用1.4.7测试版本,这样就可以设置分词的setMulti属性,设置成11就能把所有单字都分出来,但是这样数据文件会变大,个人权衡效率问题吧
多谢建议,这样是否还会转换成需要词典导出的功能了呢,呵呵。只是默认的词库过大,导出其实蛮不方便,还是借助命令行比较好。 等1.1.6估计 会加上这个功能 export_dict(); import_dict() 之类的,直接可以把xdb导出为数组或把...