分词 对于 词库 里有宝马x6 分词 为宝马和马x6 分词有问题 词库 里 只能添加 宝马 不能宝马x6 (中文 英文和数字在一起 存在分词问题) #解析后的 QUERY 语句:Xapian::Query((奥迪a6:(pos=1) SYNONYM (奥迪:(pos=89) AND 迪A6:(pos=90))))
... 对于一个页面来说,通常含有数字、英文、英文标点、中文标点、中文等文字要素(可阅读部分,HTML已过滤),视情况而定,搜索引擎还有可能抓出含有乱码的片段。 但是SCWS分词时似乎要求字符串中只能有中文和中文标点,...
[quote='KnightE' pid='449' dateline='1326794968'] [s]呵呵,观察了一天,“document xxxx not found”的问题看不到了[/s] 额,不是,还是有这个错误在log中:( [/quote] 那还会有错误吗?是search还是index的log?
这个1.1.0版本更新得无声无息的。
建议做个出入库转换,将 +- 加号减号等数学符号转化为特定罕见中文。 如 + -> 枷 - -> 碱 然后在建立索引、处理关键字时做个替换,符号转中文 在呈现给用户时,也做个替换,中文转符号。
hightman 辛苦~ 第一时间升级到最新版了。我有一个疑问,找了一些文档,没有找到相当的说明,希望你有时间能帮我解答一下。 现在自定义分词,是不是只能在索引的时候进行,我的项目中需要对内容进行自动分词,用于生...
词库可以添加 宝马x6 的啊
今天旗下的http://www.anetb.com需要一个支持中文分词的搜索页,原drupal的太烂了, 我的做法是:结合xunsearch实现drupal commerce下的中文搜索 测试页:http://www.anetb.com/tsearch/demo/commerce/search.php , 可输入“奶粉”,我的站准备做这...
[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
距离上一版本发布已经过去将近三个月,这段时间持续订正了一些小 BUG,并整合了最新的 xapian-1.2.12。现发布 1.3.2 正式版,强烈建议所有用户升级到这个最新稳定版本。 [b]主要更新如下:[/b] 1. 改进了已知的若干小 BUG 2. 升...