建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
... “情歌接龙大串烧,情人节好礼多多” “武松杀嫂雕塑是艺术,还是恶俗?大家怎么看的?” 没有加上rule.utf8.ini时,得到如下结果 情歌/n 接龙/n 大/a 串烧/v ,/un 情人节/t 好/a 礼/n 多多/z 武松/nr 杀/v 嫂/ng 雕塑/n 是/v 艺术/n ...
date 字段可以去掉 index = self,INI的注释最好另一起行写。 搜索这么慢可能是硬盘速度太慢了。你是不是加了排序?
en Indexer.php 里默认就是设为0的啊,自己做导入程序的话默认是5秒,如果时间很长需要自己设置 0 表示永不超时,直到主动关闭。
因为我的项目是电商网站,所以我自定义了一个词库,把我自己的品牌、商品类目名字给加进去了。 我希望是这样的搜索结果,比如搜索“迪卡侬蓝色货品”: 现在是这样的: [code]Xapian::Query(((迪卡侬:(pos=1) SYNONYM (迪卡:(po...
搜索测试工具 `Quest` 是搜索测试工具,提供了搜索相关的各项功能,非常适合用于前期测试比较和纠错。 运行脚本工具的 --help 选项可查看内置的帮助和说明,如乱码可在选项后加入 -c gbk 试试。 ~~~ $prefix/sdk/php/util/Que...
呃。我晕!xunsearch里面都是定义的各种数据源包括mysql或者csv之类的数据库表! 但是定义是按主键或者键名键值来定义搜索,我在想,能不能定义html的标签,来检索内容 否则的话,百度或者google是怎么去检索那些静态的网页或...
自定义词库有些词无效。。 有的是3个以上的,有些是4个以上的,不定。。 ubuntu linux环境,自编译安装 比如顶置的例子我这里是这样的 ; dict_extra.txt 我是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 ...
...可以检索到不等于某个字段值的数据。 比如我有个字段是。 [specialcid] index = self tokenizer = split(,) 里面的内容是:45668,98644,110134,214567 有没有什么方法构造搜索语句是不等于这个字段的值,比如我想检索出来的数据在specialcid...
...tQuery() getRelatedQuery() 这三个均无法获取到结果,返回的均是array() 请问hotquery按照type=total是不是只要搜索1次就会有结果?还是这个统计结果是有阀值的,例如搜索50次才会返回结果?任何词达不到这个值均不返回结果? 我测试...