开始一直在取舍,最后敲定了scws 经过部分测试,scws的分词还是比较准确的, 当然还是需要大量的数据测试, 以及一段时间的试运行才会有更好的结果。 就是社区稍显冷清。。呵呵 新项目内部命名为super.maria 。 策划了有一...
...当的说明,希望你有时间能帮我解答一下。 现在自定义分词,是不是只能在索引的时候进行,我的项目中需要对内容进行自动分词,用于生成文章的tag,我自己给定了一个用户自定义词库,在$tokenizer->getTops()时,不能找出...
...中一个词,并且不允许同时包含这两个词。 ~~~ #### 要求搜索结果中不含特定关键词 #### 如果您发现搜索结果中,有某一类信息是您不希望看见的,而且这些信息都包含特定的关键词,那么请用减号或 `NOT` 语法,就可以去除所...
...-help 查看 - 采用 Yii2 的代码标准格式化 php-sdk 代码 - 改进搜索结果排序支持更复杂排序,参见 [XSSearch::setSort] - util.Indexer 加入 PgSQL 数据源支持 - 新增支持搜索按匹配百分比/权重剔除,参见 [XSSearch::setCutOff] - 改善搜索同义词处理...
...都失败了 1. 利用xs自带的scws,这个英文明显是根据空格分词的,所以达不到效果 2. 自己写的一元/二元分词器,某些情况下可以正常工作,不过有时会返回一些意想不到的结果,而且相关度看起来并不高,所以很困惑,最下方...
...在安装完 `Xunsearch` 后可以通过服务端内置的 scws[1] 实现分词, 而不需要另外再安装 scws 的 php 扩展。从 `1.3.1` 版本起,`Xunsearch` 的 PHP-SDK 中加入 [XSTokenizerScws] 类,可通过搜索服务端执行分词功能。 用法简单说明 ---------- 这...
...据是12345678 我搜索345却也不能出结果!为啥?? 默认的分词也不行,:huh::huh:我用csv导入的 中文全都不可以搜索和显示出来 [id] type = id [user] index = both tokenizer = full [q] index = both tokenizer = full [w] index = both tokenizer = full...
...所有的论坛贴子进行标题、内容、作者全文检索,并希望搜索结果能 过滤回贴、按发表时间排序、能按版块过滤。明确了意图之后我们就只需要从数据表中提取必要的 字段即可。 - `pid` 主键,必须的 - `fid` 按版块检索时需要用...
...计有点问题。当type为string,没有指明index索引方式是是不分词的。 [title] type=string index=both 和 [title] type=title 这两个字段设计效果一样。同样content,类型也有问题,可以这样 [content] type=body 或者 [content] type=string index=mixed 具体详看...