...您只需要实现 [XSTokenizer::getTokens] 即可。该函数接受 2个参数,分别为要分词的值以及 当前的文档对象(可选);返回值为分好的词汇组成的数组。下面以按 `-` 分割字段为例: ~~~ [php] class XSTokenizerXyz implements XSTokenizer { public fun...
...实例 ~~~ ### 获取分词结果 调用 [XSTokenizerScws::getResult] 对参数指定的文本字符串执行分词, 并返回词汇数组,每个词汇包含 3 个元素,其中: - *off* 表示这个词汇在源参数文本 _$text_ 中的起始偏移位置 - *attr* 这个词汇的词...
... ~~~ project.default_charset = UTF-8 ~~~ 3. ### 服务器连接参数 服务端连接参数的格式包含 3 种格式: 1. *端口号(数字)*,连接 `localhost` 的该端口号 (例:`8383`) 2. *地址:端口号*,冒号连接地址(域名、IP地址)和端口 (...
...案例文档:USERCASE - 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 - 升级 libevent 到 2.x 版 - 修正中文 stopwords 不生效的问题 - 取消恼人的 NODB(S#506) 错误提示 - 新增获取文档匹配词表的接口 [XSSearch::setRequireMatchedTerm] 版本 1...
...数的时候支持使用[索引缓冲区](index.buffer)来提高效率。 参数 `$raw` 是字符串,表示记录中的原词(标准词),`$synonym` 也是字符串,表示记录中的同义词, 对于删除操作可以省略该参数表示清空原词的所有同义词。 以下为示...