... 1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php 内置整值分词器 Public 方法 隐去继承来的方法 名称描述定义于 getTokens() XSTokenizerFull 方法明细 getTokens() 方法 public void getTokens($value, $doc=NULL) $valu...
自定义分词器 `Xunsearch` 默认内置了功能强大的 [SCWS][1] 分词系统,也附加提供了一些简单常见的分词规则, 但考虑到用户的个性需求,特意提供了自定义分词器的功能。 > note: 自定义分词器存在一个缺陷,它不支持存...
...,请自行编写 代码和定义时不要也以 `XS` 开头。 自定义分词 --------- Xunsearch 在项目配置时支持针对某些字段自定义分词。每个自定义分词功能单独使用一个 文件名,命名为 `XSTokenizerXyz.class.php`,其中 `Xyz` 是您自己的分词名称...
...专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写,功能基本实...
...发布 1.3.1 正式版,在 SDK 层面加入了许多用户诉求的 scws 分词接口,并修正了许多小 BUG,强烈建议所有用户升级到这个最新稳定版本。 [b]主要更新如下:[/b] 1. 增加基于搜索服务端的 XSTokenizerScws 便于直接使用 SCWS 的分词功...
...1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php 内置的分割分词器 Public 方法 隐去继承来的方法 名称描述定义于 __construct() XSTokenizerSplit getTokens() XSTokenizerSplit 方法明细 __construct() 方法 public ...
...1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php 内置的定长分词器 Public 方法 隐去继承来的方法 名称描述定义于 __construct() XSTokenizerXlen getTokens() XSTokenizerXlen 方法明细 __construct() 方法 public vo...
...1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php 内置的步长分词器 Public 方法 隐去继承来的方法 名称描述定义于 __construct() XSTokenizerXstep getTokens() XSTokenizerXstep 方法明细 __construct() 方法 public ...
...本 1.0.0 源代码 sdk/php/lib/XSTokenizer.class.php SCWS - 分词器(与搜索服务端通讯) Public 方法 隐去继承来的方法 名称描述定义于 __construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 ...
...代码兼容性 2. 增加用户案例文档:USERCASE 3. 改进自定义分词器 XSTokenizerScws 接受参数作为复合等级 4. 升级 libevent 到 2.x 版 5. 修正中文 stopwords 不生效的问题 6. 取消恼人的 NODB(S#506) 错误提示 7. 新增获取文档匹配词表的接口 X...