想请教下,假如我开启复合分词,在返回的分词结果里怎么区分哪些是复合分词的结果,哪些是平常的结果? 比如我对“中国人”分词,返回中国+人+中国人,怎么单独提取复合词 中国+人呢?
...确使用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项,更为合理有效,符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正 scws.c 中 __PARSE_XATTR__ 宏的 BUG 导...
...lic XSSearch setScwsMulti(int $level) $level int 要设置的分词复合等级 {return} XSSearch 返回自身对象以支持串接操作 源码: sdk/php/lib/XSSearch.class.php#L444 (显示) public function setScwsMulti($level){ $level = intval($level); if ($level >= 0 && ...
[php] header("Content-type: text/html; charset=utf-8"); var_dump(SCWS('中文分词解析,我的个神啊')); //中文分词解析 function SCWS($title) { set_time_limit(0); $data = array("data"=>$title,"respond"=>"json","ignore"=>'yes', "multi"=>3); $data = http_build_query($data); $r...
...blic XSIndex setScwsMulti(int $level) $level int 要设置的分词复合等级 {return} XSIndex 返回自身对象以支持串接操作 源码: sdk/php/lib/XSIndex.class.php#L331 (显示) public function setScwsMulti($level){ $level = intval($level); if ($level >= 0 && $l...
... public int getScwsMulti() {return} int 返回当前库的分词复合等级 源码: sdk/php/lib/XSIndex.class.php#L347 (显示) public function getScwsMulti(){ $cmd = array('cmd' => XS_CMD_SEARCH_SCWS_GET, 'arg1' => XS_CMD_SCWS_GET_MULTI); $res = $this->execCommand($cmd, XS_CM...
我使用的版本是1.1.2 使用了复合分词且只用了【最短词】来复合 假定我的扩展词库中有:【球面抛光机】、【冰包餐桌】 没有扩展结果分别是: 【球面抛光机】 -> 球面、抛光机、抛光 【冰包餐桌】 -> 餐桌(idf:6.19) ...
...法 public XSTokenizerScws setMulti(int $mode=3) $mode int 复合选项, 值范围 0~15 默认为值为 3, 可使用常量组合: SCWS_MULTI_SHORT|SCWS_MULTI_DUALITY|SCWS_MULTI_ZMAIN|SCWS_MULTI_ZALL {return} XSTokenizerScws 返回对象本身以支持串接操作 源码:...
...cws_t s, int mode); 描述:设定分词执行时是否执行针对长词复合切分。(例如:中国人->中国+人+中国人)。参数 mode 表示复合分词法的级别,取值为 1 ~ 15。mode 设定值,1~15。[b]按位与[/b]的 1|2|4|8 依次表示 短词|二元|主要单字|全...
...母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。 4.修正浮点数的识别规则,避免将IPv4地址识别为2个小数的尴尬,比如 192.168.1.1 以前会被切成 192.168 和1.1 2个数字...