SCWS(简易中文分词) 基于HTTP/POST的分词 API 使用说明
- API 地址:https://xunsearch.com/scws/api.php
-
请求方式:仅支持 POST,推荐采用纯 PHP 实现的 HTTP client 库
- 请求的参数变量及含义:
- data 需要分词的字符串(*必须*)
- respond 响应结果格式(其值为: php/json/xml, 默认为 php,其中 php是指用php序列化后的结果)
- charset 待分词的字符串编码(gbk/utf8,默认是utf8)
- ignore 是否忽略标点符号(yes/no,默认为 no)
- duality 是否散字自动二元(yes/no,默认为 no)
- traditional 是否采用繁体字库(yes/no,默认为 no,仅当 charset 为 utf8 时有效)
- multi 复合分词的级别(整数值 1~15:0x01-最短词;0x02-二元;0x04-重要单字;0x08-全部单字)
默认为0,如有需要建议设置为 3
- 响应的数据:
- 如果出错则其中的 status 属性/键的值为 error,而 message 为错误信息
- 成功则 status 值为 ok,words 值是分好的词的列表(数组)
- 每个分好的词包括以下属性/键值:
- word 词的内容
- off 该词在未分词文本中的偏移位置
- idf 该词的 IDF 值
- attr 词性 (北大标注格式) 参见这里。
- 该 API 自 2010/12/2 起可用, 感谢用户 keen-lee 的建议并编写了API调用的初始版,查看 API 源码
- 当前版本:SCWS (Module version:0.2.3, Library version:1.2.3) - by hightman
- 在线测试: