SCWS(简易中文分词) 基于HTTP/POST的分词 API 使用说明

  1. API 地址:https://xunsearch.com/scws/api.php
  2. 请求方式:仅支持 POST,推荐采用纯 PHP 实现的 HTTP client 库
  3. 请求的参数变量及含义:
    • data 需要分词的字符串(*必须*)
    • respond 响应结果格式(其值为: php/json/xml, 默认为 php,其中 php是指用php序列化后的结果)
    • charset 待分词的字符串编码(gbk/utf8,默认是utf8)
    • ignore 是否忽略标点符号(yes/no,默认为 no)
    • duality 是否散字自动二元(yes/no,默认为 no)
    • traditional 是否采用繁体字库(yes/no,默认为 no,仅当 charset 为 utf8 时有效)
    • multi 复合分词的级别(整数值 1~15:0x01-最短词;0x02-二元;0x04-重要单字;0x08-全部单字) 默认为0,如有需要建议设置为 3
  4. 响应的数据:
    1. 如果出错则其中的 status 属性/键的值为 error,而 message 为错误信息
    2. 成功则 status 值为 ok,words 值是分好的词的列表(数组)
    3. 每个分好的词包括以下属性/键值:
      • word 词的内容
      • off 该词在未分词文本中的偏移位置
      • idf 该词的 IDF 值
      • attr 词性 (北大标注格式) 参见这里
  5. 该 API 自 2010/12/2 起可用, 感谢用户 keen-lee 的建议并编写了API调用的初始版,查看 API 源码
  6. 当前版本:SCWS (Module version:0.2.3, Library version:1.2.3) - by hightman
  7. 在线测试:

    复合分词: 最短词 散字二元 重要单字 全部单字
    忽略标点? 散字二元? 繁体词库? 输出格式:php json xml