在linux下装了scws1.1.2,并且装了php5的扩展,但是发现在分词时对于较长的字符串会自动截取前多少个字符进行切分,不知这是不是一个BUG?
请仔细看说明,$so->get_result() 并不是一次调用,需要多次调用直到返回FALSE 例子1. 使用类方法分词
我看了一下scws_set_multi,似乎不能解决我得问题。我再描述一下,打个比方,我要切分一段有200个汉字的字符串,但是返回的分词数组只包含了前100个汉字的词。[hr] 我还是把代码贴出来吧。 从返回的分词数组可以看出来...
...会报错,用户体验很不好。 在哪里可以获取搜索语句的长度。或者当超过长度限制的时候在哪里可以判断。 有没有一种方法就是可以当长度过长的时候,自动截取某个字段。
[php] header("Content-type: text/html; charset=utf-8"); var_dump(SCWS('中文分词解析,我的个神啊')); //中文分词解析 function SCWS($title) { set_time_limit(0); $data = array("data"=>$title,"respond"=>"json","ignore"=>'yes', "multi"=>3); $data = http_build_query($data); $r...
...nizerUnary implements XSTokenizer { private $length = 1; // 默认切分长度 public function __construct($arg = null){ if ($arg !== null && $arg !== '') $this->length = $arg; } public function getTokens($value, XSDocument $doc=null){ $charset = is_object($doc) ? $doc->getChars...