返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字
...。 建议直接用对像操作方式,即 $scws = scws_new(); $scws->get_result(); 用对像操作方式就没有这个问题。 [/quote] 谢谢解答
[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!
...n connect($param){ $host = isset($param['host']) ? $param['host'] : ini_get('mysqli.default_host'); $user = isset($param['user']) ? $param['user'] : ini_get('mysqli.default_user'); $pass = isset($param['pass']) ? $param['pass'] : ini_get('mysqli.default_pw'); $port = isset($param['port']...
...扩展形式安装 . 如果我不显式的定义 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是,定义自定义的词典. 看到...
...有:type, topicid 两个numeric字段 当 $res = $search->setQuery($_GET['kw'])->addRange('type',2,3)->search(); 进行查询时 topicid字段不存在于结果集中 但是:如果使用 $res = $search->search($_GET['kw']); 或者 $search->setQuery($_GET['kw'])->search(); 进行查询...
...是同样的问题,支持顶下,怎么解决呢? [b]Warning[/b]: file_get_contents(sample.utf8.txt) [[url=http://www.ceshi.org/function.file-get-contents][color=#0000ff]function.file-get-contents[/color][/url]]: failed to open stream: No such file or directory in [b]E:\AppServ\www\ceshi\index.php...
...n connect($param){ $host = isset($param['host']) ? $param['host'] : ini_get('mysql.default_host'); $host .= (isset($param['port']) && $param['port'] != 3306) ? ':' . $param['port'] : ''; $user = isset($param['user']) ? $param['user'] : ini_get('mysql.default_user'); $pass = isset($param[...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
getVersion() 方法 public string getVersion() {return} string 版本号 源码: sdk/php/lib/XSTokenizer.class.php#L327 (显示) public function getVersion(){ $cmd = new XSCommand(XS_CMD_SEARCH_SCWS_GET, XS_CMD_SCWS_GET_VERSION); $res = self::$_server->execCommand($cmd, XS_...