HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...
运行安装说明里的c例子 [php]#include #include main() { scws_t s; scws_res_t res, cur; char *text = "Hello, 我名字叫李那曲是一个中国人, 我有时买Q币来玩, 我还听说过C#语言"; if (!(s = scws_new())) { printf("error, can't init the scws_t!\n"); ...
...那,我的家乡是印第安那州的印第安那波利斯!'; $so = scws_open(); scws_set_charset($so, 'gbk'); scws_set_rule($so, 'rules.ini'); scws_set_dict($so, 'a.txt', SCWS_XDICT_TXT); scws_send_text($so, $txt); $result = scws_get_tops($so, strlen($txt)); print_r($result); [/php] ...
我本来是把scws封装,以便于在golang中使用,后来我遇到了并发下切词core dump的问题.为了验证问题,用c写了一个简单程序,测试稳定出core,希望大家和hightman帮忙看看这是不是一个bug,还是用法有误?代码如下: #include ...
用pscws4分词,为什么只打印出里面的数字,中文直接不分词打印,网页编码是utf8 function get_tags_arr($title){ require 'pscws4/pscws4.class.php'; $pscws = new PSCWS4(); $pscws->set_dict('scws/dict.utf8.xdb'); $pscws->set_rule('scws/rules.utf8.ini'); $pscws->set_ign...
这是我的代码: [php] // 加入头文件 require 'pscws/pscws4.class.php'; header("Content-Type:text/html;charset=utf-8"); // 建立分词类对像, 参数为字符集, 默认为 gbk, 可在后面调用 set_charset 改变 $pscws = new PSCWS4('utf-8'); $pscws->set_ignore('yes'); $psc...
这2天在用您的scws lib做开发, 发现scws_set_ignore后,全角的数字会给去掉 再测试了自带的scws程序,加上-I选项后也是同样的,全角字符不显示 下面是我的测试。 [xxxxxx@www etc]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了...
...de #include #include int main(int argc, char *argv[]) { scws_t s; scws_res_t res, cur; char *text;// = "Hello, 我名字叫李那曲是一个中国人, 我有时买Q币来玩, 我还听说过C#语言"; text = "我是一名中国的程序员"; ...
...中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- Notice: src/ 下的 cmd.c 必须先编译 libscws/ 生成 libscws.a 才可以。 phpexe/ ...