...利斯!'; $so = scws_open(); scws_set_charset($so, 'gbk'); scws_set_rule($so, 'rules.ini'); scws_set_dict($so, 'a.txt', SCWS_XDICT_TXT); scws_send_text($so, $txt); $result = scws_get_tops($so, strlen($txt)); print_r($result); [/php] 第一次运行的结果:([color=#FF0000][b]正...
...$sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 $cutword = $_POST['cutword']; scws_send_text($sh, $cutword); $rs = scws_get_tops($sh, 5); 另:我使用工具把默认的.xdb转化成.txt后在使用scws_get_tops()方法(...
...s_set_dict(s, "/usr/local/scws/etc/dict.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/scws/etc/rules.ini"); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { while (cur != NULL) { printf("Word: %.*s/%s (IDF = %4.2f)\n", cur-...
10秒 10元 这样的想做为一个词要怎么配置 ?? 我尝试了修改rule.ini但是不成功。如果数字是全角的话倒是可以成为词,但我同时也需要半角的数字+单位 作为一个词,
[quote]压缩包中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- Notice: src/ 下的 cmd.c 必须先编译 libscws/ 生成 libscws.a 才可...
... printf("Usage : %s dict rule\n",argv[0]); return -1; } scws_t ...
官方没有rules.ini文件的使用说明。 我想过滤由‘人’‘得’‘到’‘直’ 等字组成的关键字。如 人们、赚得、人民、得到、到达、直到 这些无意义的关键字。 需要怎么弄? 我看了你们的置顶贴了,有添加自字义字库,...
...全角字符不显示 下面是我的测试。 [xxxxxx@www etc]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了12万元啊 今 天花 了 万 元 啊 [xxxxx@www etc]$ scws -v scws (scws-cli/1.1.8: Simpled Chinese Words Segment - Command line usage) 版本1.1.8
...个 unsigned char 来记录分词的长度,存在特殊情况即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL , 故加入以下红色部分判断. ...