...t the scws_t!\n"); exit(-1); } scws_set_charset(s, "utf-8"); scws_set_dict(s, "/usr/local/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/etc/rules.utf8.ini"); scws_set_multi(s , 1); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { whil...
...案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './rules.ini');//文件内容为空 $cutword = $_POST['cutword']; scws_send_text($sh, $cutword); $rs = scws_get_tops($sh, 5); 另:我使用工具把默认的....
...针对UTF-8的,而你调用了gbk的词典,把你的词典语句改为 dict.utf8.xdb 即可 3. dict_extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charse...
...ndle; bool close(void); bool set_charset(string charset) bool set_dict(string dict_path) bool set_rule(string rule_path) bool set_ignore(bool yes) bool set_multi(bool yes) bool send_text(string text) mixed get_result(void) mixed get_tops(void) string version(void) }; ...
...就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好多并不是我定义的词语,而且好多还把我定义的词组分解为多个,还想问...
...到上述目录中 词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2 http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2 http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2 然后在php.ini最后加上了 [scws] ; ; 注意请检...
...r] [root@estar scws-1.1.5]# /usr/local/bin/scws -A -d "/usr/local/scws/etc/dict.xdb" "LG集团5.3%" LG/en 集团/n 5.3/en %/un +--[scws(scws-cli/1.1.5)]----------+ | TextLen: 10 | | Prepare: 0.0002 (sec) | | Segment: 0.0002 (sec) | +-----------------------------...
... 下面是我的测试。 [xxxxxx@www etc]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了12万元啊 今 天花 了 万 元 啊 [xxxxx@www etc]$ scws -v scws (scws-cli/1.1.8: Simpled Chinese Words Segment - Command line usage) 版本1.1.8
... [/quote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改词也必须转换成这个词典文件才能用。 词典转换关于SCWS的网站上有。
感谢hightman的认真对待. 我也按照你说的.打印了 add_dict 的返回数值..发现.就算在异常的情况下. 加载字典的返回值是 true的.但 get_result() 却返回 false; 是否会关 nginx 或 php-fpm 有关呢 ?? 我环境 是 centos5 nginx php-fpm 的[/code] ...