我想对打断的英文做分词,utf-8,scws可以用么?应该下载哪个版本呢?PSCWS4 说是速度慢,不推荐使用,而PSCWS23 仅支持GBK字符集
从结果看应该是 scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整.
编码问题找到原因,我使用的是PHP5版本,默认执行了这个构造函数 function __construct() { $this->PSCWS4(); } 导致使用的仍是GBK编码,$cws->set_charset('utf8');一下就可以了。 期待帮忙答复一下第二个问题,谢谢老大。
...n"); exit(-1); } scws_set_charset(s, "gbk"); scws_set_multi(s, 1); scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); scws_set_rule(s, "/usr/local/etc/rules.ini"); scws_send_text(s, text, strlen(text)); ...
我电脑APACHE+PHP 4GB内存 E6300处理器 PHP简易中文分词(SCWS) 第4版(GBK) 在我电脑上用你默认的分词内容"陈凯歌并不是..." 第一次0.8xxxs 第二次0.098711013793945 而你们演示的就快多了 0.0039410591125488 为什么差距这么大?