为什么我对一串utf-8编码的中文分词,竟得到了下面的效果(只是单纯得到每个字) 我在程序里已经设置了编码方式 scws_set_charset(s, "utf-8"); [attach]124[/attach]
打包的时候少了rules_cht.utf8.ini 的原因呵,问题不大,自己touch一个或从rules.ini转换一个 现下载包已经更新并包含了该文件
我安装SCWS-1.1.1已经php扩展scws.so 查看版本却是(Module version:0.0.3, Library version:1.0.4),并非1.1.1 win环境安装php扩展版本是(Module version:0.0.4, Library version:1.1.1) 分词结果完全不同,请问怎么回事
我用的是php_scws.dll (1.1.1) 程序设置、运行都已经正常,我如何建立自定义词库,又如何把自定义词库添加进来呢?恳请老大帮忙。谢谢,谢谢!
pscws23 没有用到规则集,其词典与 scws 也不通用,代码已经弃用并且不维护了,建议不要用。 scws 中的 rules.ini 就是GBK的,