hightman, 规则集配置文件的说明文档在哪里? 没有说明文档根本就没有办法是用哪个规则集啊, 很多东西都猜不出来. 停用词怎么添加和使用整了一天了都没搞明白怎么弄. 希望给一份规则集的说明文档, 万分感谢.
有没有含有简体中文的gbk规则集文件啊。我在http://www.ftphp.com/scws/download.php#dll处下的文件包括rules.ini rules.utf8.ini rules_cht.utf8.ini 这三个文件,这貌似没有gbk的规则文件吧?但是pscws23只能用gbk。请问这怎么办
不太了解这个规则集的写法,请高手给讲解一下,谢谢 比如这个 [areaname2] :type = suffix :znum = 2 :exclude = noname,symbol,alpha,chnum2 :tf = 4.5 :idf = 3.0 :attr = ns :line = yes 东路 西路 支路 街道 南路 北路 分别是指什么意思呢?
pscws23 没有用到规则集,其词典与 scws 也不通用,代码已经弃用并且不维护了,建议不要用。 scws 中的 rules.ini 就是GBK的,
添加一个规则集如下: [b]:type = prefix :line = yes :tf = 3.5 :idf = 2.0 :attr = nz :include = chnum1,chnum2 :znum = 1,2,3 百分 百分之[/b] 分词的时候出现以下问题: 词:百分六 识别正确 词:百分六十 识别失败,只能识别出”百分“...
调整了跟包一起的 etc/rules.ini etc/rules.utf8.ini etc/rules_cht.utf8.ini ,让规则语法匹配更加准确。 建议同步更新~~
项目主页: http://www.ftphp.com/scws/ 经过适当的语义词性规则调整, 目前有效的消除了大量的岐义切词. 列部分如下: 1. 学人家人肉搜索 2. 俄罗斯民调显示梅德韦杰夫人气急升 3. 奥巴马上台后中美关系如何变革 4. 结合成分子时 ...