想把sogou的一些细胞词库整合到SCWS的词库里,要添加的词很多,不太可能用你提供的WEB查询工具一个个的去查找,怎么设置TF/IDF的值?
[quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明有3M多的
...'1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明有3M多的 [/quote] 可能是网速问题导致下载...
现在导出的错误已经得到修正,错误原因在于 Next() 中误把 $this->hash_prime写成了$this->hash_base
其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。