为什么我对一串utf-8编码的中文分词,竟得到了下面的效果(只是单纯得到每个字) 我在程序里已经设置了编码方式 scws_set_charset(s, "utf-8"); [attach]124[/attach]
[quote='hightman' pid='3934' dateline='1293717997'] 看看错误提示吧,这样我也不好说。 [/quote] 没有提示什么错误,就是没有结果。
我把从XDB词典文件中下载的GBK格式的词典,放在PSCWS23程序的词典文件中作为默认词典,然后我运行PSCWS23程序的demo文件输入内容后检测结果匹配不到。这是什么原因??:huh: 望各位高手不吝赐教,谢谢
不太了解这个规则集的写法,请高手给讲解一下,谢谢 比如这个 [areaname2] :type = suffix :znum = 2 :exclude = noname,symbol,alpha,chnum2 :tf = 4.5 :idf = 3.0 :attr = ns :line = yes 东路 西路 支路 街道 南路 北路 分别是指什么意思呢?