“人们”“人家”“人民”是要全部去掉的。毕竟我们不是做搜索引擎,这类词根本没有什么特殊意义。 比如说 “到” 这个可以组成很多词的 得到,做到,想到,跑到,到达…… 过滤的词新增加文本词典,我要一个个...
...数啥意思?手册上没写明白。词性除了n和ns还有哪些啊?全部都是哪些啊?
...实现,大概在 332 行前后增加代码,判断如果当前字符串全部是数字或并且以%结尾则视为一个数字(像处理点号0x2e一样,数字中只允许一个.)。不过这样可能对于一些情况会误处理,比如代码中的 i = 300%2; 就会被认为是 300% 了...