请问下 我分了一个句子“小明从前门进来” 分成了 小明+从前+门+进来 请问该怎么调整“从前”和“前门”的词频才能正确的分出这句话呢? 还有那个TF-IDF两个权值是什么意思 怎么用
加大,前门,缩小,从前 不过这个是词性关系,可以考虑增大 p(1) + n 的权重。 在 etc/rules.ini 和 etc/rules.utf8.ini 的 [attrs] 后方加入 p(1) + n = 5 即可 我们的DEMO已经更新,[url]http://www.xunsearch.com/scws/demo/v4.php[/url] 您也可以参见我们...
... n 。。。。。 新浪 14.89 6.26 nz 文学 14.89 3.91 n 二列为词频,三列为词重,可是词频与词重是怎么计算的,单位是什么,词重是什么含义呢?为什么相同的词频,词重会有差别,如表中“新浪” 词重为6.26 还有,在实际应用...
多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
TF就是词频率,也就是这个词在各种语料中出现的机率权重。(越经常出现的越高) IDF是逆词频率,也就是说这个词更重要(因为罕见一些);具体参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均...
...表示注释,每条记录由 word、TF、IDF、Attr组成,其中TF是词频系数,IDF是逆词频率系数 而Attr是北大标注法的词性,这四个字段之间用\t隔开。 --- hightman 特别制作于 2009.7.1 下载地址:http://www.ftphp.com/scws 或 www.hightman.cn/bbs ...
...附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42