请问下 我分了一个句子“小明从前门进来” 分成了 小明+从前+门+进来 请问该怎么调整“从前”和“前门”的词频才能正确的分出这句话呢? 还有那个TF-IDF两个权值是什么意思 怎么用
TF就是词频率,也就是这个词在各种语料中出现的机率权重。(越经常出现的越高) IDF是逆词频率,也就是说这个词更重要(因为罕见一些);具体参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均...
...表示注释,每条记录由 word、TF、IDF、Attr组成,其中TF是词频系数,IDF是逆词频率系数 而Attr是北大标注法的词性,这四个字段之间用\t隔开。 --- hightman 特别制作于 2009.7.1 下载地址:http://www.ftphp.com/scws 或 www.hightman.cn/bbs ...
...附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42
...格或制表符(\t)分隔 - 字段含义依次表示 “词语”,“词频(TF)”,“逆词频率(IDF)”,“词性(ATTR)” - 后面三个字段如果省略依次使用 scws 的默认值 - 特殊词性 `!` 可用于表示删除该词 - 自定义词典优先于内置词典加载和使...
...附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42 [/quote] 謝謝 ! 那 TF/IDF 事實上...