搜索

大约有 21 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0050秒)

1.关于词频的解释

发布时间:2013-04-12 10:04 t By jasonniu

请问下 我分了一个句子“小明从前门进来” 分成了 小明+从前+门+进来 请问该怎么调整“从前”和“前门”的词频才能正确的分出这句话呢? 还有那个TF-IDF两个权值是什么意思 怎么用

2.RE: 关于词频的解释

发布时间:2013-04-15 08:04 t By jasonniu

顶上去 希望给个回复 谢谢啊

3.RE: 关于词频的解释

发布时间:2013-04-15 13:04 t By jasonniu

问题解决了 多谢highman 也算是我帮助改进咱们这个系统了 。。

4.RE: 关于词频的解释

更新时间:2013-04-15 11:04 t By hightman

加大,前门,缩小,从前 不过这个是词性关系,可以考虑增大 p(1) + n 的权重。 在 etc/rules.ini 和 etc/rules.utf8.ini 的 [attrs] 后方加入 p(1) + n = 5 即可 我们的DEMO已经更新,[url]http://www.xunsearch.com/scws/demo/v4.php[/url] 您也可以参见我们...

5.字典中的条目的意义与来源

发布时间:2009-08-25 22:08 t By peng860215

... n 。。。。。 新浪 14.89 6.26 nz 文学 14.89 3.91 n 二列为词频,三列为词重,可是词频与词重是怎么计算的,单位是什么,词重是什么含义呢?为什么相同的词频,词重会有差别,如表中“新浪” 词重为6.26 还有,在实际应用...

6.RE: 分词不对

发布时间:2010-04-26 13:04 t By hightman

多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。

7.RE: 中文分组粗分方法

发布时间:2010-05-27 11:05 t By hightman

TF就是词频率,也就是这个词在各种语料中出现的机率权重。(越经常出现的越高) IDF是逆词频率,也就是说这个词更重要(因为罕见一些);具体参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均...

8.[特别发布] 纯PHP编写的xdb词典导入导出工具!!

发布时间:2009-07-01 17:07 t By hightman

...表示注释,每条记录由 word、TF、IDF、Attr组成,其中TF是词频系数,IDF是逆词频率系数 而Attr是北大标注法的词性,这四个字段之间用\t隔开。 --- hightman 特别制作于 2009.7.1 下载地址:http://www.ftphp.com/scws 或 www.hightman.cn/bbs ...

9.RE: [特别发布] 纯PHP编写的xdb词典导入导出工具!!

更新时间:2009-07-26 12:07 t By hightman

...附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42

10.自定义 SCWS 词库

...格或制表符(\t)分隔 - 字段含义依次表示 “词语”,“词频(TF)”,“逆词频率(IDF)”,“词性(ATTR)” - 后面三个字段如果省略依次使用 scws 的默认值 - 特殊词性 `!` 可用于表示删除该词 - 自定义词典优先于内置词典加载和使...

123
  • 时间不限
  • 按相关性排序