搜索

大约有 9 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0043秒)

1.RE: 中文分组粗分方法

更新时间:2010-05-29 01:05 t By baobao

谢谢马老师 [ 应该是吧:-)]的及时回复。 我在研读代码的时候,看到有段代码注释着,是对半字的处理,并不是很理解,对于文字都是1-4字节的UTF-8存储编码。 半字是种什么情况呢?

2.RE: 中文分组粗分方法

发布时间:2010-05-27 11:05 t By hightman

TF就是词频率,也就是这个词在各种语料中出现的机率权重。(越经常出现的越高) IDF是逆词频率,也就是说这个词更重要(因为罕见一些);具体参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均...

3.RE: 中文分组粗分方法

发布时间:2010-05-26 19:05 t By baobao

我用您发布的工具,把字典解压。得出了关于的词的字段 WORD TF IDF ATTR 当机立断 14.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重...

4.RE: 中文分组粗分方法

发布时间:2010-05-26 14:05 t By hightman

pscws4和scws大致相同的算法,只是后来pscws4没有再进一步更新了。 粗分毕竟只是粗分,要想正式用只用其中一种肯定是不够的。 scws 里面先按逐字把所有可能的词都列出来,建成一个2维表,然后把有岐义的部分拧出来,以其...

5.中文分组粗分方法

发布时间:2010-05-26 12:05 t By baobao

你好Hightman: 我是一名大学生,对中文分词很感兴趣。 在网上看了很多关于中文分词的课件和论文。 词的粗分有几种: 最大匹配法 最大概率法 最短路径法 未登录词识别方法 等等 我下PSCWS4,学习了好久算法,由于个人...

6.RE: Facets功能会加吗?

发布时间:2011-10-14 15:10 t By ixulf

收到,对于web2.0网站预先不知道某个字段的词条取值分布的分组统计应该很有用,如品牌等。

7.RE: 导入日志出错---悲剧

发布时间:2012-11-09 12:11 t By hightman

分组吧,数据太多时间太长 searchd 被 master 进程杀了。

8.RE: Facets功能会加吗?

发布时间:2011-10-14 14:10 t By hightman

Xapian 里对 facets 的功能实现其实并不是很优雅,效率也一般,相当于增加 matchspy ... 如果是为了分组统计建议直接生成要关词条再用 count() 做估算。

9.RE: 请xunsearch用户注意添加相关powered by返链。

发布时间:2013-02-25 15:02 t By stonjohn4

分组吧,数据太多时间太长 searchd 被 master 进程杀了。

  • 时间不限
  • 按相关性排序