搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

1.RE: 中文分组粗分方法

更新时间：2010-05-29 01:05 t By baobao

谢谢马老师 [ 应该是吧:-）]的及时回复。我在研读代码的时候，看到有段代码注释着，是对半字的处理，并不是很理解，对于文字都是1-4字节的UTF-8存储编码。半字是种什么情况呢？

2.RE: 中文分组粗分方法

发布时间：2010-05-27 11:05 t By hightman

TF就是词频率，也就是这个词在各种语料中出现的机率权重。（越经常出现的越高） IDF是逆词频率，也就是说这个词更重要（因为罕见一些）；具体参见：http://baike.baidu.com/view/1228847.html 并没有很固定的算法，SCWS中的tf/idf均...

3.RE: 中文分组粗分方法

发布时间：2010-05-26 19:05 t By baobao

我用您发布的工具，把字典解压。得出了关于的词的字段 WORD TF IDF ATTR 当机立断 14.01 8.10 i WORD ATTR我都能理解。上贴说的逐字分词后计算权重的时候使用IDF，貌似就是类似基于字典的最大概率方式来定义权重...

4.RE: 中文分组粗分方法

发布时间：2010-05-26 14:05 t By hightman

pscws4和scws大致相同的算法，只是后来pscws4没有再进一步更新了。粗分毕竟只是粗分，要想正式用只用其中一种肯定是不够的。 scws 里面先按逐字把所有可能的词都列出来，建成一个2维表，然后把有岐义的部分拧出来，以其...

5.中文分组粗分方法

发布时间：2010-05-26 12:05 t By baobao

你好Hightman：我是一名大学生，对中文分词很感兴趣。在网上看了很多关于中文分词的课件和论文。词的粗分有几种：最大匹配法最大概率法最短路径法未登录词识别方法等等我下PSCWS4，学习了好久算法，由于个人...

6.XSSearch::setFacets

...h setFacets(mixed $field, bool $exact=false) $field mixed 要进行分组统计的字段或字段组成的数组, 最多同时支持 8 个 $exact bool 是否要求绝对精确搜索, 这会造成较大的系统开销 {return} XSSearch 返回对象本身以支持串接操作 ...

7.RE: Facets功能会加吗？

发布时间：2011-10-14 15:10 t By ixulf

收到，对于web2.0网站预先不知道某个字段的词条取值分布的分组统计应该很有用，如品牌等。

8.RE: 导入日志出错---悲剧

发布时间：2012-11-09 12:11 t By hightman

分组吧，数据太多时间太长 searchd 被 master 进程杀了。

9.RE: Facets功能会加吗？

发布时间：2011-10-14 14:10 t By hightman

Xapian 里对 facets 的功能实现其实并不是很优雅，效率也一般，相当于增加 matchspy ... 如果是为了分组统计建议直接生成要关词条再用 count() 做估算。

10.RE: 请xunsearch用户注意添加相关powered by返链。

发布时间：2013-02-25 15:02 t By stonjohn4

分组吧，数据太多时间太长 searchd 被 master 进程杀了。

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

相关搜索