... 默认内置了功能强大的 [SCWS][1] 分词系统,也附加提供了一些简单常见的分词规则, 但考虑到用户的个性需求,特意提供了自定义分词器的功能。 > note: 自定义分词器存在一个缺陷,它不支持存储位置信息,也就是不能按短语...
...ch 本身并不是完整的搜索引擎,它是提供核心组件并附带一些例子 [/quote] 如果是页面结构相似的网页,像H大这样做更好。
这个问题依然存在,还是没有解决。 今天的情况更严重了一些,fastrestart、restart、stop均无法重启或关闭服务,只能手动杀进程。
...tid=69][img]http://www.hightman.cn/bbs/images/common/back.gif[/img][/url] 一些主要的数据结构,借鉴了jabberd2吧, [/quote] 不可能吧,只有一个 pool.c 是参考了 jabberd2 的,不过它写的比较复杂,我自己重新做了一个简化版,函数名还保留用了它的...
非常棒啊~期望能尽早看到开放~~ (PS:顺便求内测包~)[hr] 测试了一下,感觉可以加上一些统计的功能就更好了.比如chart方式展示搜索量啊,搜索热门度之类的数据~
...高) IDF是逆词频率,也就是说这个词更重要(因为罕见一些);具体参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均经过特殊加工处理了
多谢建议。这个部分要做得精准的话其实是比较尖端的,SCWS分词后有提供一些热门词排序,如果简单归结为标签也是不妥的,我觉得需要有标签库进行匹配和比对。