那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
基本上会保证在相对前面,但内部用BM25计算的,如果有些文章包含的词次数更多可能会在前面吧。 最好给出例子和实际页面。
1.没有记录,不能直接调,系统只记录了一部分干净的词用于统计热门搜索、拼音建议 2.search.log是一个交换文件,系统定时取走更新入 log_db,不必理它。
[specials] 里面配置吗 我加了P++ 可以 搞成“65Mn”就不行 还是要单独设置个规则吗? 谢谢 hightman 同学
[quote='hightman' pid='3622' dateline='1278485881'] 目前没有这个内置选项,建议在透过scws_get_result()取数据时自行排除... [/quote] 建议在透过scws_get_result()取数据时自行排除... 不是很理解啊。麻烦站长解释一下啊。
现决定将 scws-1.0.x 划为 ftphp 子项目, 建立一个项目主页, 地址为: http://www.ftphp.com/scws/ 本论坛为辅助论坛, 继续使用中...
ini配置不对吧,你放心的用 $doc->from 取值吧,会自动转的
[quote='hightman' pid='3543' dateline='1273739877'] 下载包中的 scws-1.1.2.tar.bz2 或下载中的 rules.tgz 均为最新 [/quote] 已经更新了:D
本来按照Hightman的说明。我的文件放置的结构是这样的: “etc”:放置“自定义词典” 我的网站的目录结构是这样: [code]www【根目录】 |---mySite【子目录】 |---include【子目录】 |---使用分词功能的页面.php...