老大,你提过的词典太老了,很多词语都没有。我想自己扩充我的词库,但不知道TF/IDF如何获得。 通过你提过的新词生词的TF/IDF计算器(http://www.xunsearch.com/scws/demo/get_tfidf.php) 结果计算出来的大部分内容都是一样的值,而...
老大,你提过的词典太老了,很多词语都没有。我想自己扩充我的词库,但不知道TF/IDF如何获得。 通过你提过的新词生词的TF/IDF计算器(http://www.xunsearch.com/scws/demo/get_tfidf.php) 结果计算出来的大部分内容都是一样的值,而...
function get_tfidf($word, $count) { if ($count < 1000) $count = 21000 - $count * 18; $tf = log($count); $tf = pow($tf, 5) * log(strlen($word)); $tf = log($tf); $idf = log(5000000000/$count); //if ($tf > 13) $idf *= 1.4; return array($...
function get_tfidf($word, $count) { if ($count < 1000) $count = 21000 - $count * 18; $tf = log($count); $tf = pow($tf, 5) * log(strlen($word)); $tf = log($tf); $idf = log(5000000000/$count); //if ($tf > 13) $idf *= 1.4; return array($...
addweight似乎还是不大够 比如实现比较复杂的算法addweight就麻烦些 象http://www.ruanyifeng.com/blog/it/ 里面提到的用户投票算法是实际中应用比较广泛的 专门做个排序字段rank当然也可以 会不会有性能问题 不如系统级别的好吧
你的索引不止包含标题吧。这个匹配度是按 BM25 的算法公式来计算的。 见:[url]http://xapian.org/docs/bm25.html[/url]
...参见:http://baike.baidu.com/view/1228847.html 并没有很固定的算法,SCWS中的tf/idf均经过特殊加工处理了
...~~ 设置排序方式 ----------- 默认情况,搜索结果根据内部算法计算相关度进行排序,采用著名的 `BM25` 算法,这在信息检索概率模型中表现 非常优秀,通常只要使用默认的算法即可。 通过 [XSSearch::setSort] 我们可以指定让搜索结...