目前没有方法,我看只有采集 http://www.ftphp.com/scws/demo/get_tfidf.php 这个地址。 希望可以共享一下
同样问题: 新建的词典如何设置权重 比如:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A ...
就是搜索到结果有20多万条 但是排在前面的并不是权重设定较大的 然后在代码中增加计算权重的日志 发觉只是计算很少的文档权重 那是依据什么排序的呢
...所属的字段 $term string 索引词 $weight float 权重计算缩放比例 {return} XSSearch 返回对象本身以支持串接操作 源码: sdk/php/lib/XSSearch.class.php#L386 (显示) public function addWeight($field, $term, $weight = 1){ return $this->addQueryTe...
...4.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重,或者说是对于歧义的取舍。 TF IDF 具体是指什么? 使用的概率计算公式能阐述下么? 谢谢。
我来复述下我的建议 {title}实际名称 {start}自定义前缀 {end}自定义后缀 入库时候{start}{title}{end}的格式 查询时候根据{start}{end}计算步长,得出最符合需求的结果,需要对search.php做比较多的修改