目前没有方法,我看只有采集 http://www.ftphp.com/scws/demo/get_tfidf.php 这个地址。 希望可以共享一下
同样问题: 新建的词典如何设置权重 比如:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A ...
就是搜索到结果有20多万条 但是排在前面的并不是权重设定较大的 然后在代码中增加计算权重的日志 发觉只是计算很少的文档权重 那是依据什么排序的呢
...4.01 8.10 i WORD ATTR我都能理解。 上贴说的逐字分词后 计算权重的时候使用IDF,貌似就是类似基于字典的最大概率方式来定义权重,或者说是对于歧义的取舍。 TF IDF 具体是指什么? 使用的概率计算公式能阐述下么? 谢谢。
我来复述下我的建议 {title}实际名称 {start}自定义前缀 {end}自定义后缀 入库时候{start}{title}{end}的格式 查询时候根据{start}{end}计算步长,得出最符合需求的结果,需要对search.php做比较多的修改
...外,高人同学可以考虑下这几个问题: 1.词性参与权重计算导致的问题挺多,这点是不是考虑规则权重调整一下? 2.可能是考虑性能问题,采取的局部寻优的办法也导致了一些问题,是不是考虑全局寻优,或者长一些范围内寻...