搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

发布时间：2010-04-09 16:04 t By hightman

就一条记录怎么会有4M？如果文件已存在生成是不会覆盖的啊你描述的并不是很清楚，你用的是PHP的工具还是C的转换工具呢？一个.TXT对应转换成一个.XDB

发布时间：2010-04-10 01:04 t By hightman

最长的词16个汉字，250个英文字母。应该是你的词典做错了，比如字符集不匹配之类。生成词典要严格按照字段区分开，字段之间用区分，这说都有相关的说明，按说明操作应当没有问题。

发布时间：2010-04-09 13:04 t By lerado

[quote='hightman' pid='3485' dateline='1270715102'] 自定义可以的，但要用工具转成XDB的话必须四个字段都齐全。 [/quote] 谢谢老大回答，再问一下，那我其它的属性如何才能得到，比如我的word很多，我能都设置一样的属性吗，这样有什...

发布时间：2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典，但同一个文件，生成的大小怎么不同呢，第一次：积分 20.0 20.0 @ 中间我是用一个空格格开的，生成后有4M，第二次：积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式，生成后有10M， ...

发布时间：2010-04-09 15:04 t By hightman

那个属性对分词效果有一定影响的，TF主要用于词的切分，IDF用于统计，词性就用在取TOP时过滤或标注上。最好是基于现有的词典去补充，你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器，你可...

发布时间：2010-04-09 17:04 t By lerado

哦，我没有说清楚，我用的是PHP版的，是一个词典文件，生成两次XDB，每次里面的分格符不同，上面说的。我还有就是刚才我试了，我用我自定义的词生成词典，用scws_set_dict添加我的词典后（词典中的word TF IDF 都很高的，记...

发布时间：2011-11-01 11:11 t By kuday

非常感谢,那本周和上周是如何统计呢,是不是会有个跟时间有关的字段呢

更新时间：2010-04-30 13:04 t By hightman

呃确实存在，这都跟这个词库有关系，是互联网上整理的词库，像“法上”居然是专有名词而且权重很高。。。可以考虑删除“法上”这个错误的词，外挂一个文本词典把“法上”标记为删除或设成更低权重及词性

发布时间：2010-11-15 08:11 t By zdg1980

这个dll和php版本有关，我的php用的最新版5.3版，配置也没有成功。建议官方弄个不依赖dll的。

发布时间：2011-05-27 13:05 t By linda0725

我测试了好像仅仅提高tf值不可以的吧？应该跟IDF值有关系吧？