搜索

大约有 45 项符合查询结果, 库内数据总量为 3,513 项。 (搜索耗时:0.0982秒)

11.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 16:04 t By hightman

就一条记录怎么会有4M?如果文件 已存在生成是不会覆盖的啊 你描述的并不是很清楚,你用的是PHP的工具还是C的转换工具呢?一个.TXT对应转换成一个.XDB

12.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-10 01:04 t By hightman

最长的词16个汉字,250个英文字母。 应该是你的词典做错了,比如字符集不匹配之类。生成词典要严格按照字段区分开,字段之间用区分,这说都有相关的说明,按说明操作应当没有问题。

13.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 13:04 t By lerado

[quote='hightman' pid='3485' dateline='1270715102'] 自定义可以的,但要用工具 转成XDB的话必须四个字段都齐全。 [/quote] 谢谢老大回答,再问一下,那我其它的属性如何才能得到,比如我的word很多,我能都设置一样的属性吗,这样有什...

14.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By lerado

我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...

15.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 15:04 t By hightman

那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...

16.RE: 自定义的 txt 字典 有关问题 求助

发布时间:2010-04-09 17:04 t By lerado

哦,我没有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记...

17.RE: 如何操作日志

发布时间:2011-11-01 11:11 t By kuday

非常感谢,那本周和上周是如何统计呢,是不是会有个跟时间有关的字段呢

18.RE: 分词不对

更新时间:2010-04-30 13:04 t By hightman

呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性

19.RE: windows下怎么使用scws

发布时间:2010-11-15 08:11 t By zdg1980

这个dll和php版本有关,我的php用的最新版5.3版,配置也没有成功。建议官方弄个不依赖dll的。

20.RE: 请问scws分词如何实现优先级

发布时间:2011-05-27 13:05 t By linda0725

我测试了好像仅仅提高tf值不可以的吧?应该跟IDF值有关系吧?

12345
  • 时间不限
  • 按相关性排序