http://www.hightman.cn/bbs/showthread.php?tid=712 里面有解释啊
[quote='hightman' pid='4093' dateline='1299644984'] 导出的TXT格式的顺序并不能说明什么。。。。 [/quote] 那么会在什么环节出了问题呢? 为什么官方的比自己打包的快很多? 非常想知道答案 效率第一 = = 是不是要用 gen_dict.c 创建XDB比...
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
问题是,我在现存的词上创建同义词,也不是无效的!!!不得不采用index search 的or 语法
还有,现在自定义了几个词库,分别是9M、7M,24k 看到文档说,这个文件读取后放在临时目录,建议不要太大,但我不知道多大才叫大,可否有个具体数据指导? 另外,这些新词,我通过官方提供的get_tf.php查询了一百个词,...
不明白你说的。同义词是基于分词后的结果制作的。 如果你的索引先前制作,后面再添加自定义词,那么当然无效了。你要重建索引
...condj Thu Jun 24 11:00:20 2010 *************** *** 326,342 **** ch = txt[start]; if (pflag & PFLAG_DIGIT) { ! if (!SCWS_IS_DIGIT(ch)) { // strict must add: !$this->_is_digit(ord($this->txt[$start+1]))) if ((pflag & PFLAG_ADDSYM) || ch != 0x2e || !SCWS_IS...
这个应该没问题吧,我用你们提供的gen_scws_dict 在linux上按照你们给的方法转换的,没有报出错误! 不过后来我将转换后的xdb用你们提供的php dump_xdb_file.php 将其转回发现少了7条。
哦,我没有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记...