...件的说明,每行一条记录,#开头表示注释,每条记录由 word、TF、IDF、Attr组成,其中TF是词频系数,IDF是逆词频率系数 而Attr是北大标注法的词性,这四个字段之间用\t隔开。 --- hightman 特别制作于 2009.7.1 下载地址:http://ww...
我想问一下,自定义的词典里,只有word,没有其它TF、IDF、Attr可以吗?能生成吗。 因为我试了直接加载TXT的太慢了,想转换成XDB。
a.txt文档内容: # WORD TF IDF ATTR 印第安那 13.30 15.98 ns 印第安那州 12.72 11.56 ns 印第安那波利斯 12.31 12.68 ns [php] $txt = '我名字叫印第安那,我的家乡是印第安那州的印第安那波利斯!'; $so = scws_open(); scws_set_charset($so, 'gbk'); s...
最近在做个项目,用到了分词,找了一下,发现这个,很好. 遇到一个问题, 命令导出xdb到txt,只导出了这个 # WORD TF IDF ATTR 请问这是咋回事
... 1.0 tq ------- Array ( [0] => Array ( [word] => 精武英雄 [off] => 0 [len] => 12 [idf] => 1 [attr] => tf ) ) 字典变了。读出来没变
...的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好多并不是我定义的词语,而且好多还把我定义的词组分解为多个,还想问一下,SCWS最多匹配的词是几个字...
... scws.c 中 __PARSE_XATTR__ 宏的 BUG 导致 scws_get_tops 和 scws_get_words 的 xattr 参数工作不正常的问题 5) 移除 scws.c 中关于 jabberd2s10 的注释,已不包含它的代码 6) 为独立使用的 .h 文件添加 C++ 的 extern "C" 标记以便直接使用:xdb.h,xdict.h,...
...ws_get_tops($sh, 5); print_r($top); [/php] dict.txt的内容为: # WORD TF IDF ATTR 再试一个 1.0 1.0 @ 可结果中并匹配到"再试一个",这是为什么? 另外1.1.7是不是还不能使用scws_free(); 我使用时出现方法不存在的错误: Fatal error: Call t...
...因是怎么产生的。请指点一下。 以下是我的字典定义 # WORD TF IDF ATTR # —————————————————— 2d 50.0 50.0 n 3d 50.0 50.0 n 3G 50.0 50.0 n