...word] => 我 [off] => 0 [len] => 2 [idf] => 0 [attr] => un ) [1] => Array ( [word] => 是 [off] => 2 [len] => 2 [idf] => 0 [attr] => un ) [2] ...
想把sogou的一些细胞词库整合到SCWS的词库里,要添加的词很多,不太可能用你提供的WEB查询工具一个个的去查找,怎么设置TF/IDF的值?
... : 0); if ($part) $flag |= 0x02; $data = pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); $xdb->Put($w, $data); $cnt++; } printf("%d Records saved.\n", $cnt); } [color=#FF0000]改后[/color] for ($k = 0; $k < 0x40; $k++) { if (!isset($rec[$k])) continue; $cnt = 0; p...
想做自定义词库的功能。 哪位大侠,是否可以告知, http://www.xunsearch.com/scws/demo/get_tfidf.php 的算法。 谢谢
是你的.txt文件不规范吗,为什么会报不存在['tf'] & ['idf'] 啊 phptool for xdb 有最新版啊,建议下载最新的:http://www.ftphp.com/scws/download.php#xtools
... 例如将“乒乓球拍卖完了”分词后结果为: WORD: 乒/un (IDF = 0.00) WORD: 乓/un (IDF = 0.00) WORD: 球/un (IDF = 0.00) WORD: 拍/un (IDF = 0.00) WORD: 卖/un (IDF = 0.00) WORD: 完/un (IDF = 0.00) WORD: 了/un (IDF = 0.00) 请问:scws分词算法在X86处理器(CPU...
TF/IDF值不会导致用不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临...