make_xdb_file.php [color=#FF0000]原[/color] for ($k = 0; $k < 0x40; $k++) { if (!isset($rec[$k])) continue; $cnt = 0; printf("Inserting [%02d/64] ... ", $k); foreach ($rec[$k] as $w => $v) { $flag = (isset($v['tf']) ? 0x01 : 0); if ($part) $flag |= 0x02; $data = pack('ffCa3', ...
...set_charset(s, "utf8"); scws_set_dict(s, "/usr/local/scws/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/scws/etc/rules.utf8.ini"); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { while (cur != NULL) { printf("WORD:...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
... scws_set_charset(s, "gbk"); scws_set_dict(s, "/usr/local/scws/etc/dict.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/scws/etc/rules.ini"); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { while (cur != NULL) { printf("Word: %.*s...
纯PHP编写的xdb词典(SCWS - http://www.ftphp.com/scws 所采用)导入导出工具!! 1. 词典导出:dump_xdb_file.php 在命令行模式下运行 php dump_xdb_file.php [存入的文本文件] 第二参数省略则直接输出到标准输出。 2. 词典生成:make_xdb_f...
是你的.txt文件不规范吗,为什么会报不存在['tf'] & ['idf'] 啊 phptool for xdb 有最新版啊,建议下载最新的:http://www.ftphp.com/scws/download.php#xtools
...更新后的修改时间由于某些原因比/tmp目录下生成的临时xdb还要旧,所以就不会更新。 你查查吧
... 3 舒护 4 活泉水 # scws -A -d /hp/opt/scws/dict/default.utf8.xdb:/home/vanni/scws/mydict.txt -c utf8 "相宜本草洗面奶和雅漾舒护活泉水哪个好" 相宜/a 本草/nz 洗面奶/nz 和/c 雅漾/@ 舒护/@ 活泉水/@ 哪个/r 好/a 雅漾 、舒护、 活泉水 都能...
最近在做个项目,用到了分词,找了一下,发现这个,很好. 遇到一个问题, 命令导出xdb到txt,只导出了这个 # WORD TF IDF ATTR 请问这是咋回事