...做了一个简易的词库,不想要那么多大的词库,为什么我导出词库重新生成之后会出一大堆错误,在make_xdb_file.php以下两行出错。 if ($v['part']) $flag |= 0x02; $data = pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); 我的词库是UTF8的。 ...
...eline='1275724275'] 早期的程序有一小地方判断错误,在结束导出的时候会那样。新的代码都修正了,你从主页上下载最新的那个PHP工具试试 [/quote] 我下载了一个试下,同样出错,我截图[hr] 导出可以,导入就不成了。
还有就是内存的问题,因为我希望在服务器端有个自动生成词库的功能,命令行方式不是很方便。 主要是用机器先自动分词,人工发现不合理,再把新词增加进去。
...己修改添加,但是XDB,这个格式我用了hightman提供的导入导出工具,就像[url=http://www.hightman.cn/bbs/showthread.php?tid=636]本网站的PHP的XDB导入导出工具[/url]里面提到的,我花了一些时间DEBUG后也用不了(导出txt总是内存溢出,而由txt生...
...理词库,使用enum类型设置attr字段,将提供的xdb格式词库导出,发现存在以下非北大标注标准中的词性: 'df','jb','mq','rr','rz','iv','ld','ln','lx','in','jb','jn','qd','qe','uj','un','vi','vq' 这些应该都算是标注不正确的吧 还有最近我经常来...
多谢建议,这样是否还会转换成需要词典导出的功能了呢,呵呵。只是默认的词库过大,导出其实蛮不方便,还是借助命令行比较好。 等1.1.6估计 会加上这个功能 export_dict(); import_dict() 之类的,直接可以把xdb导出为数组或把...
...不一样或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧.(你可以从附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注...
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛