...理词库,使用enum类型设置attr字段,将提供的xdb格式词库导出,发现存在以下非北大标注标准中的词性: 'df','jb','mq','rr','rz','iv','ld','ln','lx','in','jb','jn','qd','qe','uj','un','vi','vq' 这些应该都算是标注不正确的吧 还有最近我经常来...
...生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, 为什么相差这么多呢?
...在是不会php,看看还行,不会写,OTL 我有一堆数据库导出来的xml文件,一个文件里有几十万行的数据这样子,请问一下怎么导入xunsearch啊? 给个例子就好了,我一点也不懂,就不知道往哪个方向找,哪位大神稍微教一下?...
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。 想回應的是自己在合併過程中,碰到的情況。 在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字...
...不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛 [/quote] 谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知道难度如何。因为目前我的词库可能每天都有新的加进去。 PS:我是个有洁癖...
...过自带的 gen_dict 从文本文件转换词典, 目前尚未提供直接导出的工具(将来可能提供) windows版的php_Scws.dll因缺省编译环境和经验本人未能编译, 以前都是由网友bin友情编译... 如果您的词汇是属于通用的词汇, 您可以将词表发到...
...2) 为 #define strcasecmp(s1, s2) stricmp(s1, s2) 4、scws.h中,加入导出修饰符 /* api: init the scws handler */ scws_t __declspec(dllexport) scws_new(); void __declspec(dllexport) scws_free(scws_t s); /* fork instance for multi-threaded usage, but they shared the dict/rules */ scws_...