感谢hightman,期望尽快可以发布支持php5的extension...:kiss: [[i] 本帖最后由 robin 于 2007-6-9 13:45 编辑 [/i]]
xdb 就是一个自己设计的用来保存常量数据库(基本上只读少改)文件格式,类似 gdbm, cdb 这些格式 xtree 是一个HASH + tree 的内存数据结构,可以方便的和 xdb 进行互换
多谢汇报,根据词典机械分词存在一定的误分率。 因为该词典从互联网信息为主要语料进行取值,故可能存在一些错误,只要将词典中的 年高 词频调低即可。 若不方便改词典可以加一个文本词典,并将 年高 词频减低。
呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性