导出TXT文件顺序是按照XDB里面的排列的 (我觉得导出文件可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍 这...
如题,小弟需要一个txt词典,但是不会php,所以希望好心人能够给我一个txt版本的dict.xdb词典,谢谢
...,这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻烦提供一个txt格式的词库下载?多谢指教。 p.s. 感谢hightman坛主为开...
[quote='hightman' pid='4106' dateline='1299821709'] 是不是你创建的XDB文件没有调用相应的optimize方法 ? php里有一个 $xdb->Optimize(); 这是在创建文件后必须调用的,即使不调用,效率也不会像你描述的这么慢吧。 [/quote] 有运行优化函...
..._prime写成了$this->hash_base [/quote] 导出TXT文件顺序是按照XDB里面的排列的 (我觉得导出文件可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创...
...了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果比较差,我们目...
...种种原因的约束所以只能用PSCWS的版本 话说...用官方的xdb比自己创建的xdb快许多...官方那个xdb速度虽然足以...不过没有许多词语...
网址和EMAIL tsearch都可以配置token的切分方法,可以整个切,也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐