如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb');
... 一个库 多少数据为好呢? 我现在 480W数据 单库 搜索速度非常慢。大概是2-4秒内。 就3个字段索引。 一个ID,标题,内容 有什么好建议吗
[quote='hightman' pid='7092' dateline='1319384262'] 如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb'); [/quote] 是的。这没问题了。是那txt编码问题。不是utf8的话就不行的。 scws我是用utf8。
非常非常非常感谢hightman,按你的建议修改了代码,实测下来,每条结果的权重值仍然会在比较大的范围内变化(可能是缓存)。
麻烦看下: 例如: 跑马的时候非常的卡 跑马-的-时候-非常-的卡 最后分出来的"的卡"很明显是不正确的,请问下是否有办法解决, 应该是分成"跑马-的-时候-非常-的-卡" 感谢!!![hr] 我找到了楼主原先的一个回复: 建议把这...
# mydict_utf8.txt 我是新增词 爆红 再试一个 [php] $text = '最近撑腰体爆红网络我是新增词再试一个'; class scws { public $so; function get_microtime() { list($usec, $sec) = explode(' ', microtime()); return ((float)$usec + (float)$sec); } ...
其实我更应该感谢你,这个程序做的非常棒。我找了很多分词的方案,做得如此精炼的只有这一个。 这个错误造成的coredump 是无法预测的地方,所以非常难定位。
...过程中有一点奇怪的错误,如下: 输入:跑马的时候非常的卡 输出:跑马 | 的 | 时候 | 非常 | 的卡 输入:求最新的卡怪物方法 输出:求 | 最新 | 的卡 | 怪物 | 方法 输入:这个副本可以单刷也可以组队去打 输出:这个...