在使用scws分词的时候,如果输入40多个“卡”字,最后分出来的那个词少了一个字节,就是说在utf8下原本3字节的一个“卡”字,变成了两个字节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???
版本 scws-1.1.7 环境 ubuntu ./scws -h 其中 -M use multi child words mode(�й���->�й�+��+�й���) [attachment=35]
理论上讲,正确的xdb文件是不会有你说的这种异常的。但出于全面考虑,即使一切都正确也有可能受到信号中断等 其它异常的干扰。
辛苦你了。其实早先我在detbian机器上碰到过segment fault,但没有仔细追查到问题代码,看来看去感觉都没问题, 更主要的是在 REDHAT,FREEBSD 上却都正确,后来试图把 MMAP 去掉居然都正确了,然后我就误以为是 DEBIAN上的 MMAP有问题...
en,不过很杯具,我发现我昨天打的PATCH里面 *((char *)value + [color=red]len[/color]) = '\0'; 应为 *((char *)value + [color=green]rec.value.len[/color]) = '\0'; 其实这句也有点多此一举,并不是十分必要:(,反而弄错了,有个朋友说他1.1.4总是不对...