在使用scws分词的时候,如果输入40多个“卡”字,最后分出来的那个词少了一个字节,就是说在utf8下原本3字节的一个“卡”字,变成了两个字节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???
[quote='hightman' pid='425' dateline='1326348954'] 限制是按字节来的,不是按字符数量啊。 /** * max length of query string for CMD_QUERY_ */ #define MAX_QUERY_LENGTH 80 [/quote] - -!我知道啊 我的是utf8算完后共占77字节。
从提示信息看您往服务端发送15664字节,但实际只有8192字节发送成功,您是用 util/Indexer 来更新数据吗?也许是 server 端卡住,是否同时运行了多个脚本在并发写入呢?是否方便复现。 这种情况是发生在导入数据的什么 阶段?...
...发送,这引发了大量的send操作,当然应用层做了缓冲1024字节,每次超过1024字节时候才发送,有一定改善效果。但是在xs.php中的search则是每次读取一个字段,从而引发每秒钟数万次读取网络数据的io操作
返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字
...测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整. [/quote] 谢谢您的回复,词典是用README中提供的命令生成的 /usr/local/scws/bin/gen_scws_dict -c gbk -i etc/dict_chs_gbk.txt -o /usr/local/scws/etc/dict_chs_gbk.xdb ...
...描述: [quote]date 日期型,形式为 YYYYmmdd 这样固定的 8 字节,如果没有区间检索或排序需求不建议使用[/quote] 那么, 1. 是否添加文档时日期要以类似于'20111025'这样的字符串形式插入? 2. 我的日期目前是以时间戳的形式储...
[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊,GBK的话单字就是2字节,很好判断啊,UTF-8三字节,但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢!
限制是按字节来的,不是按字符数量啊。 /** * max length of query string for CMD_QUERY_ */ #define MAX_QUERY_LENGTH 80