..._extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() 的参数就为 'gbk' 或默认的不要加上 'utf8'
导出TXT文件顺序是按照XDB里面的排列的 (我觉得导出文件可能有问题) 创建XDB文件是根据 foreach $rec[$k] 里面的数字排序的 那样 XDB和TXT里面的排序完全改变了 目前的情况是我导出TXT在创建XDB 分词速度比之前慢了2倍 这...
...calhost/test --sql="select * from tbl_post" 很大的数据,索引时间可能几分钟。这样,我的mysql数据库会被锁住吗?就是不能读或者写了? 还是单单执行sql语句的时间会锁住?因为这两个时间不一样,执行sql语句时间可能就1秒,而索引...
...P 是 5.1.6 版本确实比较早了,我们只测试了 5.2 5.3, 所以可能存在少量不兼容,建议有可能升到 5.2+,因为从打印 "object id #2" 来看,确实对 __toString 支持存在一些问题。
..._extra.txt 也必须是UTF-8编码 4. 删除词条,因为陈凯歌其实可能是因为人名关系导致切成词,可能会不受词典影响 5. 如果你非要用gbk 源码中 set_charset() 的参数就为 'gbk' 或默认的不要加上 'utf8' [/quote] 我那个演示页面就是直接...
对于能够枚举出来的“1天”、“2天”……可以用自定义词库来解决,但对于如题所示的情况,组合太多,不可能在自定义词库里都枚举出来,所以想问下老大,是否有什么解决方案来达到这个效果?