现在发现一个问题, 129703在数据库中存在, 129704在数据库中没有, 然后从129705开始有, 这样的自增ID不连续, 难道是不可以完整导入的吗?
...复合分词是对原本是词的长词情况处理的,比如”中国“可以切成”中“+”国“+”中国“ 你的问题必须是 [code] $tk = $tokenizer->setDuality(false)->setIgnore(true)->setMulti(11)->getResult("是一"); [/code] [/quote] 感谢指教,好好学习学...
...一个奇怪的问题,我用官方的词典,里面也有这两个词,可以分出来“内衣”和“保暖内衣”; 但是,当我把其他的词全部去掉,只剩下这两个词时,就只能分出来“保暖内衣了”,这到底是什么情况啊???求答案,很着急...
我用csv进行添加,多个csv文件每次ID都要是连续依次增加吗??用Indexer.php添加第二个时会清空第一次添加的内容吗??csv文件的id序列号重复了可以吗??
...' 运行:SET NAMES 'UTF-8' 报:Unknown character set: 'UTF-8' 这个应该可以 用 show character set 支持的字符集中查吧 至少 我这边 的charset 标示的是 utf8,没有utf-8这个选项
如果你了解scws就会知道它其实对散字也是自动二元处理。 你所谓的一元是一个字一个词?你也可以拓展 XSTokenizer 自己实现分词
...字符。 比如:我有很多Q币,这里Q币你如果设为词,它可以被切出。 再比如:我有很多abc币,如果你设置了abc币为词,它仍然无法切割,会被预处理器先切为 我有很多 + abc + 币
编码问题找到原因,我使用的是PHP5版本,默认执行了这个构造函数 function __construct() { $this->PSCWS4(); } 导致使用的仍是GBK编码,$cws->set_charset('utf8');一下就可以了。 期待帮忙答复一下第二个问题,谢谢老大。
最近在研究PHP扩展的开发,看了一些资料,发现没有一篇文章、一份资料能非常全面的把PHP扩展开发讲明白,hightman写的scws的php扩展非常好,可以分享一下参考了哪些资料,还有经验总结么?
...,update操作会先执行删除操作,然后执行add操作,update也可以的 $index->beginRebuild(); $data = array(); $doc = new XSDocument; $doc->setFileds($data); $index->add($doc); // 这里是结束 $index->endRebuild();