...SCWS目前只能做成这样? 目前我企图将抓取后的内容剔除全部不可分词要素之后在交给SCWS。但是,发现似乎总是会漏掉一些,或者有一些东西是未知的不可分词要素干扰,导致无法正确分词。 请教Hightman究竟该如何完成这一...
现在网页上下载的已经全部统一为GBK编码了,目前测试在MACOS下面不会乱码了。看抓图
...也不一样,我该如何来建立索引呢? 我如果把所有的表全部合并到一个表中提交到索引库中,这样会显得有点乱? 还是我为每一个表,建立一个项目? 有什么好的解决方案? 谢谢[hr]
我也想让它一次性全部返还记录集,但是当结果记录集超过100的时候,一次只能取出从偏移开始的前100条记录,求高手赐教
...强制指定DB库来测试一下呢? [/quote] 原來的數據已經全部被折騰壞了,現在正在重新生成索引。
xs-import 才是真正同步导入的进程,不要杀死。写入索引时占用CPU确实很高,这是正常的。 PHP 脚本上显示的完成只是将你的数据全部保存到缓存区,并不是真正写入到索引数据库中。
“人们”“人家”“人民”是要全部去掉的。毕竟我们不是做搜索引擎,这类词根本没有什么特殊意义。 比如说 “到” 这个可以组成很多词的 得到,做到,想到,跑到,到达…… 过滤的词新增加文本词典,我要一个个...
...即通过 rules.ini 自动识别出来的词有可能超过 255 字,如全部连续的双字节数字或字母.超过 255 字后 这里的 j 将变得不正确可能导致 item-> 指向 NULL , 故加入以下红色部分判断. [code] static void _scws_mset_word(scws_t s, int i, int j) ...
从6月15日起,旧的数据索引全部无法正常检索到,但是索引文件正常,查看 db_a 目录下面的文件如下: [img]http://v2.freep.cn/110_3tb_140616103040wm9q512293.jpg[/img] 新的數據加入後,重新生成了新的索引文件,也只能檢索新的數據, db ...