感谢 七夜 兄的测试和指出,现在已经作了修正。原因是对输入的编码做了二次校正。 改法参见 GIT 仓库,因为输入的数据已经统一转成 UTF-8 了,所以搜索服务端应统一使用 UTF-8 即可。 [url]https://github.com/hightman/xunsearch/commit...
...也碰到同樣的問題,換一台主機依舊有問題 謝謝 ,問題是 638 行 : $rec['value'] = fread($this->fd, $rec['vlen']); 不可能超過 1gb 我有看到 gen_dict.c 但是是有有繁體utf8的 dict.txt 可以讓我自行編輯 麻煩 hightman 大大
今天又出现了,fastrestart无效,restart有效。 怀疑是更新索引造成的,我先检查下代码。
我想请教一个问题,就是我使用的是C版的scws库,函数scws_set_dict和scws_add_dict加载一个大小为58K的txt字典文件的时候出现了递归的堆栈溢出。但是我将该txt字典转换成xdb文件后再次调用,就不会出现该问题了? 但是如果资源使...
...getHotQuery(); // 获取前 6 个总热门搜索词 里面发现有 几个是我不想要的,我就想删除掉 http://www.xunsearch.com/doc/php/guide/util.logger 看了这个文档,发现比较好操作 # 删除 demo 项目中 搜索日志词 word util/Logger.php --del=word demo 这...
...转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻烦提供一个txt格式的词库下载?多谢指教。 p.s. 感谢hightman坛主为开源事业所做出的杰出努力,现在网上发布的种种分词工具,...
...='1369116714'] 没有特别去开进程来修改索引库阿. 我这里只是在数据有更新时才会执行性一次 --rebuild索引, 都是手工来做的. 我们现在的处理方式: 凌晨4:00 固定的去重起xunsearch, 如果没有做, 凌晨4:00多就挂掉。很奇怪,每天都...
词库在 $prefix/etc/dict.utf8.xdb 您用制作好的 scws 词库支替换它即可,词库生成办法要看看 scws 的帮助,此外字符集必须是 UTF-8
是事方便加我QQ勾通或发测试代码给我 16139558 此外您的代码是直接抓取URL然后转换成DOC入库吗?