搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

发布时间：2011-11-07 13:11 t By hightman

...有GDB，可以试一下在GDB环境下面启动？对于 stop 失败的情况你可以试试用 faststop 这样会对子进程强行发送 KILL 信号

更新时间：2012-03-12 00:03 t By iqpkeq

我看了那个文档，发现有一种是文件数据源，还有一种是SQL库的数据源但是纯HTML页面，如何收录或者生成索引？比如www下面某个文件夹全是html格式的静态页面，这样的情况怎么弄啊？

发布时间：2012-03-07 10:03 t By hightman

不是很明白你的情况。你的意思是缺少什么函数了？我们缺还是你缺少还是什么？

发布时间：2014-04-22 15:04 t By zhoutian

在使用scws分词的时候，如果输入40多个“卡”字，最后分出来的那个词少了一个字节，就是说在utf8下原本3字节的一个“卡”字，变成了两个字节，形成了一个乱码。在线测试也会出现这种情况，大家怎么解决啊？？？

发布时间：2013-12-24 13:12 t By anzm2005

我试了下目前的多粒度分词，有一种情况不能实现比如词典里有：我们是中国人我们是中国我们是中国人中国当要分句子：我们是中国人无论怎么设置，都无法分出我们是中国我们是这些词就是目前是...

发布时间：2011-11-16 11:11 t By hightman

这个要考虑一些用户没有安装MBSTRING扩展的情况。像你这样你可以考虑自己拓展一个 Tokenizer 类，然后根据自己需要生成 tokens 就可以了。二元分词并不是直接分成N长的若干段，而是 ABCD => AB + BC + CD 你的作法会把 ABCD => AB+CD ...

发布时间：2012-02-20 16:02 t By hightman

refused说明服务端连不上，是不是你的服务端绑定的情况不对？netstat -an | grep 8383 看看？

发布时间：2012-02-24 17:02 t By hightman

应该可以啊，你完整的情况是什么，可能是不带WHERE导致的？

更新时间：2010-05-29 01:05 t By baobao

谢谢马老师 [ 应该是吧:-）]的及时回复。我在研读代码的时候，看到有段代码注释着，是对半字的处理，并不是很理解，对于文字都是1-4字节的UTF-8存储编码。半字是种什么情况呢？

发布时间：2011-10-28 13:10 t By hightman

谢谢。不过字段数目前要突破就会出现很多不兼容的情况。这个要慎重处理呢。