搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

11.RE: 为什么程序消耗的内存越来越大

更新时间：2010-03-04 17:03 t By backluck

...你的监控方式是什么呢？最好能给出较为准确的数据以便判断。 [/quote][hr] 其实代码只是在文档的例子中添加了一个循环。 [quote='hightman' pid='3438' dateline='1267692528'] 是什么版本呢，新的版本应该是没有内存泄露了。越来越...

12.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个字”

发布时间：2010-08-22 00:08 t By hightman

返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字

13.scws_has_word没有得到部分指定词库中的词

更新时间：2011-12-06 16:12 t By michaele

... ，用scws_get_tops分出来的词中有这个词，但是scws_has_word却判断为不包含这个词。但是大部分自定义词库中的词还是能用scws_has_word判断出来，而有些却有不可以，尤其是两个字的短词。为什么呢？我要怎么做？

...得不正确可能导致 item-> 指向 NULL ,　故加入以下红色部分判断． [code] static void _scws_mset_word(scws_t s, int i, int j) { word_t item; item = s->wmap[i][j]; /* hightman.070705: 加入 item == null 判断, 防止超长词(255字以上)unsigned char溢出 */ if ((i...

15.在 Xunsearch 使用 SCWS

... $tops = $tokenizer->getTops($text, 5, 'n,v,vn'); print_r($tops); ~~~ ### 判断是否包含指定词性的词汇这项功能通过 [XSTokenizerScws::hasWord] 完成，主要目的是用于类似黑词判断。您可以自制一个词典，并将黑词统一设置为一个独特的属性，比...

16.RE: 麻烦站长解释一下“透过scws_get_result()取数据时自行排除单个字”

发布时间：2010-09-10 14:09 t By johnbaby

[quote='hightman' pid='3685' dateline='1282406611'] 返回的时候根据长度排除啊，GBK的话单字就是2字节，很好判断啊，UTF-8三字节，但也能判断出是不是一个单个的汉字 [/quote] 原来如此。明白了。非常感谢！

17.RE: 索引到一大半的时候出错退出，有没有办法继续？

发布时间：2011-10-25 10:10 t By tisswb

...来读取，比如每次10000条，就不会出现上面的php错误了。判断是不是某条数据是不是已经存在了，可以根据主键来判断是不是已存在，存在的跳过就可以了。例如： [php]$query = "id:1753"; $docs = $xs->search->search($query); print_r($docs);[/ph...

18.RE: scws_has_word没有得到部分指定词库中的词

更新时间：2011-12-09 11:12 t By michaele

是判断指定词性我自定义词库格式如下：销售什么 1.0 1.0 * 出售什么 1.0 1.0 * 出售各式 1.0 1.0 * 某词 1.0 1.0 * scws_t s=scws_new(); 用下面这个函数可以分出“某词”， scws_get_tops(s,1000,N...

19.xunsearch的几个小小优化

发布时间：2012-09-12 22:09 t By Dull

...h.php?q=%21@@&f=_all&s=relevance 可以测试这个看，可以考虑强行判断，不包含就让搜索词为空，进行相应处理如 if(!preg_match('/([0-9a-z]{2,2})/i')) Header('Location: /'); 3、继续搜索词过滤 AND OR如果位于检索词末端，默认是返回所有结果集...

20.RE: 三个问题需要求教

更新时间：2011-01-17 16:01 t By hightman

...80 行把 attr_un 改为 attr_en 即可，如果需要严格一点可以先判断一下 ch 是否为字母, 如以下： strcpy(wmap[i][i]->attr, SCWS_IS_ALPHA(txt[start-1]) ? attr_en : attr_un); 2. 百分号这个暂时 scws 还没有办法处理，因为 % 号被当作...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索