搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

31.RE: 纯HTML页面如何收录

发布时间：2012-03-14 20:03 t By iqpkeq

[quote='hightman' pid='639' dateline='1331712167'] 那你说的应该是XML数据源，HTML不好当数据源吧 [/quote] 呃，H大，我想到的是，Xunsearch既然是出色的全文搜索引擎，那么应该具有的功能是：类似百度或者谷歌的，那么应该优先可以...

32.RE: 我想使用系统自动的分词功能，可是只看到有接口

发布时间：2011-11-25 09:11 t By limingyao

[quote='hightman' pid='251' dateline='1322149925'] 不是很明白，你说的自动分词？？是什么意思你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯，可能描述不清。我就是想有一段文字，然后根据这段文...

33.RE: 自定义的 txt 字典有关问题求助

发布时间：2010-04-09 17:04 t By lerado

...个词典文件，生成两次XDB，每次里面的分格符不同，上面说的。我还有就是刚才我试了，我用我自定义的词生成词典，用scws_set_dict添加我的词典后（词典中的word TF IDF 都很高的，记性我标记为@），但输出（scws_get_tops)的有好...

34.RE: 搜索问题 subject:测试 pid:2 "第三篇 OR pid:1" 不好使

发布时间：2011-10-21 15:10 t By hightman

配置文件作了修改后，测试代码不一定重新生成，但索引必须重建。从你发的命令看，本身没有任何问题，你说的能成功，第一个不行是什么意思？最好能搭配发出你的INI配置和数据库内的实际内容。

35.RE: 搜索蜘蛛来抓取，导致搜索日志不正常，热门搜索一直是不相关的内容

更新时间：2012-05-11 12:05 t By yunxiaoad2

'REQUEST_URI'是地址栏地址你说的来路是referer[hr] 但是直接输入网址或收藏夹访问，也是来路为空的。你不能排除有人直接把搜索结果页收藏起来吧？

36.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

发布时间：2010-09-19 15:09 t By zfzeng

[quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊，是软件包还是词典，谢谢 [/quote] 刚才又下载试了下，1.1.3的软件包没问题了，但是utf8的字典包还是有问题，下下来只有100多k,网站上标明有3M多的

37.RE: SCWS 能否添加 “中文＋英文”和“中文＋数字”自定义词

发布时间：2012-08-30 20:08 t By xiaofeng

...301119'] 支持是支持的，但数字字母最多只支持2位。你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。像 Q币 QQ空间　这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。因为项目的实际需要，数字和...

38.RE: [2010] SCWS-1.1.3 发布，支持文本词典实现自定义词库啦！！

发布时间：2010-09-22 09:09 t By hightman

...ine='1284879784'] [quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊，是软件包还是词典，谢谢 [/quote] 刚才又下载试了下，1.1.3的软件包没问题了，但是utf8的字典包还是有问题，下下来只有100多k,网站上标明...

...打印 $search->query 的值看看实际检索条件 [/quote] 按照你说的 [user_id] type = numeric index = none tokenizer = full $xs = new XS('entry'); $search = $xs->getSearch(); $search->setCharset('utf8'); $search->addRange('user_id',1,20000)->setLimit($page_num,($page-1)*$p...

40.RE: [预告] xunsearch 下一主版本 1.3.x 主要新增功能

发布时间：2012-01-04 12:01 t By hightman

...89'] 是指a b = a or b ？ [/quote] 当然不是这个意思，你说的用 setFuzzy() 就可以实现。因为分词的关系，有些长词其实可以细分为短词。比如当一篇文章中包含“管理制度”的时候，它被分为“管理制度”“管理”“制度”...

开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索