搜索 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

发布时间：2012-03-09 10:03 t By hightman

自己改代码吧，在记录日志的时候排除来路为搜索引擎的。

更新时间：2014-05-19 20:05 t By skyang2009

...过？[hr] 这个漏洞非常严重，比如试试这个，直接把搜索引擎里面的所有数据都抓出来了！！ http://www.xunsearch.com/demo/search.php?q=%EF%BC%81&f=_all&s=relevance

更新时间：2013-01-10 16:01 t By hightman

...[/url](由 ben 移植) 它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词，因为词是汉语的基本语素单位，而书写的时候不像英语会在词之间用空格分开，所以如何准确快速的分词一直是中文分词...

发布时间：2011-11-25 09:11 t By limingyao

...然后根据这段文字分词，实现类似tag这样的功能。其实和引擎关系不大，如果没有这个功能的话，只有去另外安装。。比较麻烦

发布时间：2014-12-25 10:12 t By hightman

这是正常情况，分词的机制决定的。通常讲，搜索单字是不有意义的，一定有这个需求的话需要自己修改分词引擎让它支持拆为单字。具体看 XSTokenizerScws 这节，可以自行扩展然后通过 setMulti 方法索引单字

发布时间：2010-05-31 09:05 t By 燧人氏

...“人家”“人民”是要全部去掉的。毕竟我们不是做搜索引擎，这类词根本没有什么特殊意义。比如说　“到”　这个可以组成很多词的　得到，做到，想到，跑到，到达…… 过滤的词新增加文本词典，我要一个个词组去过...

发布时间：2011-10-28 16:10 t By ixulf

...支持时，可以对不同方案灵活处理，版本升级，相同的主引擎和客户端升级一下好了，不然不同的方案可能需要制作不同的升级版本。 xapian的document,query等对象有serialise及unserialise方法,c++和xapian 的binding交互觉得应该没有问题（...

更新时间：2010-12-10 15:12 t By lauxinz

...要经常频繁的进行分词操作就应该采用mem方式，比如搜索引擎的建索引时主要耗费的时间都花费在分词上，反正现在内存也便宜，而且词典不算太大。如果程序偶尔才需要分一下词，那就没必要load到内存里了。

发布时间：2012-05-11 08:05 t By yunxiaoad2

...录log”，但从你2小时未记录log来看，似乎用户后者搜索引擎能通过别的域名访问你的网站比如，你在代码中配置的是www.xxxx.com，而蜘蛛通过无www的域名访问过滤蜘蛛应该用user_agent

更新时间：2012-05-11 01:05 t By Mr.

...T_URI'],'你的域名')) $this->logQuery();[/php] 即可过滤所有搜索引擎访问查询时自动写入搜索日志记录！~！我不清楚REQUEST的结果是不是大小写、。。。。如果不放心可以用stripos() 必须说明一下身为程序员应该顾虑一些效率问题 ...