我现在的需求是需要建个内网的搜索引擎,包括网页的抓取,搜索等,就是没有现有的数据。请问能够用Heritrix爬虫抓取网页保存到mysql,然后用xunsearch进行搜索吗?如果可以的话,这个系统要怎么设计呢?希望各位大神赐教。...
...据库中是时间戳(int型,需要排序),按文档中使用numeric,搜索出来结果sendtime是乱码,不知道是什么原因。 添加索引后发现一个问题,不能立即搜索,大概要隔10秒左右,如果立即搜索会出来None of database之类的错误。[hr] 由于网...
hightman 辛苦~ 第一时间升级到最新版了。我有一个疑问,找了一些文档,没有找到相当的说明,希望你有时间能帮我解答一下。 现在自定义分词,是不是只能在索引的时候进行,我的项目中需要对内容进行自动分词,用于生...
各位达人们,请问xs的英文模糊匹配怎么做?之前好像也有人发过贴,就是类似mysql like的效果,但是没有回复。 我自己曾尝试过几个做法,但都失败了 1. 利用xs自带的scws,这个英文明显是根据空格分词的,所以达不到效果 2...
测试了下100万数据时Xunsearch的性能,包括建立索引时间、搜索速度、索引大小。 建立索引时间: 每1万条数据花费时间约为4.14分钟; 搜索速度:100万数据搜索速度在0.5秒左右; 索引大小:索引大小大约为数据大小的3.5倍...
测试了下100万数据时Xunsearch的性能,包括建立索引时间、搜索速度、索引大小。 建立索引时间: 每1万条数据花费时间约为4.14分钟; 搜索速度:100万数据搜索速度在0.5秒左右; 索引大小:索引大小大约为数据大小的3.5倍...
...个最新稳定版本。 [b]主要更新如下:[/b] 1. 增加基于搜索服务端的 XSTokenizerScws 便于直接使用 SCWS 的分词功能, 而不再需要额外安装其 php 扩展,用法详见 SCWS专题文档 [url]http://www.xunsearch.com/doc/php/guide/special.scws[/url] 2. 升...
[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
[quote='hightman' pid='7299' dateline='1397182457'] ini配置不对吧,你放心的用 $doc->from 取值吧,会自动转的 [/quote] ini文件: project.name = pin_115_gjh project.default_charset = UTF-8 [id] type = id [name] type = title [create_time] type = numeric [enterprise_id] type =...
...时间 [endtime] type = numeric [/php] 不知道为什么,难道搜索引擎必须具备两个字符才能去搜索么。 搜索组成的$query = "康 |||3335696|||" 部分数据如下:[php] 3650 goods_id:3797845 cat_id:|||002000000000000000000000000000|||00209200000000000000000...