我看了那个文档,发现有一种是文件数据源,还有一种是SQL库的数据源 但是纯HTML页面,如何收录或者生成索引? 比如www下面某个文件夹全是html格式的静态页面,这样的情况怎么弄啊?
...an' pid='639' dateline='1331712167'] 那你说的应该是XML数据 源,HTML不好当数据 源吧 [/quote] 呃,H大,我想到的是,Xunsearch既然是出色的全文搜索引擎,那么应该具有的功能是:类似百度或者谷歌的,那么应该优先可以收录HTML页面...
[quote='caixun2002' pid='697' dateline='1333531606'] 额,楼上想做个千度么,那得好好研究呢。 [/quote] 呃,不是千度,而是有大量html的页面,但是没有办法用xunsearch,感觉很遗憾的!
...那得好好研究呢。 [/quote] 呃,不是千度,而是有大量html的页面,但是没有办法用xunsearch,感觉很遗憾的! [/quote] 开个玩笑,不过这个确实不是xunsearch的工作,并且这个做起来很复杂。
...是按主键或者键名键值来定义搜索,我在想,能不能定义html的标签,来检索内容 否则的话,百度或者google是怎么去检索那些静态的网页或文档的,可能 那些网页都不是有数据库的!那如何收录?
自己做个扫描程序,以文件名为key,内容为body建索引不就好了? xunsearch 本身并不是完整的搜索引擎,它是提供核心组件并附带一些例子