...uz,或者能够提供数据库了 能否换种思路把HTML页面的标签也作为字段,那么HTML标签中间的内容也可以检索,这样就很强大了!!呵呵
...键或者键名键值来定义搜索,我在想,能不能定义html的标签,来检索内容 否则的话,百度或者google是怎么去检索那些静态的网页或文档的,可能 那些网页都不是有数据库的!那如何收录?
网址和EMAIL tsearch都可以配置token的切分方法,可以整个切,也可以分开 html标签 tsearch也有一个tag token可以配置去不去徐
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
...是用csws分词的结果,明显csws把email,网址给拆开了,还有标签没有去除,但是中文词是正确的分开了 postgres=# SELECT to_tsvector('zw_simple','pgsql中国社区论坛 http://www.pgsqldb.org:8079 chenaishen@263.net'); ...
...url对应) title为词条的名字(需要能搜索) tag为词条的标签(需要能搜索) content为词条内容(是用body类型) 全用的默认的分词 以上是用在线生成ini生成的。地址http://www.xunsearch.com/tools/iniconfig 2,建立索引,填充数据 cd...
...器功能,因为要预处理数据。因为我不想把内容中的html标签页建立索引,也就是说,搜索不搜索html代码,所以要把内容中的html去除,作为post_content,而post_content_full则保持原有的文章内容,但是不参与索引。 MyBlogFilter.php代码: ...