我看了那个文档,发现有一种是文件数据源,还有一种是SQL库的数据源 但是纯HTML页面,如何收录或者生成索引? 比如www下面某个文件夹全是html格式的静态页面,这样的情况怎么弄啊?
因为“塔里木河”已经是个完整的词了,再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。
因为“塔里木河”已经是个完整的词了,再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。
建议做个出入库转换,将 +- 加号减号等数学符号转化为特定罕见中文。 如 + -> 枷 - -> 碱 然后在建立索引、处理关键字时做个替换,符号转中文 在呈现给用户时,也做个替换,中文转符号。
自己做个扫描程序,以文件名为key,内容为body建索引不就好了? xunsearch 本身并不是完整的搜索引擎,它是提供核心组件并附带一些例子
你可以 XSDocument::addIndex 添加索引内容到某个字段 这样搜索结果显示的是“名称A”,但搜索“名称B”一样可以检索到“名称A”
... 待分词的字段值(UTF-8编码) $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组 源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表