开源免费、高性能、多功能、简单易用的全文检索技术方案 !

搜索

大约有 512 项符合查询结果，库内数据总量为 3,513 项。（搜索耗时：0.0063秒）

371.纯HTML页面如何收录

更新时间：2012-03-12 00:03 t By iqpkeq

我看了那个文档，发现有一种是文件数据源，还有一种是SQL库的数据源但是纯HTML页面，如何收录或者生成索引？比如www下面某个文件夹全是html格式的静态页面，这样的情况怎么弄啊？

372.RE: 塔里木河的分词问题

发布时间：2013-06-09 13:06 t By hightman

因为“塔里木河”已经是个完整的词了，再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。

373.RE: 塔里木河的分词问题

发布时间：2013-06-09 13:06 t By hightman

因为“塔里木河”已经是个完整的词了，再细切也是“塔里+木河”。实在有必要可以自定义分词器或想办法将你要的词加入到索引中。

374.RE: 不忽略标点符号

发布时间：2014-09-29 16:09 t By xiaobear

建议做个出入库转换，将 +- 加号减号等数学符号转化为特定罕见中文。如 + -> 枷 - -> 碱然后在建立索引、处理关键字时做个替换，符号转中文在呈现给用户时，也做个替换，中文转符号。

375.RE: -这个符号是否有额外的含义？

发布时间：2012-06-20 15:06 t By jackie.li

建索引的时候 12-99-3有没有做过处理？如果做过处理的话理论上应该搜索的到吧？

376.后面有无计划xunsearch可以做分布式？

发布时间：2013-02-26 17:02 t By kobeng

就是统一的入口，然后同一个索引可以安照文档量分布到不同的子索引中？

377.RE: 纯HTML页面如何收录

发布时间：2012-04-05 10:04 t By hightman

自己做个扫描程序，以文件名为key，内容为body建索引不就好了？ xunsearch 本身并不是完整的搜索引擎，它是提供核心组件并附带一些例子

378.RE: 测试 1500W 数据使用xunsearch一些情况

发布时间：2012-08-30 12:08 t By hightman

加油，为了保证索引更新速度可以考虑５００万一个库

379.RE: 如何支持一个字段存储多个内容

发布时间：2012-06-20 12:06 t By hightman

你可以 XSDocument::addIndex 添加索引内容到某个字段这样搜索结果显示的是“名称A”，但搜索“名称B”一样可以检索到“名称A”

380.XSTokenizer::getTokens

... 待分词的字段值(UTF-8编码) $doc XSDocument 当前相关的索引文档 {return} array 切好的词组成的数组源码: sdk/php/lib/XSTokenizer.class.php#L33 (显示) public function getTokens($value, XSDocument $doc = null); 执行分词并返回词列表