不是既有的格式, 是一个 HashTree 结构, 对于 daemon 或长时间运作的建议在使用时指定采用内存数据模式, 会将整个词典文件加载到内存结构中去查询.
[quote='hightman' pid='425' dateline='1326348954'] 限制是按字节来的,不是按字符数量啊。 /** * max length of query string for CMD_QUERY_ */ #define MAX_QUERY_LENGTH 80 [/quote] - -!我知道啊 我的是utf8算完后共占77字节。
很感谢,大致看了版主发布的scws的文件包,很规范,接口和扩展都做的很少,不过就是注释少了点,对我等菜鸟,看的不是很明白!:D 想请问版主一个问题,分词分出来后,怎么选择一个句子的关键词是哪些!
Xapian 里对 facets 的功能实现其实并不是很优雅,效率也一般,相当于增加 matchspy ... 如果是为了分组统计建议直接生成要关词条再用 count() 做估算。
自己做个扫描程序,以文件名为key,内容为body建索引不就好了? xunsearch 本身并不是完整的搜索引擎,它是提供核心组件并附带一些例子