...rch 可以通过 XSTokenizer 扩展 我想问的是 既然是 集成scws 那么 1.有没有提供scws的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展 [/quote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改...
...为你既是自定义分词器又指定了 non_bool 参与权重计算。 那么 SDK 端先按自定义分词器拆分重新组合成查询语句,发送到 xapian 解析器时由于不是 boolean prefix,因此它又会调用内部切词法再次切割。 简单解决可以将这类词,添加...
...以默认为本地所有ip的8383,8384端口 -------------------------- 那么PC-B,php-sdk中的应用,调用 它怎么知道是哪一台装了xunsearch的? 或者说肿么让B的php-sdk去调用A的xunsearch?
...cws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。 [/quote] 呵呵,管理员没听明白楼主的意思,他希望xunsearch能提供分词接口,...
...进行搜索。比如设置 “xunsearch”与“迅搜”为同义词,那么搜索 xunsearch也会包含迅搜的记录。 2. 增强的搜索查询与匹配,通常像“管理制度”这样的长词将转换成 “管理制度 OR (管理 AND 制度)” 更为合理有效 3. Xapian 将同...
... 导出的TXT格式的顺序并不能说明什么。。。。 [/quote] 那么会在什么环节出了问题呢? 为什么官方的比自己打包的快很多? 非常想知道答案 效率第一 = = 是不是要用 gen_dict.c 创建XDB比较好 还是其他原因?
...引多个词汇。 比如你有一个字段叫 date 存的是 2011-11-07 那么你可以在索引的时候通过 $doc->addTerm('date', '2011'); $doc->addTerm('date', '201111'); 这样就可以通过 date:2011 或 date:201111 检索到这篇文章 [/quote] 谢谢老大的指点,其实我的意...
发贴可以发了,之前为了挡垃圾贴搞错了。 我看你代码用的 dict.xdb 那么为何又用 rules.utf8.ini ?
... scws.php 写错了,所以如果 ini_get('scws.default.charset')是utf-8那么就会按utf-8来, 所以应该 显式的调用 scws_set_charset() $cws = scws_open(); scws_set_charset($cws, "gbk"); scws_set_dict($cws, "./etc/dict.xdb"); scws_add_dict($cws, "./etc/s.txt",SCWS_XDICT_TXT); scws_set_...