其实在 xunsearch 的世界里,你的情况完全可以这样作。。。。 假设分类字段 catalog ID为 A 下的子分类为 AA,AB,AC ... 那么你给子分类的数据建索引时,加入索引词 A,通过 XSDocument::addTerm 实现。 那么将来搜索 catalog:A 就相当于包...
没有特别去开进程来修改索引库阿. 我这里只是在数据有更新时才会执行性一次 --rebuild索引, 都是手工来做的. 我们现在的处理方式: 凌晨4:00 固定的去重起xunsearch, 如果没有做, 凌晨4:00多就挂掉。很奇怪,每天都这样。。
...进行处理获取自己想要的信息呢? 现在获取返回结果是这样的, a:2:{s:6:"status";s:2:"ok";s:5:"words";a:1:{i:0;a:5:{s:4:"word";s:12:"在线测试";s:3:"off";i:0;s:3:"len";i:12;s:3:"idf";d:8.19999980926513671875;s:4:"attr";s:1:"n";}}} 我如何用php从中提取出分词结...
搜索其实是很快的,只是传输结果集实在是太慢了,个人觉得应该提供另外一种模式:先把要发送的所有记录或者部分记录打包,然后统一分段发送,这样可以减少发送端和接收端的网络io操作次数
但网址和EMAIL如果这样切,也太粗糙了吧。要全部匹配才能检索到,输入 EMAIL 的前段或网址的一部分均检索不到了。 至于消除 HTML 标签,这不应该是分词的事哦
Hi All, 比如我有这样的需求: 对标题的每个字作索引,再对SCWS分词作索引, 如“快乐大本营”,则有[‘快’, ‘乐’, ‘大’, ‘本’, ‘营’, ‘快乐’, ‘大本营’]7种结果, 这种自定义的分词器如何写? 谢谢, 我...
...语; 确认词典中没有这三个单独的词语; 我的应用中这样的词语很多很多,希望能够整词匹配。 我看了 前面的一个帖子,说要修改源代码,请大侠指导一下,怎么修改? 那个文件以及大概的行数, 非常感谢!!!!
...或某种其它方案把你的词库统一生成.XDB文件呀 [/quote] 这样做确实是可以,只是这时候文件就只是一个联系数据库和scws的一个中介,一个很临时的东西。我的意思是想可不可以绕过它。
...文索引记录的时候,需要排除此类,但又会把像"LG集团"这样的例子给漏掉。 2, 百分数会将数字与百分号分离,如5.7% 会分为 5.7+%,我希望的结果是将他们合为一体。有没有办法? 3, GB2312编码中的繁体字不能正常分词,如“家...