看了论坛很多帖子,其中不少都是词库没有加载上,却没有加以判断,结果发现分词结果不准确。 其实在scws文档中有这么一句话: [i][b]注:xdict_t 和 rule_t 分别是词典和规则集的指针,可判断其是否为 NULL 来判断加载的成...
...这个就需要用到mysql里面的group by了 不知道xunsearch 现在是否有这个功能,或者未来是否能支持这个功能[hr] 晕死,经过查看api后发现,用setCollapse方法是可以获取的 比如我要 group by a字段$search->setCollapse('a')->search(‘test’) 这样...
...v['idf'], $flag, $v['attr']); 为什么会出现这样的提示? 我txt是这样写的 论坛 13.30 9.61 n 词语越长这种提示越多!
我现在有两台服务器 一台是x.x.x.1 一台是x.x.x.2 我把xunsearch安在了1上,后把1里面的 sdk整个文件夹copy一份到了2上面 然后进入2里面的 sdk/php/app/xx.ini配置一下 (1里面也是xx.ini 但是没有设置server.index和server.search) project.name = xx...
1. 你的词典只有“再试一个”这个词,当然就只有它了 2. scws_new/scws_free 是C 里的函数,在PHP中是 scws_open/scws_close 建议在PHP中用对象方式使用 scws 即 $so = scws_new(); $so->set_charset('gbk'); $so->set_dict(...
TF/IDF值不会导致用不到分词,只是靠在一起时需要消岐才用得到。你自定义词典用不了要查查是什么别的原因。 通常问题: 1.词典写的字符集不对,比如把GBK当UTF-8了 2.词典更新后的修改时间由于某些原因比/tmp目录下生成的临...
PHP-SDK中的app目录下有个ini配置文件,里面有相关的配置信息,把默认为本地所有ip改成A服务器的IP和相对应端口即可 在搜索数据时就会读取ini里的配置文件 我刚接触到这程序,我的理解是这样的 教程里也有相应 的说明
...arset = 'UTF-8'; } return $this;} 设置字符集 默认字符集是 UTF-8, 这是指 getResult 系列函数的 $text 参数的字符集
[quote='hightman' pid='251' dateline='1322149925'] 不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文...
是这样,应为主题表和回帖表里面的字段不一样,索引的相关字段也可能不同。 比如说主题里有id,fid,author,authorid,time,title,body,isdel,ishidden,isreply等等,这些都放到索引里 而回帖表里有tid,author,authorid,time,body,isdel,isUseTools,ishidde...