[quote='hightman' pid='639' dateline='1331712167'] 那你说的应该是XML数据 源,HTML不好当数据 源吧 [/quote] 呃,H大,我想到的是,Xunsearch既然是出色的全文搜索引擎,那么应该具有的功能是:类似百度或者谷歌的,那么应该优先可以...
[quote='hightman' pid='251' dateline='1322149925'] 不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文...
...个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好...
配置文件作了修改后,测试代码不一定重新生成,但索引必须重建。 从你发的命令看,本身没有任何问题,你说的能成功,第一个不行是什么意思?最好能搭配发出你的INI配置和数据库内的实际内容。
'REQUEST_URI'是地址栏地址 你说的来路是referer[hr] 但是直接输入网址或收藏夹访问,也是来路为空的。 你不能排除有人直接把搜索结果页收藏起来吧?
[quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明有3M多的
...301119'] 支持是支持的,但数字字母最多只支持2位。 你说的情况其实切分成“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 因为项目的实际需要,数字和...
...ine='1284879784'] [quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明...
...打印 $search->query 的值看看实际检索条件 [/quote] 按照你说的 [user_id] type = numeric index = none tokenizer = full $xs = new XS('entry'); $search = $xs->getSearch(); $search->setCharset('utf8'); $search->addRange('user_id',1,20000)->setLimit($page_num,($page-1)*$p...
...89'] 是指a b = a or b ? [/quote] 当然不是这个意思,你说的用 setFuzzy() 就可以实现。 因为分词的关系,有些长词其实可以细分为短词。 比如当一篇文章中包含“管理制度”的时候,它被分为“管理制度”“管理”“制度”...