...话,是不是“人们”“人家”“人民”全都要过滤了??这样肯定不合适,所以建议直接根据词性过滤吧。这些无意义的词词性通常可以确定的!
...示DB has been rebuilding,我换了服务器版本(包括目录)也是这样。 现在我只能使用--stop-rebuild来建索引,然后手动mv db.re db,没办法正常重建,不知道使用什么办法解除这个问题。 谢谢[hr]
版主您好,我在自定义词表里加了一些数字+字母的词,如pm2.5,101大楼这样。 使用的时候发现无法正常分出来,我看到新版是加了一些强制拆分的功能,但是对自定义词表里的词,也是强制拆分的码?
...“斯巴鲁+WRX”并不会有多大问题吧。 像 Q币 QQ空间 这样的都是可以支持成词的。 [/quote] 感谢hightman 的回复。 因为项目的实际需要,数字和字母超位2位的情况会很多,请问下:“最多只支持2位” 这种限制是在 /etc/rules...
...之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. 其中词典格式为 词 tf idf attr (当attr为!表示删除该词) [code] 市廛 1 1 ! 河华 1 1 ! 阳道 1 1 ! 道南路 4 2 nz 小白兔 4 2 n [/code] 以下我是根据你的实例编...
...功,第一个不行。 util/Quest.php demo "subject:小弟 OR pid:49" 这样也不行。 能不能,给个示例说一下,怎么弄。 项目配置文件做了修改,需要从新生成测试代码吗?
你这样不是过滤蜘蛛,是“通过代码中的域名访问时,可以记录log”,但从你2小时未记录log来看,似乎用户后者搜索引擎能通过别的域名访问你的网站 比如,你在代码中配置的是www.xxxx.com,而蜘蛛通过无www的域名访问 过滤...
...懂。。[hr] http://icms.changsha.cn/search/search.php 更新代码是这样写的,$data构建较长,省略了 // 创建文档对象 $doc = new XSDocument; $doc->setFields($data); if ($isnewdoc) { ...
...记录。 2. 增强的搜索查询与匹配,通常像“管理制度”这样的长词将转换成 “管理制度 OR (管理 AND 制度)” 更为合理有效 3. Xapian 将同步升级至 1.2.8 4. 优化 searchd 子进程的定期、定量清理功能,防止内存泄露和其它不稳定...