1.修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失. 2.调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 % 3.修改连字符(-)和下划线(_)的规则,当出现在字母单词...
...全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。 [url=http://www.dot66.net/search2.php]http://www.dot66.net/search2.php[/url] 2...
...录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则。如有汇报,请遵守格式为: 词 原attr 正确attr -------------------------- XXX - - (表示错误或不需要的词,应删...
正在为一个案例纠结: 有两张表: 搭配表: //collocation col_id //搭配ID col_title //搭配标题 col_text //搭配说明 商品表: //items item_id //商品ID item_title //商品标题 item_text //商品说明 item_type // 商品类型:上衣、裙子、裤子...
...AGS 4) 改变数字字母单独成词时的规则,当其中同时包含2个连续字母以及2个连续数字时强制拆分。例:原先单独的 iso9001 是整词,新规则切为 iso+9001 而 i9001 则保持不变仍为。这样做更有利于全文检索。 [b]scws-1.1.7 发布于 2011-05...
...type: text/html; charset=utf-8"); var_dump(SCWS('中文分词解析,我的个神啊')); //中文分词解析 function SCWS($title) { set_time_limit(0); $data = array("data"=>$title,"respond"=>"json","ignore"=>'yes', "multi"=>3); $data = http_build_query($data); $re = web_socket("http://w...
...ww.xunsearch.com/demo/search.php?q=%21@@&f=_all&s=relevance 可以测试这个看,可以考虑强行判断,不包含就让搜索词为空,进行相应处理 如 if(!preg_match('/([0-9a-z]{2,2})/i')) Header('Location: /'); 3、继续搜索词过滤 AND OR如果位于检索词末端,默...
具体如下,比如用t进行查询,都是重复1164715这个主键,如下,难道要在索引之前自己排重? ----------------------- 在 667,495 条数据中,大约有 1823 条包含 t ,第 1-10 条,用时:0.4005 秒。 1. OPI保湿底油+护理亮油(T10+T30) #1164715# ...
[b]数据记录数:15,419,976 条[/b] 分为2个库,一个库580W,另外一个库就是剩下的。 索引文件大小:第1个库(14.3G) 第2个库:(30.1G) -------------------- [b]服务器配置(这个是在虚拟机下面的配置):[/b] CPU:Intel(R) Xeon(R) CPU E3-12...
[quote='seanliu' pid='1661' dateline='1355902543'] 正在为一个案例纠结: 有两张表: 搭配表: //collocation col_id //搭配ID col_title //搭配标题 col_text //搭配说明 商品表: //items item_id //商品ID item_title //商品标题 item_text //商品说明 i...