[quote='seanliu' pid='1661' dateline='1355902543'] 正在为一个案例纠结: 有两张表: 搭配表: //collocation col_id //搭配ID col_title //搭配标题 col_text //搭配说明 商品表: //items item_id //商品ID item_title //商品标题 item_text //商品说明 i...
[quote='hightman' pid='3815' dateline='1288441762'] 你最好直接做一个 输出 phpinfo 的页面,然后再在上面看真正生效的php.ini以及相关配置 extension_dir 等的值 你这个情况多数是路径或PHP.INI位置不对 [/quote] 确实,太谢谢了。输出一下...
文档中写到: [quote]每行一个词,由4个字段组成,字段之间用 \t 或空格分隔: 1) 注释以 # 或 分号开头。 2) 每行由4个字段组成,依次为“词语"(由中文字或[b]3个以下的字母合成[/b]), "TF", "IDF", "词性", 字段时间用空格...
...环境是集成环境wamp) 下面这些我也都照做了。 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中 词典系列:http://www.ftphp.com/scws/down/scws...
...ject', $subject)->setQuery($subject); $docs = $search->search(); 貌似有个问题,就是关键词是一个词的时候搜索出来正常的,关键词是2个或者2个以上的时候,就报错。 另外,那个getTops方法中的第二个参数啥意思?手册上没写明白。词性除...
...录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,希望本着有一纠一的原则。如有汇报,请遵守格式为: 词 原attr 正确attr -------------------------- XXX - - (表示错误或不需要的词,应删...
前300万条好像还速度还不错 第2个300万条明显慢下来了 第3个300万条基本卡住不动,12小时好像才建50万条。 后面还有10个300万条啊,估计是没希望了。
[b]数据记录数:15,419,976 条[/b] 分为2个库,一个库580W,另外一个库就是剩下的。 索引文件大小:第1个库(14.3G) 第2个库:(30.1G) -------------------- [b]服务器配置(这个是在虚拟机下面的配置):[/b] CPU:Intel(R) Xeon(R) CPU E3-12...
...type: text/html; charset=utf-8"); var_dump(SCWS('中文分词解析,我的个神啊')); //中文分词解析 function SCWS($title) { set_time_limit(0); $data = array("data"=>$title,"respond"=>"json","ignore"=>'yes', "multi"=>3); $data = http_build_query($data); $re = web_socket("http://w...
...字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “北海36度”,那么“北海36”是可以成功切分的。 原因就...