..._tops($cws, 5); 当print_r($top)的时候,输出的第一个数组始终是这样的: [0] => Array ( [word] => 奥迪 [times] => 1 [weight] => 9.76000022888 [attr] => nz融 ) attr是什么呢?而且,为什么是乱...
...况时 strace -p 看看 [/quote] 有几次碰到类似的情况,都是死锁在 futex()... 调用,暂时还不能确定是哪儿引起的。建议定期重启子进程吧。 如果是1.3.0已经会自动对子进程进行有效的清理,应该能缓和很多。
大概是下载不全,你用WGET或专门的下载工具下载吧,网页可能超时了就不全。
安装的是SCWS-1.1.3 PHP是5.16的会有影响吗? $cws = scws_new(); $cws->set_charset('gbk'); $cws->set_rule('/usr/local/scws/etc/rules.ini'); $cws->set_dict('/usr/local/scws/etc/dict.xdb'); $cws->send_text('我爱看电影,不知道电影院里有什么?'); 分词的结果竟...
是一次重建, 但是重建过程是没有问题的, 因为一直用的是同样的办法重建很多次都可以。 最近开始重建就无法再增加了。
...定义分词器,格式为 name 或 name(arg) 两种形式,其中 name 是分词器名称,arg 则是传递给分词器构造函数的参数。自定义分词器需要在 lib/ 目录下编写名为 XSTokenizerName 的分词类并实现接口 XSTokenizer,内置支持的分词器有以下几种...
[XSException] ThinkPHP/Extend/Vendor/sdk/php/lib/XS.php(2087): Unknown Internal Error(S#600) 现在又报这个错误 我执行最新的程序后查看了下执行后的日志: 2012-12-10 13:39:13 worker1[17463] new connection (SOCK:7, IP:127.0.0.1, BURST:1) 2012-12-10 13:39:13 worker1[17463] [soc...
这里的idf应该是会变化的吧。 我的意思是,在做全文搜索时,根据用户输入,拆分到词组, 拿这些词组在全文里搜索,这个时候,如果有词组对应的唯一ID,那么就可以通过id关联来查询,而不用like了。 如,一篇文章标题为:...
这个权重分配上 可以由参数定制化。 最基础的当然是共有标签,重复度,当然要剔除很基础的日常词汇,保留分类性的,这个不能简单由前10来实现,比如‘你好’被分词出来,而且频度很高,却不适合做标签的; 有些热门...
最底层的cache其实是操作系统对文件系统的cache,如上所说第一次检索主要吃紧的是磁盘IO,全文检索底部大量的运算,对CPU的要求也必不可少。但在 CACHE HIT之后前2者的压力就小了。 XS是多进程+多线程混合的,每个进程下面...