... 我已经将文件存为ANSI形式了,编码的问题解决了。 可是,我发现分词不了。请看结果: Array ( [0] => Array ( [word] => 我 [off] => 0 [len] => 2 [idf] => 0 [attr] => un ) ...
... 我已经将文件存为ANSI形式了,编码的问题解决了。 可是,我发现分词不了。请看结果: Array ( [0] => Array ( [word] => 我 [off] => 0 [len] => 2 [idf] => 0 [attr] => un ) ...
...的骨架代码后,对应的项目配置文件(ini)中的搜索服务端是怎么写的呢 server.search = ??? 是否在后面多了空格,如果是本地建议省去。 会提示 permission denied 通常是因为连接的是 unix socket 而非 TCP连接,所以最好你也检查一下你的...
数据库有一张article表。编码是gbk_chinese_ci,配置文件article.ini中我设置如下: project.name = article project.default_charset = UTF-8 [aid] type = id [title] type = both [smalltitle] type = string [copyfrom] type = string [totalhit] type = string [keywords] type = string ...
使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...
[quote='hightman' pid='639' dateline='1331712167'] 那你说的应该是XML数据 源,HTML不好当数据 源吧 [/quote] 呃,H大,我想到的是,Xunsearch既然是出色的全文搜索引擎,那么应该具有的功能是:类似百度或者谷歌的,那么应该优先可以...
....89 6.26 nz 文学 14.89 3.91 n 二列为词频,三列为词重,可是词频与词重是怎么计算的,单位是什么,词重是什么含义呢?为什么相同的词频,词重会有差别,如表中“新浪” 词重为6.26 还有,在实际应用中,是不是不用管词频...
你可以用debug那个调试一下,看看怎么回事!/usr/local/xunsearch/sdk/php/util/XSDataSource.class.php
...756194'] 我用IE8在您的网址试了非常多次的强制刷新,MS都是正常的。但用FF确实不正确(而且是一直不正确)。。。 我猜到原因所在了,你提交的是GET方法,FF自动在URL中显示汉字,所以可能导致传输编码出现问题。。。 [/quote...
...码上有 flush () 强行刷新缓冲区。不过伙使用了。效果还是一样。偶尔得偶尔不得。 但。我单独开个php文件。单独使用了 scws的demo代码。就没问题。 恳求大家胡帮助。十分感谢