我在本地系统 进行 字典更新。然后上传到FTP 。但是 FTP 里面显示的时间和 服务器显示时间不一样。不仔细还真看不出来这个问题。
哦解决了。 通过HM 的提醒 的确是 文件修改时间没能和 服务器时间一致导致了。不能更新问题 谢谢 HM
在另一帖子中回复您的,我猜测是您的 scws 对像字符集没有正确指出,而 php.ini 默认设为 gbk导致,建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset
[code][/code] 加了。不过出现 [root@beihai365 365search]# php test.php dict content: 哦你呀 武不只 我是谁 精武英雄 1.0 1.0 tq ------- Array ( [0] => Array ( [word] => 精武英雄 [off] => 0 [len] =>...
我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...
赞,不过非常奇怪的是你的TXT文件不是本地文件系统吗,改动后时间戳应该会同步更新的
很简单啊,根据先 add_dict 后生效的原则,你把自定义的放后在。 $scws->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); $scws->add_dict('/path/to/dict.self.txt', SCWS_XDICT_TXT); 那么就是后面的 dict.self.txt 优先查询,如果 dict.self.txt 中不存在...
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
1. 你的词典只有“再试一个”这个词,当然就只有它了 2. scws_new/scws_free 是C 里的函数,在PHP中是 scws_open/scws_close 建议在PHP中用对象方式使用 scws 即 $so = scws_new(); $so->set_charset('gbk'); $so->set_dict(...