[quote='hightman' pid='7092' dateline='1319384262'] 如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb'); [/quote] 是的。这没问题了。是那txt编码问题。不是utf8的话就不行的。 scws我是用utf8。
...36]本网站的PHP的XDB导入导出工具[/url]作者提供了一个繁体UTF8的,一定要转换为GBK) 注意:: 本程序只支持GBK!!我没有用mbstring进行代码转换的! 如果你是utf8,自己修改程序去吧,也不复杂(utf8的一个汉字是3个字符,记...
自定义词库加载不上,是什么原因呢? $cws = scws_new(); $cws->set_charset('utf8'); $cws->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); $cws->set_dict(BASE_PATH.'admin/data/dict/wo.txt',SCWS_XDICT_TXT);
终于OK了 我在UTF-8演示文件第77行,即“$cws->set_charset('utf8');”这一句后面再补上两句(参考GBK版本): $cws->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); $cws->set_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); 再次运行,分词正确...
...n']); 不可能超過 1gb 我有看到 gen_dict.c 但是是有有繁體utf8的 dict.txt 可以讓我自行編輯 麻煩 hightman 大大
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。 想回應的是自己在合併過程中,碰到的情況。 在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字...
... 扩展) 默认是处理 gbk 编码的文本,如果你的文本是 utf8,则需要修改该程序的第一行,把 define('IS_UTF8_TXT', false); 改为 true php make_xdb_file.php [导入的文本文件] --- 关于文本文件的说明,每行一条记录,#开头表示...
...目录了,也下载了以下三个文件放在D:/PHP/SCWS/里面 dict.utf8.xdb rules.ini rules.utf8.ini rules_cht.utf8.ini 然后在php里也由设置了 [scws] extension=php_scws.dll scws.default.charset=utf8 scws.default.fpath="D:/PHP/scws" 但是在phpinfo()里找不到scws的信息...
我的discuz论坛编码是GBK的,安装的xunsearch1.3.2,并按照手册上建立了索引 etc目录下有个dict.utf8.xdb文件是干嘛的啊?我是不是要传一个GBK的xdb文件啊?
# mydict_utf8.txt 我是新增词 爆红 再试一个 [php] $text = '最近撑腰体爆红网络我是新增词再试一个'; class scws { public $so; function get_microtime() { list($usec, $sec) = explode(' ', microtime()); return ((float)$usec + (float)$sec); } ...