...emo/scws/v48.cht.php[/url] 引擎本身不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的繁体数据. [url]http://www.hightman.cn/down/ru...
# mydict_utf8.txt 我是新增词 爆红 再试一个 [php] $text = '最近撑腰体爆红网络我是新增词再试一个'; class scws { public $so; function get_microtime() { list($usec, $sec) = explode(' ', microtime()); return ((float)$usec + (float)$sec); } ...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
...有乱码。是否您的 MYSQL 不支持字符集呢 1.mysql的字符集是UTF8 我连接进去查看 数据都没问题 如果方便自己改一下 Indexer.php 在 $index->update 之前打印一样 $data 的字段。 2.$data 之前的数据中文乱码 您使用哪个方式的 MYSQL 访问方式...
...目录了,也下载了以下三个文件放在D:/PHP/SCWS/里面 dict.utf8.xdb rules.ini rules.utf8.ini rules_cht.utf8.ini 然后在php里也由设置了 [scws] extension=php_scws.dll scws.default.charset=utf8 scws.default.fpath="D:/PHP/scws" 但是在phpinfo()里找不到scws的信息...
...et){ self::$_charset = strtoupper($charset); if (self::$_charset == 'UTF8') { self::$_charset = 'UTF-8'; } return $this;} 设置字符集 默认字符集是 UTF-8, 这是指 getResult 系列函数的 $text 参数的字符集
...et){ $this->_charset = strtoupper($charset); if ($this->_charset == 'UTF8') { $this->_charset = 'UTF-8'; } return $this;} 设置字符集 默认字符集是 UTF-8, 如果您提交的搜索语句和预期得到的搜索结果为其它字符集, 请先设置
...ion getIterator(){ if ($this->_charset !== null && $this->_charset !== 'UTF-8') { $from = $this->_meta === null ? $this->_charset : 'UTF-8'; $to = $this->_meta === null ? 'UTF-8' : $this->_charset; return new ArrayIterator(XS::convert($this->_data, $to, $from)); } retur...
...显式的定义 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是,定义自定义的词典. 看到说1.1.2 支持自定义的 txt 字...
[quote='hightman' pid='7092' dateline='1319384262'] 如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb'); [/quote] 是的。这没问题了。是那txt编码问题。不是utf8的话就不行的。 scws我是用utf8。