规则倒是可以匹配,rules.utf8.ini没有问题,但dict.utf8.xdb怎么也转换不过来 版主可有什么办法?
...emo/scws/v48.cht.php[/url] 引擎本身不需要更改, 只需要将rules.utf8.ini和dict.utf8.xdb改为繁体的词典即可. 词典制作参见相关代码里的工具 scws-1.0 里包含了词典制作工具. 顺便奉上之前整理制作的繁体数据. [url]http://www.hightman.cn/down/ru...
HI,hightman $cws = new PSCWS4('utf8'); $cws->set_dict('etc/dict.utf8.xdb'); $cws->set_rule('etc/rules.utf8.ini'); $ret = array(); $ret = $cws->get_tops(10,'r,v,p'); echo "No.\tWord\t\t\tAttr\tTimes\tRank\n------------------------------------------------------\n"; $i = 1; foreach ($ret as $...
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
今天又在网站上重新下载了 简体utf8 xdb字典,和make_xdb 等软件,做次操作, xdb->txt 再txt->xdb 就不行了,直接报错! 麻烦版主测试一下,给一个修改字典的方法,谢谢!
...显式的定义 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是,定义自定义的词典. 看到说1.1.2 支持自定义的 txt 字...
...问题最后我试验了.发现.是由于 词库名字错误.. dict.utf8.xdb 的而我市 dict.xdb 这个就不对了.除非你是gbk 的. 还有就是..我在代码上显式的加载词库.所以也导致词库加载失败 ...十分奇怪.. $so->add_dict(ini_get("scws.default.fpath") . '/...
...gb2312的,但是从 scws 主页上下载词典文件有好几个,dict.utf8.xdb,dict.xdb和dict_cht.utf8.xdb,我可以把这几个都装到etc文件夹里么?还有那几个ini文件也是一样的问题。 我已经在php.ini中这样配置了: extension = php_scws.dll scws.default.ch...
$so->set_dict('D:\php\scws\etc\dict.utf8.xdb'); $so->set_rule('D:\php\scws\etc\rules.utf8.ini'); $so->add_dict('D:\php\www\htdocs\dict_extra.txt', SCWS_XDICT_TXT); hm你好。 上边的代码的确可以自定义词库,现在的scws能否直接把词加入核心词库了啊?比如直接加...
...义的放后在。 $scws->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); $scws->add_dict('/path/to/dict.self.txt', SCWS_XDICT_TXT); 那么就是后面的 dict.self.txt 优先查询,如果 dict.self.txt 中不存在相关记录才会往回查 dict.utf8.xdb,反之也一样