在另一帖子中回复您的,我猜测是您的 scws 对像字符集没有正确指出,而 php.ini 默认设为 gbk导致,建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset
[quote='hightman' pid='7092' dateline='1319384262'] 如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb'); [/quote] 是的。这没问题了。是那txt编码问题。不是utf8的话就不行的。 scws我是用utf8。
你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典
...需要set_dict也可以分词 另外这种情况下,set_dict感觉和add_dict一样,我的词典和编译进去的那个词典会一起使用 一些文章带有大量的链接http:// 结果 http com www 这些词 会被放到结果中,要怎么避免?
...径 $cws->set_dict('D:/Program Files/scws/etc/dict.utf8.xdb'); $cws->add_dict(ROOT_PATH."inc/spider/dict_extra.txt", SCWS_XDICT_TXT);//新增词库 $cws->set_ignore(true); //var_dump($cws); //添加中文分词 $cws->send_text($a); dict_extra.txt 已经增加了一行:享鑫...
..._SCWS_SET, XS_CMD_SCWS_SET_DICT, $mode, $fpath); unset($this->_setting['add_dict']); return $this;} 设置分词词典, 支持 TXT/XDB 格式
...如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/download.php 重新下载 [code] ; /path/to/del.txt 民医院 1 1 ! [/code]
... 1. [libscws] scws_set_dict(scws_t s, const char *fpath, int mode); scws_add_dict(scws_t s, const char *fpath, int mode); scws_set_dict 为原有功能,scws_add_dict 是新增功能,2者功能相当接近,只是 scws_set_dict 会把 scws handler 现存的词库表 清空,并设为...
你默认的字符集是 gbk吧?请在 add_dict 前先调用 $so->set_charset('utf8'); 或者直接用 $so = scws_new('utf8');
...一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典 [/quote] 您好,用自定义词库是可以解决但却不是太方便,如果SCWS不能这样的配置,我还是用程序实现顺。因为用自定义词库,我得把所有的钱其它的...