...so->set_charset('utf8'); $this -> so->set_ignore(1); // $this -> so->add_dict('dict.utf8.xdb'); if($this -> so->add_dict('mydict_utf8.txt', SCWS_XDICT_TXT)) { echo 'ok'; } else { echo 'no'; } $this -> so->set_rule('rules.utf8.ini'); } function word...
... $cws = scws_new(); $cws->set_charset('utf8'); $cws->add_dict(XDB_PATH);//系统默认词库文件地址(xdb格式)[/quote] //$cws->add_dict(XDICT_PATH, SCWS_XDICT_TXT);//我的自定义词库地址 (txt格式) $cws->set_duality(true); $cws->s...
应该是分词词典没有正确加载。 如果你在php.ini中没有正确指定路径的话scws.default.fpath以及字符集 scws.default.charset 你应该在分词代码中明确指定这些 $s->add_dict(); 或 $scws->set_dict(); 还有 $scws->set_charset() 应该在此之前调用
...了一个T吧,那个代码反正我试验是错误的! [php] $cws->add_dict(ini_get("scws.default.fpath").'/dict.xdb'); $cws->add_dict("./dict_extra.txt", SCWS_XDICT_TXT); [/php] 在说说词分词测试: 我的网址:http://sjz.haojishu.com/tools/222.php 官方网址:http://www...
...需要set_dict也可以分词 另外这种情况下,set_dict感觉和add_dict一样,我的词典和编译进去的那个词典会一起使用 一些文章带有大量的链接http:// 结果 http com www 这些词 会被放到结果中,要怎么避免?
..._SCWS_SET, XS_CMD_SCWS_SET_DICT, $mode, $fpath); unset($this->_setting['add_dict']); return $this;} 设置分词词典, 支持 TXT/XDB 格式
... 1. [libscws] scws_set_dict(scws_t s, const char *fpath, int mode); scws_add_dict(scws_t s, const char *fpath, int mode); scws_set_dict 为原有功能,scws_add_dict 是新增功能,2者功能相当接近,只是 scws_set_dict 会把 scws handler 现存的词库表 清空,并设为...
... 1. [libscws] scws_set_dict(scws_t s, const char *fpath, int mode); scws_add_dict(scws_t s, const char *fpath, int mode); scws_set_dict 为原有功能,scws_add_dict 是新增功能,2者功能相当接近,只是 scws_set_dict 会把 scws handler 现存的词库表 清空,并设为...
...径 $cws->set_dict('D:/Program Files/scws/etc/dict.utf8.xdb'); $cws->add_dict(ROOT_PATH."inc/spider/dict_extra.txt", SCWS_XDICT_TXT);//新增词库 $cws->set_ignore(true); //var_dump($cws); //添加中文分词 $cws->send_text($a); dict_extra.txt 已经增加了一行:享鑫...
在另一帖子中回复您的,我猜测是您的 scws 对像字符集没有正确指出,而 php.ini 默认设为 gbk导致,建议显式地指定字符集 $so = scws_new('utf8'); 或在任何 add_dict 之前调用 set_charset