$cws = scws_new(); $cws->set_charset('utf8'); $cws->set_rule('D:/Program Files/scws/etc/rules.utf8.ini'); //注意路径 $cws->set_dict('D:/Program Files/scws/etc/dict.utf8.xdb'); $cws->add_dict(ROOT_PATH."inc/spider/dict_extra.txt", SCWS_XDICT_TXT);//新增词库 $cws->set_ignore(tru...
我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_set_rule($sh, './r...
[php] $sh = scws_open(); scws_set_charset($sh, 'gbk'); //scws_add_dict($sh, 'dict.txt', SCWS_XDICT_TXT); scws_set_dict($sh, 'dict.txt', SCWS_XDICT_TXT); //scws_set_rule($sh, 'rules.ini'); $text = "我发现个文字‘再试一个’"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5)...
安装的是SCWS-1.1.3 PHP是5.16的会有影响吗? $cws = scws_new(); $cws->set_charset('gbk'); $cws->set_rule('/usr/local/scws/etc/rules.ini'); $cws->set_dict('/usr/local/scws/etc/dict.xdb'); $cws->send_text('我爱看电影,不知道电影院里有什么?'); 分词的结果竟...
$so->set_dict('D:\php\scws\etc\dict.utf8.xdb'); $so->set_rule('D:\php\scws\etc\rules.utf8.ini'); $so->add_dict('D:\php\www\htdocs\dict_extra.txt', SCWS_XDICT_TXT); hm你好。 上边的代码的确可以自定义词库,现在的scws能否直接把词加入核心词库了啊?比如直接加...
自定义词时候出现问题 词太多apache死了 $sh = scws_open(); scws_set_charset($sh, 'gbk'); //scws_set_dict($sh, 'E:/luxilang/tool/keword/dict.txt'); scws_set_dict($sh, 'E:/luxilang/tool/keword/dict.txt', SCWS_XDICT_TXT); //scws_set_rule($sh, 'E:/luxilang/tool/keword/rules.ini'); $...
比如比如我希望用SCWS能搜索 一个关键词的信息,但是现在虽然内容里面有很多这包含这个词语的信息了, 但是搜索的时候却搜索不到. 应该如何处理呢? 如果是修改rules.ini文件的话,难道是加到[special]这个位置吗???
#include #include int main() { scws_t s; scws_res_t res, cur; char *text = "Hello, 我名字叫李那曲是一个中国人, 我有时买Q币来玩, 我还听说过C#语言"; int i; if (!(s = scws_new())) { printf("error, can't init the scws_t!\n"); ...
...中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- 给我发一份吧 邮件:[email]xiaoyong8000@163.com[/email]
pscws23 没有用到规则集,其词典与 scws 也不通用,代码已经弃用并且不维护了,建议不要用。 scws 中的 rules.ini 就是GBK的,