...; char *text = "测试说明文字"; s = scws_new(); scws_set_charset(s, "utf8"); scws_set_dict(s, "/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_send_text(s, text, strlen(text)); cur = top = scws_get_tops(s, 10, NULL); while (cur != NULL) { printf("WORD: %s, weight:%.2f, times:%d, attr:%.2s\n", cur...
...只打印出里面的数字,中文直接不分词打印,网页编码是utf8 function get_tags_arr($title){ require 'pscws4/pscws4.class.php'; $pscws = new PSCWS4(); $pscws->set_dict('scws/dict.utf8.xdb'); $pscws->set_rule('scws/rules.utf8.ini'); $pscws->set_ignore(true); $pscws->send_te...
...n']); 不可能超過 1gb 我有看到 gen_dict.c 但是是有有繁體utf8的 dict.txt 可以讓我自行編輯 麻煩 hightman 大大 [/quote] 这样的错误可能是运行的平台的字节序不一样或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧...
...ags_arr($title){ require 'pscws4/pscws4.class.php'; $cws = new PSCWS4('utf8'); $cws -> set_charset('utf-8'); $cws->set_dict('dict.utf8.xdb'); $cws->set_rule('pscws4/etc/rules.utf8.ini'); $cws->send_text($title); $words = $cws->get_tops(10); $cws->close(); $tags = array(); foreac...
...har *text = "测试说明文字"; s = scws_new(); scws_set_charset(s, "utf8"); scws_set_dict(s, "/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_send_text(s, text, strlen(text)); cur = top = scws_get_tops(s, 10, NULL); while (cur != NULL) { printf("WORD: %s, weight:%.2f, times:%d, attr:%.2s\n...
...字符不显示 下面是我的测试。 [xxxxxx@www etc]$ scws -r rules.utf8.ini -d dict.utf8.xdb -c utf-8 -I 今天花了12万元啊 今 天花 了 万 元 啊 [xxxxx@www etc]$ scws -v scws (scws-cli/1.1.8: Simpled Chinese Words Segment - Command line usage) 版本1.1.8
... scws_set_charset(s,"utf8"); scws_set_dict(s,argv[1],SCWS_XDICT_XDB); scws_set_rule(s,argv[2]); text = argv[3]; ...
...添加原有的词库 $scws = scws_new(); $scws->set_dict("/path/to/dict.utf8.xdb"); $scws->add_dict("/path/to/dict",SCWS_XDICT_XDB); 这样, 原有的词库有了。。自定义的又没了。。都使用add_dict也不行, 如果手动添加词库, 自定义的就没有了。。 环境: ph...
...情况下会自动搜索 ini(scws.default.fpath) 底下的 dict.xdb/dict.utf8.xdb,如果调用过 add_dict 或 set_dict 则不会再触发该功能,故采用额外词库时原核心词库必须显式地调用才行。 -- [color]新功能用法示例[/color] (php为例) -- 1. 自定义...
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛