...码也是用的gbk。 然后我用记事本打开XDB 格式的词典文件dict.xdb,效果如下: XDB"/B ? ?? 悯H@ % G ! ? ! p # Z # ! ? # ? ) ? ! ? ! ! ? % ? ! ? ! ;* # P- # -0 ! ? % ? # ? # 5= # A ! 鰾 ! tG ! bJ ' ㎜ ! 頝 # 稱 ! zT ! dV ! AY '...
...描述定义于 __construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 X...
目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到
scws_set_dict($so, '/dict.utf8.xdb'); scws_set_rule($so, '/rules.utf8.ini'); 问题在这里!!
ubuntu下,我把scws装成php的扩展, php调用时, $so->set_dict(ini_get("scws.default.fpath")."/dict.utf8.xdb",SCWS_XDICT_MEM); 如果去掉SCWS_XDICT_MEM,则分割同样的字符串时间增加, 请教这种模式的原理, apache 以loadmodule跑php,一次页面执行完毕后...
...(-1); } scws_set_charset(s, "gbk"); scws_set_dict(s, "/usr/local/scws/etc/dict.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/scws/etc/rules.ini"); for(i = 0; i < 1000000; i++){ scws_send_text(s, text, strlen(text)); while (res = c...
... 番茄汤(分词OK) 可是结果什么都没显示。 $so->set_dict("d:\test.xdb", "SCWS_XDICT_XDB") 的调用也正常。 不知道哪里出了问题?
...ws->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); $cws->set_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); 再次运行,分词正确了[hr] 不过,又出现了奇怪的问题,我在原来的测试文本后面随便加了两个字母,分词又不对了。我继续增...
... $so = scws_new(); $so->set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->add_dict("/usr/myapp/dict_extra.txt",SCWS_XDICT_TXT); $so->se...
...呢?[hr] 事实上,$hdr['fsize'] = 13245833, 而$fstat['size']就是dict.xdb文件的大小4497408 ,那为什么$hdr['fsize']会等于13245833呢?