... scws_set_charset(s, "utf-8"); scws_set_dict(s, "/usr/local/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/etc/rules.utf8.ini"); scws_set_multi(s , 1); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { while (cur != NULL) { printf("Wor...
PSCWS23 词典文件如何制作 xdb导入导出工具导出信息如下 ---------------------------------- # WORD TF IDF ATTR ---------------------------------- 除了表头,一个都没导出。。。。。。
我想问一下,自定义的词典里,只有word,没有其它TF、IDF、Attr可以吗?能生成吗。 因为我试了直接加载TXT的太慢了,想转换成XDB。
...为什么我导出词库重新生成之后会出一大堆错误,在make_xdb_file.php以下两行出错。 if ($v['part']) $flag |= 0x02; $data = pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); 我的词库是UTF8的。 我提供一个导出的附件,高手们能否看看。[hr] ...
我测试过make_xdb_file.php,明显是有错误码的,提示93行处的TF、IDF、Attr不存在,这明显示是:“[b]对分词再分词[/b]”带来的结果,在65行处看到only support GBK dictionary 到80行,这是不参对utf-8字符处理的,不能对中文(中英混合)字...
...立使用的 .h 文件添加 C++ 的 extern "C" 标记以便直接使用:xdb.h,xdict.h,xtree.h,pool.h,darray.h [b]scws-1.1.8 发布于 2011-07-30[/b] 1) win32/目录新增 vc9 工程文件, 默认为 php-5.3.x 提供的 php_scws.dll 采用 VC9(thread-safety) 编译 2) 修改英语专...
...些优化。 除分词外,由于分词词库采用的是自行设计的xdb 和 xtree 结构,故本库函数也可以用以 XDB 和 XTree 数据存取(另行介绍)。 [size=3][color=blue][b]1. 数据类型[/b][/color][/size] (仅列出API中需要关注的部分) ·[b]scws 操作句柄...
...有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记...
...->set_charset('utf8'); $rd = $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); $rr = $so->set_rule('/usr/local/scws/etc/rules.utf8.ini'); //打印返回值 var_dump($rd); var_dump($rr); // $so->set_duality(0); $so->set_ignore(1); $so->set_multi(0); $words = $_GET['words']; //分...
...'); $pscws->set_ignore('yes'); $pscws->set_dict('E:/scws/etc/dict.utf8.xdb'); $pscws->set_rule('E:/scws/etc/rules_cht.utf8.ini'); // 分词调用 send_text() 将待分词的字符串传入, 紧接着循环调用 get_result() 方法取回一系列分好的词 // 直到 get_result() 返回 fa...