...t the scws_t!\n"); exit(-1); } scws_set_charset(s, "utf-8"); scws_set_dict(s, "/usr/local/etc/dict.utf8.xdb", SCWS_XDICT_XDB); scws_set_rule(s, "/usr/local/etc/rules.utf8.ini"); scws_set_multi(s , 1); scws_send_text(s, text, strlen(text)); while (res = cur = scws_get_result(s)) { whil...
...,才能使得这个词不被分开 我看到有用户自定义词典 dict_user.txt 我在里面写了: 米兔车贴 1.0 1.0 ! 但还是被分了 还看到一个stopwords.txt的文件,但将米兔车贴放到里面了也还是会被分 。。。
...呢?[hr] 事实上,$hdr['fsize'] = 13245833, 而$fstat['size']就是dict.xdb文件的大小4497408 ,那为什么$hdr['fsize']会等于13245833呢?
...s/scws.h 2013-07-03 10:38:52.368809435 +0800 @@ -17,6 +17,7 @@ #include "xdict.h" #define SCWS_IGN_SYMBOL 0x01 +#define SCWS_USE_RULE 0x02 // shuying.lee adds it //#define SCWS_SEG_MULTI 0x02 //#define SCWS_XDB_USAGE 0x04 #define SCWS_DEBUG 0x08 @@ -97,6 +98,7 @@ /* set ignore symbol...
...新词典。下载地址: [URL]http://www.ftphp.com/scws/download.php#dict[/URL] 感谢网友 isS 的不断反馈。
词库的字节序原因,你可以在 ppc 处理器上重新用 bin/gen-scws-dict 制作一份词库就可以了。
...ode] 加了。不过出现 [root@beihai365 365search]# php test.php dict content: 哦你呀 武不只 我是谁 精武英雄 1.0 1.0 tq ------- Array ( [0] => Array ( [word] => 精武英雄 [off] => 0 [len] => 12 ...
1. 你的词典只有“再试一个”这个词,当然就只有它了 2. scws_new/scws_free 是C 里的函数,在PHP中是 scws_open/scws_close 建议在PHP中用对象方式使用 scws 即 $so = scws_new(); $so->set_charset('gbk'); $so->set_dict(...
...就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记性我标记为@),但输出(scws_get_tops)的有好多并不是我定义的词语,而且好多还把我定义的词组分解为多个,还想问...
...下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT); 如果您不会制作词典可以从 http://www.ftphp.com/scws/download.php 重新下载 [code] ; /path/to/del.txt 民医院 1 1 ! [/code]