[php] $sh = scws_open(); scws_set_charset($sh, 'gbk'); //scws_add_dict($sh, 'dict.txt', SCWS_XDICT_TXT); scws_set_dict($sh, 'dict.txt', SCWS_XDICT_TXT); //scws_set_rule($sh, 'rules.ini'); $text = "我发现个文字‘再试一个’"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5)...
哦,我没有说清楚,我用的是PHP版的,是一个词典文件,生成两次XDB,每次里面的分格符不同,上面说的。 我还有就是刚才我试了,我用我自定义的词生成词典,用scws_set_dict添加我的词典后(词典中的word TF IDF 都很高的,记...
...存在,像45万就可以,或四十五万 2."当好"在词典中出现并有较高的频率,这可能是错误的,可以修正词典.关于词典的问题有相关文章已经说过了,词库太大,出错不少,校对是长期而困难的
...的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展 [/quote] 目前没有直接支持自定义词典,而是直接读取 dict.utf8.xdb 你自己改词也必须转换成这个词典文件才能用。 词典转换关于SCWS的网站上有。
代码里特殊定义了这些字符不过滤,原因是跟搜索引擎配套开发时,这些字符都有特殊含义用于搜索,所以当时强制没有过滤。 下一版本会纳入,如需自行修改请按以下方式修改: [code] *** scws.c 8 May 2010 17:28:30 -0000 1.17 ...
[quote='etbobhwang' pid='3283' dateline='1248344366'] PHP Fatal error: Allowed memory size of 536870912 bytes exhausted (tried to allocate 1046898225 bytes) in /var/www/html/search/dict/xdb.class.php on line 638 我也碰到同樣的問題,換一台主機依舊有問題 謝謝 ,問題是 638 ...
由于词库太大干扰所致,建议可以附加一个小词典(目的是删除这些无用词汇,以下我写出来作参考,把下面的文字存成dict.txt,然后在原有的set_dict之后加上 scws_add_dict(s, 'path/to/this_ad_dict.txt', SCWS_XDICT_TXT); 这样使文本词典生效. ...
[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
从结果看应该是 scws_set_dict(s, "/usr/local/etc/dict_chs_gbk.xdb", SCWS_XDICT_MEM); 这句话出了问题, 也就是可能词典不正确. 但这个词典目前测试在64位系统下也是可以正常工作的, 检查一下词典的字节数是不是没有下载完整.