感谢分享~~ 方便一些不能装扩展的用户。 其实可以再包装一些脚本的API,使之用起来跟本地API一样简单
好长时间不写C了,写着有点吃力,所以暂时先把最基本需要的分词及高频词提取写出来了。 后续等有点空时会慢慢实现更多的功能及加入相关脚本。
txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
写了一行脚本,将代码转为 UTF-8 编码的源文件: #!/bin/bash for i in `find ./ -type f |grep -v 'batch' ` ; do iconv $i -f gbk -t utf8 -o ${i}.tmp && mv ${i}.tmp $i ; done
我下载的是最新版php-5.3.x(vc9)http://www.ftphp.com/scws/down/php-5.3.x/php_scws.dll的,为什么加载不成功,开启错误提示了,iis6.0就重启不了了,怎么解决啊?求帮助...
版主您好,我在自定义词表里加了一些数字+字母的词,如pm2.5,101大楼这样。 使用的时候发现无法正常分出来,我看到新版是加了一些强制拆分的功能,但是对自定义词表里的词,也是强制拆分的码?
2011-12-26: SCWS-1.1.9 Released. 1) 明确使用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项,更为合理有效,符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正...
[quote='hightman' pid='8876' dateline='1333164684'] txt词库其实也是转换成XDB再调用的,不用担心性能。 你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛 [/quote] 谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知...
$so->set_dict('D:\php\scws\etc\dict.utf8.xdb'); $so->set_rule('D:\php\scws\etc\rules.utf8.ini'); $so->add_dict('D:\php\www\htdocs\dict_extra.txt', SCWS_XDICT_TXT); hm你好。 上边的代码的确可以自定义词库,现在的scws能否直接把词加入核心词库了啊?比如直接加...
HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...