这个1.1.0版本更新得无声无息的。
已经看到。github.com上的commit了~!
为什么不用 thread safe的方式呢,以后考虑提供多个版本的 建议安装 TS 的 php呀,官网下载时选 thread safe enable 而不是 non-thread safe
自定义词库有些词无效。。 有的是3个以上的,有些是4个以上的,不定。。 ubuntu linux环境,自编译安装 比如顶置的例子我这里是这样的 ; dict_extra.txt 我是新增词 2.0 再试一个 1.0 1.0 @ ; 以下词为删除项 删除 ...
原因在于 FROM_UNIXTIME ... 因为这里也有个 FROM_ ....所以语句转换成 COUNT(*)时解析错了。
$so->set_dict('D:\php\scws\etc\dict.utf8.xdb'); $so->set_rule('D:\php\scws\etc\rules.utf8.ini'); $so->add_dict('D:\php\www\htdocs\dict_extra.txt', SCWS_XDICT_TXT); hm你好。 上边的代码的确可以自定义词库,现在的scws能否直接把词加入核心词库了啊?比如直接加...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
代码里特殊定义了这些字符不过滤,原因是跟搜索引擎配套开发时,这些字符都有特殊含义用于搜索,所以当时强制没有过滤。 下一版本会纳入,如需自行修改请按以下方式修改: [code] *** scws.c 8 May 2010 17:28:30 -0000 1.17 ...
运行环境 windows 2008 32位 IIS7 PHP 5.3.4 VC9 NTS PHP.INI [code] [16-Dec-2010 13:17:41] PHP Warning: PHP Startup: scws: Unable to initialize module Module compiled with build ID=API20090626,TS,VC6 PHP compiled with build ID=API20090626,NTS,VC9 These options need to match in Unk...
HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...