[quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下来只有100多k,网站上标明有3M多的
使用的版本是SCWS-1.2.2 我用自己的词库替换了dict.utf8.xdb,然后尝试分词“朝鲜近日播放的一个纪录片中,发现”,发现“纪录片中”在分词结果中丢失了 Array ( [word] => 朝鲜 [off] => 0 [len] => 6 [idf] => 0 [attr] => @ ) Array ( [word] => 近...
代码里特殊定义了这些字符不过滤,原因是跟搜索引擎配套开发时,这些字符都有特殊含义用于搜索,所以当时强制没有过滤。 下一版本会纳入,如需自行修改请按以下方式修改: [code] *** scws.c 8 May 2010 17:28:30 -0000 1.17 ...
版主您好,我在自定义词表里加了一些数字+字母的词,如pm2.5,101大楼这样。 使用的时候发现无法正常分出来,我看到新版是加了一些强制拆分的功能,但是对自定义词表里的词,也是强制拆分的码?
[quote='zfzeng' pid='3723' dateline='1284879784'] [quote='hightman' pid='3722' dateline='1284865451'] 你说的是哪个包解开是空的啊,是软件包还是词典,谢谢 [/quote] 刚才又下载试了下,1.1.3的软件包没问题了,但是utf8的字典包还是有问题,下下...
...在postgresql整合了scws,效果很棒,现在我们自己增加了一些词库,不知道xdb与txt相比,那个效率更高 另外,scws对于中英文分词效果不是很好,即文中的中文分得还可以,但对于页面中的英文部分,包括email,url,host这类处理效果...
比如我在词述中已导入“创业CEO”这个词,但在输入文章的时候,出现的却是: 创业,CEO 如何将这个词合关成一个单独的词汇? 管理员有办法不?
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到
求主! mac os下编译正常,但是无法运行。。。以下是错误日志: PHP Warning: PHP Startup: Unable to load dynamic library '/Applications/AMPPS/php-5.3/lib/extensions/ext/scws.so' - dlopen(/Applications/AMPPS/php-5.3/lib/extensions/ext/scws.so, 9): no suitable image found. Did...