...谢 Hightman 问题已经解决 呵呵 第一次在linux使用你的分词系统 很兴奋 ^_^
我安装SCWS-1.1.1已经php扩展scws.so 查看版本却是(Module version:0.0.3, Library version:1.0.4),并非1.1.1 win环境安装php扩展版本是(Module version:0.0.4, Library version:1.1.1) 分词结果完全不同,请问怎么回事
...生的词库对‘阿斯顿发斯蒂芬罗铭罗大大罗’这段话进行分词 其中结果为: 阿斯顿 阿斯 斯顿 阿 斯 顿 发 斯蒂芬 斯蒂 蒂芬 斯 蒂 芬 [b]罗铭罗 罗铭 铭罗[/b] 罗 铭 罗 大大 大 大 罗 [复合分词选项] 最短词 二元 重要单字 ...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。 $sh = scws_open(); scws_set_charset($sh, 'utf8'); scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT); scws_...
...ws,我用php 的 dl() 函数测试是否可以调用。这个可以,但分词结果不对,猜测是词库调用的原因,但我把xdb放到php同目录下或者调用/usr/local/scws/etc/下的词库,都得到scws_set_dict(): supplied argument is not a valid scws handler resource。这是...
...在源码里处理的? 如果要修改,使其支持更大长度的分词,该从哪里入手呢? 麻烦了!
...ftphp网站上要求,在自己的服务器上配置SCWS,但始终无法分词。 我需要的是utf8编码的。 测试文件在gbk下好使,应该如何改成utf8格式的? 请教管理员,我该如何操作。 :huh: [/quote] 你要注意的是 一些文件里面的 编码设置
... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持...
...了一天了实在找不出原因,求高手解答....有朋友说是没分词库,安装包中不是有scws包? 这个是什么原因在线等