我在使用scws时遇到以下需求: 原来文本: 转让二手徐工汽车吊,二手16吨吊车,二手25吨吊车 15千克压力机 使用scws分词后: 转让 二手 徐工 汽车吊 , 二手 16 吨 吊车 , 二手 25 吨 吊车 15 千克 压力机 分词非常准确,...
...么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文字分词,实现类似tag这样的功能。其实和引擎关系不大,如果没有这个功能的话...
还是不明白! 你把这段文字用scws切割会有问题吗?如果你这段字是用空格或逗号分隔,那么你可以用 split 这个分词器啊。 搜索的时候搜索任何一个分割后的TAG都可以搜索到。
...楼主的意思,他希望xunsearch能提供分词接口,给其他程序使用。 我们经常会遇到对一篇文章提取tag的操作,如果XS将分词接口给出了那我们就不需要另外的程序进行分词了。 我也希望使用这个功能。
...终以编译失败告终 求哪位大大编译一份共享,代表所有使用PHP5.3.6并爱着scws的朋友谢谢您了 邮箱:939225037@qq.com 如果测试成功将尽自己所能分享出去 ps:附件是现有的官方发布scws在PHP 5.3.6中使用的报错,如果有可以不用重编...
HI 在一个项目中使用到了scws PHP的扩展,感觉scws在分词效率和准确率,以及在返回结果的可用性上,显著高于其它的扩展,想问一下,scws是否可以提供Python的扩展?
...容的分类,采取不同权重设置,而对于一些无分类的内容使用较低权重(不能直接过滤,我希望没分类的内容能搜索到,只是希望排序靠后)。 demo中的案例使用没有问题,在实际开发中,发现没有起作用,估计是配置差别导致...
在使用scws分词的时候,如果输入40多个“卡”字,最后分出来的那个词少了一个字节,就是说在utf8下原本3字节的一个“卡”字,变成了两个字节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???
我想对打断的英文做分词,utf-8,scws可以用么?应该下载哪个版本呢?PSCWS4 说是速度慢,不推荐使用,而PSCWS23 仅支持GBK字符集