我想对打断的英文做分词,utf-8,scws可以用么?应该下载哪个版本呢?PSCWS4 说是速度慢,不推荐使用,而PSCWS23 仅支持GBK字符集
... 输出:求 | 最新 | 的卡 | 怪物 | 方法 输入:这个副本可以单刷也可以组队去打 输出:这个 | 副本 | 可以 | 单刷也 | 可以 | 组队 | 去打 我的期望是:“卡” 和 “单刷” 能被分出来。 求指导,谢谢。
...“,”分隔的,如"23,435,66,6",想要搜索出分类id为6的数据,可以使用自定义分词,用","分隔这样设置字段: [cat_id] index = self tokenizer = split(,) 然后使用字段索引搜索就可以解决问题了; 不过有下面需求的时候我就不知道怎么解决...
分类分词 tokenizer = split(|) 这样的存进文档里,这样可以实现多个分类的 分面查询吗? 之前有篇帖子加 addTerm 或者 以split(|) 分割的2种方法,我试了下,不能解决分面搜索的统计结果! 没办法,又试了下,我结合以split(|) 分...
可以添加对词性的判断,以及词性的权重比,应该可以达到你想要的效果~ 例如:在SCWS分析以上三句词性得到: 你/r 给/v 我/r 买/v 的/uj 衣服/n 你/r 看/v 的/uj 书/n 一/m 件/q 衣服/n 以此可以看出,其中匹配的是 你/r 的/uj 衣服/n ...
刚看到这个分词系统, 很感兴趣, 但是还不太会用, hightman能不能给个比较规范的步骤, 介绍一下怎样在c代码里调用scws的分词功能? 多谢