我说您写错的实例是说的,您添加自定义词库那里,您多写了一个t,[hr] 您说的我都检查了,没有错,但是就是分词不对,我下的都是您最新版本的,您自己看看是不是词库提供错了呢?分词真的不对。
麻烦看下: 例如: 跑马的时候非常的卡 跑马-的-时候-非常-的卡 最后分出来的"的卡"很明显是不正确的,请问下是否有办法解决, 应该是分成"跑马-的-时候-非常-的-卡" 感谢!!![hr] 我找到了楼主原先的一个回复: 建议把这...
index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行 这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...
index=self时,split分词器会执行,但是index=mixed时,split分词器就不会执行 这是怎么回事? 这是我字段内容 1=2&3=1&4=3-------------- 这是字段配置 [userinfo] tokenizer = split(&) type = string index = mixed 搜索1=2 分词器不执行,搜索userinfo:1=2 分词器才会...
scws分词时出现这样的情况,英文字母与数字组合分词时,若词的前面或后面有标点符号,则英文字母和数字将会被拆分开,不知道是什么原因?有没有解决的办法? ./scws -c utf8 -i mp3 mp3 +--[scws(scws-cli/1.2.2)]----------+ | TextLen: 3...
安装scwc后,可以进行分词,但返回格式里没有对应词的id,这样我就不能拿词id查询对应的文字id 难道我还要拿分词再查找对应的词库来获取id?这样就太慢了,估计不是这样做的,不知道大家怎么解决这个问题的。 [php] Array ( ...
...ghtman' pid='251' dateline='1322149925'] 不是很明白,你说的自动分词??是什么意思 你在配置文件中不要指定 tokenizer 选项就会自动使用 SCWS 分词了。 [/quote] 嗯,可能描述不清。 我就是想有一段文字,然后根据这段文字分词,...
...用开源协议 New BSD License 发布新版本 2) 深度优化复合分词中的 SCWS_MULTISHORT 选项,更为合理有效,符合全文检索的需求 3) 测试脚本自动加载当前目录下的 dict_user.txt 文本词典 4) 修正 scws.c 中 __PARSE_XATTR__ 宏的 BUG 导致 scws...