其实SCWS内部是允许最多2个非中文字符夹杂中文成词的,超过2个的就无效了。 比如”Q币“,”T恤“这种是支持的。像你这么长的编号支持通用性不强。。
这是配置文件 project.name = knowledge project.default_charset = UTF-8 server.index = 192.168.171.22:8383 server.search = 192.168.171.22:8384 [pid] type = id [itemid] [title] index = mixed [content] type=body cutlen=600 [categoryid] index = self [category] index=n...
我在字典里面添加了 "HYC888仪表" 这个词,但是非词的结果却是 "HYC" "888" "仪表" 这三个词语; 确认词典中没有这三个单独的词语; 我的应用中这样的词语很多很多,希望能够整词匹配。 我看了 前面的一个帖子,说要修改...
例如:搜索 “使命” 2个字时,结果很完整。 但 单独搜索 “使” 或者 “命” 时 就没有结果。其他单字搜索情况都差不多,要么结果不完整,要么连查询结果都没有。 请问这是什么情况?
比如 歌曲名称 为 "当" 时限制找不到结果 配置文件名称如下 project.name = digital_music project.default_charset = utf-8 server.index = 8383 server.search = 8384 [music_id] type = id [music_name] type = title index = both [message] type = body cutlen...
这是正常情况,分词的机制决定的。通常讲,搜索单字是不有意义的,一定有这个需求的话需要自己修改分词引擎让它支持拆为单字。 具体看 XSTokenizerScws 这节,可以自行扩展然后通过 setMulti 方法索引单字
...先进行中英文粗分,那时就强行把数字、字母与多字节的汉字拆分开。 只有夹在汉字中间的1~2个数字或字终才被允许和汉字组合,比如“T恤” ”Q币“ 这种。 假设你的词典里有”北海36“,被分的句子是 “北海36度”,那...
小弟想问下,用汉字做主键行不行. 我在建索引的时候用了缓冲区 一共三条数据,我反复建立了两次没报错 查询的时候,一条数据也查出来了两条 [color=#FF0000]同样的数据....[/color] [color=#FF0000]主键也都是一样的汉字[/color] 小弟看文...
昨天弄了一晚上, 因为我是写php的对C语言不熟系,研究了一下源代码,最终功夫不负有心人,成功的避过了中英文混合,使用字典中的词语分词,我用的是 scws-1.2.1.tar.bz2 这个版本,因为不能发附件,如果大家需要联系我: Ema...