呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
[b][size=14pt]SCWS[/size][size=14pt] 简易分词函数[/size][/b] [b][size=4][color=#154ba0]简介[/color][/size][/b] SCWS 是一个简易的分词引擎,它可以将输入的文本字符串根据设定好的选项切割后以数组形式返回每一个词汇。它为中文而编写,支...
全是 /un 应该是词典不工作。这个词库应该是不依赖机器字节序的啊 TXT没有提供下载,但我们提供了PHP的脚本可以将XDB转换成TXT
...定义字典。完全忽略自带的字典。 然后我在字典里面 分词 : 北海365 365 就这两个词。 然后我 搜的时候 是 : 北海365 这时候返回的分词 却只有: 365 “北海”不见了 如果我启动系统自带词典 那么“北海”又...
...衣“,这点我就非常不解了,按照我的理解,依照scws的分词策略,要么就分成”保暖+内衣“,要么就是”保暖内衣“,怎么会有”内衣“和”保暖内衣“呢?你可以把你的分词结果给我看看。
麻烦看下: 例如: 跑马的时候非常的卡 跑马-的-时候-非常-的卡 最后分出来的"的卡"很明显是不正确的,请问下是否有办法解决, 应该是分成"跑马-的-时候-非常-的-卡" 感谢!!![hr] 我找到了楼主原先的一个回复: 建议把这...