很感谢,大致看了版主发布的scws的文件包,很规范,接口和扩展都做的很少,不过就是注释少了点,对我等菜鸟,看的不是很明白!:D 想请问版主一个问题,分词分出来后,怎么选择一个句子的关键词是哪些!
我遇到的问题和你应该一样,我词典里有 内衣和保暖内衣,当我对句子 保暖内衣进行分词的时候,确只分出来 保暖内衣,而丢失了内衣词。请问,有没有人知道怎么解决,在线等待!!
...,然后用xunsearch进行搜索吗?如果可以的话,这个系统要怎么设计呢?希望各位大神赐教。。。。谢谢了。
在使用scws分词的时候,如果输入40多个“卡”字,最后分出来的那个词少了一个字节,就是说在utf8下原本3字节的一个“卡”字,变成了两个字节,形成了一个乱码。在线测试也会出现这种情况,大家怎么解决啊???
程序里面调用set_rule("d:\rule.ini"); 但是就算用从网站下载的rule文件,也还是报“Failed to load the ruleset file”。 怎么回事?
...是 中国人 中国 当要分句子: 我们是中国人 无论怎么设置,都无法分出 我们是中国 我们是 这些词 就是目前是按照词典最长词匹配,更短的词就忽略了。
规则倒是可以匹配,rules.utf8.ini没有问题,但dict.utf8.xdb怎么也转换不过来 版主可有什么办法?
我下了个PSCWS23 代码并成功安装,结果分词只对汉字有效。我用的其中的pscws3分词。 比如我输入“2009年” 分词结果却为“年”。也就是说,它只输出了汉字部分 请问这该怎么解决