呃确实存在,这都跟这个词库有关系,是互联网上整理的词库,像“法上”居然是专有名词而且权重很高。。。 可以考虑删除“法上”这个错误的词,外挂一个文本词典把“法上”标记为删除或设成更低权重及词性
是判断指定词性 我自定义词库格式如下: 销售什么 1.0 1.0 * 出售什么 1.0 1.0 * 出售各式 1.0 1.0 * 某词 1.0 1.0 * scws_t s=scws_new(); 用下面这个函数可以分出“某词”, scws_get_tops(s,1000,N...
有个问题想请教下hightman大大,似乎0.0.1-pre版本的词库增加了词性标注,这对我很有帮助。想请教一下如何把0.0.1-pre版本的dict.xdb转换成txt呢?我找到了您发布的scws-v23里面的mk_txt.php,但是好像和新版本的xdb词库不兼容,能否麻...
建议支持词库里的词可以是纯英文单词,虽然在分词时英文单词可以自动识别切分开,但在关键词提取和非法词过滤时却无法提取出或过滤掉纯英文单词。 比如:我要从一些商品名中提取一些品牌:adidas nike。。。对商品名分词...
...在一块呢? 2. 效果相当好 = > 效果 相 当好 不知道在词库中"相"的词性是什么,这里把"相"和"当"分开,却把"当"和"好"分在一块, 明显不是我们想要的结果.
...或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧.(你可以从附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这...
...或者.xdb文件已损坏所导致的. 我发一份我这边正确导出的词库吧.(你可以从附件处下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这...
...对分词词典组织上做了一些优化。 除分词外,由于分词词库采用的是自行设计的xdb 和 xtree 结构,故本库函数也可以用以 XDB 和 XTree 数据存取(另行介绍)。 [size=3][color=blue][b]1. 数据类型[/b][/color][/size] (仅列出API中需要关注的...