文档中写到: [quote]每行一个词,由4个字段组成,字段之间用 \t 或空格分隔: 1) 注释以 # 或 分号开头。 2) 每行由4个字段组成,依次为“词语"(由中文字或[b]3个以下的字母合成[/b]), "TF", "IDF", "词性", 字段时间用空格...
抱歉,这里没有讲清楚,英文,数字本身不需要设置会自动根据词界切割。 这里说的是那些中英混合的特殊词汇,限制了夹带的字母只能1个或2个字符。 比如:我有很多Q币,这里Q币你如果设为词,它可以被切出。 再比如:我...
我把从XDB词典文件中下载的GBK格式的词典,放在PSCWS23程序的词典文件中作为默认词典,然后我运行PSCWS23程序的demo文件输入内容后检测结果匹配不到。这是什么原因??:huh: 望各位高手不吝赐教,谢谢
不是既有的格式, 是一个 HashTree 结构, 对于 daemon 或长时间运作的建议在使用时指定采用内存数据模式, 会将整个词典文件加载到内存结构中去查询.
目前不行。只能自己生成 scws 的词典并放进 $prefix/etc/dict.utf8.xdb 覆盖 词典可以自己先制作TXT格式在利用SCWs提供的工具转换成XDB格式 [url]http://www.hightman.cn/bbs/showthread.php?tid=712[/url] 这个贴子后面有讲到
...点简单调试一下。 [/quote] 我知道,不能用于PSCWS23里的词典。可用于 SCWS-1.x.x 和 PSCWS4. 但是同样是XDB格式,我想导入导出PSCWS23下的XDB词典又怎么办呢?谢谢你的回答和免费提供学习。[hr] SCWS-1.x.x 和 PSCWS4 的分词词典又不能用...