我想问一下,自定义的词典里,只有word,没有其它TF、IDF、Attr可以吗?能生成吗。 因为我试了直接加载TXT的太慢了,想转换成XDB。
...ICT_TXT); 这样使文本词典生效. 其中词典格式为 词 tf idf attr (当attr为!表示删除该词) [code] 市廛 1 1 ! 河华 1 1 ! 阳道 1 1 ! 道南路 4 2 nz 小白兔 4 2 n [/code] 以下我是根据你的实例编写的,你可以在理解的基础上自己完善这个扩展词...
...t']) $flag |= 0x02; $data = pack('ffCa3', $v['tf'], $v['idf'], $flag, $v['attr']); 我的词库是UTF8的。 我提供一个导出的附件,高手们能否看看。[hr] 我是利用原词库UTF8的,导出之后,删掉了一部分,重新生成的。
...则集如下: [b]:type = prefix :line = yes :tf = 3.5 :idf = 2.0 :attr = nz :include = chnum1,chnum2 :znum = 1,2,3 百分 百分之[/b] 分词的时候出现以下问题: 词:百分六 识别正确 词:百分六十 识别失败,只能识别出”百分“和”六十“...
最近在做个项目,用到了分词,找了一下,发现这个,很好. 遇到一个问题, 命令导出xdb到txt,只导出了这个 # WORD TF IDF ATTR 请问这是咋回事
... [off] => 0 [len] => 12 [idf] => 1 [attr] => tf ) ) 字典变了。读出来没变
...$sh, 5); print_r($top); [/php] dict.txt的内容为: # WORD TF IDF ATTR 再试一个 1.0 1.0 @ 可结果中并匹配到"再试一个",这是为什么? 另外1.1.7是不是还不能使用scws_free(); 我使用时出现方法不存在的错误: Fatal error: Call to undefined ...
...产生的。请指点一下。 以下是我的字典定义 # WORD TF IDF ATTR # —————————————————— 2d 50.0 50.0 n 3d 50.0 50.0 n 3G 50.0 50.0 n
...示 “词语”,“词频(TF)”,“逆词频率(IDF)”,“词性(ATTR)” - 后面三个字段如果省略依次使用 scws 的默认值 - 特殊词性 `!` 可用于表示删除该词 - 自定义词典优先于内置词典加载和使用,以 # 开头的行为注释 > note: 该功...
...make_xdb_file.php,明显是有错误码的,提示93行处的TF、IDF、Attr不存在,这明显示是:“[b]对分词再分词[/b]”带来的结果,在65行处看到only support GBK dictionary 到80行,这是不参对utf-8字符处理的,不能对中文(中英混合)字符进行mb_su...