... $words, string $dict_file) 从$words数组建立名称为$dict_file的词典,若成功则返回true。$words数组的格式请参考示例,key为词语,value为词频。 这样生成词库,相当有方便,能否也增加一下
...新版 1.3.1 提供了 scws 接口,只要把这些黑词加到自定义词典,并取一个独特的词性,那么就可以用 XSTokenizerScws::hasWord() 的功能来判断是否包含黑词?
[quote='hightman' pid='3715' dateline='1284692742'] 哦可能ecshop用的不是GBK的?你下载的默认应该 是gbk 的词典。 [/quote] 谢谢您,已经搞定了……
...url] 谢谢,我复制一份到这下载吧,自己也能用用:) 对了词典制作其实用PHP脚本也能作,我忘了放出来呵 [/quote] 急求编辑分词库的php脚本啊
...”+“国”+“人” ZALL 则所有文字,ZMAIN只会切出包含在词典中的字。(像那些切完是 /un 词性的字则不在ZMAIN中)
如果你还需要原来的词典,请在 add_dict 前加 set_dict(ini_get('scws.default.fpath').'/dict.utf8.xdb');
...置分词时所用编码 $so->set_charset('utf8'); //设置分词所用词典(此处使用utf8的词典) $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); //设置分词所用规则 $so->set_rule('/usr/local/scws/etc/rules.utf8.ini'); //分词前去掉标点符号 $so->set_ignore(false); ...
来个邪门的方法,把六千常用汉字放进词典,坏处是会给相关性带来干扰 稍微正常的方法,去别的网站收集所有一字歌的汉字,导入,坏处是要记得更新 题外话,nutch默认就是单字索引,但为了单字要牺牲其他,比如最重要的...
...楼主原先的一个回复: 建议把这些要过滤的词新增加文本词典,属性设为 ! 即可。或者自己根据词性直接在取得返回值的时候排除它。。 尝试了下,是可以的!!!多谢