终于找到一个自动分词系统,由于不能确定服务器是否加载这个分词的dll文件 则使用PSCWS4进行使用 可是pscws4类中并没有add_dict函数 我用set_dict设置自己自定义字典.txt文件 一直报错 这个怎么解决 就是加载自定义的txt字典 thank u
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
...->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是,定义自定义的词典. 看到说1.1.2 支持自定义的 txt 字典.于是我就这样写了 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8....
...et=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict...
使用的是scws-1.2.1 对“有空间”这个句子进行分词,理想的结果应该是“有空 空间” 但实际结果是“有空 间” 即使通过scws_add_dict()添加了自定义的txt字典(里面只包含“空间 11.82 12.38”一行),仍然分不出“空间”这个词。...