终于找到一个自动分词系统,由于不能确定服务器是否加载这个分词的dll文件 则使用PSCWS4进行使用 可是pscws4类中并没有add_dict函数 我用set_dict设置自己自定义字典.txt文件 一直报错 这个怎么解决 就是加载自定义的txt字典 thank u
...库,(测试用的,只放2个词在词库), 然后对这句话进行分词“我爱喝南瓜汤,番茄汤”进行分词, 希望得到结果 我爱喝(未被分词) 南瓜汤(分词OK) , 番茄汤(分词OK) 可是结果什么都没显示。 $so->set_dict("d:\test.x...
...->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 那么就分词正常. 这个是第一个问题. 第二个问题就是,定义自定义的词典. 看到说1.1.2 支持自定义的 txt 字典.于是我就这样写了 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8....
那个属性对分词效果有一定影响的,TF主要用于词的切分,IDF用于统计,词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可...
...义 电脑 dn dn 就是我自定义的词性。这样我在scws 分词后,程序中可以用来判断。 不知道是否可以目前? 感谢hightman 大哥 提供的那么好用的分词工具。
...et=utf8 scws.default.fpath=/usr/local/scws/etc 而php 是这样 //分词 $so = scws_new(); $so->set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict...
...sr/local/scws/etc => /usr/local/scws/etc [/php] 这是我代码: //分词 $so = scws_new(); $so->set_charset('utf8'); $rd = $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); $rr = $so->set_rule('/usr/local/scws/etc/rules.utf8.ini'); //打印返回值 var_dump($rd); var_dump($rr); ...
...定义字典。完全忽略自带的字典。 然后我在字典里面 分词 : 北海365 365 就这两个词。 然后我 搜的时候 是 : 北海365 这时候返回的分词 却只有: 365 “北海”不见了 如果我启动系统自带词典 那么“北海”又...