PSCWS23和scws的词典不一样。目前没有开放的导出代码,那份代码已经过时并停止开发了,不推荐使用
比如“北京er朝阳” 能分出北京和朝阳 变成”北京erty朝阳“,中间有2个以上的半角字符就不行了,只能分出北京,分词终止。 这个是什么原因 用的是php_scws.dll vc9
很感谢,大致看了版主发布的scws的文件包,很规范,接口和扩展都做的很少,不过就是注释少了点,对我等菜鸟,看的不是很明白!:D 想请问版主一个问题,分词分出来后,怎么选择一个句子的关键词是哪些!
.configure --prefix=/usr/local/scws 运行 之后,前面看起来都很正常,最后部分出问题了 ----------------------------- checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sa...
先编译安装 libscws,然后用 --with-scws 指定啊;用整个安装包就不需要这么麻烦
ubuntu13.04是用amd64.iso在虚拟机里安装的 分词几乎都是un 而在另一个32位ubuntu上则正常 字典是完好的的xdb 顺便问下有无txt格式的字典下载,用scws_gen_dict生成不知道行否
...以考虑修改C代码的部分,修改 src/import.h #define DEFAULT_SCWS_MULTI 3 把 3 改为 15 然后重新编译并重建索引就可以了 3. 用自定义分词,自己按字划分
scws总把数词+量词分成名词,如: 一道/n 两个/n 一记/n 能否通过调整数词的tf和idf达到如下的效果: 一/m 道/q 两/m 个/q 或者有其他解决从工具本身解决的办法 ------------------------------------ 我自己尝试调tf-idf都失败了,...