...s的api接口,实现短语分词功能 2.是否可以对scws自定义中文词典,方便扩展
[quote]压缩包中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- Notice: src/ 下的 cmd.c 必须先编译 libscws/ 生成 libscws.a 才可...
...他就不会把全角字符这个给去掉 [/quote] 那应该是2者的词典不一样吧。。。你可以试试在不IGNORE的情况 下打印词情。
...例子: “开放下载” 1. 开/放下/载 2. 开放/下载 根据词典中的tdf进行一个运算得出概率而采取最高的那种
你要用自定义词库 编写一个 dict_extra.txt 里面写上每个词,一个一行 然后调用 add_dict 加入词典
...词性就用在取TOP时过滤或标注上。 最好是基于现有的词典去补充,你重建一个的话数据又都没有效果可能会比较差。SCWS主页上有一个TF/IDF计算器,你可以参看一下效果。 http://www.ftphp.com/scws/demo/get_tfidf.php
...词是放在数据库里面(为了方便增删改),如果每次加载词典都要把禁止词写到临时文件,然后添加,觉得有点过于麻烦。是否可以提供添加单个或多个词的函数? [/quote] 现在没有这个需求了,因为我的非法词库里面有英文...
...仔细排查问题在于 scws 分词中。 当采用非内存模式的词典时,返回的查结结果中(word_st)...->flag的属性包含怕 SCWS_WORD_MALLOCED 与 SCWS_ZFLAG_SYMBOL 定义冲突,以至于被当作符号文字从而未能进行正确的人名识别。 现已经修正。详...