... scws 库没有外部扩展依赖,代码力争简洁高效,针对分词词典组织上做了一些优化。 除分词外,由于分词词库采用的是自行设计的xdb 和 xtree 结构,故本库函数也可以用以 XDB 和 XTree 数据存取(另行介绍)。 [size=3][color=blue][b]1....
... 斯 蒂 芬 [b]罗铭 罗 铭 罗[/b] 大大 大 大 罗 我的自定义词典为: 铭罗 1 0 n 罗铭 1 0 n 我的原意是想分出我的词典中所有的单词:“罗铭” “铭罗”,但加入到自定义词典后,却完全没有了“铭罗”这个词。 问题2...
...的版本为 1.0.0 Release , 该版本稳定可用,而且包含两个文本词典,和转化为 xdb 的工具, 词典编码为 gbk, 将 gbk 转换成 utf8 应该非常简单了, 这里不再细述, 详细情请下载整个软件包以后阅读其中的 README 文件. 最新下载地址: [url=http:...
...直接编辑xdb文件, 只能通过自带的 gen_dict 从文本文件转换词典, 目前尚未提供直接导出的工具(将来可能提供) windows版的php_Scws.dll因缺省编译环境和经验本人未能编译, 以前都是由网友bin友情编译... 如果您的词汇是属于通用的...
...置分词时所用编码 $so->set_charset('utf8'); //设置分词所用词典(此处使用utf8的词典) $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb'); //设置分词所用规则 $so->set_rule('/usr/local/scws/etc/rules.utf8.ini'); //分词前去掉标点符号 $so->set_ignore(false); ...
...这些我也都照做了。 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中 词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2 ...
我刚才用统一的词性生成了一个词典,但同一个文件, 生成的大小怎么不同呢, 第一次: 积分 20.0 20.0 @ 中间我是用一个空格格开的,生成后有4M, 第二次: 积分 20.0 20.0 @ 用的是原dict.xdb导出txt后的格式,生成后有10M, ...
同样问题: 新建的词典如何设置权重 比如:相宜本草 (某化妆品品牌) 被分成: 相宜 本草 我通过词典增加的 “相宜本草” 但是不管用 mydict.txt 文件内容如下: 1 相宜本草 2 雅漾 3 舒护 4 活泉水 # scws -A ...
...3) libscws 增加 scws_fork() 从既有的 scws 实例产生分支并共享词典/规则集,主要用于多线程开发。 4) 新增部分版本的 win32 的 dll 扩展,详见下载页面 [b]scws-1.1.9 发布于 2011-12-26[/b] 2011-12-26: SCWS-1.1.9 Released. 1) 明确使用开源协议 Ne...
...ld\dede\getwen.php on line 5 不加呢,又会分词不成功,貌似是词典的问题,能不能告诉我哪里做错了呢? 忘记说了,我用的编码都是utf8 还有就是如果我用 $so->set_dict('C:/Program Files/scws/etc/dict.xdb'); $so->set_rule('C:/Program Files/scws/etc/rul...