...__construct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 XSTokenizerScws g...
...注意此 dll 文件仅是分词引擎,并不包括分词规则文件和词典,请从已发布的 scws-pre 版本中提取词典和 rule 文件。
...直接编辑xdb文件, 只能通过自带的 gen_dict 从文本文件转换词典, 目前尚未提供直接导出的工具(将来可能提供) windows版的php_Scws.dll因缺省编译环境和经验本人未能编译, 以前都是由网友bin友情编译... 如果您的词汇是属于通用的...
...差距有多大?xdb格式没有装入内存,只是在分词过程中去词典文件中查找,每一次分词都要read一次磁盘。xdb全部装入内存采用xtree结构存储,28万词典会占用多大的内存?
... scws 库没有外部扩展依赖,代码力争简洁高效,针对分词词典组织上做了一些优化。 除分词外,由于分词词库采用的是自行设计的xdb 和 xtree 结构,故本库函数也可以用以 XDB 和 XTree 数据存取(另行介绍)。 [size=3][color=blue][b]1....
...s][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://www.xunsearch.com/scws][b]2008/12, scws-1.0.1 发布[/b][/url] [url=http://bbs.xunsearch.com/showthread.php?tid=12...
customDict 属性 public string getCustomDict()public void setCustomDict(string $content) 获取自定义词典内容
...急急急急 压缩包中包括以下部分: etc/ - gbk 版本词典和rules.ini libscws/ - scws 库核心代码 phpext/ - php4 扩展代码 (注意必须是 PHP4) src/ - scws 命令行工具 --- 给我发一份吧 邮件:[email]xiaoyong8000@163.com[/email]
...江” 都无效?后者还是会出来带省和浙江的内容。 而词典里 浙江省 ,浙江,省 这几个词条都是存在的, 有没有什么办法让+“合同法” -“省” ,+“合同法” -“市” ,+“合同法” -“县”, 都有效呢