...汇 调用 [XSToenizerScws::getTops] 可以简单提取重要词汇,它支持三个参数, 返回的词汇数组元素和分词结果类似,只是把 *off* 替换为 *times* 表示这个词在文本中出现的总次数。 ~~~ [php] $text = '迅搜(xunsearch)是优秀的开源全文检索...
...uct() 构造函数 XSTokenizerScws addDict() 添加分词词典, 支持 TXT/XDB 格式 XSTokenizerScws getResult() 获取分词结果 XSTokenizerScws getTokens() XSTokenizer 接口 XSTokenizerScws getTops() 获取重要词统计结果 XSTokenizerScws getVersio...
...者的程序形成了sqlite的工具了,毕竟sqlite是PHP5开始默认支持的轻量级文本数据库引擎,也是不错的东西(关键是php5环境一般都支持) 附件是用txt生成sqlite词库的程序,用命令行方式运行! php make_sqlite.php dict.sqlite dict.txt 参...
...项切割后以数组形式返回每一个词汇。它为中文而编写,支持 gbk 和 utf-8 字符集,适当的修改词典后也可以支持非中文的多字节语言切词(如日文、韩文等)。除分词外,还提供一个简单的关键词汇统计功能,它内置了一个简单...
...是联库检索吗? 3)xapian一般应该是定时建索引,能否支持实时建?若不能,有无替代办法? 4)有没有pdf,doc,ppt之类的入库工具? 多谢多谢!
...w.xunsearch.com/doc/php/guide/util.logger[/url] 2. 小修改大提升,支持自定义 SCWS 分词词典,文本格式。但旧有索引必须重建,新增的词汇才能生效。 [url]http://www.xunsearch.com/doc/php/guide/index.dict[/url] 3. 其它一些 PHP-SDK 工具和 API的修改...
...成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。 这套程序的开发其实很早就开始做基础工...
..., 每个字段名都是文档的虚拟属性, 可直接赋值或取值, 也支持数组方式访问文档字段. $doc = new XSDocument; $doc->name = 'value'; // 用对象属性方式进行赋值、取值 $doc['name'] = 'value'; // 用数组下标方式进行赋值、取值 $value = $doc->f('name');...
... [b]scws-1.2.0 发布于 2012-3-29[/b] 1) 修改 php 扩展代码以兼容支持 php 5.4.x 2) 修正 php 扩展中 scws_get_tops 的 limit 参数不允许少于 10 的问题 3) libscws 增加 scws_fork() 从既有的 scws 实例产生分支并共享词典/规则集,主要用于多线程开发...
....xunsearch.com/scws][b][size=5][color=#FFA500]2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.xunsearch.com/scws[/color][/size][/b][/url] [url=http://www.xunsearch.com/scws][b]2008/12, scws-1.0.1 发布[/b][/url] [url=http://bbs.xunsearch.com/sho...