这个分词系统虽说是简易的,但是我觉得还是过于强大了 譬如说像我们行业类网站,要分的词不多,屈指可数,也可能就几百个 如果能提供分词方法,和一个自己可以添加的词库就好了 呵呵 谢谢
.../demo/a.php]http://www.ftphp.com/scws/demo/a.php[/url](输入一段文字系统自动给出最合适的分类建议) [size=x-large]-- [color=#DAA520]新增或变动的 API [/color]--[/size] 1. [libscws] scws_set_dict(scws_t s, const char *fpath, int mode); scws_add_dict(scws_t s, const char...
...emo/scws/v48.php]UTF-8版[/url](词库较旧) 目前全部使用 *Unix* 系统下的标准C开发,全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库 (.a或.so形式),在开发和使用上都比较方...
...下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42
...); $so->set_charset('utf8'); // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件 $so->add_dict(ini_get("scws.default.fpath") . '/dict.utf8.xdb'); $so->add_dict("/usr/myapp/dict_extra.txt",SCWS_XDICT_TXT); $so->set_rule(ini_get('s...
...您在数据源中指定了 `table`,那么可以省略 `--sql` 选项,系统自动把该表的数据导入索引库。 > 相当于指定了这样一条 SQL 语句:SELECT * FROM _table_ > > 如果您的数据表过于庞大和复杂,强烈建建议您编写 SQL 语句,仅 SELECT 搜索相...
...下载) 而对于其中的 TF / IDF 则相应的表示该词的词频率系统以及逆词频率(表示词重要性), 你可以参考现有的词造一个系数. 而词性标注请看这篇: http://www.hightman.cn/bbs/showthread.php?tid=42 [/quote] 謝謝 ! 那 TF/IDF 事實上我可以...
...能分库、切割,提升大数据量下的索引速度;该项功能由系统后端自动完成。 - 按字段值的分面搜索功能,常用于各种 WEB2.0、电子商务等相关的站内搜索,[阅读文档](search.facet) - 多字段联合排序功能,习惯了 SQL 的用户往往都...
...) 算法使用C语言编写的链接库,目前仅基于 Unix 族的操作系统,可能必须适当修改才能运行在 Windows 平台中。这套 scws 库没有外部扩展依赖,代码力争简洁高效,针对分词词典组织上做了一些优化。 除分词外,由于分词词库采...
...->update($doc, true);} 添加文档到索引中 特别要注意的是: 系统不会自动检测主键是否冲突, 即便已存在相同主键也会添加进去 参见 update addExdata() 方法 public XSIndex addExdata(string $data, bool $check_file=true) $data string 要...