...试大 概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取 等场合运用。首次雏形版本发布于 2005 年底。 本系统支持的汉字编码包括 GBK、UTF-8
...改进一些显示效果 - 搜索日志记录时排除具有明显特征的搜索引擎爬虫 版本 1.4.0 (2013-1-22) ---------------------- - 升级整合最新的 xapian-1.2.13、scws-1.2.1 - 新增支持项目自定义词库,[参见文档](index.dict) - 改进网络 IO 读取,优化搜索...
...测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒) 测试...