...采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅...
...采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅...
....5 按照官方文档安装和下载词典,用php扩展测试,无法对中文分词,把词典权限设置为777后依旧不行。 还有其他什么要注意的? 例如: [quote]早春装新款2014大码宽松长款韩版蕾丝衫雪纺衫打底衬衫[/quote] 分词结果: [quote]早春...
...rg,"utf-8"); } return $terms; } hightman可以改成这个,那中文一元切分就也可以了 [hr] 建议:目前开放的都是php api,如果能开放c api和c的一些配置就更好了
...明节选] SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。 它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的 切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词...
今天旗下的http://www.anetb.com需要一个支持中文分词的搜索页,原drupal的太烂了, 我的做法是:结合xunsearch实现drupal commerce下的中文搜索 测试页:http://www.anetb.com/tsearch/demo/commerce/search.php , 可输入“奶粉”,我的站准备做这...
[quote='hightman' pid='3722' dateline='1364360180'] 你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ? 如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd [/quote] 我今天升级到1.4.6了,词典在etc/d...
我们一直致力于开源的 xunsearch 中文全文检索和 scws 中文分词开发。 我们一直在努力做得更好,如果您对我们的成果表示认同或对您有所帮助, 我们乐意接受您的捐赠。我们的开源事业离不开您的支持。 [url]http://www.xunsearch...