[quote='benq81' pid='1380' dateline='1351136388'] 我看楼主现在的搜索挺准确的啊,是自己加了分词吗?还是别的办法~ [/quote] 当时给他建议后添加了自定义词汇,药到病除。。。
像蜘蛛爬虫那样去检索指定的网站,把数据存入数据库,然后搜索 [hr] 像 sphider 开源的那个,只不过他没有中文分词
... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支...
哦,那我自定义分词吧,但是单字搜的话,有些还是根据地址搜索的,真心纠结,2的n次幂 -1 的组合,这组合太多了,纠结!谢谢你了[hr] [quote='bigxu' pid='8360' dateline='1405578798'] http://www.xunsearch.com/site/search?q=%E5%8D%95%E5%AD%97+%E5%88%86%...
... C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。 [b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持...