高性能爬虫引擎,
已用于GIF库中,从微博/主流网站抓取图片和点评.
在单核1G内存的服务器上抓取GIF(含下载图片)速度为每小时下载1万条(受带宽影响)。
在单核1G内存的服务器上抓取图片(不下载图片)速度为每小时80万条。
包含线程池、网页去重、历史记录、网页分析、epoll/select异步请求管理、Cookie管理、通用Http请求、异步DNS解析等模块。
#Build
依赖库:
boost_1_57_0 提供智能指针
crypto_5_60 提供加密
libevent-2.0.22-stable 提供异步DNS解析
mpir-2.7.0 提供大数的处理