##这是刚刚学习的一个简单的python入门爬虫程序,主要包含以下内容: ###1、spider_main.py——》python爬虫程序主入口,初始化所有模块,以及调度爬虫任务 ###2、url_manager.py——》url管理器,包括待爬取的url列表和已爬取的url列表,以及判断该url先前是否已经抓取过 ###3、html_downloader.py——》html页面信息下载器,抓取url所在页面的信息 ###4、html_parser.py——》html页面数据解析器,解析当前页面的有效数据以及一些新的url列表 ###5、html_outputer.py——》html页面信息输出器,将爬虫程序抓取的信息输出到一个html页面进行展示
####这个例子还没有进行优化,目前效率比较慢,爬取1000个页面总共耗时403秒,大概7分多钟,后面会慢慢的研究怎么优化提升性能了,慢慢学习!!