这是一个网站爬虫,用于练习。还在写着呢。。
Spider.py:各接口
dogSpider.py:主程序
config.py : 配置文件
1、列出网站分类目录,选择进行爬取(目前默认下载第一个板块)
2、根据网站目录,建立相应文件夹 (已完成)
3、根据标题建立相应文件夹并存储页面内的图片及下载的文件,对于合集根据内容分割再次建立文件夹。(合集未处理,目前能下载最后一个种子及所有图片)
4、多线程下载用户所需要下载(未写)
5、Mysql记录已经下载过的链接(未写)
6、更新模式/全部下载模式(未写)
7、BUG以及异常处理(不完整)
8、代码优化(最后)
Python 3X 以上版本运行
所需要的第三方库
urllib bs4
由于一些隐私原因。config.py 等配置文件未透漏 支付宝赞助:[email protected] (1元以上) 转账留言 您的QQ 我会将config 文件发到QQ邮箱