GithubHelp home page GithubHelp logo

tklltkioc / git_spider Goto Github PK

View Code? Open in Web Editor NEW

This project forked from srx-2000/spider_collection

0.0 1.0 0.0 40.78 MB

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装

Python 100.00%

git_spider's Introduction

Git-爬虫

这个库主要用来装一些平时用来学习或者搞着玩的爬虫,目前有用Scrapy框架写的,也有用BeautifulSoup+requests写的,未来可能还会有涉及到java等其他语言的爬虫代码。

目前库存项目有:

1.b站相关

1.1 一个B站视频爬取spider(Scrapy+you-get)

1.2 一个B站视频封面提取器(requests+json+re+parsel+os+yaml+Threading)

2.知乎相关

2.1 一个知乎问答多线程爬虫(requests+json+re+threading)

3.微博相关

3.1 一个微博个人信息爬虫(requests+os+parsel+threading+re+random+time+json+pandas)

4.刚需相关

4.1 一个xvideos视频爬虫(requests+scrapy+json+parsel+cookiejar+threading)

5.其他类型

5.1 一个安居客武汉租房信息爬虫+数据清洗+分析+数据可视化(requests+pandas+parsel+matplotlib)

5.2 一个有声小说音频爬虫(requests+os+parsel+threading+mongodb+re)

5.3 一个网易云音乐的歌单下载程序(BeautifulSoup+request)

5.4 一个壁纸网站的爬图spider(Scrapy)

5.5 一个答案网的学习强国的答案spider+结果文档(Scrapy)

欢迎大家在issue中提出一些好玩的爬虫想法,我会根据情况去尝试实现并及时通知的才不是因为莫得灵感了,同时也欢迎大家提出宝贵的意见。

star可以持续追更呦

fork可以一起做有意思的东西呦

代理池

  1. 这个库里所有的爬虫都是使用的这个项目提供的代理池,强烈安利大家去star,大佬们维护的这个项目非常棒,提供了一个十分可靠得代理池接口,调用方便,搭建简单,如果有需求可以自己组一个服务器,把这个项目放到上面24小时更新代理呦~,一起来感受白嫖的快乐~~

  2. 上面大佬们已经给出了十分方便的方便调用的代理接口,而我自己又根据自己的需求对这些接口进行了进一步的封装,添加了一些细节,这里也会直接放到这个库里面供大家参考,在这里我会说明具体的使用方法。

  3. 后续我会渐渐将这个库里面需要用到代理池来进行反爬的项目都渐渐的更新为代理爬取的,至于代理的具体使用方法就不在每个项目的子目录里进行说明了。大家直接参考这里即可。

鸣谢

在这里谢过所有我看过的教学视频,网站。

不定时更新ing.........

git_spider's People

Contributors

dependabot[bot] avatar srx-2000 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.