GithubHelp home page GithubHelp logo

bilibili-3's Introduction

Bilibili

哔哩哔哩爬虫系统
开发语言:
Java(JDK7)
项目框架:
SpringMVC+MyBatis
数据库:
Mysql5.7
开发IDE:
IDEA 15
部署Web容器:
Tomcat7
----------------------------------------------

实现功能:


1.获取以下三个接口信息并写入数据库


接口一:http://api.bilibili.com/view
接口二:http://interface.bilibili.com/player?id=cid:
接口三:http://api.bilibili.com/vstorage/state?cid=
然后这三个接口的数据有什么卵用?
接口数据作用一睹为快
就是拿来看视频用的,应该有小伙伴尝试过用黑科技通过aid(AV号)或者cid(弹幕号)下架视频,这些接口就是用
来收集这些数据的,虽然现在已经有很多好心人分享各种弹幕包,但是资源是在别人手中,资源失效或者不是自
己想要的那是多尴尬,所以最好的办法就是资源放在自己手中,知道bilibli整个网站视频的数据,想撸什么片就
撸什么片。目前2016年7月18日为止,数据库入库数据cid有876万条,包括审核不过、被删、下架的数据,所以上
面 To Love Ru Darkness 2nd 搜这部番剧相关数据用了将近八分钟,当然跟数据库结构没做过优化有关,不过我建议
弹幕数据提前备份,当然几分钟时间看一下鬼畜什么的一会儿就过去了。

我每天都有把数据库放到服务器习惯,目前用的OneDriver,下载链接
本来还想同步到百度云,不过暂时没有想到用java把文件自动上传到网盘的方案,毕竟我只是个菜鸡,如果哪位大神有
什么办法希望可以指点一二o(*≧▽≦)ツ

2.获取天使论坛当季番剧音乐资源


3.根据关键字获取bt.acg.gg上的动画资源的种子链接


![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/btacg.png)

4.对哔哩哔哩201616年7月版权番剧单集平均播放量定时进行统计, (相关活动页见:http://www.bilibili.com/html/activity-20160620newbangumi.html
并用js echart库以图表形式展示


echart折线图


![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/echart折线图.png)

echart柱状图


![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/echart柱状图.png)

echart动态效果
-----------------------------------------------------------------------------------------------------------------
项目初始化:
第一步:当然就是Clone项目到本地,自带项目IDEA配置文件,直接用IDEA Clone只需要配置好tomcat路径以及jar包路径即可。IDEA Tomcat配置
第二步:下载项目jar包,这里没有同步到git仓库原因是spring和mybatis框架以及杂七杂八用到的jar包将近20M的体积,不方便clone进行同步,所以另外放到云盘
jar包下载完后放到项目目录里面,并进行构造路径设置。
![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/包路径设置.png) 第三步:用src目录下的bilibili.sql创建数据库
![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/创建数据库.png)
如无意外创建完毕表结构应该跟下图一样。 数据库结构图 ![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/数据库结构详解.png)
数据库部分数据展示
第四步:方法调试
![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/方法测试.png)
判断爬虫程序是否正常运行看save表这个存档表。接口数据正常存入数据库的情况下,里面分别保存的当前爬取进度应该是不断刷新的
备注:调试接口一需要配置bilibli账号密码,否则会报错,如图所示: ![image](https://github.com/luffy9412/Bilibili/blob/master/WebContent/image/bilibili账号密码配置.png)
-------------------------------------------------------------------------------------------------------------------------------------------------

数据库打包到OneDriver以及百度云:
OneDriver
百度云
压缩包解压密码“A班姬路”,也是我贴吧ID,关于项目问题可以私信
数据库如无意外会每天更新一次,视网络情况而定
以上~~~~~~~~~~~~~~~~~~~~~~

bilibili-3's People

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.