GithubHelp home page GithubHelp logo

uupers / bilispider Goto Github PK

View Code? Open in Web Editor NEW
453.0 42.0 75.0 5.25 MB

开发 bilibili 网站爬虫,大数据分析研究

License: GNU General Public License v3.0

Python 0.16% HTML 0.06% CSS 3.30% JavaScript 26.88% Jupyter Notebook 66.94% Mathematica 2.55% C 0.09% C++ 0.01%

bilispider's Introduction

BiliSpider

【本项目孵化自 idea #4

简介

这里是UUPs爬虫主项目组,任何新技术均会首先应用在B站爬虫上。我们的目标是为每位up主的创作之路助力,主要体现在:

  1. 数据获取与管理:利用爬虫技术获取全B站的视频与用户数据,并用维护数据库的方法管理它们,为创作者提供检索服务
  2. 数据筛选与可视化:在海量数据中筛选出有效且感兴趣的信息,并研究将它们可视化的方法,为创作者提供创作素材
  3. 数据分析与科研:根据获取到的有效数据,对B站推广机制,用户习惯等进行研究,为创作者提供推广经验

数据来源

目前已经迁移到本项目Wiki页面

bilispider's People

Contributors

arylo avatar emptymalei avatar hydrogendeuterium avatar kaiserkatze avatar leptc avatar nintha avatar protossprobe avatar splinter21 avatar ssysm avatar yxlllc avatar zhirenhuang avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

bilispider's Issues

求视频数据

uupers团队你们好 请问数据已经停止维护了吗?我最近在做一个关于bilibili视频信息的分析,能否使用一下你们的数据呢?非常感谢!

视频分区对应表 不全

例如b站出现了咨询专区 tid>200: 201:科学科普-科技 ; 203 :热点-资讯;204:环球-资讯 ;205:社会-资讯;206:综合-资讯

关于VPS存储空间不足的临时解决方案

背景

项目开始的时候由于错误估计了B站用户数据量的大小,未能合理的设计架构,导致了目前VPS的磁盘空间无法容纳未来爬取的所有数据。

方案A

开启mongo自带的压缩功能,每隔一段时间,将VPS上的数据回传本地,并删除VPS上的相应数据。等到所有数据爬完,对数据进行汇总整理:

  • 检查遗漏数据
  • 对字段进行裁剪
 [yxlllc] 节省空间的原则:
1. 重复数据只记录一次(比如fans 和 followers)
2. 相似的数据间只记录不同的部分 (比如 face 里的地址片段)
3. 只记录逻辑链条顶层的数据 (比如值经验值可以推出等级,则只记录经验值)
4. 尽可能数字化数据(比如性别用012表示)
5. 对数据库进行压缩
  • 改进数据库,重新把处理后的数据上传到空间充足的服务器

无需对现有架构进行调整,大家可以继续分布式爬虫。

PS:

  • mongo自带的压缩功能,使用样本数据测试后发现相比默认参数压缩率能达到68%
  • 即使启用最高压缩级别,未裁剪的数据仍然需要82G的空间,而裁剪字段并不能做到75%的裁剪效率。
  • 默认情况下mongo已经启用压缩功能(比较弱鸡的压缩),120万的数据大概占用600M的磁盘空间

方案B(备选)

把Mongo数据库迁移到本地一台空间充足,24小时在线的机器,以VPS作为中转服务器。此方案需要对现有架构进行一定的调整,调整包括对字段进行裁剪。

目前按方案A进行处理

可以赞助域名和网站

  1. 域名例如 uupers.com 我可以赞助你们啊
  2. 网站如果不介意我可以给你们用 jekyll 搭一个,不过要你们定设计稿

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.