GithubHelp home page GithubHelp logo

wanyinsheng / bigdataguide Goto Github PK

View Code? Open in Web Editor NEW

This project forked from moran1607/bigdataguide

0.0 1.0 0.0 18.77 MB

大数据学习,从零开始学习大数据,包含大数据学习各阶段学习视频、面试资料

Java 100.00%

bigdataguide's Introduction

大数据学习指南

大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资汇总

公众号

关注我的公众号:旧时光大数据,回复相应关键字,获取更多大数据干货、资料
“大数据学习路线”中我自己看过的视频、文档资料可以直接在公众号获取云盘链接

《大数据面试题 V2.0》已出,公众号回复:大数据面试题

概述

  1.大数据简介
  2.大数据相关岗位介绍

大数据学习路线

学习路线中的视频、文档资料可以关注公众号:旧时光大数据,回复相应关键字获取云盘链接

基础部分

一、编程语言

编程语言部分建议先JavaSE,Spark和Flink之前学习Scala,Python看个人或工作,不过有Java基础,Python会快很多(别问我怎么学,问就是使劲拼命学 [ 吃瓜.jpg ])

1、JavaSE(三选一)

  1. 刘意2015版
  2. 刘意2019版
  3. 尚硅谷宋红康版

2、Scala(二选一)

如果时间短,建议直接看配套Spark的那种三五天的,可以快速了解
  1. 韩顺平老师版
  2. 清华硕士武晟然老师版

3、Python

推荐黑马的Python视频,通俗易懂,而且文档比较齐全,有Java基础再看Python的话,上手很快
  1. 黑马Python版

Linux部分

完全分布式集群搭建

完全分布式集群搭建
  关于VM、远程登录工具的安装暂时可以参考我的博客,找到相应步骤进行操作即可
集群搭建

大数据框架组件

一、Hadoop

  1.Hadoop——分布式文件管理系统HDFS
  2.Hadoop——HDFS的Shell操作
  3.Hadoop——HDFS的Java API操作
  4.Hadoop——分布式计算框架MapReduce
  5.Hadoop——MapReduce案例
  6.Hadoop——资源调度器YARN
  7.Hadoop——Hadoop数据压缩

二、Zookeeper

  1.Zookeeper——Zookeeper概述
  2.Zookeeper——Zookeeper单机和分布式安装
  3.Zookeeper——Zookeeper客户端命令
  4.Zookeeper——Zookeeper内部原理
  5.Zookeeper——Zookeeper实战

三、Hive

  1.Hive——Hive概述
  2.Hive——Hive数据类型

四、Flume

  1.Flume——Flume概述
  2.Flume——Flume实践操作
  3.Flume——Flume案例

五、Kafka

  1.Kafka——Kafka概述
  2.Kafka——Kafka深入解析
  3.Kafka——Kafka API操作实践
  3.Kafka——Kafka对接Flume实践

六、HBase

  1.HBase——HBase概述
  2.HBase——HBase数据结构
  3.HBase——HBase Shell操作
  4.HBase——HBase API实践操作

七、Spark

Spark基础

  1.Spark基础——Spark的诞生
  2.Spark基础——Spark概述
  3.Spark基础——Spark运行模式
  4.Spark基础——案例实践

Spark Core

  1.Spark Core——RDD概述
  2.Spark Core——RDD编程(一)
  3.Spark Core——RDD编程(二)
  4.Spark Core——键值对RDD数据分区器
  5.Spark Core——数据读取与保存

Spark SQL

  1.Spark SQL——Spaek SQL概述
  2.Spark SQL——Spaek SQL编程
  3.Spark SQL——Spaek SQL数据的加载与保存
  4.Spark SQL——Spaek SQL实战

Spark Streaming

  1.Spark Streaming——Spark Streaming概述
  2.Spark Streaming——Dstream基础
  3.Spark Streaming——Dstream的转换&输出

八、Flink

  1.Flink——Flink核心概述
  2.Flink——Flink部署
  3.Flink——Flink运行架构
  4.Flink——Flink流处理API
  5.Flink——Flink中的Window
  6.Flink——时间语义与Wartermark
  7.Flink——ProcessFunction API(底层API)
  8.Flink——状态编程和容错机制
  9.Flink——Table API 与SQL
  10.Flink——Flink CEP

数据仓库

数据仓库总结

大数据项目

基本上选择三到四个即可,B站直接搜索项目名字,都有视频
详细说明公众号回复“大数据项目”即可

面试题

一、Hadoop

介绍下Hadoop

二、Zookeeper

介绍下Zookeeper是什么?
Zookeeper有什么作用?优缺点?有什么应用场景?

三、Hive

说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?

四、Flume

介绍下Flume

五、Kafka

介绍下Kafka,Kafka的作用?Kafka的组件?适用场景?


大数据面试 V1.0

一、Hadoop

  1.Hadoop面试题总结(一)
  2.Hadoop面试题总结(二)——HDFS
  3.Hadoop面试题总结(三)——MapReduce
  4.Hadoop面试题总结(四)——YARN
  5.Hadoop面试题总结(五)——优化问题

二、Zookeeper

  1.Zookeeper面试题总结(一)

三、Hive

  1.Hive面试题总结(一)
  2.Hive面试题总结(二)

四、HBase

  1.HBase面试题总结(一)

五、Flume

  1.Flume面试题总结(一)

六、Kafka

  1.Kafka面试题总结(一)
  2.Kafka面试题总结(二)

七、Spark

  1.Spark面试题总结(一)
  2.Spark面试题总结(二)
  3.Spark面试题总结(三)
  4.Spark面试题总结(四)

Spark性能优化:
  5.Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
  6.Spark面试题总结(六)——Shuffle配置调优
  7.Spark面试题总结(七)——程序开发调优
  8.Spark面试题总结(八)——运行资源调优

大数据&后端书籍

图片上的PDF书籍在公众号回复关键字“大数据书籍”或“Java书籍”自行进百度云盘群保存即可

  大数据书籍

  后端书籍

交流群

交流群建好了,进群的小伙伴可以加我微信:MoRan1607,备注:GitHub

bigdataguide's People

Contributors

moran1607 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.