GithubHelp home page GithubHelp logo

gitbook's Introduction

关于松鼠学苑

  • 松鼠学苑是大数据与人工智能领域的原创研究型组织,这种组织是松散的、不以盈利为目的的,可类比于常见的开源项目的组织形式。
  • 任何个人均可参与松鼠学苑的建设,开放自己的研究成果,如文章、课程、开源项目,这些成果所产生的全部价值(署名、收益)均归原创者所有。
  • 松鼠学苑接受其他社会团体的资助,以转移/转化我们的研究成果。

课程体系

Spark 快速大数据处理 (课程地址)

序号 课程 详细
1 课程总体介绍 大数据的概念,开发环境,集群拓扑
2 ZooKeeper-分布式过程协同组件 什么是分布式过程协同,分布式过程协同架构设计的难点,为什么选择ZooKeeper,环境搭建,案例:锁,案例:主从应用
3 Hadoop3-大数据基础组件 YARN HA/HDFS HA
HDFS:HDFS基本原理与基本操作,HDFS HA配置文件详解,HDFS Federation/ViewFS;
MapReduce:MR基本原理,MR编程实战_Java版本例子,MR编程实战_Python版本例子,MR内部机制与调优,MR编程实战: 任务级联+MR Tools;
YARN:YARN的产生背景,YARN架构,YARN基本命令操作,RM HA配置,调度器配置,YARN应用编程实战
4 Tez-Yarn底层计算引擎 架构与特征,基于Tez的DAG案例程序
5 Hive-大数据仓库 Hive架构,基本命令行操作,HiveQL数据定义,HiveQL查询,Hive锁,Hive调优
6 Spark快速大数据处理 和MR/Tez/Flink对比,Hive On Spark vs
Spark On Hive,SparkSQL例子,Spark编程模型,安装Anaconda、安装Jupyter、安装Toree,SparkSQL/DataFrame API,
淘宝用户行为分析案例-用户行为分析-任务1-用户访问流量分布分析-PV,
淘宝用户行为分析案例-用户行为分析-任务2-用户活跃度分析-DAU,
淘宝用户行为分析案例-用户行为分析-Jupyter/Spark内存故障处理,
淘宝用户行为分析案例-用户行为分析-任务3-客单量分析,
淘宝用户行为分析案例-商品分析-任务1-商品PV各环节转化率,
Structured Streaming API,
集群环境对称处理
7 Oozie-大数据流程引擎 大数据工作流引擎与应用系统工作流引擎的区别,Oozie架构与流程,编译、make sharelib、安装client和server,
编程案例-Cron Action,
编程案例-Shell Action,
编程案例-MR Action,
编程案例-Spark Action,
编程案例-PySpark Action,
编程案例-Hive2 Action

Flink实时大数据处理

序号 课程 详细
1 KafKa分布式消息队列 分布式消息队列概念,消息队列的选型比较,KafKa体系架构,组件间交互过程,Consumer与Producer案例程序分析
2 流处理理论 时间,水印,窗口,触发器,迟到生存期,累加模式;开窗案例分析
3 Flink编程模型 组件栈,流式计算模型,运行时结构,任务调度,物理执行计划
4 流处理API 时间处理,算子,窗口,连接器,状态管理,检查点,RichFunction
5 批处理API 程序结构,算子,文件缓存,广播变量,容错机制,迭代,注解
6 关系型API 关系型API原理,程序基本结构,动态表理论,持续查询
7 复杂事件处理 CEP理论,模式匹配,模式输出,与DataStream API、关系型API的区别与联系
8 部署与监控 YARN部署模式,任务提交,监控方法

Flink与实时机器学习

序号 课程 详细
1 机器学习的基本概念KafKa分布式消息队列 人工智能发展历程,NFL定理,模型选择,线性模型
2 机器学习进阶 决策树,神经网络,支持向量机,贝叶斯方法,聚类方法,维度变换,特征选择,强化学习
3 深度学习 机器学习任务本质抽象,前反馈网络,反向传播,梯度与正则化,卷积网络,循环网络,概率模型,信念网络与玻尔兹曼机
4 FlinkML 机器学习引擎架构设计,流水线,分类算法架构设计,推荐算法架构设计
5 机器学习实战-Python 根据学员特点选择机器学习方法进行案例实战
6 机器学习实战-Scala 根据学员特点选择机器学习方法进行案例实战

Hadoop 集群自动化项目-HFS

序号 课程 详细
1 Linux操作系统 Linux操作系统组成,任务调度原理,bash特征,shell脚本开发
2 LFS简介 自动化方法论,LFS的设计**,基本过程演示
3 HFS HFS的顶层框架,各模块设计:1InstallBaseEnv,2SetupSSHEnv,3Zookeeper,4Hadoop,5Tez,8Hive,9Spark,11Oozie,12Docker,commonLib,installVBScript

大数据处理**发展史

序号 课程 详细
1 Google闭源阶段 MR、BigTable、GFS
2 Hadoop开源 MR、HDFS、YARN、Hadoop生态
3 计算引擎-批处理 Flume、Storm、Spark
4 计算引擎-流处理 Spark、DataFlow、KafKa、Flink、Beam
5 计算引擎发展方向论 大数据变革的动力,大数据的本质,大数据计算引擎的发展方向
6 SQL引擎 Calcite、分布式数据库理论发展

出版物

购买链接

深入理解 Flink

gitbook's People

Contributors

zerolee1993 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.