Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Инструкция по установке Docker

Установите Docker Engine на вашу локальную машину: https://docs.docker.com, для windows
Вы можете скачать и станровить готовый образ (i), либо собрать докер-образ самостоятельно (ii).
1. Скачайте собранный образ по ссылке и установите его выполнив команду docker load -i <путь к скачанному файлу/spark-doker.tar>
2. Для сборки докер-образа склонируйте репозиторий и выполните команду: docker build --no-cache --rm --tag spark - < ./docker/Dockerfile
После завершения установки образа в списке докер-образов должен появится образ с именем spark:latest. Для получения списка образов выполните команду docker images
Запустите контейнер, выполнив команду docker run -p 8888:8888 -it spark
В случае успешного выполнения операций в браузере по адресу http://127.0.0.1:8888 должен быть доступен ноутбук с примерами к занятиям

Инструкция по установке Apache Spark

Для работы с Apache Spark необходимо наличие следующих пакетов

Java SE Development Kit https://www.java.com
Scala Build Tool http://www.scala-sbt.org
Python 2.7 https://www.python.org
Jupiter Notebook http://jupyter.org

Скачать дистрибутив Apache Spark с официального сайта
Распаковать скаченный дистрибутив в директорию /opt/spark-2.1.0-bin-hadoop2.7
В файл ~/.bashrc добавить следующие строки

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

Проверить корректность установки можно с помощью следующего кода

from pyspark import SparkContext
sc = SparkContext('local', 'test app')
a = range(10)
a = sc.parallelize(a)
print(a.reduce(lambda x, y: x + y))

a4tunado / lectures-hse-spark Goto Github PK

lectures-hse-spark's Introduction

Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Инструкция по установке Docker

Инструкция по установке Apache Spark

lectures-hse-spark's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs