smallbigdata-container

Проект по дисциплине Small Big Data

Проект включает в себя Docker Image, состоящий из ML-модели на scikit-learn, Airflow оркестрации, анализе данных при помощи numpy, scipy, pandas, matplotlib, seaborn. Визуализация представлена в инстументе Microsoft PowerBI.
Данные хранятся в базе данных PostgreSQL на сервисе hoster.ru.

Роли в проекте:

Руководитель проекта: Георгий Новожилов
ML-модель: Кирилл Андронов
Анализ данных: Никита Цап, Полина Моисеева
BI-проектирование: Георгий Корнилов, Филипп Евменьев
ETL: Иван Спиридонов

Системная архитектура

Презентация проекта доступна по ссылке

Шаги запуска

1. Скачаем docker image по ссылке

Вес архива составляет 983Мб, что превышает лимит допустимой загрузки в github, поэтому архив с образом был выгружен в Google Disk.

2. Распакуем архив

Распакуем архив smallbigdata-container.tar.gz в smallbigdata-container.tar для дальнейшей загрузки в docker.

3. Загрузим docker image в docker

docker load < smallbigdata-container.tar

4. Запустим контейнер

docker run -d -p 8080:8080 smallbigdata-container

После запуска пропишем команду и узнаем название запущенного контейнера

docker container ls

В колонке NAMES имя контейнера smallbigdata-container - crazy_jackson:

5. Узнаем пароль к Apache Airflow

Пропишем bash команду:

docker exec -it container_name /bin/bash

(в моём случае container_name = crazy_jackson)

Откроем текстовый файл с паролем к standalone версии Apache Airflow:

cat standalone_admin_password.txt

6. Откроем сервис Apacke Airflow

Перейдём в localhost:8080 и вставим полученный пароль из пункта 5.

7. Отфильтруем Airflow DAGS

Изначально, в Apache Airflow включены Example DAGS. Для того, чтобы отображались DAGS из нашего проекта, отфильтруем их по тегам fine_tuning и prediction

8. Готово!

Общая структура контейнера:

├── dags
│   ├── fine_tuning.py
│   ├── load_model.py
├── src
│   ├── predict.csv
│   ├── test.csv
│   ├── test_tuning.csv
├── params
│   ├── params.yaml
│   ├── requirements.txt
├── model
│   ├── log_tuning.txt
│   ├── model.pkl
│   ├── model_ft.pkl
│   ├── pred_log.txt
├── airflow.cfg
├── airflow.db
├── airflow-webserver.pid
├── requirements.txt
├── standalone_admin_password.txt
└── webserver_config.py

kaboupi / smallbigdata-container Goto Github PK