Проект включает в себя Docker Image, состоящий из ML-модели на scikit-learn
, Airflow
оркестрации, анализе данных при помощи numpy
, scipy
,
pandas
, matplotlib
, seaborn
. Визуализация представлена в инстументе Microsoft PowerBI
.
Данные хранятся в базе данных PostgreSQL
на сервисе hoster.ru.
- Руководитель проекта: Георгий Новожилов
- ML-модель: Кирилл Андронов
- Анализ данных: Никита Цап, Полина Моисеева
- BI-проектирование: Георгий Корнилов, Филипп Евменьев
- ETL: Иван Спиридонов
Презентация проекта доступна по ссылке
- RAM: 4Гб (16Гб+ для первичного обучения модели)
- VRAM: 2Гб
- Место на жёстком диске: 2Гб
- Установленный Docker
- Linux Ubuntu 22.04 / LTS
1. Скачаем docker image по ссылке
Вес архива составляет 983Мб, что превышает лимит допустимой загрузки в github, поэтому архив с образом был выгружен в Google Disk.
Распакуем архив smallbigdata-container.tar.gz
в smallbigdata-container.tar
для дальнейшей загрузки в docker.
docker load < smallbigdata-container.tar
docker run -d -p 8080:8080 smallbigdata-container
После запуска пропишем команду и узнаем название запущенного контейнера
docker container ls
В колонке NAMES
имя контейнера smallbigdata-container
- crazy_jackson
:
Пропишем bash команду:
docker exec -it container_name /bin/bash
(в моём случае container_name = crazy_jackson
)
Откроем текстовый файл с паролем к standalone версии Apache Airflow:
cat standalone_admin_password.txt
Перейдём в localhost:8080 и вставим полученный пароль из пункта 5.
Изначально, в Apache Airflow
включены Example DAGS. Для того, чтобы отображались DAGS из нашего проекта, отфильтруем их по тегам fine_tuning
и prediction
├── dags
│ ├── fine_tuning.py
│ ├── load_model.py
├── src
│ ├── predict.csv
│ ├── test.csv
│ ├── test_tuning.csv
├── params
│ ├── params.yaml
│ ├── requirements.txt
├── model
│ ├── log_tuning.txt
│ ├── model.pkl
│ ├── model_ft.pkl
│ ├── pred_log.txt
├── airflow.cfg
├── airflow.db
├── airflow-webserver.pid
├── requirements.txt
├── standalone_admin_password.txt
└── webserver_config.py