GithubHelp home page GithubHelp logo

smallbigdata-container's Introduction

smallbigdata-container

Проект по дисциплине Small Big Data

Проект включает в себя Docker Image, состоящий из ML-модели на scikit-learn, Airflow оркестрации, анализе данных при помощи numpy, scipy, pandas, matplotlib, seaborn. Визуализация представлена в инстументе Microsoft PowerBI.
Данные хранятся в базе данных PostgreSQL на сервисе hoster.ru.

Роли в проекте:

  • Руководитель проекта: Георгий Новожилов
  • ML-модель: Кирилл Андронов
  • Анализ данных: Никита Цап, Полина Моисеева
  • BI-проектирование: Георгий Корнилов, Филипп Евменьев
  • ETL: Иван Спиридонов

Системная архитектура

image

Презентация проекта доступна по ссылке

Рекомендуемые характеристики

  • RAM: 4Гб (16Гб+ для первичного обучения модели)
  • VRAM: 2Гб
  • Место на жёстком диске: 2Гб
  • Установленный Docker
  • Linux Ubuntu 22.04 / LTS

Шаги запуска

1. Скачаем docker image по ссылке

Вес архива составляет 983Мб, что превышает лимит допустимой загрузки в github, поэтому архив с образом был выгружен в Google Disk.

2. Распакуем архив

Распакуем архив smallbigdata-container.tar.gz в smallbigdata-container.tar для дальнейшей загрузки в docker.

3. Загрузим docker image в docker

docker load < smallbigdata-container.tar

4. Запустим контейнер

docker run -d -p 8080:8080 smallbigdata-container

После запуска пропишем команду и узнаем название запущенного контейнера

docker container ls

В колонке NAMES имя контейнера smallbigdata-container - crazy_jackson: image

5. Узнаем пароль к Apache Airflow

Пропишем bash команду:

docker exec -it container_name /bin/bash

(в моём случае container_name = crazy_jackson)

Откроем текстовый файл с паролем к standalone версии Apache Airflow:

cat standalone_admin_password.txt

6. Откроем сервис Apacke Airflow

Перейдём в localhost:8080 и вставим полученный пароль из пункта 5.

7. Отфильтруем Airflow DAGS

Изначально, в Apache Airflow включены Example DAGS. Для того, чтобы отображались DAGS из нашего проекта, отфильтруем их по тегам fine_tuning и prediction image

8. Готово!

Общая структура контейнера:

├── dags
│   ├── fine_tuning.py
│   ├── load_model.py
├── src
│   ├── predict.csv
│   ├── test.csv
│   ├── test_tuning.csv
├── params
│   ├── params.yaml
│   ├── requirements.txt
├── model
│   ├── log_tuning.txt
│   ├── model.pkl
│   ├── model_ft.pkl
│   ├── pred_log.txt
├── airflow.cfg
├── airflow.db
├── airflow-webserver.pid
├── requirements.txt
├── standalone_admin_password.txt
└── webserver_config.py

smallbigdata-container's People

Contributors

kaboupi avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.