GithubHelp home page GithubHelp logo

mini-pw / 2023l-exploratorydataanalysis Goto Github PK

View Code? Open in Web Editor NEW
15.0 15.0 44.0 440.8 MB

Introduction to exploratory data analysis course for Mathematics and data analysis studies in Spring 2022/2023

HTML 98.56% R 0.25% CSS 0.01% JavaScript 0.03% Python 0.01% Jupyter Notebook 1.15%

2023l-exploratorydataanalysis's Introduction

Wstęp do eksploracji danych

Semestr letni 2022/23 @kozaka93 @HubertR21 @sobieskibj

Materiały z zajęć Wstęp do eksploracji danych (MiNI, 2 rok MAD)

Wstęp do eksploracji danych składa się z:

  • wykładu
  • zajęć laboratoryjnych

Terminy i tematy zajęć

# DATA WYKŁAD LABORATORIUM SKŁADOWA
1 21-02 Wstęp, eksploracja danych, narzędzia, zasady zaliczenia
Projekt 1
22-02 Powtórzenie R. Jak działa GitHub?
2 28-02 Gramatyka języka wizualizacji P1 (1p)
Spotkanie projektowe I
01-03 R: dplyr, tidyr, forcats
3 07-03 - HW1 (5p)
08-03 R: ggplot2 wstęp i gramatyka
4 14-03 Nie popełniaj tych błędów!
Kolory i skale
15-03 R: ggplot2 - modyfikacje wykresów, stylów w ggplot2
5 21-03 Sposoby badania rozkładu jednej zmiennej (ilościowej i jakościowej)
Sposoby badania rozkładu dwóch i więcej zmiennych
HW2 (5p)
P1 (2p)
Spotkanie projektowe II
22-03 Spotkanie projektowe II
R: ggplot2 - zaawansowany oraz rozszerzenia: patchwork, ggrepel
6 28-03 Mapy - czy to takie skomplikowane? HW3 (10p)
Dashboards
29-03 R: maps
7 04-04 Spotkanie projektowe III P1 (2p)
HW4 (5p)
12-04 R: plotly - wizualizacje interaktywne
8 11-04 Oddanie P1 P1 (19p)
19-04 R: generowanie raportów z analizą danych
9 18-04 Raportowanie
Projekt 2
26-04 R: Shiny - część 1
10 25-04 The International Business Communication Standards P2 (1p)
HW5 (10p)
History of Statistical Graphics
10-05 R: Shiny - część 2
11 09-05 Spotkanie projektowe I
17-05 R: Shiny - zaawansowane
12 16-05 Spotkanie projektowe II P2 (2p)
24-05 Python: pandas, numpy
13 23-05 Analiza EDA przed modelowanie.
Znani w świecie wizualizacji, wizualizacje modeli, co dalej?
31-05 Python: matplotlib, seaborn
14 30-05 Spotkanie projektowe III P2 (2p)
HW6 (5p)
07-06 Python: plotly
15 13-06 Oddanie P2 P2 (15p)
14-06 Python: Przygotowanie EDA przed modelowaniem

Schemat oceniania (suma 90p):

  • projekt I (24p):

  • projekt II (20p):

  • prace domowe (40p = 2 x 10p + 4 x 5p)

    • za każdą pracę domową uzyskuje się do 5p lub 10p
  • wejściówki (6p = 3 x 2p)

    • niezapowiedziane, przeprowadzane na zajęciach laboratoryjnych

Z każdego projektu należy uzyskać ponad 50% możliwych punktów.

Ocena 3 3.5 4 4.5 5
Punkty (45, 54] (54, 63] (63, 72] (72, 81] (81, ∞)

2023l-exploratorydataanalysis's People

Contributors

bacmagap avatar bednarekm avatar cebulam avatar fifimelo avatar fildom123 avatar frelikstanislaw avatar ginizer avatar helenaw26 avatar hubertr21 avatar jankowskirmini avatar klassik199 avatar kozaka93 avatar kubanmski avatar kubba099 avatar m-ziecina avatar mikolajmg avatar mjl10 avatar mklein02 avatar oaksad avatar patrycjap08 avatar poglodjan avatar rzewnickad avatar saniawoj avatar sernoth avatar slubowskaa avatar sobieskibj avatar thegoidendemon avatar wachm24 avatar wika502 avatar z00pir avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

2023l-exploratorydataanalysis's Issues

Praca domowa 6

Celem pracy domowej 6 jest sprawdzenie znajomości pakietów numpy, pandas oraz matplotlib.

Do rozwiązania są 2 zadania. Pierwsze z nich zawiera 6 podpunktów (każdy warty 0.5 punktu = 3 punkty). Zadanie drugie jest warte 2 punkty. Plik z treścią zadań znajduje się tutaj.

Zadania dotyczą zbioru danych o nieruchomościach dostępnego w pliku house_data.csv. Zbiór danych zawiera informacje o cenie oraz atrybutach nieruchomości położonych w okolicy Seattle - opis kolumn.

Zadania należy przesłać w postaci pliku .ipynb z odpowiedzią oraz kodem pozwalającym na jej znalezienie.

Termin oddania: 07.06.2023 do 14:00.

Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie w ../homeworks/hw6.

Rozwiązanie dodajemy poprzez Pull Request, proszę w tytule podać [PD6] Nazwisko Imię.

Praca domowa 1

Celem pracy domowej jest sprawdzenie znajomości pakietów dplyr oraz tidyr. Do rozwiązania jest 10 zadań, każde z nich jest warte 0.5 punktu. Plik z treścią zadań jest dostępny tutaj.

Poniższe zadania dotyczą zbioru danych auta2012 dostępnego w pakiecie PogromcyDanych. Zbiór danych auta2012 to ogłoszenia z serwisu otomoto.pl pobrane w 2012, zawiera informacje o ofertach dla przeszło 207 tysięcy ogłoszeń sprzedaży aut.

install.packages("PogromcyDanych")
library(PogromcyDanych)
auta2012

Rozwiązanie należy przesłać w postaci pliku .R z kodem do wygenerowania odpowiedzi oraz zakomentowaną odpowiedzią.

Przykładowa odpowiedź na zadane pytanie:
obraz

Termin oddania: 08.03.2023 do 14:00.
Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie w ../homeworks/hw1.

Rozwiązanie dodajemy poprzez Pull Request, proszę w tytule podać [PD1] Nazwisko Imię.

Praca domowa 3

Liczba punktów do zdobycia jest równa 10.

Tę pracę domową można wykonywać samodzielnie lub zespołowo (K osób, patrz opis niżej). Wszystkie osoby z zespołu otrzymują tyle samo punktów.

W ramach pracy domowej należy przygotować K eksperymentów, sprawdzających czy określone problemy z czytaniem danych wciąż występują (problemy = iluzje na wykresach, błędy w odczytywaniu wykresu kołowego, błędy w pokazywaniu danych za pomocą wykresów 3D, problemy z tytułami na wykresie) (K = liczba osób w zespole, zespół z 3 osobami powinien zrobić 3 eksperymenty).

Następnie należy przetestować na przynajmniej 15 innych osobach czy dany problem występuje, np. przeprowadzając ankietę typu czy lepszy jest wykres A czy B.

Celem pracy jest sprawdzenie czy ,,dobre praktyki'' opracowane lata temu (słupki lepsze niż kąty, kolor wykorzystywany z umiarem, unikanie ozdobników), faktycznie działa w społeczeństwie które wykresami karmione jest od urodzenia.

Rozwiązanie powinno zawierać:

  • opis eksperymentów, które zostały przygotowane
  • opracowanie wyników testów - opisy, tabele, wykresy.

Rozwiązanie należy przesłać w postaci raportu w .pdf lub .html.

Termin oddania: 29.03.2023 do 14:00.
Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie w ../homeworks/hw3.

Rozwiązanie dodajemy poprzez Pull Request, proszę w tytule podać [PD3] Nazwisko Imię.

Praca domowa 5

Celem pracy domowej jest sprawdzenie znajomości zasad pisania poprawnego raportu oraz przygotowanie interaktywnych wykresów z użyciem pakietu plotly. Pracę można wykonać w języku R lub Python.

W ramach pracy domowej proszę o przygotowanie raportu zawierającego podsumowanie wybranego obszaru z badania PISA 2018.

Czym jest badanie PISA?

Badanie PISA (Programme for International Student Assessment) jest największym badaniem umiejętności uczniów na świecie, realizowane co trzy lata we wszystkich krajach członkowskich OECD, a także w kilkudziesięciu innych państwach. Polska uczestniczy w nim od samego początku, czyli od roku 2000. Badanie PISA pokazuje poziom i zróżnicowanie umiejętności piętnastolatków, które rozwijane są w trakcie edukacji szkolnej, jak i poza szkołą. W każdej edycji PISA nacisk położony jest na jedną spośród trzech dziedzin: rozumowanie matematyczne, rozumienie czytanego tekstu lub rozumowanie w naukach przyrodniczych. W 2018 r. w badaniu uczestniczyło 79 krajów i regionów, a liczba przebadanych uczniów przekroczyła 660 tys. Polskę reprezentowało 5653 młodych Polaków z 227 szkół.

Wyniki badania PISA z 2018 dostępne tutaj.

Pracę domową można wykonywać samodzielnie lub w dwuosobowym zespole. Wszystkie osoby z zespołu otrzymują tyle samo punktów. Oczekiwane wyniki pracy są takie same dla zespołów dwuosobowych oraz jednoosobowych.

Rozwiązanie powinno zawierać:

  • raport opisujący wybrany aspekt wyników badania PISA 2018
  • wykres/wykresy interaktywne pokazujące zależności dla wybranego zagadnienia

Rozwiązanie należy przesłać w postaci raportu w .html. (Wymagany .html ze względu na ocenę interaktywnych wykresów.)

Termin oddanie: 10.05.2023 do 14:00.

Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie lub Nazwisko1Imie1_Nazwisko2Imie2 w ../homeworks/hw5.

Praca domowa 2

Celem pracy domowej jest sprawdzenie znajomości pakietu ggplot2 oraz tworzenia poprawnych wizualizacji.

W ramach pracy domowej proszę o przygotowanie wizualizacji utworzonej z wykorzystaniem ggplot2. Praca domowa powinna być wykonana na podstawie wizualizacji dostępnej w prasie, telewizji lub internecie, opublikowanej w ciągu ostatnich 2 tygodni.

Rozwiązanie należy przesłać w postaci raportu w .pdf lub .html.

W raporcie proszę o:

  • podanie źródła oraz zamieszczenie wizualizacji, która jest poprawiana (warunek konieczny)
  • umieszczenie kodu oraz utworzonej wizualizacji (maksymalnie 4p)
  • krótkie uzasadnienie, dlaczego wykres jest lepszy niż oryginalny (maksymalnie 1p)

Na przykład poprawa czytelności, poprawa słupków, które nie zaczynają się w 0, słupki 2d zamiast 3d, wybranie bardziej pasującego typu wykresu.

Termin oddania: 22.03.2023 do 14:00.
Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie w ../homeworks/hw2.

Rozwiązanie dodajemy poprzez Pull Request, proszę w tytule podać [PD2] Nazwisko Imię.

Praca domowa 4

Celem pracy domowej jest sprawdzenie znajomości tworzenia map z wykorzystaniem narzędzi w języku R lub Python.

W ramach pracy domowej proszę o przygotowanie wizualizacji, która będzie zawierać mapę. Tematyka wykresu może być dowolna, kluczowym elementem jest przedstawienie danych w poprawny sposób z wykorzystaniem mapy.

Rozwiązanie należy przesłać w postaci raportu w .pdf lub .html.

W raporcie proszę o:

  • umieszczenie kodu utworzonej wizualizacji,
  • źródło danych,
  • utworzoną wizualizację.

Termin oddania: 05.04.2023 do 14:00.

Prace przesłane po tym terminie będą mieć minus jeden punkt za każdy dzień zwłoki.

Skrypt z rozwiązaniem należy umieścić w folderze NazwiskoImie w ../homeworks/hw4.

Rozwiązanie dodajemy poprzez Pull Request, proszę w tytule podać [PD4] Nazwisko Imię.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.