GithubHelp home page GithubHelp logo

mini-pw / 2021l-wb-xai-1 Goto Github PK

View Code? Open in Web Editor NEW
11.0 3.0 16.0 167.36 MB

Case Study course for DS studies in Summer 2020/2021

Jupyter Notebook 56.86% HTML 43.14% TeX 0.01%
xai machine-learning interpretable-machine-learning explainable-artificial-intelligence case-study

2021l-wb-xai-1's People

Contributors

arturzolkowski avatar bsinski avatar deregowskis avatar kostee avatar kozaka93 avatar krzyzinskim avatar mgryszkiewicz avatar mrdomani avatar niladrem avatar p-przybylek avatar przechoj avatar pslowakiewicz avatar rrolkiewicz avatar sawickibartosz avatar smolenj avatar solawak avatar woznicak avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

2021l-wb-xai-1's Issues

Praca domowa 1

Praca domowa 1 (8 pkt.)
Termin: 25.03.2021 23:59

Dla wybranego modelu z projektu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty.

  1. Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
  2. Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając SHAP, Break Down lub obie (pakiety w R: DALEX, iml, pakiety w Python: shap, dalex, piBreakDown).
  3. Wybierz dwie obserwacje ze zbioru danych, które mają inne najważniejsze zmienne (na przykład: dla obserwacji A ważne zmienne to wiek i płeć, a dla obserwacji B klasa i rasa).
  4. Znajdź dwie obserwacje ze zbioru danych, które mają dla tych samych zmiennych inne efekty (pozytywny i negatywny).
  5. Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprodukowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD1. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze PraceDomowe/PracaDomowa1/Nazwisko_Imię.

Praca domowa 2

Praca domowa 2 (8 pkt.)
Termin: 06.04.2021 23:59

Dla wybranego modelu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty. Pracę domową należy zgłosić przez Pull Request na GitHub w folderze PraceDomowe/PracaDomowa2/Nazwisko_Imię.

  1. Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
  2. Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając LIME (pakiety w R: live, lime, localModel, iml, pakiety w Python: lime, dalex).
  3. Porównaj dekompozycję LIME dla różnych obserwacji w zbiorze. Jak stabilne są otrzymane wyjaśnienia?
  4. Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD2. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Dataset: California Housing Prices

Problem: Zbiór danych opisuje nieruchomości w stanie Kalifornia. Chcemy modelować medianę wartości domu dla gospodarstw domowych w obrębie bloku (mierzona w dolarach amerykańskich).

Dane: Dane zawierają informacje z kalifornijskiego spisu powszechnego z 1990 roku, dostępne są na kaggle: https://www.kaggle.com/camnugent/california-housing-prices
Zbiór danych zawiera 20640 obserwacji, 10 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją mediany wartości domu należy odtworzyć: https://www.kaggle.com/ravichaubey1506/end-to-end-machine-learning,
https://www.kaggle.com/takedown/complete-tutorial-for-beginners

W ramach projektu można również wytrenować swoje modele do porównania.

Praca domowa 3

Praca domowa 3 (8 pkt.)
Termin: 15.04.2021 15:00

Dla wybranego modelu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty. Pracę domową należy zgłosić przez Pull Request na GitHub w folderze PraceDomowe/PracaDomowa3/Nazwisko_Imię.

  1. Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
  2. Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając profili Ceteris Paribus/ ICE (pakiety w R: DALEX, ALEPlot, ingredients, pakiety w Python: dalex, pyCeterisParibus)
  3. Wybierz dwie obserwacje ze zbioru danych, które mają różne profile CP (na przykład: dla obserwacji A odpowiedź modelu rośnie wraz ze wzrostem wartości zmiennej, a dla obserwacji B maleje). Zauważ, żeby mieć takie różnice, musisz mieć model z interakcjami.
  4. Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD3. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Praca domowa 4

Praca domowa 4 (8 pkt.)
Termin: 29.04.2021 15:00

Dla wybranego modelu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty. Pracę domową należy zgłosić przez Pull Request na GitHub w folderze PraceDomowe/PracaDomowa4/Nazwisko_Imię.

  1. Wylicz permutacyjną ważność zmiennych dla wybranego modelu.
  2. Porównaj ważność zmiennych z punktu (1) z wynikami tej metody zastosowanej dla innych modeli.
  3. Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD4. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Praca domowa 5

Praca domowa 5 (8 pkt.)
Termin: 13.05.2021 15:00

Dla wybranego modelu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty. Pracę domową należy zgłosić przez Pull Request na GitHub w folderze PraceDomowe/PracaDomowa5/Nazwisko_Imię.

  1. Dla wybranych zmiennych ze zbioru danych policz Partial Dependence Profiles (PDP)
  2. Dla wybranych zmiennych ze zbioru danych policz Accumulated Local Dependence (ALE).
  3. Skomentuj i porównaj wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD5. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Dataset: Medical Coat Personal Datasets

Problem: Chcemy określić koszty leczenia różnych pacjentów. Koszt leczenia zależy od wielu czynników: diagnozy, rodzaju kliniki, miasta zamieszkania i innych. W danych nie ma jednak informacji o diagnozie, ale są inne informacje, które mogą pomóc w wyciągnięciu wniosków.

Dane: Dane Medical Coat Personal Datasets dostępne są na kaggle:
https://www.kaggle.com/mirichoi0218/insurance
Zbiór danych zawiera 1338 obserwacji, 7 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją kosztów leczenia należy odtworzyć notebook: https://www.kaggle.com/hely333/eda-regression

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Credit Card customers

Problem: Klienci banku rezygnują z usług związanych z kartami kredytowymi. Chcemy zbadać, którzy klienci mogą być chętni do odejścia od tej usługi (customer churn).

Dane: Dane Credit Card dostępne są na kaggle: https://www.kaggle.com/sakshigoyal7/credit-card-customers
Zbiór danych zawiera 10 tyś. obserwacji, 18 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją przepływu klinetów należy odtworzyć notebook: https://www.kaggle.com/alpertml/credit-card-customers-eda-ml-97-5-accuracy

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Heart Disease UCI

Problem: Zbiór danych opisuje pacjentów (mających lub nie chorobę serca). Chcemy wykorzystać te dane do stworzenia modelu, który spróbuje przewidzieć, czy pacjent ma tę chorobę, czy nie.

Dane: Dane Heart Disease UCI dostępne są na kaggle: https://www.kaggle.com/ronitf/heart-disease-uci
Zbiór danych zawiera 303 obserwacji, 14 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją choroby serca należy odtworzyć notebook:https://www.kaggle.com/cdabakoglu/heart-disease-classifications-machine-learning

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Red Wine Quality

Problem: Chcemy określić jakość wina na podstawie zmiennych fizykochemicznych. W danych mamy kilka klas (multiclass), ale dzielmy jest na dwie podgrupy uzyskując klasyfikację binarną.

Dane: Dane Red Wine Quality dostępne są na kaggle: https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009
Zbiór danych zawiera 1599 obserwacji, 12 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją jakości wina należy odtworzyć notebook: https://www.kaggle.com/vishalyo990/prediction-of-quality-of-wine

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Hotel booking demand

Problem: Zarządzając hotelem chcemy dobrze planować zapotrzebowanie na personel oraz na żywność. Chcemy zbudować model przewidujący czy gość rzeczywiście skorzysta z zarezerwowanego pokoju.

Dane: Dane Hotel booking demand dostępne są na kaggle:
https://www.kaggle.com/jessemostipak/hotel-booking-demand
Zbiór danych zawiera 119 tyś. obserwacji, 32 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją odwołań rezerwacji należy odtworzyć notebook: https://www.kaggle.com/marcuswingen/eda-of-bookings-and-ml-to-predict-cancelations

W ramach projektu można również wytrenować swoje modele do porównania.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.