mini-pw / 2021l-wb-xai-1 Goto Github PK

View Code? Open in Web Editor NEW

11.0 3.0 16.0 167.36 MB

Case Study course for DS studies in Summer 2020/2021

Jupyter Notebook 56.86% HTML 43.14% TeX 0.01%

xai machine-learning interpretable-machine-learning explainable-artificial-intelligence case-study

2021l-wb-xai-1's People

Contributors

Stargazers

Watchers

Forkers

deregowskis kostee sawickibartosz rrolkiewicz przechoj amakarewicz niladrem mrdomani bsinski mgryszkiewicz p-przybylek solawak smolenj arturzolkowski krzyzinskim pslowakiewicz

2021l-wb-xai-1's Issues

Praca domowa 1

Praca domowa 1 (8 pkt.)
Termin: 25.03.2021 23:59

Dla wybranego modelu z projektu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty.

Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając SHAP, Break Down lub obie (pakiety w R: DALEX, iml, pakiety w Python: shap, dalex, piBreakDown).
Wybierz dwie obserwacje ze zbioru danych, które mają inne najważniejsze zmienne (na przykład: dla obserwacji A ważne zmienne to wiek i płeć, a dla obserwacji B klasa i rasa).
Znajdź dwie obserwacje ze zbioru danych, które mają dla tych samych zmiennych inne efekty (pozytywny i negatywny).
Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprodukowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD1. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze PraceDomowe/PracaDomowa1/Nazwisko_Imię.

Praca domowa 2

Praca domowa 2 (8 pkt.)
Termin: 06.04.2021 23:59

Dla wybranego modelu przygotuj knitr/jupyter notebook w formacie html lub pdf rozwiązując poniższe punkty. Pracę domową należy zgłosić przez Pull Request na GitHub w folderze PraceDomowe/PracaDomowa2/Nazwisko_Imię.

Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając LIME (pakiety w R: live, lime, localModel, iml, pakiety w Python: lime, dalex).
Porównaj dekompozycję LIME dla różnych obserwacji w zbiorze. Jak stabilne są otrzymane wyjaśnienia?
Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD2. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Dataset: California Housing Prices

Problem: Zbiór danych opisuje nieruchomości w stanie Kalifornia. Chcemy modelować medianę wartości domu dla gospodarstw domowych w obrębie bloku (mierzona w dolarach amerykańskich).

Dane: Dane zawierają informacje z kalifornijskiego spisu powszechnego z 1990 roku, dostępne są na kaggle: https://www.kaggle.com/camnugent/california-housing-prices
Zbiór danych zawiera 20640 obserwacji, 10 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją mediany wartości domu należy odtworzyć: https://www.kaggle.com/ravichaubey1506/end-to-end-machine-learning,
https://www.kaggle.com/takedown/complete-tutorial-for-beginners

W ramach projektu można również wytrenować swoje modele do porównania.

Praca domowa 3

Praca domowa 3 (8 pkt.)
Termin: 15.04.2021 15:00

Dla wybranej obserwacji ze zbioru danych wylicz predykcję modelu.
Dla wybranej obserwacji z punktu 1., wylicz dekompozycję predykcji modelu używając profili Ceteris Paribus/ ICE (pakiety w R: DALEX, ALEPlot, ingredients, pakiety w Python: dalex, pyCeterisParibus)
Wybierz dwie obserwacje ze zbioru danych, które mają różne profile CP (na przykład: dla obserwacji A odpowiedź modelu rośnie wraz ze wzrostem wartości zmiennej, a dla obserwacji B maleje). Zauważ, żeby mieć takie różnice, musisz mieć model z interakcjami.
Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD3. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Praca domowa 4

Praca domowa 4 (8 pkt.)
Termin: 29.04.2021 15:00

Wylicz permutacyjną ważność zmiennych dla wybranego modelu.
Porównaj ważność zmiennych z punktu (1) z wynikami tej metody zastosowanej dla innych modeli.
Skomentuj poszczególne wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD4. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Praca domowa 5

Praca domowa 5 (8 pkt.)
Termin: 13.05.2021 15:00

Dla wybranych zmiennych ze zbioru danych policz Partial Dependence Profiles (PDP)
Dla wybranych zmiennych ze zbioru danych policz Accumulated Local Dependence (ALE).
Skomentuj i porównaj wyniki uzyskane w powyższych punktach.

W pracy domowej oceniane przede wszystkim będą wnioski z otrzymanych analiz. Kod potrzebny do reprudokowalności wyników również proszę załączyć.

Prace domowe należy zgłaszać przez Pull Request o tytule Nazwisko Imię PD5. Wszystkie pliki związane z pracą domową proszę o umieszczenie w folderze Nazwisko_Imię.

Dataset: Medical Coat Personal Datasets

Problem: Chcemy określić koszty leczenia różnych pacjentów. Koszt leczenia zależy od wielu czynników: diagnozy, rodzaju kliniki, miasta zamieszkania i innych. W danych nie ma jednak informacji o diagnozie, ale są inne informacje, które mogą pomóc w wyciągnięciu wniosków.

Dane: Dane Medical Coat Personal Datasets dostępne są na kaggle:
https://www.kaggle.com/mirichoi0218/insurance
Zbiór danych zawiera 1338 obserwacji, 7 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją kosztów leczenia należy odtworzyć notebook: https://www.kaggle.com/hely333/eda-regression

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Credit Card customers

Problem: Klienci banku rezygnują z usług związanych z kartami kredytowymi. Chcemy zbadać, którzy klienci mogą być chętni do odejścia od tej usługi (customer churn).

Dane: Dane Credit Card dostępne są na kaggle: https://www.kaggle.com/sakshigoyal7/credit-card-customers
Zbiór danych zawiera 10 tyś. obserwacji, 18 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją przepływu klinetów należy odtworzyć notebook: https://www.kaggle.com/alpertml/credit-card-customers-eda-ml-97-5-accuracy

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Heart Disease UCI

Problem: Zbiór danych opisuje pacjentów (mających lub nie chorobę serca). Chcemy wykorzystać te dane do stworzenia modelu, który spróbuje przewidzieć, czy pacjent ma tę chorobę, czy nie.

Dane: Dane Heart Disease UCI dostępne są na kaggle: https://www.kaggle.com/ronitf/heart-disease-uci
Zbiór danych zawiera 303 obserwacji, 14 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją choroby serca należy odtworzyć notebook:https://www.kaggle.com/cdabakoglu/heart-disease-classifications-machine-learning

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Red Wine Quality

Problem: Chcemy określić jakość wina na podstawie zmiennych fizykochemicznych. W danych mamy kilka klas (multiclass), ale dzielmy jest na dwie podgrupy uzyskując klasyfikację binarną.

Dane: Dane Red Wine Quality dostępne są na kaggle: https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009
Zbiór danych zawiera 1599 obserwacji, 12 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją jakości wina należy odtworzyć notebook: https://www.kaggle.com/vishalyo990/prediction-of-quality-of-wine

W ramach projektu można również wytrenować swoje modele do porównania.

Dataset: Hotel booking demand

Problem: Zarządzając hotelem chcemy dobrze planować zapotrzebowanie na personel oraz na żywność. Chcemy zbudować model przewidujący czy gość rzeczywiście skorzysta z zarezerwowanego pokoju.

Dane: Dane Hotel booking demand dostępne są na kaggle:
https://www.kaggle.com/jessemostipak/hotel-booking-demand
Zbiór danych zawiera 119 tyś. obserwacji, 32 zmiennych objaśniających.

W celu przygotowania modeli związanych z predykcją odwołań rezerwacji należy odtworzyć notebook: https://www.kaggle.com/marcuswingen/eda-of-bookings-and-ml-to-predict-cancelations

W ramach projektu można również wytrenować swoje modele do porównania.

mini-pw / 2021l-wb-xai-1 Goto Github PK

2021l-wb-xai-1's People

Contributors

Stargazers

Watchers

Forkers

2021l-wb-xai-1's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs