Light

marcosmarcello17 / datascience Goto Github PK

View Code? Open in Web Editor NEW

0.0 1.0 0.0 12 KB

Python 100.00%

datascience's Introduction

DataScience

Parte 1: Arboles de Decision para Regresión

A partir del archivo Life Expectancy.csv entrenar un modelo de árboles de decisión que permita predecir la esperanza de vida en un determinado país a partir las variables explicativas del dataset.
Revisar en la documentación de la librería el valor por defecto que toma el hiperparámetro max_depth . Graficar la variación del score para el set de entrenamiento y para el de prueba en función de la variación de este parámetro (puede inicialmente tomar un valor 1 e incrementarse hasta max_depth = 10).
En función del gráfico sugerir el max_depth óptimo para el modelo definitivo.
Finalmente, mostrar gráficamente el árbol de decisión. Recordar que puede llegar a ser necesario aclarar por parámetro la dimension del gráfico para que sea observable.

Parte 2: Transformación del dataset

Transformar la columna Life Expectancy de manera tal que considere desarrollado (valor 1) a aquellos países cuya esperanza de vida sea mayor o igual a 72 años. Caso contrario, en desarrollo (valor 0). Renombrar la columna de manera que refleje esta situación.
Visualizar la información obtenida de manera que considere más conveniente y de forma que añada valor en la comprensión de la información obtenida. Realizar al menos 3 gráficos.

Parte 3: Modelos de Clasificación Bootstrap Aggregation

Entrenar un modelo tipo Bagging Classifier de manera tal que se empleen N muestras bootstrap con reposición, cada una del 50% del tamaño del dataset original. Configurar los hiperparámetros de manera tal que cumpla las condiciones especificadas.
Graficar como varía el accuracy de cada modelo en función de la cantidad de muestras bootstrap con el que se lo entrenó. Realizarlo para valores entre 10 y 100 con saltos de 10 unidades.
Presentar la matriz de confusión correspondiente para un umbral neutro para el modelo que emplea 100 muestras bootstrap.
Graficar, para distintos umbrales (desde 0 a 1 con saltos de 0.1) la variación de VP y FP

AdaBoost y GradientBoosting

Entrenar los dos modelos de boosting del enunciado con la siguiente configuración para ambos casos:
learning_rate = 1
n_estimators = 10 Recordar que en GradientBoosting tomaremos un max_depth = 1
Indicar el score sobre el set de prueba para cada uno de los casos
Realizar la matriz de confusión correspondiente para ambos modelos.
Retornar para cada caso los clasificadores débiles que utilizó el algoritmo. Mostrar gráficamente un árbol a elección.
Indicar para cada caso si para la configuración dada nos encontramos con un caso de overfitting. En caso afirmativo, indicar qué parámetros modificaría para evitar esto.

datascience's People

Contributors

Watchers

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.

Jobs