GithubHelp home page GithubHelp logo

datascience's Introduction

DataScience

Parte 1: Arboles de Decision para Regresión

  • A partir del archivo Life Expectancy.csv entrenar un modelo de árboles de decisión que permita predecir la esperanza de vida en un determinado país a partir las variables explicativas del dataset.
  • Revisar en la documentación de la librería el valor por defecto que toma el hiperparámetro max_depth . Graficar la variación del score para el set de entrenamiento y para el de prueba en función de la variación de este parámetro (puede inicialmente tomar un valor 1 e incrementarse hasta max_depth = 10).
  • En función del gráfico sugerir el max_depth óptimo para el modelo definitivo.
  • Finalmente, mostrar gráficamente el árbol de decisión. Recordar que puede llegar a ser necesario aclarar por parámetro la dimension del gráfico para que sea observable.

Parte 2: Transformación del dataset

  • Transformar la columna Life Expectancy de manera tal que considere desarrollado (valor 1) a aquellos países cuya esperanza de vida sea mayor o igual a 72 años. Caso contrario, en desarrollo (valor 0). Renombrar la columna de manera que refleje esta situación.
  • Visualizar la información obtenida de manera que considere más conveniente y de forma que añada valor en la comprensión de la información obtenida. Realizar al menos 3 gráficos.

Parte 3: Modelos de Clasificación Bootstrap Aggregation

  • Entrenar un modelo tipo Bagging Classifier de manera tal que se empleen N muestras bootstrap con reposición, cada una del 50% del tamaño del dataset original. Configurar los hiperparámetros de manera tal que cumpla las condiciones especificadas.
  • Graficar como varía el accuracy de cada modelo en función de la cantidad de muestras bootstrap con el que se lo entrenó. Realizarlo para valores entre 10 y 100 con saltos de 10 unidades.
  • Presentar la matriz de confusión correspondiente para un umbral neutro para el modelo que emplea 100 muestras bootstrap.
  • Graficar, para distintos umbrales (desde 0 a 1 con saltos de 0.1) la variación de VP y FP

AdaBoost y GradientBoosting

  • Entrenar los dos modelos de boosting del enunciado con la siguiente configuración para ambos casos:
  • learning_rate = 1
  • n_estimators = 10 Recordar que en GradientBoosting tomaremos un max_depth = 1
  • Indicar el score sobre el set de prueba para cada uno de los casos
  • Realizar la matriz de confusión correspondiente para ambos modelos.
  • Retornar para cada caso los clasificadores débiles que utilizó el algoritmo. Mostrar gráficamente un árbol a elección.
  • Indicar para cada caso si para la configuración dada nos encontramos con un caso de overfitting. En caso afirmativo, indicar qué parámetros modificaría para evitar esto.

datascience's People

Contributors

marcosmarcello17 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.