GithubHelp home page GithubHelp logo

proyecto_individual_01's Introduction

Readme

Proyecto Individual I

Análisis exploratorio y sistema de recomendación en peliculas

*Índice

*Descripción del proyecto

*Características de la aplicación y demostración

*Acceso al proyecto

*Paquetes utilizadas

*Conclusión

*Personas-Desarrolladores del Proyecto

descripción_del_proyecto

Para tener un objetivo preciso del comportamiento de los datos se ha realizado la limpieza y exploracion de los mismos primero se hizo el proceso de tranformacion sobre los dataset movies y credits , la carga de los datasets y luego el proceso del ETL finalmente el archivo esta lista para ser archivo fuente del proceso EDA el proceso de EDA precede al modelamiento, se formula supuestos o hipotesis . se realiza un descripcion estadistico sobre variables numericas y categoricas , se propone inferencias ,supuestos, las cuales son validadas con los diagramas de dispersion , barras, caja , histograma ,heatmap, etc. estas se detallan en el notebook.se analiza las correlaciones entre variables para luego realizar el modelo que ejecute recomendaciones de peliculas similares a una al respecto.

Características_de_la_aplicación_y_demostración

  • ETL: se hace la carga de los datasets , vista previa de los mismos, se elimina fila duplicados o nulas , filas no relacionadas ,recuento de vacios y nulos, reemplazo de datos vacios o nulos por 0 en el caso de columnas numericas ,columnas categoricas con una cadena de texto "sin_dato" , y en las anidadas con diccionarios . se toma esa decicion puesto que en algunas columnas los datos nulos representa menos del 1 % de la columna,y se necesita realizar calculos con alguna de ellas, se modifica el tipo de dato por columna, se elimina algunas columnas no muy predominantes en el analisis descriptivo estadistico y modelamiento

  • EDA efectuado el proceso anterior , el proceso EDA precisa de estos datos para analizar , proponer supuestos o inferencias a partir de la descripcion estadistica , y extraer informacion .caracteristicas principales de los datos ,en variables numericas solo hay una variable que sigue una distribucion simetrica o normal, en variables categoricas en idioma original el ingles es el mas frecuente y ello se verifica en los diagramas, en status es released, y cinderella es la pelicula mas frecuente. en las variables numericas existen datos atipicos . al realizar el tratamiento de los mismos .se llega a un conjunto de datos sin outliers. pero ello tiene implicancias en los resultados estadisticos de la variable numerica(p.ej. cambios en la popularidad de las peliculas) y finalmente se analiza el nivel de correlacion por cada par de variables

  • sistema de recomendacion respecto al tipo de modelo a usar para recomendacion de peliculas , se ha utilizado el modelo KNN , ademas se utilizo la funcion coseno de similitud, la similitud es muy alta cuando la distancia es poca , es decir cuando la distancia entre dos vectores tiende a 0 .las peliculas seran mas similares, las peliculas a relacionar, poseen genero y en este caso clasificaremos las películas según sus géneros. se crea la columna genres_bin que define vectores a los cuales se aplica funcion coseno de similitud

acceso_proyecto

paquetes_utilizados

- fastapi
- pandas 
- matplotlib.pyplot 
- seaborn 
- numpy 
- uvicorn
- scipy

conclusión


al realizar el EDA en los datos llegamos a algunas conlusiones:

  • para algunas variables numericas se les define como una distribucion muy cercana a la normal
  • las variables que dependen de variables independientes . se les atribuira modificaciones de orden de representacion en el tratamiento outliers
  • Del heatmap se puede concluir que hay variables correlacionadas como budget y revenue en numericas y en categoricas title y genres
  • se puede concluir que la imputacion de outliers tiene un efecto significativo en la variable popularidad de las peliculas (constante en los 8 primeros )
  • la funcion del coseno de similitud influye en el modelo de ML y en la recomendacion de films en este caso se creo una columna con listas de elementos binarios para aplicar la funcion, genres_bin.

personas_desarrolladores

  • Yesica Milagros Leon Ccahuana

proyecto_individual_01's People

Contributors

yesicamilagros avatar

Watchers

 avatar

proyecto_individual_01's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.