GithubHelp home page GithubHelp logo

electiva-nlp's Introduction

Hola! Y bienvenido a este espacio

Soy Jairo Iván Ordóñez, fan de la obra maestra de Akira Toriyama: Dragon Ball, Ingeniero de Sistemas, apasionado por los datos y cómo generar valor mediante su visualización. Mi experiencia está basada en Business Intelligence pero de a poco me estoy convirtiendo en un Científico de Datos, precisamente, este espacio lo diseñé para poder compartir todo lo que he aprendido durante el desarrollo de mi Especialización en Analítica de Datos y poder mostrar mi potencial como futuro Data Scientist.

Proyectos

En esta sección, podrás encontrar los diferentes proyectos que he desarrollado a lo largo de la especialización que estoy cursando. Cada uno cumple con un objetivo en específico el cual se podrá detallar al dar clic en cada enlace:

  1. Conteo de Palabras: Conectándonos a un Archivo de texto delimitado por comas (CSV) se contó la cantidad de palabras de la casilla que almacenaba la opinión de los estudiantes y evidenciamos cuáles son las palabras que más se usaron en dicha casilla. Si te interesa saber, cómo contar palabras de un texto, puedes ingresar aquí

  2. Web Scrapping: En esta ocasión definimos un listado de Páginas web e hicimos web scrapping para extraer información específica de dichas páginas. Si te interesa extraer información de la web, dale clic sin miedo aquí

  3. Pre-Procesamiento de Textos: Luego de aprender cómo adquirir textos, empezamos a hacer la limpieza de este. Para ello, utilizamos técnicas de estandarización y expresiones regulares con el fin de excluir las llamadas stopwords y poder encontrar las verdaderas palabras más comunes de un texto. Si quieres saber qué técnicas de preprocesamiento utilicé, ingresa aquí

  4. Bag of Words: Esto cada vez se vuelve más interesante; ya que aprendimos a preprocesar los datos, ahora creamos una función que consolidara todas las técnicas y retornara el resultado "limpio"; todo esto con el fin de empezar a crear nuestra bolsa de palabras el cual nos ayudará en los siguientes proyectos. Si quieres saber sobre cómo crear un BoW, entra aquí

  5. TF-IDF: Nos basamos en la descripción de las princesas Disney para poder identificar qué tan parecidas pueden llegar a ser cada una de las demás. Utilizamos la técnica de TF-IDF para vectorizar cada una de las palabras de la descripción de cada princesa y poder darle un peso, posteriormente calculamos la distancia del coseno para así identificar qué tan diferentes son las princesas Disney. Si te mueres de la curiosidad por saber el resultado, ingresa aquí

  6. Word2Vec: Para esta ocasión, utilizamos reseñas de clientes que se hospedaron en diferentes hoteles y empezamos a analizar qué tan parecidas son las palabras usadas por los huéspedes, luego utilizamos esa vectorización para desplegarlo en un plano cartesiano y así ver la distribución de las palabras. Entre más alejadas significa que tienen menor relación y viceversa. Si te interesa, puedes dar clic aquí

  7. Modelado de Clasificación y Agrupación: Aquellos que apenas estamos incursionando en este mundo de la ciencia de datos, queremos crear, entrenar y probar modelos con nuestros datos. Bueno, pues llegó el momento y me percaté que, de nada sirve tener los megamodelos entrenados si todo lo realizado anteriormente no se hizo con el mayor de los detalles. Para este punto, decidimos crear diferentes modelos que nos permitieran clasificar los registros (Supervisado) y otro donde, automáticamente el modelo identificara la cantidad de grupos que existía basado en algunos comentarios. Si quieres ver los modelos utilizados, el proceso de entrenamiento, prueba y el resultado obtenido, te invito a que ingreses aquí

  8. Modelado de Temas: Luego de aprender que podemos crear modelos basados en textos cortos, decidimos mostrar un poco más de detalle visual sobre los temas que el modelo "eligió" basado en las palabras usadas. La visualización nos permite hacer análisis rápidos y sacar conclusiones en cuestión de segundos. Te invito a ver este proceso dando clic aquí

  9. Nube de Palabras: Para este proyecto, utilizamos las cartas que el CEO de una multinacional de telecomunicaciones, envía mensualmente a sus colaboradores y lo convertimos en una nube de palabras con el fin de identificar cuáles son las palabras más usadas en sus cartas. El resultado fue más que interesante, por lo que te invito a verlo dando clic aquí

  10. Extracción de Datos de Twitter: Utilizando la API de Twitter, descargamos datos sobre los comentarios que estaban realizando los usuarios sobre la penúltima etapa de #LaVuelta (Una de las carreras más importantes del ciclismo profesional que se realiza en España). Esa era la etapa reina del evento, por lo que la cantidad de tweets generados eran lo suficiente como para analizarlo. Si te gusta el ciclismo y el análisis de datos, date el gusto de pasar por aquí

  11. Análisis de Sentimiento en Twitter: Nuevamente utilizando la API de Twitter descargamos datos sobre una tendencia en Colombia para analizar los comentarios de las personas. En ese momento sacamos tweets que hablaban sobre la tendencia #BuenaPapa el cual consistía en apoyar a los papicultores que están pasando por un momento difícil dado que con los diferentes tratados de libre comercio con los demás países, los campesinos ven afectada su economía. El movimiento buscaba que las personas que viajaban por el territorio nacional, se detuvieran a comprar papa directamente a los campesinos que con un esfuerzo inmenso, llevaban su preciado producto a la orilla de la carretera. Quisimos analizar los sentimientos de estost tweets para conocer qué tan a favor o en contra estaban los usuarios de twitter sobre este movimiento y gratificantemente identificamos que eran más los comentarios positivos que los negativos. Creamos una nube de palabras para visualizar las palabras más usadas en los tweets positivos y negativos, si quieres conocer este proyecto, puedes dar clic aquí

Si llegaste hasta aquí, es porque te interesaron mis proyectos y te lo agradezco.

Si quieres que sea tu futuro Rockstar Data Scientist puedes contactarme mediante LinkedIn (Ahí podrás ver mi rostro :P)

electiva-nlp's People

Contributors

jairoivanzho avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.