Hola! Y bienvenido a este espacio

Soy Jairo Iván Ordóñez, fan de la obra maestra de Akira Toriyama: Dragon Ball, Ingeniero de Sistemas, apasionado por los datos y cómo generar valor mediante su visualización. Mi experiencia está basada en Business Intelligence pero de a poco me estoy convirtiendo en un Científico de Datos, precisamente, este espacio lo diseñé para poder compartir todo lo que he aprendido durante el desarrollo de mi Especialización en Analítica de Datos y poder mostrar mi potencial como futuro Data Scientist.

Proyectos

En esta sección, podrás encontrar los diferentes proyectos que he desarrollado a lo largo de la especialización que estoy cursando. Cada uno cumple con un objetivo en específico el cual se podrá detallar al dar clic en cada enlace:

Conteo de Palabras: Conectándonos a un Archivo de texto delimitado por comas (CSV) se contó la cantidad de palabras de la casilla que almacenaba la opinión de los estudiantes y evidenciamos cuáles son las palabras que más se usaron en dicha casilla. Si te interesa saber, cómo contar palabras de un texto, puedes ingresar aquí
Web Scrapping: En esta ocasión definimos un listado de Páginas web e hicimos web scrapping para extraer información específica de dichas páginas. Si te interesa extraer información de la web, dale clic sin miedo aquí
Pre-Procesamiento de Textos: Luego de aprender cómo adquirir textos, empezamos a hacer la limpieza de este. Para ello, utilizamos técnicas de estandarización y expresiones regulares con el fin de excluir las llamadas stopwords y poder encontrar las verdaderas palabras más comunes de un texto. Si quieres saber qué técnicas de preprocesamiento utilicé, ingresa aquí
Bag of Words: Esto cada vez se vuelve más interesante; ya que aprendimos a preprocesar los datos, ahora creamos una función que consolidara todas las técnicas y retornara el resultado "limpio"; todo esto con el fin de empezar a crear nuestra bolsa de palabras el cual nos ayudará en los siguientes proyectos. Si quieres saber sobre cómo crear un BoW, entra aquí
TF-IDF: Nos basamos en la descripción de las princesas Disney para poder identificar qué tan parecidas pueden llegar a ser cada una de las demás. Utilizamos la técnica de TF-IDF para vectorizar cada una de las palabras de la descripción de cada princesa y poder darle un peso, posteriormente calculamos la distancia del coseno para así identificar qué tan diferentes son las princesas Disney. Si te mueres de la curiosidad por saber el resultado, ingresa aquí
Word2Vec: Para esta ocasión, utilizamos reseñas de clientes que se hospedaron en diferentes hoteles y empezamos a analizar qué tan parecidas son las palabras usadas por los huéspedes, luego utilizamos esa vectorización para desplegarlo en un plano cartesiano y así ver la distribución de las palabras. Entre más alejadas significa que tienen menor relación y viceversa. Si te interesa, puedes dar clic aquí
Modelado de Clasificación y Agrupación: Aquellos que apenas estamos incursionando en este mundo de la ciencia de datos, queremos crear, entrenar y probar modelos con nuestros datos. Bueno, pues llegó el momento y me percaté que, de nada sirve tener los megamodelos entrenados si todo lo realizado anteriormente no se hizo con el mayor de los detalles. Para este punto, decidimos crear diferentes modelos que nos permitieran clasificar los registros (Supervisado) y otro donde, automáticamente el modelo identificara la cantidad de grupos que existía basado en algunos comentarios. Si quieres ver los modelos utilizados, el proceso de entrenamiento, prueba y el resultado obtenido, te invito a que ingreses aquí
Modelado de Temas: Luego de aprender que podemos crear modelos basados en textos cortos, decidimos mostrar un poco más de detalle visual sobre los temas que el modelo "eligió" basado en las palabras usadas. La visualización nos permite hacer análisis rápidos y sacar conclusiones en cuestión de segundos. Te invito a ver este proceso dando clic aquí
Nube de Palabras: Para este proyecto, utilizamos las cartas que el CEO de una multinacional de telecomunicaciones, envía mensualmente a sus colaboradores y lo convertimos en una nube de palabras con el fin de identificar cuáles son las palabras más usadas en sus cartas. El resultado fue más que interesante, por lo que te invito a verlo dando clic aquí
Extracción de Datos de Twitter: Utilizando la API de Twitter, descargamos datos sobre los comentarios que estaban realizando los usuarios sobre la penúltima etapa de #LaVuelta (Una de las carreras más importantes del ciclismo profesional que se realiza en España). Esa era la etapa reina del evento, por lo que la cantidad de tweets generados eran lo suficiente como para analizarlo. Si te gusta el ciclismo y el análisis de datos, date el gusto de pasar por aquí
Análisis de Sentimiento en Twitter: Nuevamente utilizando la API de Twitter descargamos datos sobre una tendencia en Colombia para analizar los comentarios de las personas. En ese momento sacamos tweets que hablaban sobre la tendencia #BuenaPapa el cual consistía en apoyar a los papicultores que están pasando por un momento difícil dado que con los diferentes tratados de libre comercio con los demás países, los campesinos ven afectada su economía. El movimiento buscaba que las personas que viajaban por el territorio nacional, se detuvieran a comprar papa directamente a los campesinos que con un esfuerzo inmenso, llevaban su preciado producto a la orilla de la carretera. Quisimos analizar los sentimientos de estost tweets para conocer qué tan a favor o en contra estaban los usuarios de twitter sobre este movimiento y gratificantemente identificamos que eran más los comentarios positivos que los negativos. Creamos una nube de palabras para visualizar las palabras más usadas en los tweets positivos y negativos, si quieres conocer este proyecto, puedes dar clic aquí

Si llegaste hasta aquí, es porque te interesaron mis proyectos y te lo agradezco.

Si quieres que sea tu futuro Rockstar Data Scientist puedes contactarme mediante LinkedIn (Ahí podrás ver mi rostro :P)

jairoivanzho / electiva-nlp Goto Github PK

electiva-nlp's Introduction

Hola! Y bienvenido a este espacio

Proyectos

electiva-nlp's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs