El Proyecto responde a la necesidad de predecir a través de datos históricos y actualizados disponibles, los equipos probables que levantarían la copa en el MUNDIAL QATAR 2022.
Análisis y predicción del mundial Qatar 2022.
DJ PBL (Grupo #01)
⚽ Deygerson Méndez Guédez || Data Engineer (TL)
⚽ Luis Solis Navarro || Data Scientist
⚽ Pamela Paola Contreras Bardales || Business/Data Analyst
⚽ Bonie Pazimiño González || Business/Data Analyst
⚽ Jean P. Flores De La Cruz || Data Scientist
El fútbol es el deporte más popular del mundo. De acuerdo con el portal de la Federación Internacional de Fútbol Asociado (FIFA, 2022), más de 265 millones de personas practican este deporte, lo que representa alrededor del 3,4% de la población mundial. Por otro lado, el evento más grande de este deporte, la Copa Mundial de la FIFA, alcanza las mayores visualizaciones a nivel de deporte individual, alcanzando los 620 millones de espectadores; siendo esta seguida por la visualización del Super Bowl estadounidense con 110 millones de espectadores. La masividad del deporte, y sobre todo de la Copa del Mundo, trae consigo muchas pasiones. Millones de oportunidades de comercio se crean alrededor del fútbol y sus hinchas. Basta recordar la participación de nuestro país en la anterior Copa Mundial de Rusia, y el dinamismo alcanzado tanto en el consumo interno como por aquellos viajeros entusiastas que acompañaron a la selección en tan épica gesta. El hincha israelita y los miles de peruanos que gritaron en Saransk, Ekaterimburgo y Sochi; consiguieron para sí el honroso título de «la mejor hinchada del mundo». Aquellos peruanos que alentaron desde casa o trabajos buscaban participar de la fiesta intentando adivinar los resultados de los partidos venideros. Apuestas personales, concursos de predicción de resultados incentivados por las marcas, hasta pollas grupales se volvieron el pan de cada día. Cada uno, según su intuición o método buscaba predecir la mayor cantidad de resultados; a veces sesgados por el corazón, como para pensar que Perú le ganaría a Francia, y otras usando resultados pasados de las selecciones en competencia para aproximar los resultados futuros. Inclusive salió Credicorp Capital a decir que Brasil ganaría el mundial, otra vez; fallando otra vez, como ahora sabemos. Este proyecto nació en las vísperas del repechaje que enfrentaría la selección peruana por un cupo a Catar 2022. La idea que tuvo el grupo es de implementar un modelo que permita predecir al ganador del próximo mundial basado en un conjunto de datos disponibles de manera pública. No con la intención de predecir efectivamente al ganador sino de, a través de la aplicación de las técnicas de machine learning y visualización aprendidas en el curso, alejarnos un poco de las emociones que trae este lindo deporte e intentar aprender a ser más objetivos con la información existente. Sea cual sea el ganador de Qatar 2022, los participantes de este proyecto reconocemos desde ya que aprenderemos junto con nuestro modelo y buscaremos estar listos para la siguiente iteración.
La solución propuesta es la construcción de un modelo de Machine Learning, capaz de predecir a los equipos clasificados por cada grupo y al ganador de la Copa Mundial de Catar 2022. Para ello, es necesario obtener datos desde fuentes públicas, utilizando web scraping, esta información debe ser almacenada en un lago de datos, para poder ser consumida por el modelo y también por una solución de visualización de datos.
Para la implementación de la solución se utilizan los servicios de Google Cloud Platform, mediante la siguiente arquitectura Batch:
-
Ingesta: Pipelines de proceso EL(Extracción y Carga), a través de lenguaje de programación Python, en entorno Jupyter Lab, del servicio Vertex AI (Workbench). La periodicidad de la ingesta es diaria, una vez por día, de manera automatizada utilizando las ejecuciones programadas del servicio Vertex AI.
-
Almacenamiento: Cloud Storage, BigQuery.
-
Machine Learning: Vertex AI.
-
Analytics: Google Data Studio.
- Código de la solución: Link de Github
- Creación de un nuevo proyecto “Proyecto-Final-BigData” en cuenta GCP.
- Asignación de permisos y roles sobre el proyecto, en el servicio IAM, para los usuarios correspondientes.
- Despliegue y autorización de las API’s de los distintos servicios de GCP:
- VertexAI(Workbech): Se crea nuevo notebook “proyecto-final-bigdata-notebook”.
- Cloud Storage: Se crea nuevo bucket “proyecto_final_bigdata_bucket”
- BigQuery: Se generan los datasets “raw_data y analytics”, los cuales contienen las tablas, que son consumidas por la solución visual.
- Desarrollo de código de pipelines y modelo de Machine Learning en entorno Jupyter Lab, del servicio Vertex AI.
- Creación de tablero en Google Data Studio:
El tablero lo puedes ver el el siguiente link
- Modelado:
- Visualización con Data Studio:
La visualización de los datos es muy importante en todo proyecto, como bien lo menciona la autora de “La introducción a la visualización de datos” (Milanes guisado, Yusnelkis,2020), que con la visualización estadística de los datos, podemos ver patrones de comportamiento, tomar decisiones y mantenemos la interactividad. Mencionado lo anterior, para el presente trabajo se propone trabajar con un herramienta en la nube y open source, como lo es Data Studio.
Pero ¿Qué es Data Studio? Es una herramienta Open Source de Google, que opera en la nube, creada para visualización de datos, y según Google, Data Studio puede: crear informes fácilmente sobre datos de una amplia variedad de fuentes, sin tener que escribir código. En tan solo unos instantes, puedes conectarte a conjuntos de datos como:
-
Bases de datos, como BigQuery, MySQL o PostgreSQL,Productos de Google Marketing Platform, como Google Ads, Analytics, Display & Video 360 o Search Ads 360.
-
Productos de consumo de Google, como Hojas de cálculo, YouTube o Search Console.
-
Archivos de texto plano, mediante Google Cloud Storage o la subida de archivos CSV.
-
Plataformas de redes sociales, como Facebook, Reddit o Twitter.
-
Datos combinados de cualquier combinación de fuentes relacionadas.
En conclusión para los fines del proyecto es la herramienta que se alinea a las necesidades para mostrar de manera dinámica la información que nos arrojan los datos. A continuación muestro unas capturas del Tablero en Data Studio que se elaboró para el proyecto: