codeandomexico / los-scrapers Goto Github PK

View Code? Open in Web Editor NEW

12.0 25.0 13.0 2.72 MB

Recopilación de web scrapers para mejorar al gobierno (A collection of web-scrapers to extract government data)

Ruby 5.90% Python 94.10%

los-scrapers's Introduction

Los Scrapers

============

Este repositorio es una colección de scrapers relacionados con información pública de México.

¿Qué es un scraper?

Un scraper es un programa que extrae datos de sitios web o documentos y los transforma en otro tipo de documento, con la finalidad de obtenerlos en formatos más amigables/accesibles para desarrolladores.

¿Cómo agrego un scraper a esta lista?

Para agregar un scraper a esta lista solo manda un pull request en este repo.

¿Pueden ayudarme/hacer un scraper?

Posiblemente, pregunta en la seccion de [issues] (https://github.com/CodeandoMexico/los-scrapers/issues).

============

Scrapers

Datos de INEGI

============

los-scrapers's People

Contributors

Stargazers

Watchers

Forkers

mondras bluetouch defvol edgartaor sigues edgarchan ricalanis donmigueldelmonte codeandomonterrey frederickayala fmacias64 anabcm jessica21dp

los-scrapers's Issues

INEGI Parser: Cambio en formatos de entrada

Parece que el INEGI ha cambiado el formato de los archivos que entregaban, anteriormente entregaba los siguientes ficheros:

XX_ENTIDAD_Fuente.tsv
XX_ENTIDAD_Notas.tsv
XX_ENTIDAD_UnidadMedida.tsv
XX_ENTIDAD_Valor.tsv

Si se descargan los ficheros ahora se puede observar lo siguiente:

XX_ENTIDAD_Notas.tsv
XX_ENTIDAD_Valor.tsv
XX_ENTIDAD_NotasxValor.tsv

Por lo que la funcionalidad de los scripts debe ser actualizada, ya me encuentro trabajando en esto.

Top 10 contratistas de gobierno

Idea de UI http://www.chicagolobbyists.org/

Armar un repositorio y API para los datos recolectados

Podríamos hacer un API out-of-the-box con http://datahub.io/ al subir en formato CSV o JSON los datos extraídos por los scrapers

Hace unos meses agregué esa funcionalidad a la gema CKAN ruby https://github.com/apohllo/CKAN

Podría ser una manera rápida de tener un API

Datos abiertos DF sucks big time - Scrap 'em all

http://datos.df.gob.mx/

Compranet

La interfaz de Compranet es inútil, pero los datos nos pueden servir bastante:

https://compranetim.funcionpublica.gob.mx/Compranet/indexCompranet.faces?user=5gfmAdQzuzb8A7TwGDgbLw%3D%3D&sistema=Iqo4iNO0VtTpr06ieWU5TA%3D%3D&token=-8988541503471337154

Podríamos entender patrones de contratación
Detectar gastos ridículos
Entre otras maravillas

INEGI Parser: Soporte a más backends de bases de datos

Hasta ahora el script brinda soporte a MongoDB (NoSQL) y PostgreSQL (SQL), lo cual puede ser suficiente. Sin embargo, sería deseable establecer un ORM como capa intermedia (SQLAlchemy por ejemplo) que dependiendo de la configuración indicada por el usuario puede trabajar con conectores hacia:

PostgreSQL
MySQL
SQLite
Oracle
MS-SQL
Firebird
Sybase

Por nombrar algunas, con SQLAlchemy podríamos crear al vuelo por ejemplo las tablas de la bases de datos y controlar la inserción de datos por medio de invocaciones más orientadas a objetos y no incluir tantas sentencias SQL en el código Python.

Bot para detectar gastos excesivos

Deberíamos de armar un bot que detecte gastos excesivos a través de IFAI, como el caso de PEMEX y el bat de béisbol de $415,000

INEGI Parser: Crear scripts de distribución del paquete

Sería deseable poder contar con los scripts setup.pyy setup.cfg usados en los proyectos basados en Python para distribuir las aplicaciones. Con esto finalmente sería posible publicar el proyecto en PyPI (Python Package Index).

INEGI Parser: Mejora en parser de argumentos pasados por línea de comandos

Mejorar el análisis de las opciones pasadas por línea de comandos, recomendaría el uso de argparse para ello, a la vez, el manejo de las opciones centralizarlas en un archivo de configuración. Además, cada comando debe mostrar en caso de error en parámetros una ayuda al usuario.

Diario oficial de la federación

Estaría cool hacer algo de scraping del Diario Oficial de la Federación, porque es una fuente de datos muy valiosa pero en formatos no abiertos.

Tener un newsfeed de lo que se publica oficialmente ahí, con alertas sobre licitaciones o algún otro elemento de nuestro interés. Por lo menos un re-diseño a la información no le caería nada mal.

Por un momento pensé que tenían resuelto eso con su RSS, pero al parecer está roto http://dof.gob.mx/sumario.xml

Estaría bueno hacer un scraper y exponer todo vía un API REST para bajar estos anuncios del DOF.

lista de scrapers en .yml

La lista de scrapers debe de estar en un formato más accesible, de preferencia un yml o json.

El esquema para este formato sera definido depende de como va creciendo este repo.

Seleccionar licencia para el proyecto

En el PR #18 se propuso el uso de la licencia MIT para el proyecto INEGIParser, dicha propuesta fue denegada para un análisis más profundo en un hilo separado.

Para dicho análisis quisiera que se tome en cuenta lo siguiente:

Mi comentario inicial en el issue 18 sobre algunos inconvenientes en el uso de la GPL.
Mientras el proyecto los-scrapers continúe sin una licencia definida se considera por omisión que prefieren retener algunos derechos, lo cual podría limitar la reproducción, distribución o incluso la creación de trabajos derivados por otros. Estoy completamente seguro, que la intención de Codeando México no es esta, pero hay que ser explícito en los términos de uso.
Al estar hospedado el código en Github es claro que el autor acepto los términos de uso del sitio, lo cual habilita ciertos derechos, entre ellos la visualización del código y la creación de forks. Esto sin una licencia, no es suficiente.
Otro punto en contra de los términos de la licencia GPL puede ser el encontrado en JSON, la licencia de JSON establece una cláusula que indica lo siguiente: The Software shall be used for Good, not Evil., parece un tanto irracional que la FSF la catalogue de non-free en estos tiempos.

Actualizar README

Los Scrapers es una recopilación de web scrapers para hacer accesibles datos públicos de México.

A partir de Abril 2014 cambiaremos la estructura del proyecto por propuesta de @lalo:

Cada scraper estará en un repositorio independiente, con su propio README.
Este repo "los-scrapers" será un index de los demás scrapers, con breves guidelines para compartir un scraper, la licencia, como crear uno (newbie-friendliness) y como publicar los datos abiertos (posiblemente usando datamx.io).
El issue tracker de "los-scrapers" será para compartir nuevas ideas de scrapers o compartir uno que ya está funcionando al index.

Nuevas ideas para agregar al README como siempre bienvenidas!

codeandomexico / los-scrapers Goto Github PK

los-scrapers's Introduction

Los Scrapers

¿Qué es un scraper?

¿Cómo agrego un scraper a esta lista?

¿Pueden ayudarme/hacer un scraper?

Scrapers

los-scrapers's People

Contributors

Stargazers

Watchers

Forkers

los-scrapers's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs