GithubHelp home page GithubHelp logo

codeandomexico / los-scrapers Goto Github PK

View Code? Open in Web Editor NEW
12.0 25.0 13.0 2.72 MB

Recopilación de web scrapers para mejorar al gobierno (A collection of web-scrapers to extract government data)

Ruby 5.90% Python 94.10%

los-scrapers's Introduction

Los Scrapers

============

Este repositorio es una colección de scrapers relacionados con información pública de México.

¿Qué es un scraper?

Un scraper es un programa que extrae datos de sitios web o documentos y los transforma en otro tipo de documento, con la finalidad de obtenerlos en formatos más amigables/accesibles para desarrolladores.

¿Cómo agrego un scraper a esta lista?

Para agregar un scraper a esta lista solo manda un pull request en este repo.

¿Pueden ayudarme/hacer un scraper?

Posiblemente, pregunta en la seccion de [issues] (https://github.com/CodeandoMexico/los-scrapers/issues).

============

Scrapers

============

alt text

los-scrapers's People

Contributors

milmazz avatar defvol avatar lalo avatar mondras avatar ricalanis avatar

Stargazers

Roel Leal avatar Alan Crow avatar Mario A. García avatar Silvia Gutiérrez avatar Oscar Espinoza avatar Abraham avatar Pres avatar Arturo Leon avatar Heriberto Arias avatar  avatar Eduardo Lopez De Leon avatar Marco (Polo) Ornelas avatar

Watchers

Mike Vallen avatar Rafael Cárdenas avatar Eduardo Lopez De Leon avatar Abraham avatar Juan Pablo Escobar L avatar Everardo Padilla avatar Miguel Angel Gordián avatar James Cloos avatar Braulio Chavez avatar Alejandro Gómez avatar Adrian Rangel avatar Miguel Salazar avatar Jorge Issa avatar Manuel Morato avatar Diego Garduño avatar Montse Lozano Dieck avatar Ettore Neri avatar  avatar Diego Arredondo Ortiz avatar Eugenio Jose Martinez Ramos avatar  avatar Oscar Elizondo avatar Benjamin Perez avatar catayale avatar  avatar

los-scrapers's Issues

INEGI Parser: Cambio en formatos de entrada

Parece que el INEGI ha cambiado el formato de los archivos que entregaban, anteriormente entregaba los siguientes ficheros:

  • XX_ENTIDAD_Fuente.tsv
  • XX_ENTIDAD_Notas.tsv
  • XX_ENTIDAD_UnidadMedida.tsv
  • XX_ENTIDAD_Valor.tsv

Si se descargan los ficheros ahora se puede observar lo siguiente:

  • XX_ENTIDAD_Notas.tsv
  • XX_ENTIDAD_Valor.tsv
  • XX_ENTIDAD_NotasxValor.tsv

Por lo que la funcionalidad de los scripts debe ser actualizada, ya me encuentro trabajando en esto.

INEGI Parser: Soporte a más backends de bases de datos

Hasta ahora el script brinda soporte a MongoDB (NoSQL) y PostgreSQL (SQL), lo cual puede ser suficiente. Sin embargo, sería deseable establecer un ORM como capa intermedia (SQLAlchemy por ejemplo) que dependiendo de la configuración indicada por el usuario puede trabajar con conectores hacia:

  • PostgreSQL
  • MySQL
  • SQLite
  • Oracle
  • MS-SQL
  • Firebird
  • Sybase

Por nombrar algunas, con SQLAlchemy podríamos crear al vuelo por ejemplo las tablas de la bases de datos y controlar la inserción de datos por medio de invocaciones más orientadas a objetos y no incluir tantas sentencias SQL en el código Python.

INEGI Parser: Crear scripts de distribución del paquete

Sería deseable poder contar con los scripts setup.pyy setup.cfg usados en los proyectos basados en Python para distribuir las aplicaciones. Con esto finalmente sería posible publicar el proyecto en PyPI (Python Package Index).

Diario oficial de la federación

Estaría cool hacer algo de scraping del Diario Oficial de la Federación, porque es una fuente de datos muy valiosa pero en formatos no abiertos.

Tener un newsfeed de lo que se publica oficialmente ahí, con alertas sobre licitaciones o algún otro elemento de nuestro interés. Por lo menos un re-diseño a la información no le caería nada mal.

Por un momento pensé que tenían resuelto eso con su RSS, pero al parecer está roto http://dof.gob.mx/sumario.xml

Estaría bueno hacer un scraper y exponer todo vía un API REST para bajar estos anuncios del DOF.

lista de scrapers en .yml

La lista de scrapers debe de estar en un formato más accesible, de preferencia un yml o json.

El esquema para este formato sera definido depende de como va creciendo este repo.

Seleccionar licencia para el proyecto

En el PR #18 se propuso el uso de la licencia MIT para el proyecto INEGIParser, dicha propuesta fue denegada para un análisis más profundo en un hilo separado.

Para dicho análisis quisiera que se tome en cuenta lo siguiente:

  • Mi comentario inicial en el issue 18 sobre algunos inconvenientes en el uso de la GPL.
  • Mientras el proyecto los-scrapers continúe sin una licencia definida se considera por omisión que prefieren retener algunos derechos, lo cual podría limitar la reproducción, distribución o incluso la creación de trabajos derivados por otros. Estoy completamente seguro, que la intención de Codeando México no es esta, pero hay que ser explícito en los términos de uso.
  • Al estar hospedado el código en Github es claro que el autor acepto los términos de uso del sitio, lo cual habilita ciertos derechos, entre ellos la visualización del código y la creación de forks. Esto sin una licencia, no es suficiente.
  • Otro punto en contra de los términos de la licencia GPL puede ser el encontrado en JSON, la licencia de JSON establece una cláusula que indica lo siguiente: The Software shall be used for Good, not Evil., parece un tanto irracional que la FSF la catalogue de non-free en estos tiempos.

Actualizar README

Los Scrapers es una recopilación de web scrapers para hacer accesibles datos públicos de México.

A partir de Abril 2014 cambiaremos la estructura del proyecto por propuesta de @lalo:

  • Cada scraper estará en un repositorio independiente, con su propio README.
  • Este repo "los-scrapers" será un index de los demás scrapers, con breves guidelines para compartir un scraper, la licencia, como crear uno (newbie-friendliness) y como publicar los datos abiertos (posiblemente usando datamx.io).
  • El issue tracker de "los-scrapers" será para compartir nuevas ideas de scrapers o compartir uno que ya está funcionando al index.

Nuevas ideas para agregar al README como siempre bienvenidas!

A-team

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.