GithubHelp home page GithubHelp logo

brasiliapp / utils Goto Github PK

View Code? Open in Web Editor NEW
26.0 2.0 13.0 28 KB

Esse repositório contém as funções de web scrapper para manter a base do BrasiliApp com informações originais buscadas nas plataformas do governo federal

Home Page: https://brasiliapp.com.br

Python 100.00%

utils's Introduction

Brasiliapp/Utils: Web Scraping para Dados dos Deputados Federais

Este repositório contém utilitários e funções de web scraping para coletar dados relacionados aos deputados federais na Câmara dos Deputados do Brasil. Essas ferramentas podem ser usadas para extrair as mais diversas informações que não estão disponíveis na api da câmara, ou que não estão estruturada de uma forma organizada.

As informações não disponíveis na API da câmara são estraídas do site oficial do Câmara dos Deputados (https://www.camara.leg.br/)

Se você tiver de alguma outra informação que esteja disponível lá, abra uma issue.

Funcionalidades

extract_gabinet_data.py

  • Coleta dos gastos mensais da verba de cabineta de um/a parlamentar.
  • Coleta dos secretários ativos do gabinete de um/a parlamentar.
  • Coleta dos secretários inativos do gabinete de um/a parlamentar.
  • Coletar o salário de cada deputado.
  • Coletar o salário de cada secretário.

extract_speeches.py

  • Coleta eventos e gravações de fala do parlamentar.
  • Armazenar em núvem os arquivos para não depender da disponibilidade da cloud da câmara.

Modo de Uso

Pré-requisitos

Certifique-se de ter as seguintes dependências instaladas:

  • Python 3

Executando o Web Scraper

  1. Clone este repositório:

    git clone https://github.com/seu-usuario/utils.git
    
  2. Navegue até o diretório do repositório:

    cd utils
    
  3. Instale as dependências rodando o seguinte comando dentro do repositório:

    pip3 install -r requirements.txt
    
  4. Adicione o arquivo com as variáveis de ambiente do script. Ele deve se chamar .env, use como base o arquivo .env.example:

    cp .env.example .env
  5. Execute o script

    python3 extract_gabinet_data.py
    

Como Contribuir

Gostaríamos muito da sua ajuda para melhorar este projeto. Se você deseja contribuir, siga estas etapas:

  1. Faça um fork deste repositório.
  2. Clone o fork em sua máquina local.
  3. Crie uma nova branch: git checkout -b minha-contribuicao
  4. Faça suas alterações e commit: git commit -m "Adicionei novos recursos"
  5. Envie suas alterações para o GitHub: git push origin minha-contribuicao
  6. Abra um pull request para revisão.

Comunidade

Participe da nossa comunidade no discord para discussões, feedback e suporte:

utils's People

Contributors

aniltonveiga avatar anthonylgf avatar khalarii avatar

Stargazers

Italo Brandão avatar  avatar marcos ferreira avatar Rafael Moura avatar Vinícius Bernardes avatar Gustavo Alves avatar Jaron Wanderley avatar  avatar Jean Poffo avatar Matheus Matias avatar Lucas Mesquita avatar Wallace Andrade avatar Bruno Ricardo Secco avatar Ednei Bach avatar Gabriel Cismoski avatar Rubens de Andrade Neto avatar Clayton Kehoe avatar Matheus Henrique avatar Fernando Lira avatar Mathias Schulz avatar Samuel Mariano Belo avatar Abel avatar Samuel Renan Gonçalves Vaz avatar Vitor Coutinho Fernandes avatar João Marins avatar Luis Miguel Corrêa avatar

Watchers

 avatar Matheus Matias avatar

utils's Issues

[Discussão] pensar em forma de buscar todos os vídeos de um parlamentar.

Objetivo

Mostrar todas as falas dos deputados em eventos da câmara.

Atualmente o o script extract_speeches.py busca os vídeos em https://www2.camara.leg.br/atividade-legislativa/webcamara/arquivos/resultadoPeriodoDep?dep={nome do deputado}&dataInicio=01/01/2023&dataFim=31/12/2023

Mas esses vídeos são restritos apenas a discursos de Sessões Deliberativas, não contendo diversos outros videos e falas dos deputados em outros eventos da câmara e comissões.

Existe um endpoint /deputados/{id}/discursos (em https://dadosabertos.camara.leg.br/swagger/api.html) mas a propriedade urlVideo e urlAudio sem retorna null.

Aparentemente a única estratégia que sobre e percorrer diariamente os eventos, e extrair os vídeos de parlamentares que sejam encontrados (ex:https://www.camara.leg.br/evento-legislativo/69705) esse evento tem falas de deputados, então extrair as falas dos deputados pela web.

Aberto para discussão e sugestão.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.