GithubHelp home page GithubHelp logo

jardimguilherme / pp_corpus Goto Github PK

View Code? Open in Web Editor NEW
0.0 0.0 0.0 70.4 MB

Repositório de termos de serviço

HTML 54.20% JavaScript 24.01% CSS 15.37% PHP 0.81% Perl 0.01% DIGITAL Command Language 0.01% Java 0.25% C++ 0.01% ASP.NET 5.06% Classic ASP 0.09% Hack 0.21%

pp_corpus's Introduction

PPs

Repositório de políticas de privacidade. Este repositório contém:

- (OPP-115) Políticas em EN do corpus OPP-115;
- (PPs_PT.zip) Políticas em PT com um subdiretório criado com 82 documentos em PT sem redundância.
- (annotation_tags.txt) Arquivo de configuração para anotações no Label Studio. Semelhante ao usado no OPP-115.
- (categories-july30.xml) Arquivo de configuração de anotações usado no OPP-115.
- (corrected_sanitized_w_trafilatura.zip) Documentos sanitizados com o trafilatura e posteriormente revisados manualmente. Muitas enumerações haviam sido ignoradas pelo boilerplate removal (ver arquivo problems.txt).
- (sanitized_w_trafilatura_html.zip) As 82 Políticas em PT acima, sanitizadas com o trafilatura e em html.
- (sanitized_w_trafilatura_txt.zip) As 82 Políticas em PT acima, sanitizadas com o trafilatura e em txt.
- (segmented_by_spacy.zip) Arquivos sanitizados (corrected_sanitized_w_trafilatura.zip) segmentados por sentenças com o uso do nltk.
- (consolidated_review.txt) Revisão das anotações iniciais feitas em 2 arquivos de PPs. 

Configurando Label Studio

Precisamos que cada anotador instale o Label Studio em sua máquina. O link https://labelstud.io/guide/ dá várias opções. Eu usei o pip no ubuntu e funcionou perfeitamente.

Depois da ferramenta instalada, vocês precisarão configurar um projeto. É necessário informar o tipo de anotação. Vá em "Settings", "Labeling Interface", "Browse Templates", "Natural Language Processing", "Text Classification". Clique no ícone "code", copie o conteúdo do arquivo annotation_tags.txt.

Descompacte o arquivo segmented_by_spacy.zip em um diretório qualquer. Em seguida, importe para o projeto apenas os arquivos que irá anotar. Lembre-se de informar que o arquivo csv deve ser tratado como uma lista de tasks.

Pronto, você já pode começar a anotar.

Ao finalizar a anotação, gere o arquivo json de saída, clicando em "Export" na tela inicial do projeto.

Instruções de anotação

Se um parágrafo não fizer sentido, deixá-lo sem anotações. O mesmo se aplica a um parágrafo que se encaixe, por exemplo, na categoria "First Party Collection/Use", mas não tenha informação referente a nenhuma das perguntas desta categoria.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.