GithubHelp home page GithubHelp logo

millawell / htr-united Goto Github PK

View Code? Open in Web Editor NEW

This project forked from htr-united/htr-united

0.0 1.0 0.0 2.24 MB

Ground Truth Resources for the HTR of patrimonial documents

License: Creative Commons Zero v1.0 Universal

htr-united's Introduction

HTR-United

CC BY 4.0

Qu'est-ce que HTR-United

HTR-United est une organisation github sans autre forme de personnalité juridique. Elle vise à mettre en commun les transcriptions HTR/OCR de textes de toutes périodes et de tout style, principalement en français mais de manière non restricive. Elle est née du simple besoin - pour des projets - d'avoir de potentiels vérités de terrain pour entraîner des modèles rapidement sur des corpus plus petits.

Qu'est-ce qui est partagé ?

Les sets de données partagés ou signalés grâce à HTR-United se présentent sous la forme minimale suivante :

  • un ensemble de fichiers XML ALTO 4 et/ou XML PAGE contenant soit uniquement des données de segmentation, soit des données de segmentation et des données de transcription ;
  • un ensemble d'images correspondantes (il peut s'agir d'un lien vers un paquet hébergé sur une autre plateforme ou bien de contacts auprès de qui demander l'accès aux images) - le lien entre les images et les fichiers XML doit pouvoir être reconstitué sans traitement intermédiaire ;
  • une documentation sur les pratiques d'annotation suivie pour la segmentation et la transcription. Dans le cas d'un répertoire Github, cette documentation se trouve résumée dans le README.

Un corpus peut être sous-divisé en plusieurs ensembles si cela est jugé nécessaire.

Que des données ?

À terme, l'objectif de cette organisation sera probablement de partager aussi - sous licence libre - des modèles pour les moteurs HTR demandés, afin que les projets les moins dotés puissent profiter de modèles. Ainsi, si vous partagez vos données, et suivant le rythme possible des autres partenaires, vous profiterez sûrement d'un modèle sous peu.

Cependant, n'oubliez pas: il existe un cercle vertueux Transcription<->Entraînement qui permettra à terme - nous l'espérons - d'améliorer pour les plus jeunes projets les transcriptions partant de 0.

Comment cela fonctionne ?

Il existe deux cas de figure:

  1. Vous avez déjà un dépôt de données
  2. Vous n'en avez pas et préférez fournir directement l'organisation

Vous avez déjà un dépôt de données

C'est plutôt pratique: vous gardez la main, pas de problèmes de rajout à l'organisation. Mais, histoire de faire grossir la visibilité de votre set de données, il nous parait important de le décrire ici ! En effet, si vous profitez des données de HTR-United, voire de ses modèles, autant renvoyer la pareille.

Pour ce faire, il suffit d'ouvrir une issue ou de proposer une modification sur le répertoire de dépôt en rajoutant une ligne formatée telle que:

        name: "Titre"
        url: 'Lien vers le dépôt'
        description: 'Description'
        language: French
        other-languages:
            - "Optionel"
        time: 1800--1897
        hands: 5  # Nombre de mains
        license:
            - {name: 'CC-BY 4.0', url: 'https://creativecommons.org/licenses/by/4.0/'} # Vous pouvez bien sûr changer la licence
        format: Alto-XML
        volume:
            - {count: "NOMBRE DE LIGNES", metric: lines} # ou
            - {count: "NOMBRE DE PAGES", metric: pages} # ou

Vous n'en avez pas

Et bien, nous serons heureux de vous aidez. Ouvrez un ticket ici et nous serons heureux de vous aider à créer et partager votre dépôt, sur HTR-United. Des compétences en git sont bienvenues mais, si vous voulez partager des données, on vous aidera, c'est le but de cette organisation !

Publications

  • Alix Chagué, Thibault Clérice, Laurent Romary. HTR-United : Mutualisons la vérité de terrain !. DHNord2021 - Publier, partager, réutiliser les données de la recherche : les data papers et leurs enjeux, MESHS, Nov 2021, Lille, France. ⟨hal-03398740⟩

htr-united's People

Contributors

alix-tz avatar ponteineptique avatar github-actions[bot] avatar cvidalg avatar flochiff avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.