GithubHelp home page GithubHelp logo

deutschestextarchiv / dtabf Goto Github PK

View Code? Open in Web Editor NEW
14.0 16.0 8.0 39.5 MB

DTA Base Format (DTABf)

Home Page: https://www.deutschestextarchiv.de/doku/basisformat/

License: Other

XSLT 12.80% CSS 82.26% Python 4.94%
dita tei dta

dtabf's Introduction

DTA Base Format (DTABf)

DTA Base Format – Schema and Documentation

The DTA Base Format (DTABf) is a TEI customization for the annotation of digitized historical texts. It is the annotation basis for all texts published on the Deutsches Textarchiv (DTA) platform.

To explore the DTABf documentation see the official website. The DTABf documentation also contains information on how to access the RNG schemas and how to use them. For elaborate information on the purpose of the format and constraints for its further development see the DTABf Guiding Principles.

Contact

The DTABf ist published by

Deutsches Textarchiv
Berlin-Brandenburg Academy of Sciences and Humanities, Jaegerstr. 22/23, 10117 Berlin, Germany
mailto:[email protected]
https://www.deutschestextarchiv.de

Contributors

  • Matthias Boenig
  • Daniel Burckhardt
  • Stefan Dumont
  • Alexander Geyken
  • Martina Gödel
  • Susanne Haaf
  • Axel Herold
  • Christian Thomas
  • Frank Wiegand

Building

Requirements

In order to build RNG schemas of the DTABf and the documentation site, the following software is required:

Building the RNG schemas

With Docker installed, running

$ scripts/build-schema

will transpile the TEI/ODD resources under schema/ into compiled ODD and RelaxNG schemas under htdocs/:

$ ls htdocs/basisformat*
htdocs/basisformat_all.odd  htdocs/basisformat_ohne_header.odd  htdocs/basisformat.rng
htdocs/basisformat_all.xml  htdocs/basisformat_ohne_header.rng  htdocs/basisformat.sch
htdocs/basisformat_ms.odd   htdocs/basisformat_ohne_header.xml  htdocs/basisformat_template.xml
htdocs/basisformat_ms.rng   htdocs/basisformat_phase1.odd       htdocs/basisformat.xml
htdocs/basisformat_ms.xml   htdocs/basisformat_phase1.rng
htdocs/basisformat.odd      htdocs/basisformat_phase1.xml

Building the documentation site

Open the project file dtabf.xpr in oXygen XML Editor (tested with v26.0) and execute the DITA-OT transformation scenario "Documentation". This will transform DITA resources under documentation/, starting from dtabf.ditamap and store the result under htdocs/, adjacent to the transpiled schema resources.

Screenshot of oxXygen XML Editor with the DTABf/DITA project

Publishing to GitHub Pages

Once the schema resources and documentation have been built, the contents of htdocs/ can be published to GitHub Pages via

$ scripts/publish-gh-pages

License

All files of the DTABf documentation and schema are distributed under a CC BY-SA 3.0 DE license (Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland). The license text is available on the Creative Commons website. For all third party resources used by the DTABf documentation, license restrictions of the respective providers apply and are respected; see below for details.

Third Party Copyright Information

The DTABf is based on the P5 guidelines of the Text Encoding Initiative (TEI). The TEI P5 guidelines were only reduced or tightened, never extended. Thus, the DTABf is fully compliant to TEI P5. The TEI P5 guidelines and adjacent software are distributed under the Creative Commons Attribution 3.0 Unported License and the BSD 2-Clause license.

Disclaimer

We do not grant any warranty for the product published here. For details see the CC-BY-SA license.

dtabf's People

Contributors

gremid avatar haoess avatar stefandumont avatar susannehaaf avatar tboenig avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

dtabf's Issues

Vorschlag: 'item' als generischer 'type'-wert von 'div'-elementen

um entitäten - etwa in kompendien, katalogen und dergleichen, deren erläuterungen sich über mehrere textabschnitte, ggf. auch abbildungen, listen und tabellen, erstrecken, auszeichnen und gezielt addressieren zu können ist derzeit kein geeigneter wert als type-attribut für div-container verfügbar.

dafür möchte ich den generischen wert item vorschlagen, der im gegensatz zu recipe, diaryEntry und lexiconEntry an keinen inhaltlichen kontext gebunden ist.

Doku: Zeilenumbrüche nach Kolumnentiteln

in der dokumentation zu Kolumnentiteln ist nicht explizit formuliert wo der folgende zeilenumbruch hingehört. im beispiel ist es ein kindelement des <fw>, hier beispielsweise ist es aber das folgende.

wenn ich die schemata richtig verstanden habe, gibt es in diesen diesbezüglich keine regel.

"capital letter I" sollte in Frakturtexten innerhalb von <note type="editorial"> keine Warnung auslösen.

Vgl. z.B.
Jahrestag. Mit einer Fichte aufinZur Korrektur des Druckfehlers vgl. die entsprechende Zeile in George, Stefan: Die Bücher der Hirten- und Preisgedichte · der Sagen und Sänge und der hängenden Gärten / [Zeichnung von Jan Toorop]. In: Ders.: Gesamt-Ausgabe der Werke, Bd. 3. Berlin, 1930, S. [11]: „Mit einer fichte in den wiesen stehn“. den Wiesen stehn,

Fehlermeldung

[W0004] The document contains capital letter I within Fraktur text. […]

Das gemeinte "capital letter I" steht innerhalb meiner ; dort sollte es erlaubt sein.

Doku: Fehler(chen)

Siehe z.B. hier http://www.deutschestextarchiv.de/doku/basisformat/geProsa

Das obere Beispiel sollte m.E. auch am Zeilenende enthalten:

<lg type="poem">
  <head>[Titel]</head> <!-- sofern vorhanden -->
  <lg n="[Strophennummer]"> <!-- sofern kein einstrophiges Gedicht -->
    <l>[Vers]</l>**<lb/>**
    <l>[Vers]</l>**<lb/>**
  </lg>
</lg>

Das ist aber bei vielen anderen Einträgen scheinbar ebenso, siehe z.B. http://www.deutschestextarchiv.de/doku/basisformat/brAllg.html . Auch hier keine am Anfang, dann in den DTA-Beispielen natürlich schon. Fehler oder Absicht?

Schema: Ort (und <element>) für die "Attributionszeile" für CC-BY- u.a. -Lizenz festlegen

Ich möchte angeben, in welcher Form das "-BY" erfüllt werden soll. Könnte man dann auch global für alle DTA-eigenen Texte festlegen, bei größeren zusammengehörigen DTAE-Sammlungen bietet es sich auch an. Am besten wohl innerhalb von , bisher wäre das etwa so:

            <availability xml:id="availability-textsource-1" corresp="#textsource-1">
                <licence target="http://creativecommons.org/licenses/by/4.0/deed.de">
                    <p>Namensnennung 4.0 International (CC BY 4.0).</p>
                </licence>
                    <p>Attribution: Dr. Rudolf Brandmeyer, Universität Duisburg-Essen Fakultät für Geisteswissenschaften / Germanistik; Projekt Lyriktheorie via Deutsches Textarchiv.</p>
            </availability>

Aber nur schnöde als (weiteres)

ist es nicht so gut. Welches Element wollen wir dazu nehmen?

`<handShift>` o.Ä. wird benötigt

Im DTABf(-M) bräuchten wir eine Möglichkeit, einen umfangreicheren (also nicht nur einige Worte betreffenden und mit @hand zu handelnden) Wechsel des Schreibers bzw. des Schreibgeräts auszuzeichnen. <handShift> bietet sich dafür an: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-handShift.html.

Vgl. z.B. http://www.deutschestextarchiv.de/willisen_humboldt_1827/13 und http://www.deutschestextarchiv.de/willisen_humboldt_1827/18; siehe auch den Kommentar zur Ausgabe auf der Buchstartseite:

Der Text vom unteren Drittel des Bl. [6v] bis einschließlich Bl. [8v] wurde in einer zweiten, von der zuvor genannten abweichenden Handschrift verfasst, stammt offenbar also von einem anderen, namentlich nicht bekannten Schreiber. Die folgenden beiden Blätter, Bl. [9r] bis [10v], weisen ein anderes Format und anderes Papier auf. Sie sind in einer dritten, von den beiden zuvor genannten abweichenden Handschrift verfasst; […]. Ab Blatt [11r] ist eine weitere, von den drei anderen abweichende Handschrift erkennbar.

Wird angenommen, dass alle titlePage-Inhalte zentriert sind?

zumindest die renderings auf der webseite des DTA scheinen die in der beschreibung formulierte frage zu bejahen. bei den wenigen stichproben, die ich vorgenommen habe wird auch an keiner stelle zentrierter inhalt ausgezeichnet. in der dokumentation kann ich keinen entsprechenden hinweis auf eine solche annahme finden.

gleichzeitig gibt es phänomene, die dieser annahme nicht entsprechen, z.B.:

  • hier ist der autorinnenname linksbündig gesetzt
  • hier ist der titel als block gesetzt

für head-elemente scheint dies ebenso zuzutreffen.

dtabf / documentation

So weit ich sehe, ist der Fall der d-Abbreviatur noch nicht eindeutig festgelegt (Erfassungs- und Kodierungsrichtlinien). Wir haben in der Vergangenheit zwei Lösungen empfohlen:

Statt <choice><abbr>ð</abbr><expan>der</expan></choice> oder anderer Dinge:

besser U+010F LATIN SMALL LETTER D WITH CARON (z.B. an Dominik Stoltz empfohlen) oder
ein "d" mit anschließendem U+0315 COMBINING COMMA ABOVE RIGHT (so die Einigung mit der Gruppe Glonging damals).

Laut Statistik http://www.deutschestextarchiv.de/dtaq/stat/alphabet ist der letztere Weg häufiger gewählt worden.

Wir sollten das vereinheitlichen und in die Doku aufnehmen.

Download des Schemas anbieten

Es wäre schön, wenn ihr neben der Schematron-Datei auch das RNG direkt ablegen könntet, damit man sich das als Anwender nicht erst umständlich aus dem ODD generieren muss.

<bibl> sollte auch innerhalb von <note type="editorial"> zulässig sein.

Vgl. z.B.
<cit><quote> <lg type="poem"> <head rendition="#c">Jahrestag.</head><lb/> <!-- […] --> <l>Mit einer Fichte <choice><sic>auf</sic><corr>in</corr></choice><note type="editorial">Zur Korrektur des Druckfehlers vgl. die entsprechende Zeile in <bibl><ref target="http://resolver.staatsbibliothek-berlin.de/SBB0001A3C500030019">George, Stefan: Die Bücher der Hirten- und Preisgedichte · der Sagen und Sänge und der hängenden Gärten / [Zeichnung von Jan Toorop]. In: Ders.: Gesamt-Ausgabe der Werke, Bd. 3. Berlin, 1930, S. [11]</ref></bibl>: „Mit einer fichte in den wiesen stehn“.</note> den Wiesen stehn,</l><lb/> <!-- […] --> </lg> </quote></cit>

Fehlermeldung

[E0003] Element "bibl" not allowed within element "quote".

Das gemeinte <bibl> steht innerhalb meiner <note type="editorial">; dort sollte es erlaubt sein.

feedback zur darstellung der dokumentationsstruktur

hier ein paar anmerkungen, die aus meiner 'first-time-user-experience" resultieren und hinweise geben sollen, wie die dokumentation in hinblick auf eine erste orientierung zugänglicher gestaltet werden kann.

zwar ist das vollständige inhaltsverzeichnis im header dargestellt, jedoch nicht als solches lesbar. neben dem flachen inhaltsverzeichnis wäre ein vollständiges hilfreich, um einen umfassenden überblick der dokumentationsstruktur und der inhalte zu bekommen.

bei der ansicht eines dokumentes auf erster ebene (bsp.) entsteht beim lesen der navigationsbox auf der rechten seite der eindruck, bei den einträgen würde es sich um elemente derselben strukturebene handeln. eine einrückung der untergeordneten elemente wäre hinreichend, um die verhältnisse klarzustellen, äquivalent der darstellung dieser box bei untergeordneten abschnitten.

die seite Nutzung der DTABf-Dokumentation sollte nme als kapitel der "Einführung / Zielsetzung" folgen oder gar ein top-level-content sein. als der orientierung in der dokumentation so dienliches dokument sollte es eher prominent denn versteckt platziert sein.

der abschnitt "Komponenten der DTABf-Dokumentation" hier enthält hingegen lediglich ein redundantes teilinhaltsverzeichnis ohne weitere informationen, bei dem die caption "nächstes Kapitel" des auf
auf das vorige kapitel zeigenden hyperlinks irritiert, und den eindruck erwecken kann, es handele sich im folgenden um diesem kapitel untergeordnete inhalte.

darüber hinaus würde ein allgemeiner index, der u.a. auch die beschreibungen der elementlisten und deren mögliche synonyme enthält, das zielgenaue finden von informationen deutlich vereinfachen.

hilfreich zur navigation wären hyperlinks zum vorigen und folgenden kapitel (depth first) auf jeder seite.

Don't require @facs in <pb>

For marking sources without a corresponding facsimile, being able to place <pb n="..." /> would be helpful. Since we can always write <pb n="..." facs="#" /> , this is of low priority.

semi-open list for rendition in milestone

<milestone> sollte im rendition Attribut andere Werte als nur #hr, #hrBlue, #hrRed und #vr zulassen.
Zumindest die sehr häufige Variante mit Sternchen als Gliedrungselement sollte (als Vorgabe) erlaubt sein (vllt. #stars bzw. #stars2 und #stars3?)

Additional values for idno/@type

In one of the projects I'm affiliated with we base the relation among lexicographical citations and the cited text on PPN. Thus, we need to record PPNs in the texts' metadata – the natural place being idno. So idno/@type="PPN" would come in handy. While I'm at it: one can also imagine use-cases for other bibliographic IDs such as OCLC.

I'm aware of the benefits in keeping the list restricted but I would opt for its extension with at least "PPN".

Schema: @resp global erlauben

Gerade in den Kooperationsprojekten, z.B. Novellenschatz, finde ich es wichtig, @resp auch in <note type="editorial">, <supplied>, <corr>, <reg>, <bibl>, <persName> usw. verwenden zu können. Oder spricht etwas gegen optionale globale Verwendung?

Provide compiled ODDs

This would be helpful, if projects want to make an ODD with customization against DTABf.

Struktur des pb@facs-Attributs dokumentieren

die struktur der zeichenkette, die auf ein Faksimile deutet, sollte dokumentiert sein, um die interoperabilität sicherzustellen. nme sollte auch das verwenden von urls zulässig sein.

Schema(tron): Regel: <subst> muss <del> UND <add> enthalten

Bisher ist auch valide:
<subst><add place="across">kälteſten</add></subst>
oder
<subst><del rendition="#ow">kälteſten</add></subst>
aber <subst> anzuwenden ist nur sinnvoll, wenn es eine Streichung <del> gibt, die durch eine Hinzufügung <add> ersetzt wird.

Feature: Handwritten note in printed text

In the project "Travelling Humboldt – Science on the Move" we have some printed texts which were later annotated by Alexander von Humboldt or other persons. Therefore we need the possibility to encode such handwritten annotations. Suggestion:

<note type="handwritten"></note>

Schema: Ergänzungen zu den Metadaten

Ziel: Sichtbarkeit der Daten im VLO erhöhen
Inhalt (Vorschlag):

  • Modality: //profileDesc/textDesc/channel[@mode='w'][text() = 'printed text']
  • Keywords?: //profileDesc/keywords
  • Short description of resource: //profileDesc/abstract

Benutzung von ref mit target-Attribut spezifizieren

Beispiel: http://www.deutschestextarchiv.de/book/show/fischer_collegienhefte_1826
Hier sind im Inhaltsverzeichnis die ref-Elemente mit target-Attributen versehen, um auf die entsprechenden Seiten (Faksimiles) zu verweisen. Diese Möglichkeit wird in der Doku aber nicht genannt.
Bei der Übersicht der Elemente wird lapidar angemerkt, dass @target eine "Referenz auf eine externe Ressource" darstelle, was der Verwendungsart im angegebenen Beispiel widerspräche.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.