haoess / hidden-kosmos Goto Github PK

View Code? Open in Web Editor NEW

4.0 4.0 2.0 48.38 MB

Hidden Kosmos — Reconstructing Alexander von Humboldt's »Kosmos-Lectures«

License: Creative Commons Attribution 4.0 International

Perl 0.41% Shell 0.01% XSLT 0.03% Makefile 0.09% HTML 99.41% CSS 0.05%

hidden-kosmos's People

Contributors

Stargazers

Watchers

Forkers

mhug cthomasdta

hidden-kosmos's Issues

Nachlass Übersicht auch als DTA-Seite

Bitte http://kaskade.dwds.de/~wiegand/nachlass.pl umleiten zu http://www.deutschestextarchiv.de/kosmos/nachlass

Liste der editorischen Kommentare in Ms. Germ. qu. 2124

Bitte eine Liste extrahieren, möglichst mit Kontext, aller <note>s mit @type="editorial" aus http://www.deutschestextarchiv.de/nn_msgermqu2124_1827, in denen "Hamel/Tiemann (Hg.) 1993" vorkommt. Dann haben wir einen Überblick, was alles und wie viel in dieser Edition vermurkst wurde. Diese Liste kann direkt veröffentlicht werden.

Z.B. http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/29:

[...] (wie<lb/><hi rendition="#aq"><persName ref="http://d-nb.info/gnd/118684310">Fourier</persName></hi> in einem<note resp="#CT" type="editorial">Hamel/Tiemann (Hg.) 1993, S. 67: "seinem".</note> tiefsinnigen Werke [...]

Personenliste: Gesamttreffer-Liste aus dstar verlinken

Beispiel aus http://www.deutschestextarchiv.de/kosmos/person/complete:

Bacon, Francis (1561–1626) 1 + 1 + 2 + 3 + 2 + 3 + 3 + 2 (17)

--> die Gesamtzahl "17" löst eine Suche über dstar nach $xpath=@ref-Wert aus. So gelangt man auf einfachem Wege zu einer Gesamttreffer-Liste unabhägig von den jeweiligen Schreibweisen.

hidden-kosmos/lists/: mit Zitat Titel der Vorträge; Titel der Seite entsprechend ändern

cf. http://www.deutschestextarchiv.de/kosmos/gliederung:

Zit. aus Virmond 2011/Verzeichniß 1827 voranstellen;
Titel der Seite entsprechend ändern

Virmond 2011, S. 485; vgl. auch Verzeichniß 1827, S. 6 (darauf kann man dann auch verlinken!) :

1827ws207 Physische Erdbeschreibung, mit Prolegomenen über Lage, Gestalt und Naturbeschaffenheit der Gestirne, Hr. Dr. Alex. v. Humboldt Mitgl. d. Königl. Akad. d. Wissenschaften Mittw. u. Sonnab. v. 12–1 Uhr öffentlich. | Publice geographiam physicam tradet, eique prolegomena de situ, forma et indole siderum praemittet, d. Mart. et Sat. h. XII–I. | {400; «ich glaube» 300 bis 400 Hörer; 3.11.–26.4.; «ich habe den letzten Monat täglich gelesen»} [Daneben trug Humboldt Donnerstags vom 6. 12. bis zum 27. 3. um 12 Uhr in der benachbarten Singakademie zweistündig vor doppelt zahlreichem, auch weiblichem Publikum eine vereinfachte Version vor.]

Gesamtzahlen in der Spalte "Vorkommen" bitte Farben umdrehen

Gesamtzahlen

in der Spalte "Vorkommen" bitte Farben umdrehen: z. B. Rudolphi: soll sein: "6 + 3 + 3 (12)" erst grün, dann rot. Im Moment ist das uneinheitlich: Die Zahlen sind rot-->grün, die Pfeile sind grün-->rot; aber Uni (grün) sollte immer zuerst, da der Kurs an der Uni früher gestartet wurde.

Sortierung der Liste, "Sonderzeichen" besser einordnen

z. B. " ʿA " bei "A", "Ø" bei "Ö" usw. einsortieren

hidden-kosmos/sessions/: Zeichen- und Tokenzahlen berechnen

bitte für die einzelnen Dokumente = Stunden in hidden-kosmos/sessions/ auch die Zeichen- und Tokenzahlen berechnen, merke grad, dass das interessant wäre!

idealerweise gleich Kurven erzeugen, wie sich der Umfang der einzelnen Stunden über die Gesamtzeit entwickelt. Ein ganz einfaches Beispielbild hier https://www.dropbox.com/s/88qkqsh9rlow35z/riess_f2e1853_1828_Umfang-der-einzelnen-Stunden-in-Zeilen.jpg?dl=0.
noch idealer auch gleich verbunden mit der Gesamtgliederung, aber das ist wohl kompliziert und evtl. nicht mehr drin...

Bitte *.norm.xml auch für alle Gesamt-Dateien erstellen

Siehe alle Dokumente in https://github.com/haoess/hidden-kosmos/tree/master/xml. Im Moment gibt es eine für jede einzelne Stunde (../sessions), aber nicht für die Gesamt-Dateien.
Danke!

fehlende @resp in den XML-Dateien

bitte alle, die nur ein @ref, aber kein @resp haben um ein @resp="#CT" ergänzen

Freischalten: Alle außer ../riess_f2e1853_1828 können im DTA freigeschaltet werden!

Dokumente mit Häkchen an- oder abwählbar

default: alle angewählt
dann kann ich einzelne Dokumente abwählen
idealerweise bleibt die Gesamtliste aber immer gleich, d.h. alle möglichen Personen werden angezeigt und bei denen, die in den gewählten Dokumenten/dem gewählten Dokument nicht vorkommen, wird in der Spalte "Vorkommen" angezeigt: "[keine Vorkommen in dem/den gewählten Dokument(en)]"

BEACON-Dateien und Gesamtlisten: Alle Dokumente und auch jedes Einzeldokument

BEACON-Dateien für "Alle Dokumente" und auch jedes Einzeldokument, diese enthalten GND-Nummern und Anzahl der Vorkommen
Gesamtliste: Diese enthält alle GND-Nummern und auch die anderen @ref-Werte sowie die Anzahl der nicht-identifizierten Personen (= persName ohne @ref)

==> so kann ich z.B. herausfinden, welche 4 Personen in hufeland_privatbesitz_1829 fehlen, die in nn_msgermqu2124_1827 vorhanden sind (unique Personen: 276 (+ 4 ohne @ref) vs. 280 (+ 5 ohne @ref))

Aktualisieren der Liste 'auf Knopfdruck'

wäre schön, aber wenn es zu kompliziert ist, nicht zwingend
Wenn ich also was in DTAQ nachtagge, dann kann ich gleich die Liste aktualisieren, d.h. dein Skript läuft neu über die Daten
Datierung (siehe enstpr. Issue) aktualisiert sich auch

Umgang mit <note>

Umgang mit `<note>`

unterscheiden <persName> in <note> im Original und in <note type="editorial">:

<persName> in <note> im Original sollen rein, dass klappt schon, z. B. "Olaf Römer" hier: http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/7
Vorkommen in in <note type="editorial"> sollen erstmal nicht mit in die Liste, z. B. wird hier http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/165 Goethe nicht genannt, sondern nur als 'hoher Meister', Autor des Werther und der Metamorphose der Pflanzen indirekt angeführt. Anderes Beispiel hier http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/156 wird "Gruithuisen" nicht erwähnt, sondern nur als "sonst achtbare[r] Naturforscher im südlichen Deutschland" bezeichnet.

Doppelt getaggte korrigieren (<persName> in <persName>)

Doppelt getaggte korrigieren (`<persName>` in `<persName>`)

xpath-Suche ist mir da nicht so gelungen, kannst du bitte in den XML-Dateien alle raussuchen, die versehentlich zwei <persName>-Tags abbekommen haben?

"Andere Namen" aus der GND für die Suche mit einbeziehen (optional, niedere Priorität)

Idee von Matthias: Wenn jetzt jemand über Google "Linnäus" (= Linné, Carl von; http://d-nb.info/gnd/118573349) sucht, dann sollte er auch auf unserer Seite landen; diese Schreibvariante haben wir aber nicht aus der GND (Ansetzungsform) und auch nicht aus einer der Nachschriften, findet man also derzeit über die Suche nicht.

Spalte "Name" umbenennen in "Name (Ansetzungsform der GND)"

Spalte "Name"

umbenennen in "Name (Ansetzungsform der GND)"
wenn leer, dann "N/A"
wir müssen das dann im Tagging noch besser unterscheiden, damit man sieht, wo wir die Person zwar identifizieren konnten, es aber keine Infos biographischen Normdaten online gibt, dann @ref="N/A" (z. B. (Maurice) Henry (siehe editoral note auf http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/297), und wo wir einfach nicht wissen, wer gemeint ist, z. B. "ein zu Genf lebender Herr Chevalier" (http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/148)

Personenliste: Spalte "Vorkommen" sollte in 9 Unterspalten + 1 Spalte = Anzahl der Gesamttreffer geteilt sein, so dass man auch die Fehlstellen sieht

feste Reihenfolge der Dokumente, diese legen wir noch fest
dann immer eine feste Spalte je Dokument, so dass man immer sieht, wo was fehlt.
Beispiel:

Parrot, Friedrich von (1791–1841) || 5 + 4 + 5 + 3 + 1 (18)

Soll sein:
Parrot, Friedrich von (1791–1841) || 0 | 0 | 5 | 4 | 5 | 0 | 3 | 0 | 1 (18)

--> man sieht also, dass im 1., 2., 6. und 8. Dokument der Name fehlt (und kann sich auch die einzelnen Dokumente nach Häufigkeit sortieren lassen, statt jetzt nur nach Gesamthäufigkeit.)

Lebensdaten zusätzlich angeben (aus der GND)

evtl. auch die Profession, wo sie vermerkt ist?

Markup innerhalb der Vorlageform: <del>, <gap>, -<lb/> usw. ignorieren

Markup innerhalb der Vorlageform

<del>, <gap>, -<lb/> usw. ignorieren

<del>: siehe z. B. "gGaus" und "Achgardh" in der aktuellen Liste, <del> muss auch ignoriert werden: <persName resp="#CT" ref="http://d-nb.info/gnd/118643959">A<subst><del rendition="#s" hand="#pencil">ch</del><add place="superlinear" hand="#pencil">g</add></subst>ard<metamark/><add place="intralinear">h</add></persName>
<persName> innerhalb von <del> ignorieren, wenn also die erwähnte Person komplett gestrichen wurde, sollte sie auch nicht in der Liste auftauchen. In msgermqu2345 (das noch nicht drin ist) gibt es davon viele Beispiele, bei Parthey nur 2, z. B. http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/777: <subst><del rendition="#s"><persName resp="#SB" ref="http://d-nb.info/gnd/116208503">Blumenbach</persName></del><add place="superlinear"><persName resp="#SB" ref="http://d-nb.info/gnd/118517252">Buffon</persName></add></subst>

Das alles ist scheinbar schon berücksichtigt:

-<lb/> innerhalb von <persName> ignorieren, jedenfalls sofern nur Trennung am Zeilenende, nicht bei "Gay-Lussac") usw. innerhalb der Vorlageformen, das scheint schon zu klappen
<gap> innerhalb von <persName> ignorieren, z. B. <persName resp="#SB" ref="http://d-nb.info/gnd/11864811X">Al<subst><del rendition="#ow"><gap reason="illegible" unit="chars" quantity="2"/></del><add place="across">fo</add></subst>ns</persName> das scheint schon zu klappen
alles innerhalb von <unclear> auch mitnehmen, das scheint aber zu klappen
alles innerhalb von <supplied> aber mitnehmen, kommt bisher zwar nur 1x vor, bei Libelt, der noch nicht drin ist: <persName resp="#CT" ref="http://d-nb.info/gnd/11876196X"><supplied reason="damage" cert="high" resp="#CT">Schroe-</supplied><lb/> ter</persName>

@CT: ToDo: Erklärtext

@ct: Ein kleiner Erklärtext muss noch geschrieben werden.

Download des Datensets erlauben

verschiedene Formate? Ideen?

Spalte "Formen" umbenennen in "Vorlageform(en)"

Spalte "Formen"

umbenennen in "Vorlageform(en)"

normalisierte HTML-Fassungen

*.norm.xml ist für Kollation usw. absolut klasse. Unbedingt beibehalten.

ABER: das Voyant-(Norm-)XML ist für andere Dinge besser.
Hintergrund: Es gibt leider ein Problem mit dem aus den *.norm.xml (via https://raw.githubusercontent.com/haoess/dta-tools/master/stylesheets/dtabf.xsl) erzeugten HTML: Dieses enthält beispielsweise noch Text in <del>; dieser wird zwar entsprechend als gestrichen formatiert/dargestellt, von Tools wie Copyfind aber als normaler Text behandelt.
Lösung: HTML erzeugen aus Voyant-(Norm-)XML (wofür ja all diese Dinge schon berücksichtigt und entfernt wurden). Vorgehen am Beispiel von http://www.deutschestextarchiv.de/book/download_normxml/parthey_msgermqu1711_1828:

dieses in Einzelstunden splitten,
diese Einzelstunden als einzelne XML-Datein speichern unter https://github.com/haoess/hidden-kosmos/tree/master/sessions/parthey_msgermqu1711_1828 als parthey_msgermqu1711_1828_1.VOYANT-norm.xml (so oder ähnlich benennen, jedenfalls müssen diese XML-Dateien von dem jetzigen (ebenfalls wichtigen!) *.norm.xml unterscheidbar bleiben) usw.
aus diesen XML-Einzelstunden via https://raw.githubusercontent.com/haoess/dta-tools/master/stylesheets/dtabf.xsl HTML-Einzelstunden erzeugen.

Das wäre dann perfekt für CopyFind et al. Diskutieren wir dann gerne später weiter!

Personenverzeichnis: Mit xml:id verknüpfte Bestandteile zusammenführen

z.B. http://www.deutschestextarchiv.de/patzig_msgermfol841842_1828/160
<persName resp="#BF" ref="http://d-nb.info/gnd/118720066" xml:id="halley1" next="#halley2">Hal-</persName> und <persName resp="#BF" prev="#halley1" ref="http://d-nb.info/gnd/118720066" xml:id="halley2">le</persName> gehören zusammen = "Halle", werden in der Liste aber als zwei Personen, "Hal-" und "le" aufgeführt.

Personenregister: Einzelanzeige pro Dokument

http://www.deutschestextarchiv.de/kosmos/person sollte auch Anzeige 'nur Nachschrift XY' erlauben. Bitte in einer gesonderten Ansicht. (nicht wie beim Button "[Liste filtern]", wo immer noch alles Verweise auf alle anderen drin bleiben und scheint mir auch nicht so ganz zuverlässig zu funktionieren.)

License missing

Add a LICENSE.txt to root.

https://choosealicense.com/licenses/cc-by-4.0/

nn_msgermqu2345_1827_11.norm.xml ist nicht durchgegangen (400 Bad Request), evtl. auch andere?

Siehe hidden-kosmos/sessions/nn_msgermqu2345_1827/nn_msgermqu2345_1827_11.norm.xml.
Bitte alles einmal neu, inkl. Gesamtdateien. Danke!!!

hidden-kosmos/sessions/

Bitte Dateinamen so ändern, dass zumindest der dtadirname, evtl. auch "session" drin enthalten ist. Danke!

Datierung: Welchen Stand haben die Daten?

und eine Feedback-Option (meine Mail-Adresse [email protected])
Text dazu schreibe ich dann zugleich mit dem Erklärtext

Personenregister: Bitte auch weitere externe Links einbinden

Personenregister: Bitte auch, ggf. in einer weiteren Spalte, weitere externe Links außer "Normdaten" (= GND, Wikidata, VIAF) einbinden,
v.a. die Personen aus der edition humboldt digital, siehe https://edition-humboldt.de/about/index.xql?id=api&l=de. Gerne auch weitere, z.B. Wikipedia, ADB/NDB usw.

beim Runterscrollen sollte der Suchschlitz sichtbar bleiben

beim Runterscrollen

sollte nicht nur der Tabellenkopf, sondern auch der Suchschlitz mit sichtbar bleiben.

Personen vernetzen: BEACON

Personen vernetzen: BEACON hin und zurück

alle, die in der Spalte "Name" vorkommen, sollen anklickbar sein (für die anderen macht es wohl keinen Sinn?) und dann kommt eine Art 'Gesamtübersicht' zu dieser Person:

da kann man dann auch differenzierter zeigen, in welcher Stunde sie in welchem Dokument Uni vs. Sing-Akademie vorkommen und auch einen KWIC-Index des Vorkommens einbinden
da kann man dann verweisen auf WP, WS, ABD/NDB, Porträtindex, und andere hilfreiche Angebote.

Dokumente bitte noch differenzieren (Uni vs. Singakademie)

Dokumente

bitte noch differenzieren durch "[Kosmos-Vorträge an der Berliner Universität]" und "[Kosmos-Vorträge an der Sing-Akademie]", gern auch als eine Art Fußnote einmal für alle: alle grünlichen=Uni, alle rötlichen=Singakademie o. Ä.
und bitte oben bei "Dokumente" den dtadir-Name als Link auf die Nachschrift umsetzen.

Personenliste: umlaute mit buchstabe+combining diaeresis kodiert?

Benjamin fiel auf, "dass die umlaute in der ersten spalte bei als buchstabe+combining diaeresis kodiert sind. das ist ungünstig für die suche (vgl. Mästlin, Mädler, ...)" Kannst du das ändern oder kommt das so aus der GND und muss so bleiben?

Lizenzen: Alles dann doch lieber CC-BY

https://creativecommons.org/licenses/by/4.0/deed.de

Bitte auch entsprechend die Logos und Metadaten ändern. Sag, wenn ich was dazu tun kann.

Evtl. auch https://help.github.com/articles/open-source-licensing/#how-can-i-go-back-through-my-public-repositories-and-give-them-licenses beachten? Bzw. hier http://venturebeat.com/2016/09/21/github-repos-now-prominently-show-open-source-licenses/