haoess / hidden-kosmos Goto Github PK
View Code? Open in Web Editor NEWHidden Kosmos — Reconstructing Alexander von Humboldt's »Kosmos-Lectures«
License: Creative Commons Attribution 4.0 International
Hidden Kosmos — Reconstructing Alexander von Humboldt's »Kosmos-Lectures«
License: Creative Commons Attribution 4.0 International
Bitte eine Liste extrahieren, möglichst mit Kontext, aller <note>
s mit @type="editorial"
aus http://www.deutschestextarchiv.de/nn_msgermqu2124_1827, in denen "Hamel/Tiemann (Hg.) 1993" vorkommt. Dann haben wir einen Überblick, was alles und wie viel in dieser Edition vermurkst wurde. Diese Liste kann direkt veröffentlicht werden.
Z.B. http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/29:
[...] (wie<lb/><hi rendition="#aq"><persName ref="http://d-nb.info/gnd/118684310">Fourier</persName></hi> in einem<note resp="#CT" type="editorial">Hamel/Tiemann (Hg.) 1993, S. 67: "seinem".</note> tiefsinnigen Werke [...]
Bacon, Francis (1561–1626) 1 + 1 + 2 + 3 + 2 + 3 + 3 + 2 (17)
--> die Gesamtzahl "17" löst eine Suche über dstar nach $xpath=@ref-Wert aus. So gelangt man auf einfachem Wege zu einer Gesamttreffer-Liste unabhägig von den jeweiligen Schreibweisen.
cf. http://www.deutschestextarchiv.de/kosmos/gliederung:
Virmond 2011, S. 485; vgl. auch Verzeichniß 1827, S. 6 (darauf kann man dann auch verlinken!) :
1827ws207 Physische Erdbeschreibung, mit Prolegomenen über Lage, Gestalt und Naturbeschaffenheit der Gestirne, Hr. Dr. Alex. v. Humboldt Mitgl. d. Königl. Akad. d. Wissenschaften Mittw. u. Sonnab. v. 12–1 Uhr öffentlich. | Publice geographiam physicam tradet, eique prolegomena de situ, forma et indole siderum praemittet, d. Mart. et Sat. h. XII–I. | {400; «ich glaube» 300 bis 400 Hörer; 3.11.–26.4.; «ich habe den letzten Monat täglich gelesen»} [Daneben trug Humboldt Donnerstags vom 6. 12. bis zum 27. 3. um 12 Uhr in der benachbarten Singakademie zweistündig vor doppelt zahlreichem, auch weiblichem Publikum eine vereinfachte Version vor.]
in der Spalte "Vorkommen" bitte Farben umdrehen: z. B. Rudolphi: soll sein: "6 + 3 + 3 (12)" erst grün, dann rot. Im Moment ist das uneinheitlich: Die Zahlen sind rot-->grün, die Pfeile sind grün-->rot; aber Uni (grün) sollte immer zuerst, da der Kurs an der Uni früher gestartet wurde.
bitte für die einzelnen Dokumente = Stunden in hidden-kosmos/sessions/ auch die Zeichen- und Tokenzahlen berechnen, merke grad, dass das interessant wäre!
Siehe alle Dokumente in https://github.com/haoess/hidden-kosmos/tree/master/xml. Im Moment gibt es eine für jede einzelne Stunde (../sessions), aber nicht für die Gesamt-Dateien.
Danke!
@ref
, aber kein @resp
haben um ein @resp="#CT"
ergänzenpersName
ohne @ref)==> so kann ich z.B. herausfinden, welche 4 Personen in hufeland_privatbesitz_1829 fehlen, die in nn_msgermqu2124_1827 vorhanden sind (unique Personen: 276 (+ 4 ohne @ref) vs. 280 (+ 5 ohne @ref))
<note>
unterscheiden <persName>
in <note>
im Original und in <note type="editorial">
:
<persName>
in <note>
im Original sollen rein, dass klappt schon, z. B. "Olaf Römer" hier: http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/7<note type="editorial">
sollen erstmal nicht mit in die Liste, z. B. wird hier http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/165 Goethe nicht genannt, sondern nur als 'hoher Meister', Autor des Werther und der Metamorphose der Pflanzen indirekt angeführt. Anderes Beispiel hier http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/156 wird "Gruithuisen" nicht erwähnt, sondern nur als "sonst achtbare[r] Naturforscher im südlichen Deutschland" bezeichnet.<persName>
in <persName>
)<persName>
-Tags abbekommen haben?@ref="N/A"
(z. B. (Maurice) Henry (siehe editoral note auf http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/297), und wo wir einfach nicht wissen, wer gemeint ist, z. B. "ein zu Genf lebender Herr Chevalier" (http://www.deutschestextarchiv.de/nn_msgermqu2124_1827/148)Parrot, Friedrich von (1791–1841) || 5 + 4 + 5 + 3 + 1 (18)
Soll sein:
Parrot, Friedrich von (1791–1841) || 0 | 0 | 5 | 4 | 5 | 0 | 3 | 0 | 1 (18)
--> man sieht also, dass im 1., 2., 6. und 8. Dokument der Name fehlt (und kann sich auch die einzelnen Dokumente nach Häufigkeit sortieren lassen, statt jetzt nur nach Gesamthäufigkeit.)
evtl. auch die Profession, wo sie vermerkt ist?
<del>
, <gap>
, -<lb/>
usw. ignorieren
<del>
: siehe z. B. "gGaus" und "Achgardh" in der aktuellen Liste, <del>
muss auch ignoriert werden: <persName resp="#CT" ref="http://d-nb.info/gnd/118643959">A<subst><del rendition="#s" hand="#pencil">ch</del><add place="superlinear" hand="#pencil">g</add></subst>ard<metamark/><add place="intralinear">h</add></persName>
<persName>
innerhalb von <del>
ignorieren, wenn also die erwähnte Person komplett gestrichen wurde, sollte sie auch nicht in der Liste auftauchen. In msgermqu2345 (das noch nicht drin ist) gibt es davon viele Beispiele, bei Parthey nur 2, z. B. http://www.deutschestextarchiv.de/parthey_msgermqu1711_1828/777: <subst><del rendition="#s"><persName resp="#SB" ref="http://d-nb.info/gnd/116208503">Blumenbach</persName></del><add place="superlinear"><persName resp="#SB" ref="http://d-nb.info/gnd/118517252">Buffon</persName></add></subst>
Das alles ist scheinbar schon berücksichtigt:
-<lb/>
innerhalb von <persName>
ignorieren, jedenfalls sofern nur Trennung am Zeilenende, nicht bei "Gay-Lussac") usw. innerhalb der Vorlageformen, das scheint schon zu klappen<gap>
innerhalb von <persName>
ignorieren, z. B. <persName resp="#SB" ref="http://d-nb.info/gnd/11864811X">Al<subst><del rendition="#ow"><gap reason="illegible" unit="chars" quantity="2"/></del><add place="across">fo</add></subst>ns</persName>
das scheint schon zu klappen<unclear>
auch mitnehmen, das scheint aber zu klappen<supplied>
aber mitnehmen, kommt bisher zwar nur 1x vor, bei Libelt, der noch nicht drin ist: <persName resp="#CT" ref="http://d-nb.info/gnd/11876196X"><supplied reason="damage" cert="high" resp="#CT">Schroe-</supplied><lb/> ter</persName>
@ct: Ein kleiner Erklärtext muss noch geschrieben werden.
umbenennen in "Vorlageform(en)"
*.norm.xml ist für Kollation usw. absolut klasse. Unbedingt beibehalten.
ABER: das Voyant-(Norm-)XML ist für andere Dinge besser.
Hintergrund: Es gibt leider ein Problem mit dem aus den *.norm.xml (via https://raw.githubusercontent.com/haoess/dta-tools/master/stylesheets/dtabf.xsl) erzeugten HTML: Dieses enthält beispielsweise noch Text in <del>
; dieser wird zwar entsprechend als gestrichen formatiert/dargestellt, von Tools wie Copyfind aber als normaler Text behandelt.
Lösung: HTML erzeugen aus Voyant-(Norm-)XML (wofür ja all diese Dinge schon berücksichtigt und entfernt wurden). Vorgehen am Beispiel von http://www.deutschestextarchiv.de/book/download_normxml/parthey_msgermqu1711_1828:
parthey_msgermqu1711_1828_1.VOYANT-norm.xml
(so oder ähnlich benennen, jedenfalls müssen diese XML-Dateien von dem jetzigen (ebenfalls wichtigen!) *.norm.xml unterscheidbar bleiben) usw.Das wäre dann perfekt für CopyFind et al. Diskutieren wir dann gerne später weiter!
z.B. http://www.deutschestextarchiv.de/patzig_msgermfol841842_1828/160
<persName resp="#BF" ref="http://d-nb.info/gnd/118720066" xml:id="halley1" next="#halley2">Hal-</persName>
und <persName resp="#BF" prev="#halley1" ref="http://d-nb.info/gnd/118720066" xml:id="halley2">le</persName>
gehören zusammen = "Halle", werden in der Liste aber als zwei Personen, "Hal-" und "le" aufgeführt.
http://www.deutschestextarchiv.de/kosmos/person sollte auch Anzeige 'nur Nachschrift XY' erlauben. Bitte in einer gesonderten Ansicht. (nicht wie beim Button "[Liste filtern]", wo immer noch alles Verweise auf alle anderen drin bleiben und scheint mir auch nicht so ganz zuverlässig zu funktionieren.)
Add a LICENSE.txt
to root.
Siehe hidden-kosmos/sessions/nn_msgermqu2345_1827/nn_msgermqu2345_1827_11.norm.xml.
Bitte alles einmal neu, inkl. Gesamtdateien. Danke!!!
Bitte Dateinamen so ändern, dass zumindest der dtadirname, evtl. auch "session" drin enthalten ist. Danke!
Personenregister: Bitte auch, ggf. in einer weiteren Spalte, weitere externe Links außer "Normdaten" (= GND, Wikidata, VIAF) einbinden,
v.a. die Personen aus der edition humboldt digital, siehe https://edition-humboldt.de/about/index.xql?id=api&l=de. Gerne auch weitere, z.B. Wikipedia, ADB/NDB usw.
sollte nicht nur der Tabellenkopf, sondern auch der Suchschlitz mit sichtbar bleiben.
Benjamin fiel auf, "dass die umlaute in der ersten spalte bei als buchstabe+combining diaeresis kodiert sind. das ist ungünstig für die suche (vgl. Mästlin, Mädler, ...)" Kannst du das ändern oder kommt das so aus der GND und muss so bleiben?
https://creativecommons.org/licenses/by/4.0/deed.de
Bitte auch entsprechend die Logos und Metadaten ändern. Sag, wenn ich was dazu tun kann.
Evtl. auch https://help.github.com/articles/open-source-licensing/#how-can-i-go-back-through-my-public-repositories-and-give-them-licenses beachten? Bzw. hier http://venturebeat.com/2016/09/21/github-repos-now-prominently-show-open-source-licenses/
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.