The pica-rs from deutsche-nationalbibliothek

Das Toolkit pica-rs ermöglicht eine effiziente Verarbeitung von bibliografischen Metadaten, die in PICA+, dem internen Format des OCLC-Katalogsystems, kodiert sind. Mithilfe verschiedener Kommandos können aus den Metadaten elementare statistische Größen ermittelt und aufbereitet werden. Zudem kann das Toolkit als Brückentechnologie fungieren, um Metadaten für populäre Frameworks wie Pandas oder Polars (Python), in Programmiersprachen wie R oder für Excel nutzbar zu machen.

Das Projekt ist eine Entwicklung des Referats Automatische Erschließungsverfahren; Netzpublikationen (AEN) der Deutschen Nationalbibliothek (DNB). Es wird für die Erstellung von Datenanalysen sowie für die Automatisierung von Metadaten-Workflows (Datenmanagement) im Rahmen der automatischen Inhaltserschließung genutzt. Weiterhin wird es zur Unterstützung der Forschungsarbeiten im Projekt Automatisches Erschließungssystem und für diverse andere Datenanalysen in der DNB eingesetzt.

Die Mitwirkung an pica-rs ist sehr erwünscht. Wir würden Sie bitten, mögliche Fehler, Fragen und neue Ideen als GitHub-Issues anzulegen. Diese werden wir dann intern beraten und möglichst zeitnah ein Feedback geben.

Die Installation des Toolkits und alle Kommandos sind in der Dokumentation beschrieben.

Kommandos

cat — Zusammenfügen (Konkatenieren) von Datensätzen
completions — Erzeugung von Shell-Skripten zur Autovervollständigung
convert — Konvertierung zwischen verschiedenen PICA-Formaten
count — Zählen von Datensätzen, Feldern und Unterfeldern
explode — Teilt Datensätze in Lokal- oder Exemplardatensätze auf
filter — Filtert Datensätze anhand eines Kriteriums
frequency — Ermitteln einer Häufigkeitsverteilung über ein oder mehrere Unterfelder
hash — Erzeugt SHA-256-Hashwerte von Datensätzen
invalid — Findet ungültige Zeilen in der Eingabe
partition — Partitioniert Datensätze anhand eines Unterfelds
print — Gibt Datensätze in einer menschenlesbaren Form aus
sample — Wählt eine Zufallsstichprobe eines bestimmten Umfangs aus
select — Selektiert ein oder mehrere Unterfelder und gibt die Daten im CSV- bzw. TSV-Format aus
slice — Ausschneiden eines zusammenhängenden Teilbereichs aus der Eingabe
split — Teilt eine Menge an Datensätzen in Dateien fester Größe

Lizenz

Der Quellcode sowie die Releases sind lizenziert unter der EUPL-1.2.

Add `replace` command

Responsible: @niko2342
Status: in preparation
Feature PR: n/a

Summary

It happens that the rules for valid subfield value changes and a cleanup process must be scheduled and performed. In the meantime (which can take months or years or will never be happen) the values are inconsistent and two or more subfield values exists which are identical. For example, if the provenance value changes from ema-gnd to emagnd. This is frustrating because each subsequent data analysis must do the same cleanup steps until the cleanup process is done.

Details

A new replace command will be added before the data analysis in order to fix this simple string replacement cases. All subsequent processes (R or Python scripts) can benefit from the cleaned subfield values. If the cleanup process is done and the source file contains no invalid subfield values, the replace command can be removed and the result must be the same.

The command could look like this:

$ pica replace "044H{b == 'GND' && 9? && H == 'ema-gnd', H = 'emagnd'}" DUMP.dat
$ pica replace "044H{b == 'GND', H := 'emagnd'}" --and "012A/*.a = 'foo'" DUMP.dat
$ pica replace "012A/*.a = 'foo'" DUMP.dat

This command (re-)uses the syntax of (pica-rs) path expressions, which can have an optional filter on subfield(s) and a list of subfields which sould be replaced. Also a new assignment operator = is introduced.

Implementation

Note This command might entail a conversion from referenced record to it's mutable variant, which results in a slower running time in comparison to commands like cat or count.

deutsche-nationalbibliothek / pica-rs Goto Github PK

pica-rs's Introduction

Kommandos

Verwandte Projekte

Lizenz

pica-rs's People

Contributors

Stargazers

Watchers

Forkers

pica-rs's Issues

Example

Summary

Details

Implementation

Example

Example

Example

Recommend Projects

Recommend Topics

Recommend Org

Jobs