Provenienzdaten publizieren. Das Projekt „Publikation der Provenienzmerkmale des PuSte-Teilbestands der Forschungsbibliothek“
- Dorian Grevelhörster
Das im Rahmen des Herder-Insituts Strategiefonds für das Jahr 2023 beantragte Projekt „Publikation der Provenienzmerkmale des PuSte-Teilbestands der Forschungsbibliothek (PPP)“ zielt darauf, Daten, Metadaten und Fotos der im PuSte-Teilbestand der Bibliothek erfassten Bücher zur wissenschaftlichen Recherche und Nachnutzung zu publizieren. Dieser Teilbestand stammt aus der ehemaligen Publikationsstelle Berlin-Dahlem und kam Anfang der 1960er Jahre ins Herder-Institut nach Marburg.
Teil_1
Das Projekt beschäftigte sich in der Zeit von Juni 2023 bis Januar 2024 mit diesen sogenannten legacy-Daten, die aus dem vorherigen Projekt „NS-Raubgutforschung in der Forschungsbibliothek des Herder-Instituts. Untersuchung des von der ehemaligen Publikationsstelle Berlin-Dahlem stammenden Teilbestandes“ (2016-2019) stammen. Abteilungsübergreifend wurden zwischen den Abteilungen „Digitale Forschungs- und Informationsinfrastrukturen“ und „Forschungsbibliothek“ sowohl die Erfassung der Provenienzen in Form einer Liste überprüft, bereinigt und vereinheitlicht als auch die Fotos der Provenienzmerkmale gesichtet, aufbereitet und für die Publikation ausgewählt.
Begonnen wurde mit der Bereinigung und der Vereinheitlichung der Tabelle in OpenRefine, ein Open Source Programm, das sich insbesondere für Aufgaben wie Datenbereinigung und -anreicherung anbietet. Durch die hohe Komplexität der vorliegenden Daten gestaltete sich dieses Vorhaben jedoch schwieriger als anfänglich gedacht.
Teil_2
Zum einen handelt es sich nicht um eine Tabelle mit ein paar hundert Zeilen, sondern um rund 17.000 Zeilen mit mehreren Spalten, deren Inhalte nahezu alle Bearbeitung benötigten. Die Spalten der Tabelle sind zum Großteil nach den standardisierten Kategorien des Katalogisierungssystem des hebis-Verbundes benannt. Die Kategorie 4804 steht hierbei für Anmerkungen im Kontext der Provenienzmerkmale, 6880-6883 stehen für die Provenienzen, 6899 ist für die Kategorie des Provenienzmerkmals nach dem T-PRO Thesaurus für Provenienzmerkmale und 7101-7108 werden für weitere Signaturen verwendet wie zum Beispiel Originalsignaturen aus übernommenen Beständen.
Bei den restlichen Spalten handelt es sich um die Signaturen, Inventarnummern, Pica-Produktionsnummern (kurz: PPN) sowie die Titel. Zur Nachvollziehbarkeit wurde auch eine Spalte mit Kommentaren für Anmerkungen angelegt. Die Pica-Produktionsnummer wird nach der Abspeicherung eines erfassten Datensatzes automatisch erzeugt und ist innerhalb des Datenbestandes des „Hessischen Bibliotheksinformationssystems“ (hebis) eindeutig.
Bereinigungen oder Anreicherungen von Daten im größeren Stil konnten bei Bedarf mit Hilfe von sogenannten ‚Regular Expressions‘ (RegEx) oder der ‚General Refine Expression Language‘ (GREL) ausgeführt werden. Bei den ‚Regular Expressions‘ (Deutsch: ‚Reguläre Ausdrücke‘) handelt es sich um syntaktisch folgenden Zeichenfolgen, um bestimmte Zeichenketten (‚strings‘) zu beschreiben. Dies ist insofern von Vorteil, wenn beispielsweise in Fließtexten nur bestimmte Silben an bestimmten Stellen gesucht werden.
Im Falle der Tabelle zur Erfassung der Provenienzen konnten die ‚Regulären Ausdrücke‘ genutzt werden, um Unregelmäßigkeiten wie ungewollte Zeichen in einzelnen Zellen der Tabelle zu identifizieren. GREL hingegen ist die OpenRefine eigene Sprache und dient zur Beschreibung von Transformationen oder Facettierung von Daten. Mit Hilfe dieser Werkzeuge wurden zunächst fehlende Pica-Produktionsnummern, Signaturen sowie Inventarnummern ergänzt, die durch den Abgleich mit dem Datenbestand aus dem CBS weitgehend vervollständigt werden konnten.
Teil_3
Der nächste Schritt bestand darin die Fotos zu sortieren und aufzubereiten. Im Kontext des Imports der Bilddateien war es daher wichtig, die dateiinternen Metadaten zu vervollständigen. Metadaten sind insofern von Relevanz, da sie Auskunft über das Urheberrecht, den Entstehungskontext sowie gegebenenfalls auch Beschreibungen zu dem jeweiligen Bild liefern. Es war daher vorgesehen die bildinternen Metadaten zu sichten und zu kontrollieren.
Einige der Bilder hatten bereits im vorherigen Projekt dateiinterne Metadaten erhalten. Beim Großteil der Dateien jedoch wurden die Informationen mit Hilfe eines Skripts aus dem vorherigen Titel der Bilder ausgelesen und dadurch maschinell nach dem sogenannten IPTC-IIM-Standard als Metadaten eingetragen. Teilweise wurden die Metadaten, bei denen die Automatisierung an ihre Grenzen kam, händisch vervollständigt.
Für das Sichten und Ergänzen der Metadaten eignete sich die Software XnViewMP durch ihr breites Spektrum an Bearbeitungsfunktionen und Kompatibilität an Formaten. Im Projekt sind teilweise Dubletten der Fotos entstanden, die nun mit Hilfe der Software händisch ausgewählt und sortiert werden mussten. Es folgte das Zuschneiden der Bilder über die Bildbearbeitungssoftware GIMP, damit auf den Bildern nur noch die einzelnen Provenienzmerkmale wie Stempel oder Exlibris statt der ganzen Buchseiten zu sehen sind. So wurden aus den ca. 2.000 Originaldateien am Ende rund 500 Dateien für den Import.
Zuletzt sollten alle diese Bilddateien in einer Liste für den Import verzeichnet werden. Diese Liste enthält unter anderem Angaben zu dem Ablageort der Datei, dem Dateinamen sowie dem Provenienzmerkmal an sich und der dazugehörigen Nummer der Gemeinsamen Normdatei (GND). Hierbei musste jedes Bild erneut einzeln gesichtet und das Provenienzmerkmal, wie es auf dem Bild zu sehen ist, verzeichnet werden.
Teil_4
Die größte Schwierigkeit hierbei war das Erkennen einiger Merkmale wie Handschriften oder Stempel, die eine äußerst schlechte Lesequalität aufwiesen. So waren zum Beispiel verblichene Stempel oder unlesbare Bleistiftnotizen am schwersten oder gar nicht zu erkennen und konnten daher nicht vollständig beschrieben werden.
Teil_5
Teil_6
Die nun aufbereiteten und verzeichneten Bilddateien sollen in erster Linie in hebis importiert werden. Des Weiteren gab es noch Überlegungen, die Bilddateien anderen Datenbanken wie Proveana oder Looted Cultural Assets zu übergeben, um einen Beitrag für die kritische Kulturerbedokumentation im digitalen Raum zu leisten. Aufgrund der Tatsache, dass die Fotos nicht systematisch erstellt wurden, da sie in erster Linie für die interne Dokumentation und nicht zu Publikationszwecken gemacht wurden, stellen sie eine besondere Herausforderung im Kontext des Forschungdatenmanagements dar. Einerseits haben sie als Quelle einen Mehrwert für die Forschung und ihre Publikation könnte einen guten Beitrag für die Provenienzrecherche leisten, andererseits erfüllen sie nicht die Anforderungen der einzelnen Datenbanken, wodurch im Rahmen dieses Projektes die Möglichkeiten der Veröffentlichung als Forschungsdaten beschränkt sind. Nichtsdestotrotz legt das Projekt mit der Publikation dieses umfänglichen Datenbestandes einen elementaren und explorativen Baustein zur Weiterentwicklung der Zugänglichkeit von Provenienzdaten.