Die langfristige Verfügbarkeit digitaler Informationen ist nicht nur eine Frage der zur Verfügung stehenden technischen Infrastruktur. Moderne, redundante Archivsysteme können formal den dauerhaften Erhalt von digital erfassten Informationen gewährleisten (Bitstream-Preservation)1. Dies erfordert allerdings regelmäßige Investitionen, um alternde Hardware auszutauschen. Damit alleine ist aber noch nicht sichergestellt, dass die Daten langfristig auch tatsächlich nutzbar bleiben. Entscheidend ist auch, ob die digitalen Informationen von zukünftigen Systemen und letztlich Personen noch sinnvoll verstanden werden können.
Dies ist insbesondere dann nicht mehr sichergestellt - und damit die langfristige Verfügbarkeit der Informationen gefährdet - wenn:
- die Daten in Dateiformaten abgelegt wurden, die zu einem späteren Zeitpunkt von Computern nicht mehr ohne Informationsverlust interpretiert werden können
- eine spezialisierte, nicht weitverbreitete Software notwendig ist, um die Dateien überhaupt verwenden zu können.
Während der zweite Fall oft bereits zum Zeitpunkt der Archivierung absehbar ist, ist das Risiko eines langsamen "Veraltens" von Dateiformaten nicht immer offensichtlich. Um dies zu minimieren, sollte idealerweise bereits beim Erstellen der Daten, aber spätestens beim Einbringen von Daten in ein Langzeitspeichersystem darauf geachtet werden, die Informationen in Formaten zu speichern, die allgemein als langfristig sicher angesehen werden. Idealerweise sollte zusätzlich noch berücksichtigt werden, ob das Archivsystem bei drohendem Veralten die Daten automatisch auf modernere Formate migrieren - sprich in aktuelle Datenformate umwandeln - kann.
Je nach erwarteten Nachnutzungsszenarios ist es dabei nicht immer nötig, das aus Sicht der Langzeitstabilität absolut beste Datenformat für den Datentyp zu wählen. Es kann beispielsweise ausreichen, eine pragmatische Lösung zu wählen, die den Erhalt der für die zukünftige Nachnutzungsszenarien entscheidenden Informationen sicherstellt. Dann rechtfertigen die Vorzüge eines formal überlegenden Dateiformats, unter Umständen nicht den mit dem Wechsel des Formates verbundenen Aufwand oder den möglicherweise durch eine Konvertierung entstehenden Informationsverlust.
Die Auswahl eines passenden Dateiformats ist also nicht immer offensichtlich. Daher soll diese Handreichung es Interessierten ermöglichen, sich bereits vor der Einreichung eines Datensatzes bei einem Archiv einen Überblick über geeignete Formate zu verschaffen. Die Empfehlungen wurden ursprünglich im Hinblick auf das in Bayern derzeit genutzte Langzeitarchivierungssystem Rosetta entwickelt. Da die Grundprinzipen der Langzeitverfügbarkeit jedoch unabhängig vom verwendeten Archiv gelten, kann die Handreichung auch in einem breiteren Kontext Anwendung finden.
Anhand realer Fallbeispiele aus verschiedenen Fachdisziplinen mit unterschiedlichen Dateiformaten soll nicht nur eine Empfehlung für das Vorgehen im konkreten Anwendungsfall gegeben werden, sondern auch die sich daraus ergebenden möglichen Konsequenzen aufgezeigt werden. Für einen besseren Überblick werden die konkreten Fallbeispiele durch eine aus bereits existierenden Leitfäden und Handreichungen zusammengetragene Übersicht geeigneter Dateiformate ergänzt.
Der Leitfaden versteht sich ausdrücklich nicht als ein abgeschlossenes Dokument, sondern vielmehr als eine Empfehlungsgrundlage, die kontinuierlich um neue Fallbeispiele sowie weitere Dateiformate ergänzt werden kann.
Der Aufbau der Beispiele folgt grob der Struktur des sogenannten Pattern Konzepts2. Dieses wird insbesondere in der Entwicklung verwendet, um kurz gesagt ein auftretendes Problem zu beschreiben und anschließend eine geeignete Lösungsmöglichkeit aufzuzeigen3. Dabei wird stets eine fest formalisierte Struktur eingehalten. Diese erlaubt es, die Sammlung an Beispielen einfach und stetig zu erweitern sowie bei Recherchen schneller ein passendes Beispiel für die eigene Fragestellung zu finden. Je nach Anwendungsfall kann es daher für ein und dasselbe Dateiformat unterschiedliche geeignete Möglichkeiten für die Langzeitverfügbarkeit geben.
Kurze, eindeutige Bezeichnung des Beispielfalls.
Beschreibung des konkreten Beispielfalls.
Auflistung von für den Beispielfall relevanten Rahmenbedingungen. Kann die Angabe des Datentyps, der Fachrichtung, des geplanten Nachnutzungsszenarios, des Datenvolumen oder weiterer Faktoren sein. Der Kontext soll es erleichtern ähnliche Beispiele zur eigenen Situation zu finden.
Beschreibung des im vorliegenden Fall empfohlenen Vorgehens.
Begründung des empfohlenen Vorgehens.
Erläuterung des entstehenden Aufwands für die Konvertierung in ein anderes Format und Aufzeigen möglicher Konsequenzen, wenn eine andere Vorgehensweise gewählt wird.
Verweise auf weiterführende Empfehlungen und Literatur.
Die Beispiele werden im offen zugänglichen Repositorium [GitHub] gesammelt, kuratiert und bereitgestellt. Dadurch wird zum einen die freie Verfügbarkeit sichergestellt und zum anderen können somit neue Beispielfälle sowie Verbesserungvorschläge und Korrekturen einfach eingebracht werden.
Ziel ist es, das Portfolio langfristig weiter auszubauen, mit weiteren beispielhaften Anwendungsfällen anzureichern und diese nachhaltig zur Verfügung zu stellen. Um die Sichtbarkeit zu erhöhen und eine bessere Zugänglichkeit zu erreichen, werden die Beispiele zusätzlich auf Zenodo veröffentlicht sowie in die Webseite der LZV-Initiative Bayern eingebunden.
Die Frage der Langzeitverfügbarkeit rückt oft erst beim Abschluss eines Forschungsprojekts in den Fokus. Effizienter ist es jedoch, das Thema bereits frühzeitig bei einzelnen Schritten im Forschungsprozess zu berücksichtigen. Um diese Interventionspunkte und mögliche Fragestellungen nicht zu übersehen, wurde in „3D Data Creation to Curation: Community Standards for 3D Data Preservation“ 4 eine hilfreiche und handliche Grafik entworfen, die in Abb.~\ref{XYZ} leicht angepasst und übersetzt wiedergegeben wird.
Für einen ersten Überblick zu geeigneten Dateiformaten für die Langzeitverfügbarkeit, kann die "Interaktive Tafel gängiger Dateiformate" der Landesinitiative Langzeitverfügbarkeit lzv.nrw genutzt werden. Anhand der Dateiendung kann schnell überprüft werden, ob das vorliegende Dateiformat für die Langzeitverfügbarkeit geeignet ist.
Weitergehende, detailliertere Erläuterungen zu den einzelnen Dateiformaten finden sich in zahlreichen Quellen5. Aus diesen wurde eine kurze Übersicht über empfohlene, bedingt geeignete und nicht geeignete Dateiformate zusammengestellt.
Generell sollte bei der Auswahl von Dateiformaten darauf geachtet werden, dass diese möglichst und je nach Verwendungszweck offen, transparent, weit verbreitet sowie gut dokumentiert sind.
Dateityp | Empfohlene Dateiformate | Bedingt geeignete Dateiformate | Nicht geeignete Dateiformate |
---|---|---|---|
Text |
|
|
|
Rastergrafik |
|
|
|
Vektorgrafik |
|
|
|
Tabellen |
|
|
|
Datenbanken |
|
|
|
Audio |
|
|
|
Video |
|
|
|
Footnotes
-
Siehe forschungsdaten.info-Glossar. ↩
-
Alexander C, Ishikawa S, Silverstein M, et al (1977) A Pattern Language. Oxford University Press, New York. ↩
-
Johnson R, Helm R, Gamma E, Vlissides, J (2015) Design Patterns: Entwurfsmuster als Elemente wiederverwendbarer objektorientierter Software. mitp, Heidelberg. ↩
-
Golubiewski-Davis K, Maisano J, McIntosh M, et al (2022). Best Practices for 3D Data Preservation. In Moore J, Rountrey A, Kettler H (Hrsg.) 3D Data Creation to Curation: Community Standards for 3D Data Preservation. Association of College and Research Libraries, Chicago. ↩
-
siehe beispielsweise: forschungsdaten.info ; KOST ; IANUS ↩