Langzeitarchivierung im Öffentlichen Bereich Was Sie schon immer über PDF/A wissen wollten ...

Autor / Redakteur: Olaf Drümmer / Gerald Viola

Seit dem 1. Oktober 2005 ist PDF/A das ISO-standardi-sierte Format für die Langzeitarchivierung von PDF-Dokumenten. Es sorgt nicht nur für die langfristige Lesbarkeit von Dokumenten, sondern ist der Schlüssel für viele Herausforderungen in den Öffentlichen Verwaltungen.

Firmen zum Thema

Quelle: Fyle - Fotolia.com
Quelle: Fyle - Fotolia.com
( Archiv: Vogel Business Media )

Betrachtet man das digitale Archiv einer Öffentlichen Einrichtung, so findet man in der Regel bei den abgelegten Unterlagen ein Wirrwarr von Formaten vor: Dazu gehören Dokumente, die aus Fachanwendungen in einem eigenen Format generiert wurden, selbst erstellte oder per eMail eingegangene Office-Dateien sowie gescannte Papierdokumente. Diese schwer zu bändigende Formatvielfalt birgt zahlreiche Probleme in sich, die zum Teil bereits jetzt spürbar sind, sich aber insbesondere in einigen Jahren bemerkbar machen werden. Bei der täglichen Arbeit hat beispielsweise der Sachbearbeiter das Problem, dass er mehrere Programme öffnen muss, um einen Vorgang ganzheitlich zu betrachten.

Typisches Beispiel ist eine Bauakte mit Anträgen, gescannten Zeichnungen sowie der gesamten Korrespondenz mit dem Bauträger. Die Arbeitsweise mit mehreren offenen Fenstern ist mühsam und unübersichtlich. Was aber passiert, wenn die Bauakte in zehn Jahren erneut eingesehen werden muss? Eventuell sind dann die Programme, mit denen die internen Dokumente erstellt wurden, gar nicht mehr am Arbeitsplatz verfügbar. Die Reproduzierbarkeit wird somit deutlich erschwert. Das Vorhalten sämtlicher Applikationen über Jahre hinweg ist dabei grundsätzlich mit einem unverhältnismäßigen Aufwand verbunden, ebenso wie eine ständige Migration auf die jeweils neuesten Versionen.

Das Konvertieren in ein herstellerunabhängiges, einheitliches Archivformat ist ein Ansatz, der sofort Abhilfe schaffen kann. Der Markt bietet hierfür unterschiedliche Formate an. In der Vergangenheit waren dies vorzugsweise TIFF oder JPEG und seit dem Jahr 2005 eben auch PDF/A.

Vergleicht man diese drei Formate, so sind erhebliche Unterschiede festzustellen. Das im Vergleich zu der Innovationskraft der IT-Branche alte TIFF-Format resultiert in extrem großen Dateien, insbesondere dann, wenn es sich um farbige Dokumente handelt. JPEG-Dateien haben in der Regel eine schlechte Wiedergabequalität. Metadaten zur Beschreibung und Identifikation der Dokumente werden nicht in einheitlicher Weise unterstützt – ganz zu schweigen von Volltextfähigkeit.

Das PDF/A-Format als normierte Variante des beliebten PDF-Formates speichert Dokumente vergleichsweise kleiner ab, gibt sie originalgetreu wieder, unterstützt Metadaten und ermöglicht die Volltextsuche. Die visuelle Repräsentation der Dokumente bleibt zweifelsfrei erhalten, die Datei enthält stets alle zur Darstellung erforderlichen Bestandteile. Diese erfolgt unabhängig von einem bestimmten Betriebssystem, Produkt oder Hersteller.

Dabei kennt der PDF/A-Standard zwei Ausprägungen: PDF/A-1b adressiert die Integrität der visuellen Darstellung. PDF/A-1a fordert zusätzlich die Auszeichnung der Inhalte eines PDF-Dokuments, sodass dessen logische Struktur („tagged PDF“) erkennbar bleibt, sowie ausreichende Zeichensatzinformationen, damit sämtlicher Text als Unicode interpretiert werden kann – eine wichtige Voraussetzung für das Durchsuchen oder Extrahieren von Text.

PDF allein reicht nicht

Für eine vertrauenswürdige Archivierung von Dokumenten würde das „normale“ PDF-Format mit seinen zahlreichen Versionsständen und seiner immensen Funktionsvielfalt keine verlässliche Grundlage darstellen – es erlaubt einfach zu vieles, das die langfristige Lesbarkeit gefährdet. Aus diesem Grund beinhaltet das PDF/A-Format Restriktionen, die diese Vielfalt auf ein für die Archivierbarkeit sinnvolles Maß reduzieren und dafür sorgen, dass jedes PDF/A-Dokument in sich abgeschlossen und vollständig ist. Eine Selbstdokumentation wird durch die Speicherung von Metadaten auf Grundlage der von Adobe entwickelten eXtensible Metadata Platform (XMP) erreicht.

Lesen Sie auf der nächsten Seite, warum Sie ein Prüf- und Validierungstool einsetzen sollten

Die Umsetzung

Sämtliche Dokumentenarten sind nach PDF/A konvertierbar. Einige Anwendungsprogramme, wie beispielsweise Adobe Acrobat ab der Version neun oder Microsoft Office 2007, stellen bereits Funktionen zur Verfügung, mit denen Dokumente direkt in PDF/A gespeichert werden können. Sowohl für digital erzeugte als auch für gescannte Dokumente stellt der Markt je nach Anforderung unterschiedliche Tools zur Verfügung.

In vielen Archiven sind bereits erhebliche Mengen an PDF-Dateien vorhanden. Auch diese müssen in das standardkonforme PDF/A-Format übertragen werden, um die langfristige Lesbarkeit zu garantieren. Damit die archivierten Dokumente auch wirklich dem PDF/A-Standard entsprechen, empfiehlt sich der Einsatz eines Prüfwerkzeugs, genannt Validator. Schließlich ist es für den letztendlichen Erfolg jeder Archivierungsstrategie ausschlaggebend, dass ein späterer Zugriff auf die Dokumente, auch nach Jahren, nicht an einer lückenhaften Eingangskontrolle scheitert.

Mit dem Einsatz eines Validators haben Anwender die Gewissheit, dass ihre PDF/A-Dateien auch wirklich dem ISO-Standard entsprechen. Alle im Geschäftsalltag vorkommenden Dokumentarten wie Dokumente aus Office-Programmen, interaktive Formulare, Präsentationen, Konstruktionszeichnungen, und Publikationen wie Zeitungen, Zeitschriften und Bücher können so langfristig lesbar aufbewahrt werden.

Auch hier stellt der Markt unterschiedliche Produkte zur Verfügung. Dabei gehen Prüf- und Validierungstools, die nur das Verfehlen der PDF/A-Konformität bescheinigen, nicht weit genug. Moderne Softwarelösungen verfügen über weitreichende Korrekturfunktionen, die beispielsweise unvollständige Schriften reparieren, fehlende Schriften nachträglich integrieren und inkonsistente Metadaten korrigieren. Das PDF/A Competence Center – ein weltweiter Zusammenschluss von Unternehmen und Fachleuten im Bereich PDF-Technologie – hat im vergangenen Jahr die Isartor-Testsuite herausgegeben.

Diese hilft Anwendern, die Validierer verschiedener Hersteller zu evaluieren und auf die Eignung für spezifische Einsatzgebiete zu prüfen. Sie beinhaltet über 200 Dateien, die systematisch alle Anforderungen von PDF/A-1b verletzen. So können sich Anwender, aber auch Software-Anbieter, davon überzeugen, ob ein PDF/A-Validierer auch tatsächlich die Einhaltung aller Regeln von PDF/A-1b prüft. Der Einsatz eines Validierers empfiehlt sich beim Posteingang, vor der Archivierung, aber auch vor dem Versand.

Empfehlungen und Vorgabe

Dass sich PDF/A zunehmend in der Öffentlichen Verwaltung durchsetzt, kann man an seiner immer häufigeren Nennung in Ausschreibungen und an den zunehmenden Projekten auf Basis des ISO-Standards erkennen. Darüber hinaus steigt die Zahl der Institutionen, die die Nutzung von PDF/A als Vorgabe festlegen oder zumindest empfehlen. Damit wird die Umsetzung eines einheitlichen Archivs wesentlich vereinfacht.

Nächste Seite: Praxisbeispiele für die Langzeitarchivierung bei eGovernment

Ein paar Beispiele

Die Koordinierungs- und Beratungsstelle der Bundesregierung für Informationstechnik in der Bundesverwaltung (KBSt) veröffentlichte eine aktualisierte Version 4.0 zu SAGA (Standards und Architekturen für eGovernment-Anwendungen). Diese Version gibt PDF/A-1 ein größeres Gewicht und empfiehlt diesen Standard ausdrücklich für die Langzeitarchivierung. SAGA beschreibt Standards, Technologien und Methoden für den Einsatz von Informationstechnik in Bundesbehörden und gibt Empfehlungen zum Bereich eGovernment in der Öffentlichen Verwaltung.

Die Bundeskammer der Architekten und Ingenieurkonsulenten in Österreich verlangt für öffentliche, elektronische Urkunden die Einhaltung des Standards PDF/A-1b. Zudem wird die Echtheit aller elektronischen Dokumente, die in die Urkundensammlung des Grundbuches übernommen werden, durch eine qualifizierte elektronische Signatur gewährleistet.

Die norwegische Regierung hat festgelegt, dass alle Informationen, die über staatlich betriebene Websites verbreitet werden, zukünftig in offengelegten Dokumentformaten abgelegt werden sollen. Das sind etwa HTML, PDF bzw. PDF/A und ODF. PDF/A wird für Dokumente empfohlen, deren Layout verbindlich ist.

Die Universität Potsdam strebt an, dass alle Dokumente, die auf dem eigenen Publikationsserver vorgehalten werden, in PDF/A vorliegen sollen.

Dies geht aus einer Mitteilung auf der Webseite der Hochschule hervor. Hier erhalten die Anwender auch Tipps für die Erstellung von PDF/A etwa aus Word oder für die Konvertierung von LaTeX nach PDF/A.

Die Handelskammern in Italien verlangen seit Anfang 2009 von Unternehmen und deren Steuerberatern, sämtliche Dokumente im PDF/A-Format einzureichen.

Die Deutsche Nationalbibliothek zieht PDF/A allen anderen Dateiformaten vor, wenn es um die Anlieferung von Inhalten in digitaler Form geht. Dies ist der aktuellen Präferenzregelung der Institution zu entnehmen. Auf Rang zwei steht „herkömmliches“ PDF gefolgt von HTML.

Die Österreichische Nationalbibliothek legt in ihren Informationen für Anbieter und Bibliotheken fest, dass angelieferte Dateien bevorzugt im PDF/A-Format vorliegen sollen.

Fazit

PDF/A ist das ideale Konvergenz-Format zur Überwindung des Formate-Zoos.

Wer sich bei der Archivierung elektronischer Dokumente an diesen Standard hält, vermeidet das bei den meisten Dokumentformaten allgegenwärtige Risiko, dass wichtige Informationen in fünf, zehn oder noch mehr Jahren nicht mehr zugänglich sind.

(ID:2021552)