Strategische Entscheidung beim EU Publications Office EU: Veröffentlichungen nur noch im PDF/A-Format

Autor / Redakteur: Nicole Körber / Gerald Viola

Das EU Publications Office hat sich für den PDF/A-Standard als Format für die mehr als 150.000 Dokumente in seiner ständig wachsenden digitalen Bibliothek entschieden. Als Herausgeber von Veröffentlichungen der Organe der Europäischen Gemeinschaften und der Europäischen Union hat das Amt das Ziel, sämtliche Inhalte – auch die zahlreichen bis ins Jahr 1952 zurückreichenden Papierdokumente – digital bereitzustellen.

Anbieter zum Thema

Damit soll den Bürgern der Zugriff erleichtert und zusätzlich für Transparenz gesorgt werden. Das EU Publications Office musste dafür in einem straffen Zeitplan das papierbasierende und das elektronische Archiv mit heterogenen PDF-Dateien zusammenführen.

Das in Luxemburg ansässige Amt für Veröffentlichungen der EU (EU Publications Office) gibt täglich das Amtsblatt der Europäischen Union in bis zu 23 Sprachen heraus, sowie auch die Veröffentlichungen der rund 370 institutionellen Autorendienste.

Hinzu kommen mehrere Online-Dienste, die den Bürgern Zugriff auf Informationen bieten. Dazu gehört auch der seit 2005 existierende Dienst „EU-Bookshop“, in dem neben täglichen Neuerscheinungen sämtliche historische Veröffentlichungen der EU katalogisiert, inventarisiert und archiviert werden. Anschließend stehen sie als PDF zum Download bereit.

Dr. Silke Stapel, Leiterin der EU-Bookshop-Abteilung des EU Publications Office, erklärt: „Bürger und Unternehmen sollen über eine einzige Anlaufstelle Zugang zu den Veröffentlichungen der europäischen Institutionen, Agenturen und sonstigen Einrichtungen erhalten. Zu dem bereits beträchtlichen Bestand kommen jährlich rund 600 neue Publikationen hinzu.“

Unmittelbar nach der Einrichtung des EU Bookshops wurden rund 65.000 bibliografische Notizen über die Seite (bookshop.europa.eu) bereitgestellt und ein Scan-on-Demand-Dienst im Haus eingerichtet. Über diesen konnten Interessenten PDF gewünschter Dokumente anfordern. Mit der internen Abwicklung dieses Scan-Angebots war man jedoch rasch an den Kapazitätsgrenzen, und bald dauerte es mehrere Monate, bis eine PDF-Bestellung erledigt war.

Nächste Seite: Ziel ist ein einheitliches, vollständiges und digitales Archiv

Einheitliches, vollständiges und digitales Archiv

Um der rasch steigenden Nachfrage nach den PDF nachzukommen und ein vollständiges digitales Archiv sämtlicher Veröffentlichungen aufzubauen, das über den EU Bookshop bereitgestellt wird, entschied man sich im Herbst 2007 für die Durchführung eines Digitalisierungsprojektes. Hierfür mussten zunächst die rund 130.000 papierbasierenden Publikationen digitalisiert werden, die aus den Jahren 1952 bis 2002 stammten und in elf Sprachen vorlagen.

Projektkoordinator Anton Zagar vom EU Publications Office erinnert sich: „Insgesamt handelte es sich bei diesen heterogenen Inhalten um rund elf Millionen Seiten, die im Kellerarchiv des Hauptgebäudes lagerten. Diese sollten in ihrer digitalen Zukunft drei Anforderungen erfüllen: die langfristig sichere Archivierbarkeit, die Möglichkeit des Print-on-Demand sowie die webgerechte Online-Präsentation.“

Die Format-Frage

In puncto Format kam man zu dem Schluss, dass die Qualität aller im elektronischen Archiv gespeicherten PDF-Dateien standardisiert werden sollte, ebenso alle zukünftigen Veröffentlichungen. Der Erfahrungsaustausch mit anderen Bibliotheken und Archiven sowie die Informationen der Konferenz des PDF/A Competence Center im Frühjahr 2008 in Amsterdam führten zu einer Entscheidung für den PDF/A-1b ISO-Standard.

Die Spezifikationen sahen vor, beim Scannen TIFF 6.0 zu produzieren und deren Images dann in PDF/A-1b einzubetten. Für die Print-on-Demand-Fähigkeit war außerdem die Unterstützung des ISO-Standards PDF/X-3 gefordert. Ein weiteres wichtiges Kriterium war die Bereitstellung von XMP-Metadaten.

Anton Zagar erklärt: „Ziel war es, am Projektende für jede Veröffentlichung eine einzige Datei zu haben, die den Buchdeckel und den Text enthält, durchsuchbare Text-Layer, Lesezeichen, eine Miniaturansicht des Einbands sowie ausreichende, eingebettete Metadaten, um eine minimale bibliografische Angabe, eine gute Indizierung sowie entsprechende Suchen zu ermöglichen.“

Quasi als „Nebenprodukt“ sollte das Archiv inventarisiert und bereinigt werden. Dabei waren die dort stets in zweifacher Ausfertigung vorgehaltenen Exemplare, die allerdings bisher nebeneinander im Regal standen, aus Sicherheitsgründen räumlich zu trennen sowie versehentlich nicht duplizierte Einzelexemplare zu identifizieren und zu sichern.

Nächste Seite: Externe Spezialisten für den Großauftrag gesucht

Externe Spezialisten für den Großauftrag

Der Luxemburger Digitalisierungsspezialist Infotechnique SA unterstützte das Vorhaben und scannte das Papierarchiv ein. Dazu Dr. Silke Stapel: „Wir verfügten durch unseren Scan-on-Demand-Service zwar über einige interne Scan-Kapazitäten und -Erfahrungen, doch hatte sich durch den Erfolg dieses Service ein erheblicher Bearbeitungsstau gebildet.

Dadurch dauerte es oft Monate, bis wir ein gewünschtes Dokument bereitstellen konnten. Auch der enorme Umfang und die Einmaligkeit des Projektes waren entscheidend dafür, dass wir uns für die Outsourcing-Variante entschieden.“

Gemeinsam mit Infotechnique führte das EU Publications Office zunächst ein Pilotprojekt durch, bei dem auch verschiedene PDF/A-Werkzeuge getestet wurden. Hinsichtlich Performance und Funktionalität konnte hier der pdfaPilot von callas software punkten, insbesondere, da nur er die geforderte PDF/X-Unterstützung für das Print-on-Demand bot.

Zusätzlich zeichnete er sich – neben seinen Validierungsfähigkeiten für PDF/A-Dokumente – auch durch weitreichende Konvertierungsmöglichkeiten und umfassende Funktionalitäten aus, mit denen sich unternehmensweite Archivierungsstrategien nach ISO-Standard umsetzen lassen.

Auch das Bearbeiten von XMP-Metadaten gehört zu den funktionalen Schwerpunkten des pdfaPilot, worauf das EU Publications Office besonderen Wert legte. XMP steht für „Extensible Metadata Platform“ und ist also eine erweiterbare Plattform für beliebige eigene Metadaten.

Der PDF/A-Standard verlangt, dass alle eigenen Metadaten in XMP-Schemas organisiert werden, die ebenfalls in die PDF/A-Datei eingebettet werden müssen.

Sie sind somit die Voraussetzung für die Erweiterbarkeit der Metadaten in PDF/A. Die dadurch erzielte Flexibilität von XMP-Metadaten erlaubt es, sie in beliebigen unternehmens- oder branchenspezifischen Zusammenhängen zu verwenden. Außer einem Programm zur Einbettung solcher eigenen XMP-Metadaten-Strukturen war daher Software-Unterstützung bei der Erstellung und Einbettung eines entsprechenden Schemas erforderlich. Auch hier konnte pdfaPilot punkten.

„Für uns war aber nicht nur die Qualität und der Funktionsumfang des Produktes ausschlaggebend, sondern auch der hervorragende Support von callas software“, begründet Anton Zagar die Entscheidung für den pdfaPilot.

Nächste Seite: 1,1 Millionen Seiten in acht Wochen gescannt – dann folgten 10 Millionen Seiten

Über zehn Millionen Seiten wurden gescannt – Das Fazit

Während im Rahmen des achtwöchigen Pilotprojektes bereits 1,1 Millionen Seiten gescannt wurden, folgten zwischen September 2008 und Juli 2009 die restlichen rund 10 Millionen Seiten. Ein straffer und detaillierter Zeitplan sicherte den fristgerechten Projektverlauf.

Dr. Stapel erklärt: „Zur Frankfurter Buchmesse im Oktober 2009 sollte das Projekt fertig sein. An diesem Termin war nicht zu rütteln.“ Im zweiwöchigen Rhythmus wurden die Dokumente von Infotechnique abgeholt, gescannt und mittels des pdfaPilot als langzeitstabile PDF/A-Dokumente bereitgestellt. Die finale Qualitätskontrolle lag beim EU Publications Office.

Fazit

Im November 2009 war das Projekt mit der Übergabe der finalen Dokumentation endgültig und erfolgreich abgeschlossen. Noch während des laufenden Projekts, nämlich Ende 2008, wurde das PDF/A-Format auch für die laufende Produktion von Veröffentlichungen vorgeschrieben. Seit April 2009 wird darüber hinaus das Amtsblatt der Europäischen Union in diesem Format herausgegeben.

„Dieses riesige Projekt konnte in dem knappen Zeitrahmen nur aufgrund der Einsatzbereitschaft der involvierten Mitarbeiter und Dienstleister gestemmt werden. Zahlreiche durchgearbeitete Nacht- und Wochenendstunden und ein enger und quasi ständiger Kontakt mit dem Scandienstleister waren für den Erfolg maßgeblich“, erklärt Projektkoordinator Zagar.

Dr. Stapel ergänzt abschließend: „Für Projekte dieses Umfangs wäre etwas mehr Vorbereitungszeit wünschenswert gewesen. Gelernt haben wir auch, dass Qualitätsanforderungen sorgfältig überdacht werden sollten, um sich über Anforderungen hinsichtlich der technischen, personellen und finanziellen Ressourcen sowie des Zeitplans klar zu werden. Denn meistens dauert alles länger, als geplant – auch wenn man schon einen Puffer eingebaut hat.

(ID:2048109)