Statistisches Bundesamt: eGovernment-Interview zum Zensus 2011

Volkszählung 2.0 per IT, Open Data und Open Government

23.09.2010 | Redakteur: Gerald Viola

Zensus 2011, Open Data und Open Government beim Statistischen Bundesamt
Zensus 2011, Open Data und Open Government beim Statistischen Bundesamt

Welche Rolle spielt Business Analytics (Datenintegration, Datenqualität) hierbei?

Weigl: Der Begriff „Business Analytics“ beschreibt ziemlich gut, was wir an einer zentralen Stelle des Zensus 2011 machen. Wir sammeln Daten aus verschiedenen Quellen, bearbeiten sie, integrieren sie in ein Datenbanksystem und stellen sie für unterschiedliche Steuerungszwecke des Zensus 2011 konsistent bereit.

Lassen Sie mich das anhand des von der Amtlichen Statistik des Bundes und der Länder aufzubauenden Anschriften- und Gebäuderegisters (AGR) etwas ausführlicher erläutern.

Die Daten, die für den Aufbau des Anschriften- und Gebäuderegisters genutzt werden, kommen aus den Vermessungsbehörden, den Meldebehörden und von der Bundesagentur für Arbeit. Es handelt sich um anschriftenbezogene Daten, die aufgrund der föderalen Struktur Deutschlands einen dezentralen Ursprung haben.

Die Anschriftenmerkmale einer Datenquelle unterliegen zwar einer formalen Datensatzstruktur, sind aber inhaltlich nur schwach normiert. Im Meldewesen setzt sich beispielweise erst allmählich durch, dass Straßennamen durchgängig einheitlich geschrieben werden. In anderen Datenquellen enthält beispielsweise das Datenfeld für den Straßennamen nicht nur den Straßennamen sondern auch Zusatzinformationen wie Ortsteilangaben oder Angaben zur Lage des Gebäudes.

Eine der ersten Aufgaben beim Aufbau des Anschriften- und Gebäuderegisters war, die Daten innerhalb der einzelnen Quellen zu harmonisieren.

Dazu wurden unterschiedliche Datenaufbereitungsschritte an den Ausgangsdatenbeständen durchgeführt. Die drei bedeutendsten Schritte stellten das sogenannte „Parsing“ von Anschriftenmerkmalen, die Standardisierung von Straßennamen und die Referenzierung von Straßennamen mit externen Quellen dar.

Beim Parsing wurden Anschriftenangaben in bestimmten Registern in einzelne Anschriftenbestandteile zerlegt. Mit dem Vorliegen derselben Anschriftenbestandteile in allen Registern in einheitlicher Weise war eine wichtige Voraussetzung für die maschinelle Vergleichbarkeit über mehrere Datenquellen gegeben.

Bei der Standardisierung der Straßennamen wurden Abkürzungen aufgelöst oder vereinheitlicht, diakritische Zeichen – wie ^, ¨, °, ~, `, ´ – entfernt, Umlaute aufgelöst, Großschreibung eingeführt ... Die standardisierten Straßennamen wurden auf eine externe Datenquelle referenziert (beispielsweise auf Straßenverzeichnisse von Kommunen), auch um zu prüfen, ob ein Straßenname in einer Kommune existiert.

Nächste Seite: Drei Register müssen zusammengeführt werden

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2046748 / Fachanwendungen)