Geodatenintegration/-fusion, Datenqualität

Jahr:  2017
Ist abgeschlossen:  ja

Inhalt

Geodaten bilden die Grundlage für wichtige Entscheidungsprozesse in Forschung, Wirtschaft und Verwaltung. Eine elementare Anforderung an die verwendeten Daten ist deshalb, dass diese gültig sind. Fehlerhafte Daten sind nicht nur bei der Verarbeitung und Analyse der Daten problematisch, sondern können schließlich zu irrtümlich falschen Entscheidungen führen. Werden für alle Objekte eines Datensatzes Integritätsbedingungen definiert, modelliert und überprüft, so können ungültige Objekte frühzeitig identifiziert und anschließend entweder korrigiert, aus dem Datensatz entfernt oder als Ausnahme gekennzeichnet werden.

Mit den in dieser Arbeit vorgestellten Verfahren wird eine einfache, effiziente und standardkonforme Definition, Modellierung und Überprüfung von Integritätsbedingungen ermöglicht. Damit werden sowohl Produzenten als auch Nutzern von Geodaten die notwendigen Grundlagen und Werkzeuge an die Hand gegeben um Integritätsbedingungen für ihre Datensätze verwenden zu können.

Ein Anforderungskatalog mit 27 Anforderungen gibt nicht nur einen Überblick über alle wichtigen Aspekte von Integritätsbedingungen, sondern legt durch die detaillierte Beschreibung und Diskussion auch die Grundlage für weitere Forschungen. Aus den umfangreichen Anforderungen können von Produzenten und Nutzern dabei genau diejenigen ausgewählt werden, die für die jeweilige Anwendung von Relevanz sind.

Die Modellierung der Integritätsbedingungen basiert auf der Model Driven Architecture (MDA) und insbesondere auf der Object Constraint Language (OCL). Mit der Erweiterung der OCL zur GeoOCL können räumliche Bedingungen eindeutig plattformunabhängig formalisiert werden. Die GeoOCL befindet sich dabei auf der geeignetsten Abstraktionsebene der Formalisierung und kann zudem alle aufgestellten Anforderungen abdecken. Die vielen Beispiele von Bedingungen in der GeoOCL in der gesamten Arbeit belegen deutlich die Praxistauglichkeit der Sprache.

Die Definition, Modellierung und Überprüfung von Integritätsbedingungen wird in dieser Arbeit anhand zweier repräsentativer Beispiele veranschaulicht. Die Untersuchung der Flächennutzung in Geobasisdaten zeigt mehrere Anwendungen von Integritätsbedingungen auf. Das vorgestellte Vorgehen ist dabei repräsentativ für vollständig oder nahezu vollständig flächenüberdeckende Datensätze. Durch die Anreicherung der Objekte um geometrische und topologische Maße sowie deren Auswertung mittels deskriptiver Statistik und explorativer Datenanalyse können geeignete Klassenbeschreibungen für die Flächennutzungen erstellt werden. Diese unterscheiden sich signifikant zwischen den einzelnen Nutzungen und zeigen so interessante Muster und Wissen in den Daten auf.

Das Data Mining kann jedoch auch für die Klassifikation eingesetzt werden, wobei die Zusammenhänge der Flächennutzung zwischen der Automatisierten Liegenschaftskarte (ALK) und dem Amtlichen Topographisch-Kartographischen Informationssystem (ATKIS) aufgedeckt werden. Dabei zeigt sich, dass die Klassifikationsgüte proportional zur Komplexität des verwendeten Modells ansteigt und nicht alle Flächennutzungen gleich gut prädiziert werden können.

Die Praktikabilität von Integritätsbedingungen selbst für umfangreiche Datenmengen zeigt die Untersuchung der Gebäude in Open Data mit bis zu 31 Millionen Objekten pro Datensatz. Das vorgestellte Vorgehen ist dabei repräsentativ für punkt-, linien- oder flächenhafte Datensätze. Um die Daten geeignet parallel verarbeiten zu können, müssen diese jedoch zuerst räumlich partitioniert werden. Die Anreicherung der Objekte um geometrische und topologische Maße, die Bestimmung der Häufigkeit von Attributwerten sowie die Filterung erfolgt anschließend mit MapReduce-Work flows. Die Anreicherung der Daten skaliert dabei annähernd linear, womit sich der gewählte Ansatz dazu eignet auf beliebig umfangreiche Daten angewendet zu werden. Die anschließende Klassenbeschreibung zeigt wiederum interessante Muster in den Daten auf.