Page Areas:



Current Submenu:


Position Indication:

Content

Semi-automatische Bewertung der Datenqualität integrierter Informationssysteme

Student: Bernhard Werth
Supervisor: a.Univ.-Prof. DI Dr. Wolfram Wöß

Durch die zunehmende Vernetzung von Informationssystemen gewinnt die Integration von Informationen innerhalb eines Unternehmens oder über Organisationsgrenzen hinaus enorm an Bedeutung. Damit steigen auch die zu verarbeitenden Datenvolumina (Big Data), wodurch sich das Risiko erhöht, aufgrund mangelnder Datenqualität unzureichend abgesicherte oder sogar falsche Entscheidungen zu treffen. Für Unternehmen und wissenschaftliche Organisationen ist die Bestimmung der Datenqualität und damit der Relevanz und Korrektheit von Informationen und Auswertungen essenziell. Dabei ist die Bewertung der Qualität von integrierten Quellsystemen für die Evaluierung der Qualität eines Informationsintegrationsprozesses oder einzelner integrierter Datenabfragen eine notwendige Voraussetzung.

Ziel dieser Arbeit ist deshalb die Entwicklung eines semi-automatischen Verfahrens, mit dem die Datenqualität einzelner Datenquellen durch Angabe von Konsistenzbedingungen, Referenzdatensätzen und Expertenbewertung initial klassifiziert wird. Weiters wird ein automatisches Verfahren entwickelt, welches ergänzend zur initialen Bewertung einzelne Aspekte des integrierten Systems auf Basis der Evaluierung der Einzelkomponenten bewertet.

Die Zielsetzung dieser Arbeit ist aus zwei wesentlichen Gründen relevant:

  • Die direkte Bewertung von integrierten Systemen kann unwirtschaftlich oder unmöglich sein, da der Datenbestand im integrierten System in vielen Fällen wesentlich größer ist als der Datenbestand der Einzelsysteme, Domänenexperten eventuell nur mit dem Teilsystem vertraut sind und die Fluktuation von Einzelsystemen speziell bei Peer-to-Peer-ähnlichen Strukturen so hoch ist, dass Bewertungen schon während ihrer Berechnung ihre Gültigkeit verlieren.
  • Die möglichen Auswirkungen des Einbindens eines Systems mit besonders schlechter Datenqualität können abgeschätzt werden, bevor dieses System tatsächlich in den Integrationsprozess aufgenommen wird.