Bewertung der Datenqualität in Data Warehouse Systemen

Berlin, den 07. Juli 2017 | Datenqualität steht bei der innoscale AG im Mittelpunkt unserer täglichen Arbeit. Mit der Software und den individuellen Lösungen für unsere Kunden ermöglichen wir eine hohe Qualität der Stammdaten (Master Data) durch ein umfassendes Stammdatenmanagement.

Dazu nutzen wir natürlich auch Datenbanken, ohne die unsere Arbeit so nicht möglich wäre. Eine große Bedeutung kommt daher insbesondere auch Datenqualität in Data Warehouses, also Datenlagern, zu.

Ein Data Warehouse ist eine Datenbank, die speziell für Analysezwecke optimiert ist. In ihr werden Daten aus mehreren, normalerweise heterogenen Quellen vereint. Durch eine so entstehende globale Sicht auf die Daten wird ein komfortabler Datenzugriff möglich. Das Bewerten und Feststellen der Datenqualität innerhalb eines solchen Data Warehouses ist allerdings eine anspruchsvolle Aufgabe.

Zunächst müssen Kriterien für die Bewertung der Datenqualität herausgestellt werden. Dazu können beispielsweise die folgenden Merkmale gehören:

  • Vollständigkeit
  • Korrektheit
  • Aktualität
  • Historisierung
  • Widerspruchsfreiheit

In einem weiteren Schritt muss sichergestellt werden, dass die Daten in dem Data Warehouse vollständig sind und alle Daten, die bei der Qualitätsprüfung berücksichtigt werden sollen, final geladen sind. Außerdem spielt die Gesamtzahl der Daten eine wichtige Rolle bei der späteren Bewertung des Ergebnisses. Teils wird die Anzahl fehlerhafter Datensätze in einer totalen Nummer ausgegeben, sodass diese erst ins Verhältnis mit der Gesamtzahl der Daten gebracht werden muss.

Bei der Messung der Datenqualität können dabei entweder alle Daten geprüft oder nur ein Teil der Daten untersucht werden. Beim Abgleich des gesamten Datenbestandes ist meist problematisch, dass dieser zu große Ressourcen – in diesem Fall Zeit und Auslastung der Datenbank – benötigt. Das würde bedeuten, dass das Data Warehouse während der Datenqualitätsmessung nicht anderweitig (für den laufenden Arbeitsbetrieb) genutzt werden kann. Daher erhält ein partieller Abgleich oft den Vorrang. Entweder kann von einem repräsentativen Teil der Daten auf den Gesamtbestand geschlossen werden, oder es werden mehrere partielle Abgleiche nacheinander durchgeführt. Dadurch können die dazu benötigten Ressourcen aufgeteilt werden. Ebenfalls partiell ist die Überprüfung all derjenigen Daten, welche seit dem letzten Ladevorgang neu hinzugefügt wurden.

Ein geeignetes Instrument für die Kontrolle der Datenqualität in solchen Datenbanken ist unsere Multi-Domain-Stammdatenmanagement-Software DataRocket. Sie hilft Ihnen die Datenqualität in Ihrem Data Warehouse zu verbessern. Als Integrationsplattform und Master Data Management-System können Sie mit DataRocket ihre Datenbestände harmonisieren und die Datenqualität gleichzeitig verbessern. DataRocket versorgt Ihr Data Warehouse mit hochqualitativen Daten, wodurch die unternehmensweite Datenauswertung signifikant verbessert und aussagekräftiger wird. Quality First! Second Analytics!

Genauere Details zur Messung der Datenqualität in Data Warehouses können in der einschlägigen Literatur gefunden werden. Beispiele dazu sind die Diplomarbeit zu dem Thema von Marcus Kühnle und die Dissertationen von Markus Helfert.

Lernen Sie auch DataRocket näher kennen, ganz einfach auf unserer Webseite!

Gerne beraten wir Sie auch individuell und unverbindlich zu Ihren Fragen und Problemstellungen.

 


 

Quellen: Kühnle 2006, Bewertungsmethoden von Datenqualität in einem Data Warehouse, München