Datenqualität in Data Warehouses Beitragsbild innoscale

Bewertung der Datenqualität in Data Warehouse Systemen

Berlin, den 07. Juli 2017 | Datenqualität steht bei der innoscale AG im Mittelpunkt unserer täglichen Arbeit. Mit der Software und den individuellen Lösungen für unsere Kunden ermöglichen wir eine hohe Qualität der Stammdaten (Master Data) durch ein umfassendes Stammdatenmanagement.

Dazu nutzen wir natürlich auch Datenbanken, ohne die unsere Arbeit so nicht möglich wäre. Eine große Bedeutung kommt daher insbesondere auch Datenqualität in Data Warehouses, also Datenlagern, zu.

Ein Data Warehouse ist eine Datenbank, die speziell für Analysezwecke optimiert ist. In ihr werden Daten aus mehreren, normalerweise heterogenen Quellen vereint. Durch eine so entstehende globale Sicht auf die Daten wird ein komfortabler Datenzugriff möglich. Das Bewerten und Feststellen der Datenqualität innerhalb eines solchen Data Warehouses ist allerdings eine anspruchsvolle Aufgabe.

Zunächst müssen Kriterien für die Bewertung der Datenqualität herausgestellt werden. Dazu können beispielsweise die folgenden Merkmale gehören:

  • Vollständigkeit
  • Korrektheit
  • Aktualität
  • Historisierung
  • Widerspruchsfreiheit

In einem weiteren Schritt muss sichergestellt werden, dass die Daten in dem Data Warehouse vollständig sind und alle Daten, die bei der Qualitätsprüfung berücksichtigt werden sollen, final geladen sind. Außerdem spielt die Gesamtzahl der Daten eine wichtige Rolle bei der späteren Bewertung des Ergebnisses. Teils wird die Anzahl fehlerhafter Datensätze in einer totalen Nummer ausgegeben, sodass diese erst ins Verhältnis mit der Gesamtzahl der Daten gebracht werden muss.

Bei der Messung der Datenqualität können dabei entweder alle Daten geprüft oder nur ein Teil der Daten untersucht werden. Beim Abgleich des gesamten Datenbestandes ist meist problematisch, dass dieser zu große Ressourcen – in diesem Fall Zeit und Auslastung der Datenbank – benötigt. Das würde bedeuten, dass das Data Warehouse während der Datenqualitätsmessung nicht anderweitig (für den laufenden Arbeitsbetrieb) genutzt werden kann. Daher erhält ein partieller Abgleich oft den Vorrang. Entweder kann von einem repräsentativen Teil der Daten auf den Gesamtbestand geschlossen werden, oder es werden mehrere partielle Abgleiche nacheinander durchgeführt. Dadurch können die dazu benötigten Ressourcen aufgeteilt werden. Ebenfalls partiell ist die Überprüfung all derjenigen Daten, welche seit dem letzten Ladevorgang neu hinzugefügt wurden.

Ein geeignetes Instrument für die Kontrolle der Datenqualität in solchen Datenbanken ist unsere Multi-Domain-Stammdatenmanagement-Software DataRocket. Sie hilft Ihnen die Datenqualität in Ihrem Data Warehouse zu verbessern. Als Integrationsplattform und Master Data Management-System können Sie mit DataRocket ihre Datenbestände harmonisieren und die Datenqualität gleichzeitig verbessern. DataRocket versorgt Ihr Data Warehouse mit hochqualitativen Daten, wodurch die unternehmensweite Datenauswertung signifikant verbessert und aussagekräftiger wird. Quality First! Second Analytics!

DataRocket als Modul zur Datenqualitätsmessung auf der SAP HANA (FSDP)

Unser Partner ADWEKO setzt die Software DataRocket als Modul zur Analyse der Datenqualität im data warehouse Manager  von SAP HANA ein. ADWEKO ist ein IT-Lösungsanbieter in Walldorf und zählt mehr als 50 Banken und Versicherungen zu seinen Kunden. Mit dem ADWEKO data warehouse manager für SAP HANA bieten ADWEKO und die innoscale AG eine umfassende Lösung zum Datenmanagement im SAP Finance Umfeld.

Gerne beraten wir Sie auch individuell und unverbindlich zu Ihren Fragen und Problemstellungen.


Quellen: Kühnle 2006, Bewertungsmethoden von Datenqualität in einem Data Warehouse, München

Ihr Ansprechpartner Dr. Tobias Brockmann berät Sie gerne telefonisch.

Hinterlassen Sie hier Ihre Kontaktdaten:

Mit der Nutzung dieses Formulars erklären Sie sich mit der Speicherung und Verarbeitung Ihrer Daten durch diese Website einverstanden.