Open Data Enrichment

Ergänzen Sie Ihre Datenbestände

Um Plausibilitätskontrollen und Datenvalidierungen optimal durchführen zu können, benötigen Sie zusätzliche Daten.

Externe Datenquellen, z. B. öffentlich frei verfügbare Datenquellen, werden genutzt um Datenvalidierungen (eine echte Überprüfung der Daten) des Datenbestandes oder Plausibilitätsprüfungen (Prüfung von Logik und Ermittlung einer Wahrscheinlichkeit) durchzuführen.

Vorgehen zur Datenvalidierung

Für die Überprüfung und Bereinigung von Daten wird eine Instanz von DataRocket mit einem Konnektor zu Ihrem Quellsystem benötigt. Die DataPipeline von DataRocket erlaubt es bedingte Qualitätskriterien (Qualitätskriterien über mehrere Attribute hinweg) zu definieren, anhand derer die Überprüfung der Daten vorgenommen wird. Das Ergebnis dieser semantischen Prüfung wird genutzt um fehlerhaft formatierte Datensätze zu korrigieren und das Zielformat herzustellen.

Die Datenvalidierung kann verschiedene Referenzdatenquellen (z. B. Adressen, Telefonnummern, Bankdaten, Materialdaten, Produktkataloge oder ähnliches) mit existierenden Daten abgleichen. Als Referenzdaten kann auch eine Kombination von verschiedenen Referenzdatenbeständen genutzt werden, um das bestmögliche Ergebnis zu erzielen. Oft liegt der besondere Mehrwert der Referenzdaten in der Aggregation und Kombination der Daten. Es werden dazu u. a. die Datenbestände von OpenStreetMap, Google Maps for Work, eClass oder GS1 genutzt.

Die Analyse (Validierung) und ggf. die Bereinigung der Daten erfolgt auf Wunsch automatisiert durch DataRocket. Das Ergebnis kann als EXCEL, CSV, oder direkt im Quellsystem zur Verfügung gestellt werden.

Vorgehen zur Plausibilitätsprüfung

Um eine Plausibilitätsprüfung durchführen zu können, werden externe Informationen benötigt. Im Kontrast zur Datenvalidierungen, bei der tatsächlich Datenbestände genutzt werden, wird bei der Plausibilitätsprüfung auf externe Methoden und Auswertungsalgorithmen zurückgegriffen. z.B. bei der Überprüfung der Sprache von Materialtexten.

Es wird eine Verbindung zur Datenquelle mit DataRocket benötigt und der Zugang zu einem externen Prüfservice. Die Plausibilitätsüberprüfung wird bequem über die DataPipeline konfiguriert und ausgewertet.

 

 

DE | EN