TU Berlin

Fachgebiet Big Data ManagementForschung

isti-logo

Inhalt

zur Navigation

Datenintegration und Datenreinigung

Datenintegration beschreibt den Vorgang der Zusammenfuehrung von Daten aus mehreren Quelle in eine gemeinsame einheitliche Datenstruktur. Da diese Daten unterschiedliche Formate und Repraesentationen aufweisen, muessen verschiedene Transformationsschritte unternommen werden um dies zu ermoeglichen.
Unter anderem stellen folgende Aufgaben die Schritte einer Extract-Transform-Load-Pipeline dar:

  • Datenreinigung

    • Duplikatenerkennung
    • Fehlererkennung

  • Datentransformation

    • Formattierung
    • Ersetzung durch andere Represenationen (z.B. DE statt Deutschland)

  • Schematransformation
  • Datenfusion

Die Herausforderung hier ist die allgemeingueltige Automatisierung der jeder einzelnen der obengenannten Aufgaben und jeweils der Generierung des entsprechenden nutzerspezifischen Prozessablaufes.

Data Profiling

Mit Data Profiling werden Prozesse zur Generierung von Metadaten bezeichnet, die einem Nutzer helfen die Struktur und den Zweck eines Datensatzes schneller und besser zu verstehen. In diesem Sinne koennen Metadaten unter anderem einfach zu berechnende Werte wie die Anzahl von Spalten und Zeilen einer Tabelle bis hin zu sehr schwer zu berechnenden Metadaten wie die Menge der Schluesselkandidaten oder funktionalen Abhaengigkeiten sein.

Forschung im Bereich des Data Profiling befasst sich zudem mit der Entwicklung von neuen Verfahren fuer die Zusammenfassung und Visualizierung von Daten und Metadaten, um das manuelle Profiling durch einen Nutzer zu vereinfachen.

Data Discovery

Data-Warehouses, Data-Lakes, und föderierte Datenbanken einer Organisation wachsen beständig und verwandeln sich in unüberschaubare und grosse "Datensümpfe". Dies ist insbesondere der Fall, wenn Teile der Daten veraltet werden aber aus Angst vor Informationsverlust nicht gelöscht werden. Tatsächlich vermeiden viele Organisationen sogar die Umorganisierung der Datenbank und seiner Schemata, da befürchetet wird, dass dies zur Inkompatibilität mit existierenden Anwendungen führen könnte.

Dieser Umstand verlagert den Aufwand der Suche und der Reinigung der Daten auf die Nutzer und insbesondere Analysten, die ausgiebige Such-und Datenreinigungsschritte unternehmen müssen bevor sie die Daten nutzen können.

Im Rahmen unserer Kollaboration mit MIT und QCRI arbeiten wir an neuen Datengesteuerten Verfahren, die Nutzer bei dieser "Data Discovery"-Aufgabe unterstützen.

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe