Automl DataRobot Machine Learning Applications

Table of Content

Was verstehen Sie unter ETL?
Wie funktioniert ETL?
Extrakt
Verwandeln
Laden
Was ist eine ETL-Pipeline?

Was verstehen Sie unter ETL?

Angesichts des stetig wachsenden Datenvolumens, der zunehmenden Datenquellen und der Datenvielfalt in Unternehmen wird es unerlässlich, Datenanalyse, maschinelles Lernen und Data-Science- Initiativen gezielt einzusetzen, um aussagekräftige Geschäftseinblicke zu gewinnen. Die dringende Notwendigkeit, diesen Initiativen Priorität einzuräumen, setzt Data Engineers zunehmend unter Druck, die Rohdaten in saubere und zuverlässige Daten umzuwandeln, bevor sie diese Initiativen umsetzen können. Daten-Engineering-Teams nutzen den ETL-Prozess (Extract, Transform, Load), um Daten aus verschiedenen Quellen zu extrahieren, sie in ein zuverlässiges und nutzbares Format zu transformieren und anschließend in die Systeme zu laden. Dieser Prozess ermöglicht es Endnutzern, einfach darauf zuzugreifen und die gewonnenen Erkenntnisse später zu optimieren, um geschäftliche Herausforderungen zu meistern.

Wie funktioniert ETL?

Extrakt

Der erste Schritt im Prozess ist die Datenextraktion aus den Zielquellen, die in der Regel heterogen sind und Geschäftssysteme, Sensordaten, Marketing-Tools, Transaktionsdatenbanken, APIs und weitere umfassen. Während es sich bei einigen dieser Datentypen wahrscheinlich um semistrukturierte JSON-Serverprotokolle handelt, sind andere wahrscheinlich die strukturierten Ausgaben gängiger Systeme. Die Datenextraktion kann auf verschiedene Weise erfolgen; drei Techniken hierfür sind:

Teilweise Extraktion: Wenn das Quellsystem Sie benachrichtigt, sobald ein Datensatz geändert wurde, ist dies der einfachste Weg, die Daten zu erhalten.
Teilextraktion (mit Aktualisierungsbenachrichtigung): Nicht alle Systeme können Benachrichtigungen versenden, wenn eine Aktualisierung erfolgt, aber sie können dennoch die geänderten Einträge identifizieren und einen Auszug dieser Datensätze versenden.
Vollständiger Datenextrakt – Manche Systeme können nicht feststellen, welche Daten geändert wurden. In diesem Fall ist ein vollständiger Datenextrakt die einzige Möglichkeit, die Daten aus dem System zu erhalten. Der vorherige Datenextrakt muss dupliziert und im gleichen Format vorliegen, damit diese Methode effektiv ist und die vorgenommenen Änderungen identifiziert werden können.

Verwandeln

Im zweiten Schritt werden die aus verschiedenen Quellen stammenden, unformatierten Rohdaten in ein für diverse Anwendungen zugängliches Format umgewandelt. Um den betrieblichen Anforderungen eines Unternehmens gerecht zu werden, werden die Daten in diesem Schritt bereinigt, zugeordnet und transformiert, häufig in ein bestimmtes Schema. Dieses Verfahren umfasst zahlreiche Transformationen, um die Genauigkeit und Zuverlässigkeit der Daten zu gewährleisten. Die Daten werden oft in einer Zwischenspeicherdatenbank abgelegt, anstatt direkt in die Zieldatenquelle geladen zu werden. Dieser Prozess ermöglicht im unwahrscheinlichen Fall eines Fehlers ein schnelles Rollback. In dieser Phase haben Sie die Möglichkeit, Prüfberichte zur Einhaltung gesetzlicher Bestimmungen zu erstellen oder etwaige Datenprobleme zu identifizieren und zu beheben.

Laden

Der Prozess des Schreibens konvertierter Daten aus einem Zwischenspeicher in eine Zieldatenbank – die zuvor existieren kann oder nicht – wird als Ladevorgang bezeichnet. Dieser Vorgang kann je nach Anwendungsanforderungen relativ einfach oder äußerst komplex sein. ETL-Tools können effektiv eingesetzt werden, um jeden dieser Prozesse abzuschließen und positive Geschäftsergebnisse zu erzielen.

Was ist eine ETL-Pipeline?

Eine ETL-Pipeline, auch Datenpipeline genannt, bezeichnet den Mechanismus, mit dem ETL-Prozesse und -Aktivitäten ablaufen. Datenpipelines sind Sammlungen von Werkzeugen und Verfahren zum Übertragen von Daten von einem System mit eigener Datenverarbeitung und -speicherung in ein anderes System, wo die Daten anders verwaltet und gespeichert werden können. Darüber hinaus ermöglichen Pipelines die automatische Erfassung von Daten aus verschiedenen Quellen, deren Modifizierung und anschließende Zusammenführung in einem einzigen, hocheffizienten Datenspeicher.