x
    Glossary

    Azure Data Factory verstehen

    Im Bereich Big Data werden unstrukturierte Rohdaten häufig in relationalen, nicht-relationalen und anderen Speichersystemen abgelegt. Rohdaten hingegen bieten nicht den Kontext und die Bedeutung, die für Analysten, Data Scientists und Entscheidungsträger im Unternehmen notwendig sind, um aussagekräftige Erkenntnisse zu gewinnen. Big Data erfordert einen Dienst, der die Prozesse zur Transformation riesiger Rohdatenmengen in nutzbare Geschäftseinblicke orchestrieren und operationalisieren kann. Azure Data Factory ist eine verwaltete Cloud-Lösung , die für Anwendungen entwickelt wurde, die komplexe hybride ETL-, ELT- und Datenintegrationsprozesse benötigen.

    Wie funktioniert es?

    Azure Data Factory kann Verbindungen zu all Ihren Daten- und Verarbeitungsquellen herstellen, einschließlich SaaS-Diensten, Dateifreigaben und anderen Internetdiensten. Mit dem Data Factory-Dienst können Sie Datenpipelines erstellen, die Daten transportieren und deren Ausführung zu festgelegten Zeiten planen. Das bedeutet, dass Sie zwischen geplanten und einmaligen Pipelines wählen können.

    Mithilfe der Kopieraktivität einer Datenpipeline können Daten aus lokalen und Cloud-Quellen in einen zentralen Datenspeicher in der Cloud oder lokal verschoben werden, um dort weiter analysiert und verarbeitet zu werden.

    Nach der Speicherung an einem zentralen Datenspeicherort werden die Daten mithilfe von Diensten wie HDInsight Hadoop, Azure Data Lake Analytics und Machine Learning konvertiert.

    Datenerfassung mit Azure Data Factory

    Dieses eBook stellt eine Fallstudie vor, um wichtige Erkenntnisse darüber zu vermitteln, wie Azure Data Factory die Erstellung von codefreien oder codezentrierten ETL- und ETL-Prozessen vereinfacht.

    Jetzt sichern!

    Welchen Zweck hat Azure Data Factory?

    SSIS ist das am weitesten verbreitete lokale Tool zur Datenintegration, doch die Arbeit mit Daten in der Cloud birgt einige Herausforderungen. Azure Data Factory kann die folgenden Methoden verwenden, um diese Probleme beim Verschieben von Daten in die oder aus der Cloud zu lösen:

    • Jobplanung und -orchestrierung: In der Cloud gibt es nur wenige Dienste, die die Datenintegration auslösen. Zwar existieren einige Dienste für die Datenübertragung, wie Azure Scheduler, Azure Automation, SQL VM usw., doch die Jobplanungsfunktionen von Azure Data Factory sind diesen überlegen.

    • Sicherheit: Azure Data Factory verschlüsselt automatisch alle Daten während der Übertragung zwischen Cloud und lokalem System.

    • Kontinuierliche Integration und Bereitstellung: Mit der Azure Data Factory- und GitHub-Integration können Sie einfach entwickeln, erstellen und in Azure bereitstellen.

    • Skalierbarkeit: Azure Data Factory wurde mit der Fähigkeit entwickelt, große Datenmengen zu verarbeiten.

    Komponenten der Azure Data Factory

    Um die Funktionalität von Azure Data Factory zu verstehen, ist es notwendig, mit den einzelnen Funktionen vertraut zu sein. Diese sind wie folgt:

    • Datensätze: Datensätze enthalten detailliertere Konfigurationsparameter für Datenquellen. Ein Datensatz enthält einen Tabellennamen oder Dateinamen sowie eine Struktur.

    • Zu den Aktivitäten gehören unter anderem Datentransfer, Transformationen und Kontrollflussoperationen. Die Aktivitätskonfigurationen enthalten Optionen wie Datenbankabfrage, Name der gespeicherten Prozedur, Argumente, Skriptspeicherort und weitere.

    • Verknüpfte Dienste: Verknüpfte Dienste speichern Konfigurationsparameter für spezifische Datenquellen. Informationen wie Server-/Datenbankname, Dateiverzeichnis, Anmeldeinformationen usw. können enthalten sein.

    • Pipelines: Pipelines sind logische Gruppen von Aktionen. Die Pipelines einer Data Factory können eine oder mehrere Aktionen enthalten.

    • Trigger: Trigger sind Pipeline-Planungskonfigurationen, die Start-/Enddatum, Ausführungshäufigkeit und andere Parameter umfassen.

    WEITERLESEN: AWS vs. Azure für Datenanalyse: Vergleich der Plattformangebote