x
    Glossary

    Was ist ein Cloud Data Lake?

    Ein Data Lake ist eine Plattform zur Datenverarbeitung und -analyse, die über herkömmliche SQL-Data-Warehouses hinausgeht und eine Vielzahl von Datentypen und Analysemethoden unterstützt. Die Entwicklung von On-Premise-Data-Lakes ist seit über einem Jahrzehnt eine bedeutende Investition für Unternehmen. In den letzten Jahren hat sich jedoch ein neuer Trend herausgebildet: der Cloud Data Lake .

    Der Cloud Data Lake ist ein Data Lake der nächsten Generation, der ein attraktiveres Preis-Leistungs-Verhältnis, vielfältige Analyse-Engines und erstklassige Tools auf nahezu unbegrenztem Cloud-Speicher bietet. Er unterscheidet sich von anderen Data Lakes lediglich dadurch, dass er in der Cloud gespeichert wird.

    Cloud-Speicherplattformen wie Amazon S3, Azure Blob Storage, Google Cloud Storage und andere kostengünstigere Alternativen eignen sich ideal für die Speicherung großer Datenmengen, da Data Lakes in der Regel riesige Informationsmengen umfassen. Die Nutzung von Cloud-Speicher erfordert keine Vorplanung, da die Dienste flexibel skalierbar sind. Zudem zahlen Sie nur für die tatsächlich genutzten Dienste.

    Wie funktionieren sie?

    Der Zweck eines Data Lakes besteht darin, Daten in ihrem ursprünglichen Format in einem System oder Repository zu sammeln und zu speichern, das in der Lage ist, verschiedene Schemata und Strukturen zu verarbeiten, bis die Daten von nachgelagerten Prozessen benötigt werden.

    Ein Unternehmen kann einen Data Lake nutzen, um Rohdaten, aufbereitete Daten und Datenbestände von Drittanbietern zentral zu speichern. Die Tools ermöglichen verschiedene Operationen wie Datentransformationen, Reporting, interaktive Analysen und maschinelles Lernen. Für den Betrieb eines produktiven Data Lakes ist es außerdem notwendig, die Daten zu organisieren, zu verwalten und zu warten.

    Wie baut man einen Data Lake auf?

    Fast alle Cloud-Data-Lakes folgen einem ähnlichen Prozess, aber es gibt einige wichtige Schritte, die sie alle durchlaufen. Schauen wir uns jeden einzelnen Schritt und seine Herausforderungen genauer an.

    Schritt 1: Das Unternehmen verstehen

    • Entscheiden Sie, welche Daten in den Data Lake aufgenommen werden sollen.
    • Verringern Sie die Menge der gespeicherten Daten.

    Schritt 2: Speichern und Einlesen von Daten

    • Stellen Sie sicher, dass Ihr Datenerfassungssystem schnell ist.
    • Analysieren Sie die Kosteneffizienz der Speicherung des Data Lakes.

    Schritt 3: Datenaufbereitung

    • Die Aufbereitung der Daten für die Weiterverarbeitung.
    • Die Kosten für die Datenspeicherung können reduziert werden.

    Schritt 4: Analyse des Data Lakes

    • Die Daten analysieren, um Informationen zu gewinnen.

    Schritt 5: Maschinelles Lernen

    • Trainiert das ML mit Hochleistungsspeicher.
    • Effizientes Speichern lokaler Kopien.

    WEITERLESEN: Wie die Einführung von Data Lake as a Service die Geschäftswelt verändert