x
    Glossary

    Wat is een cloud-datalake?

    Een data lake is een platform voor het verwerken van data en analyses dat verder gaat dan standaard SQL-datawarehouses en een breed scala aan datatypes en analyses ondersteunt. De ontwikkeling van on-premises data lakes is al meer dan tien jaar een belangrijke investering voor bedrijven. De laatste jaren is er echter een nieuwe trend ontstaan: de cloud data lake .

    De volgende generatie data lakes biedt een aantrekkelijkere prijs-prestatieverhouding, diverse analyse-engines en eersteklas tools, allemaal op vrijwel onbeperkte cloudopslag: de cloud data lake. Er is geen verschil tussen een cloud data lake en een andere data lake, behalve dat deze in de cloud is opgeslagen.

    Cloudopslagplatformen, zoals Amazon S3, Azure Blob Storage, Google Cloud Storage en andere voordelige opties, zijn ideaal voor het opslaan van grote hoeveelheden data, omdat data lakes over het algemeen enorme hoeveelheden informatie bevatten. Het gebruik van cloudopslag vereist geen planning vooraf, aangezien de services flexibel zijn. Bovendien betaalt u alleen voor de services die u gebruikt.

    Hoe werken ze?

    Het doel van een data lake is het verzamelen en opslaan van data in de oorspronkelijke vorm, in een systeem of repository die verschillende schema's en structuren kan verwerken, totdat de data nodig is voor vervolgprocessen.

    Een organisatie kan een data lake gebruiken om ruwe data, bewerkte data en data van derden op één plek op te slaan. De tools worden gebruikt voor diverse bewerkingen zoals datatransformaties, rapportage, interactieve analyses en machine learning. Het is ook essentieel om de data te organiseren, te beheren en te onderhouden bij het beheren van een productiedata lake.

    Hoe bouw je een data lake?

    Vrijwel alle cloud-datalakes volgen een vergelijkbaar proces, maar er zijn een aantal belangrijke stappen die ze allemaal doorlopen. Laten we ze eens nader bekijken en de bijbehorende uitdagingen bespreken.

    Stap 1: Het bedrijf begrijpen

    • Bepaal welke gegevens in het data lake moeten worden opgenomen.
    • Verminder de hoeveelheid opgeslagen gegevens.

    Stap 2: Gegevens opslaan en verwerken

    • Zorg ervoor dat uw data-invoersysteem snel is.
    • Analyseer de kosteneffectiviteit van het opslaan van de data in het data lake.

    Stap 3: Voorbereiding van de gegevens

    • De voorbereiding van gegevens voor verwerking.
    • De kosten voor gegevensopslag kunnen worden verlaagd.

    Stap 4: Het analyseren van het data lake

    • De gegevens analyseren om informatie te vinden.

    Stap 5: Machine learning

    • Traint de machine learning met behulp van hoogwaardige opslag.
    • Efficiënte opslag van lokale kopieën.

    LEES MEER: Hoe de implementatie van Data Lake as a Service bedrijven transformeert