Automl DataRobot Machine Learning Applications

Table of Content

Wat bedoel je met ETL?
Hoe werkt ETL?
Extract
Transformeren
Laden
Wat is een ETL-pipeline?

Wat bedoel je met ETL?

Met de toenemende hoeveelheid, diversiteit en variëteit aan data binnen een bedrijf, wordt het cruciaal om data-analyse, machine learning en data science op de juiste manier in te zetten om waardevolle zakelijke inzichten te genereren. De dringende noodzaak om deze initiatieven prioriteit te geven, legt een toenemende druk op data-engineers om de ruwe data te verwerken tot schone en betrouwbare data voordat deze initiatieven worden ingezet. Extract, Transform, and Load (ETL) wordt door data-engineeringteams gebruikt om data uit diverse bronnen te extraheren, deze te transformeren tot een betrouwbare en bruikbare bron en vervolgens in de systemen te laden. Dit proces zorgt voor gemakkelijke toegang tot de data voor eindgebruikers en stelt hen in staat de inzichten later te optimaliseren om zakelijke uitdagingen aan te pakken.

Hoe werkt ETL?

Extract

De eerste stap in het proces is het extraheren van gegevens uit de doelbronnen, die over het algemeen heterogeen zijn en bestaan uit bedrijfssystemen, sensorgegevens, marketingtools, transactiedatabases, API's en andere. Hoewel sommige van deze gegevenstypen waarschijnlijk semi-gestructureerde JSON-serverlogs zijn, zijn andere waarschijnlijk de gestructureerde outputs van veelgebruikte systemen. Gegevensextractie kan op verschillende manieren worden uitgevoerd: Drie technieken voor gegevensextractie zijn:

Gedeeltelijke extractie: Als het bronsysteem u waarschuwt wanneer een record is gewijzigd, is dat de eenvoudigste manier om de gegevens te verkrijgen.
Gedeeltelijke extractie (met update-melding): Niet alle systemen kunnen meldingen versturen wanneer er een update plaatsvindt, maar ze kunnen wel de gewijzigde gegevens identificeren en een extract van die gegevens versturen.
Volledige extractie - Sommige systemen kunnen niet vaststellen welke gegevens zijn gewijzigd. In dat geval is de enige manier om de gegevens uit het systeem te halen een volledige extractie. Om deze methode te laten werken, moet de vorige extractie worden gedupliceerd en in hetzelfde formaat worden aangeleverd, zodat u de aangebrachte wijzigingen kunt identificeren.

Transformeren

De tweede fase omvat het omzetten van de onbewerkte, ongeformatteerde data die afkomstig is van verschillende bronnen naar een formaat dat toegankelijk is voor diverse applicaties. Om te voldoen aan de operationele eisen van een onderneming, wordt de data in deze fase opgeschoond, gemapt en getransformeerd, vaak naar een specifiek schema. Deze procedure omvat diverse transformaties om de nauwkeurigheid en betrouwbaarheid van de data te waarborgen. Data wordt vaak in een staging-database geplaatst in plaats van direct in de doeldatabron te worden geladen. Dit proces garandeert een snelle terugdraaiing in het geval dat er iets misgaat. In deze fase kunt u auditrapporten genereren voor naleving van wet- en regelgeving of eventuele dataproblemen identificeren en oplossen.

Laden

Het proces waarbij geconverteerde data vanuit een staging-omgeving naar een doeldatabase wordt geschreven – die al dan niet eerder bestond – staat bekend als de laadfunctie. Deze procedure kan relatief eenvoudig of juist zeer complex zijn, afhankelijk van de applicatievereisten. ETL-tools kunnen effectief worden ingezet om elk van deze processen te voltooien en gunstige bedrijfsresultaten te behalen.

Wat is een ETL-pipeline?

Een ETL-pipeline, ook wel datapipeline genoemd, verwijst naar het mechanisme waarmee ETL-processen en -activiteiten plaatsvinden. Datapipelines zijn een verzameling tools en procedures voor het overdragen van data van een systeem met een eigen aanpak voor dataverwerking en -opslag naar een ander systeem waar de data op een andere manier kan worden beheerd en opgeslagen. Daarnaast maken pipelines het mogelijk om automatisch data uit verschillende bronnen te verzamelen, te bewerken en vervolgens samen te voegen tot één efficiënte dataopslag.