x
    Glossary

    Wat is Hadoop?

    Hadoop is een paradigma voor de verwerking van big data dat een betrouwbaar en schaalbaar opslag- en verwerkingssysteem biedt.

    Een framework voor big data -verwerking zoals Hadoop heeft de manier waarop we data verwerken, opslaan en gebruiken veranderd. In vergelijking met traditionele verwerkingstools zoals relationele databasesystemen (RDBMS) heeft Hadoop bewezen in staat te zijn om big data-uitdagingen aan te pakken, zoals:

    • Verscheidenheid aan gegevens: Hadoop kan gestructureerde, semi-gestructureerde en ongestructureerde gegevens opslaan, verwerken en visualiseren.
    • De hoeveelheid data: Hadoop is specifiek ontworpen om petabytes aan data te verwerken.
    • De snelheid van dataverwerking: Een groot voordeel van Hadoop is het vermogen om petabytes aan data in een hoog tempo te verwerken, in vergelijking met andere tools zoals RDBMS. Dit betekent dat dataverwerking in Hadoop minder tijdrovend is.

    Voordelen van Hadoop?

    1. Open source

    Apache Hadoop is een open-sourceproject, wat betekent dat de broncode gratis beschikbaar is. We kunnen de broncode aanpassen aan onze zakelijke behoeften. Hadoop is ook beschikbaar in commerciële versies, zoals die van Cloudera en Hortonworks.

    2. Gemakkelijk schaalbaar

    Een Hadoop-cluster bestaat uit een aantal machines. Schaalbaarheid is een belangrijk kenmerk van Hadoop. Door zonder downtime nieuwe knooppunten aan het cluster toe te voegen, kunnen we de omvang ervan naar behoefte vergroten. Bij horizontale schaling worden nieuwe machines aan het cluster toegevoegd, terwijl verticale schaling het vergroten van componenten zoals RAM en harde schijven inhoudt.

    3. Een fouttolerant systeem

    Het meest opvallende kenmerk van Hadoop is de fouttolerantie. HDFS kent standaard een replicatiefactor van 3 toe aan elk datablok. HDFS maakt twee kopieën van elk datablok en slaat deze op verschillende locaties binnen het cluster op. We hebben dus nog steeds twee kopieën van elk blok dat verloren gaat door een machinefout, zodat we het nog steeds kunnen gebruiken. Zo bereikt Hadoop fouttolerantie.

    4. Onafhankelijk schema

    Hadoop kan verschillende soorten data verwerken. Naast de mogelijkheid om diverse dataformaten op te slaan, kan het zowel met gestructureerde als ongestructureerde data werken.

    5. Lage latentie en hoge doorvoer

    Doorvoer wordt gedefinieerd als de hoeveelheid werk die per tijdseenheid wordt verricht, en lage latentie als het verwerken van gegevens met weinig tot geen vertraging. Omdat Hadoop gebaseerd is op gedistribueerde opslag en parallelle verwerking, wordt elk gegevensblok onafhankelijk en gelijktijdig verwerkt. Bovendien wordt de code naar het cluster verplaatst in plaats van de data. Hoge doorvoer en lage latentie zijn het resultaat van deze twee factoren.

    Hadoop-componenten

    Hadoop maakt gebruik van gedistribueerde opslag en parallelle verwerking om big data op te slaan en te beheren. Big data wordt het meest gebruikt met deze software. Hadoop bestaat uit drie componenten.

    • Hadoop HDFS - Hadoop Distributed File System (HDFS) is het opslagsysteem van Hadoop.
    • Hadoop MapReduce - Hadoop MapReduce is de verwerkingseenheid.
    • Hadoop YARN - Als onderdeel van Hadoop biedt Hadoop YARN mogelijkheden voor resourcebeheer.

    LEES MEER: Big Data Management: Hadoop of Snowflake?