Terug naar de blogs

Big Data Management: Hadoop of Snowflake?

Shares 1
Reads 2730

Author

Tushar SonalInsights Explorer
Als data de olie is, dan is analytics de verbrandingsmotor van dit tijdperk.

Published: 14-December-2020

Sneeuwvlok
Big Data

Inhoudsopgave

Maar allereerst, wat is big data?
Uitdagingen van big data
MapReduce en Hadoop schieten te hulp.
Maar het is niet altijd even soepel verlopen.
Voer Sneeuwvlok in

Vat dit blogbericht samen met:

ChatGPT Perplexity Claude Grok

In deze blog gaan we dieper in op de verschillen tussen twee populaire systemen voor big data-management: Hadoop Distributed File System (HDFS) en Snowflake.

Al tientallen jaren, sinds de komst van commerciële computer- en opslagbronnen, bevatten SQL-databaseservers traditioneel maximaal gigabytes aan informatie.

Organisaties worden tegenwoordig echter overspoeld met een overweldigende hoeveelheid informatie. Dit fenomeen, vaak aangeduid als datatsunami, heeft een aanzienlijke impact op de bedrijfsstrategie. De stortvloed aan informatie zet de beproefde IT-infrastructuur en -strategie onder enorme druk.

In de afgelopen tien jaar zijn de gedistribueerde bestandssystemen die data verwerken bij bedrijven exponentieel gegroeid en bevatten ze nu terabytes en zelfs petabytes aan data.

Data is van cruciaal belang geworden en vormt een essentieel concurrentievoordeel voor bedrijven. Maar om optimaal te profiteren van big data, moeten bedrijven investeren in sterke, robuuste en betrouwbare infrastructuren voor big data-management.

In deze blog bekijken we de belangrijkste ontwikkelingen in de architectuur voor big data-management en -verwerking binnen bedrijven, en hoe technologieën zoals MapReduce, Hadoop en Snowflake bedrijven helpen waarde te halen uit big data met behulp van databronnen zoals weblogs, sensoren, mobiele apparaten, afbeeldingen, audio, sociale media, clickstream-data , sms-berichten en XML-documenten.

Maar allereerst, wat is big data?

Big Data-management wordt gebruikt om bedrijfsgegevens te beschrijven die drie onderling samenhangende trends laten zien.

Enorme hoeveelheden historische data en streaming- en IoT-data - 42,6 procent van de respondenten in een marktonderzoek gaf aan dat ze data van meer dan drie jaar bewaren voor analysedoeleinden.
Enorme verscheidenheid aan data - Niet alleen gestructureerde, maar ook semi-gestructureerde en ongestructureerde data neemt toe binnen bedrijven. Studies tonen aan dat tot wel 80% van de bedrijfsdata ongestructureerd is.
Ondersteuning voor geavanceerde data-analyseworkloads - Bedrijven implementeren steeds vaker realtime en geavanceerde analyseworkloads ter ondersteuning van bedrijfskritische toepassingen.

De groeiende behoefte aan big data-management wordt gedreven door vier belangrijke trends die de huidige datavereisten van bedrijven kenmerken.

Nieuwe databronnen zoals mobiele telefoons, streaming- en IoT-data, medische sensoren, sociale media, foto's, video's, enzovoort.
Tegenwoordig worden er steeds grotere hoeveelheden data en metadata vastgelegd en geanalyseerd.
Nieuwe datacategorieën - Waar voorheen de meeste vastgelegde en geanalyseerde data werd opgeslagen in relationele databases en transactionele records bevatte, omvat de data tegenwoordig ook semi-gestructureerde en ongestructureerde transactionele en sub-transactionele datatypen, zoals clickstreams, tekstdata van sociale media, foto's, video's, audio en XML-documenten.
Gestandaardiseerde software en hardware - Voordelige software- en hardwareomgevingen zijn de afgelopen jaren populair geworden en hebben de big data-technologie getransformeerd, waardoor het kosteneffectief en haalbaar is geworden om big data-workloads uit te voeren, waar we hieronder verder op ingaan.

Uitdagingen van big data

Informatiegroei: De enorme groei van big data - gestructureerde, ongestructureerde en semi-gestructureerde data - dreigt de traditionele IT-infrastructuur te overspoelen, tenzij organisaties hier goed op voorbereid zijn.

Verwerkingskracht: De traditionele aanpak waarbij één krachtige en dure server wordt gebruikt om gegevens te verwerken, is niet schaalbaar voor big data. De 'verdeel en heers'-programmeeraanpak met gestandaardiseerde hardware en software is de toekomst.

Fysieke opslag: Het opslaan en verwerken van big data kan tijdrovend en kostbaar zijn, waardoor budgetten en planningen snel worden overschreden.

Problemen met data: Het gebrek aan eigen dataformaten en de interoperabiliteit van datamobiliteit kunnen het werken met big data lastig maken.

Kosten: Extractie-, transformatie- en laadbewerkingen kunnen erg duur zijn met traditionele architecturen en bij gebrek aan gespecialiseerde software.

MapReduce en Hadoop schieten te hulp.

Zoals we kunnen zien, schalen oudere SQL-gebaseerde technologieën niet zomaar mee met de uitdagingen van big data. Dit vormde een enorme uitdaging voor organisaties die in de beginjaren van het millennium met gigantische datasets probeerden te werken. Zoekmachinegigant Google moest de enorme hoeveelheid ongestructureerde webinformatie verwerken om webpagina's op hun servers te indexeren en te rangschikken op basis van zoekwoorden.

In 2004 testte Google een innovatieve technologie die gebruikmaakte van parallelle, gedistribueerde computerverwerking om de enorme hoeveelheden webinformatie die het bedrijf verzamelde te verwerken en te analyseren. Het resultaat was een verzameling technologieën en architectuurfilosofieën die bekend kwamen te staan als MapReduce. Google ontwikkelde ook een krachtig, gedistribueerd bestandssysteem, Google File System (GFS), om deze enorme hoeveelheid informatie op te slaan. MapReduce en Google File System vormden vervolgens de basis voor Hadoop en Hadoop Distributed File System (HDFS).

Het kernconcept van de nieuwe aanpak was parallelle verwerking: in MapReduce werkten duizenden goedkope, gestandaardiseerde software- en hardwarecomponenten samen aan een programmeerprobleem.

Al snel werd het voor bedrijven duidelijk dat de MapReduce-technologie niet alleen relevant zou zijn voor Google. Veel bedrijven zouden er baat bij hebben – als het beheer ervan minder complex en omslachtig zou worden gemaakt.

Doug Cutting en Mike Cafarella van Yahoo worden geroemd om de ontwikkeling van de Hadoop-implementatie van MapReduce in 2005. Het betreft een gestandaardiseerde, complete end-to-end oplossing, geschreven in Java, die geschikt is voor bedrijven die MapReduce willen gebruiken om inzichten uit hun big data te halen. Na de ontwikkeling werd Hadoop overgedragen aan de Apache Software Foundation , die het als open-sourceproject onderhoudt met een wereldwijde gemeenschap van bijdragers.

Dankzij het werk van Doug Cutting (die nu hoofdarchitect is bij Cloudera ) en Mike Cafarella hadden organisaties voor het werken met Big Data nog maar drie ingrediënten nodig: heel veel data (in petabytes), heel veel servers ( cloudcomputing bood hier uitkomst ) en Hadoop-software.

Apache Hadoop stelt bedrijven in staat om te werken met ruwe data die is opgeslagen in bestanden op de schijf, in relationele databases of beide. De data kan zowel gestructureerd als ongestructureerd zijn en bestaat doorgaans uit tekst, binaire gegevens of records met meerdere regels.

Maar het is niet altijd even soepel verlopen.

Apache Hadoop wordt al geruime tijd als een volwaardige oplossing beschouwd, maar het is lastig gebleken om het als een gangbare oplossing voor big data binnen bedrijven te laten accepteren, voornamelijk vanwege...

Gebrek aan prestaties en schaalbaarheid
Gebrek aan flexibel resourcebeheer
Gebrek aan ondersteuning bij de implementatie van applicaties
Onvoldoende kwaliteit van dienstverlening
Gebrek aan ondersteuning voor meerdere gegevensbronnen

Apache Hadoop is doorgaans extreem kostbaar en tijdrovend om te implementeren, configureren en beheren; en staat vooral bekend om de gebrekkige ondersteuning voor query's met lage latentie, die veel gebruikers van business intelligence nodig hebben. Bovendien zijn er specialistische vaardigheden nodig om oplossingen te bouwen met Hadoop-technologie, wat ontwikkelaars ervan weerhoudt effectieve oplossingen voor bedrijfsbehoeften te ontwikkelen.

Apache Hadoop brengt uitdagingen met zich mee op het gebied van implementatie, onderhoud, optimalisatie en schaalbaarheid, tenzij je binnen je bedrijf beschikt over sterke en diepgaande technologische expertise. Het is ook lastig om Hadoop-technologie te integreren met relationele databases. Bedrijven moeten vaak software van derden implementeren en gebruiken, zoals Cask, Mica, BedRock, hTrunk, Pentaho, Talend, enz., om Hadoop-implementaties te beheren.

Voer Sneeuwvlok in

Vanwege de uitdagingen en hoge kosten die gepaard gaan met het implementeren, configureren, onderhouden en schalen van op Hadoop gebaseerde oplossingen, zijn cloudgebaseerde datamanagementplatformen zoals Snowflake populair geworden bij bedrijven die big data-analyses willen implementeren en benutten. Snowflake is een cloudgebaseerd datamanagement-/datawarehouseplatform dat beschikbaar is volgens een pay-as-you-go-model.

Snowflake slaat gegevens op in micropartities van variabele lengte, terwijl Hadoop gegevensbestanden opsplitst in vaste blokken (doorgaans 128 MB), die vervolgens over meerdere knooppunten worden gerepliceerd. Door deze architectuur is Hadoop geen goede oplossing als de gegevensomvang klein is en de volledige dataset op één knooppunt kan worden bewaard. In tegenstelling tot Hadoop kan het cloudplatform Snowflake zowel grote als kleine datasets probleemloos opslaan en verwerken.

Snowflake biedt hoge prestaties, query-optimalisatie en lage latentie voor de opslag en analyse van big data. Snowflake heft de beperkingen op bij het gebruik van uw data en met Snowflake kunt u een datawarehouse combineren met een datalake voor een compleet overzicht van uw klanten en bedrijfsvoering.

Snowflake biedt ondersteuning voor realtime data-invoer en zorgt voor enorme veerkracht, flexibiliteit en beschikbaarheid. Hierdoor is een team van engineers voor het beheer en onderhoud van een Hadoop-gebaseerd systeem niet meer nodig. Hadoop-systemen kunnen alleen worden gebruikt en geconfigureerd door zeer technisch onderlegde systeembeheerders, databasebeheerders en ontwikkelaars. Snowflake opent echter de wereld van big data voor businessanalisten, dashboardanalisten en datawetenschappers.

Hadoop Distributed File System (HDFS) is ook niet elastisch schaalbaar. De clustergrootte kan alleen worden vergroot. In tegenstelling tot HDFS kan Snowflake binnen milliseconden direct opschalen van klein naar groot en vervolgens snel weer terugschalen of zelfs de beschikbare resources volledig uitschakelen.

Kortom, HDFS heeft nog steeds een toekomst, zij het beperkt, en blijft een populaire oplossing voor het vastleggen en verwerken van realtime data vanwege de kosteneffectieve ondersteuning voor tekst-, video- en audiogegevens. De opkomst van een groot aantal propriëtaire applicaties zoals Snowflake, Microsoft Blob Storage en Amazon S3 heeft het big data-ecosysteem de afgelopen 5 jaar echter aanzienlijk veranderd.

Hadoop-technologie schiet tekort op het gebied van gewenste prestaties, query-optimalisatie, configuratie- en implementatiegemak en lage latentie voor oplossingen op bedrijfsniveau. Snowflake staat vandaag de dag bekend als het meest robuuste, veerkrachtige en betrouwbare datawarehouseplatform dat beschikbaar is.

Wilt u meer weten over Snowflake en andere cloudgebaseerde diensten voor databeheer en cloudcomputing ? Neem dan vandaag nog contact op met onze vertegenwoordigers voor een gratis adviesgesprek.