Tillbaka till bloggar

Stordatahantering: Hadoop eller Snowflake

Shares 1
Reads 2730

Author

Tushar SonalInsiktsutforskaren
Om data är olja, så är analys förbränningsmotorn i denna era.

Published: 14-December-2020

Snöflinga
Stordata

Innehållsförteckning

Men först och främst, vad är Big Data?
Utmaningar med stordata
MapReduce och Hadoop till undsättning
Men det har inte gått så smidigt
Ange snöflinga

Sammanfatta detta blogginlägg med:

ChatGPT Perplexity Claude Grok

I den här bloggen ska vi djupdyka i skillnaderna mellan två populära system för hantering av stordata, Hadoop Distributed File System (HDFS) och Snowflake.

I många decennier sedan tillkomsten av kommersiella databehandlings- och lagringsresurser har SQL-databasservrar traditionellt lagrat högst gigabyte information.

Men idag översvämmas organisationer regelbundet av påtvingad information. Detta fenomen, ofta kallat datatsunamin, har haft en betydande inverkan på företagsstrategin. Informationsfloden har satt den beprövade IT-infrastrukturen och strategin under enorm press.

Under det senaste decenniet har de distribuerade filsystem som hanterar och bearbetar data på företag vuxit med en snöboll och nu kan nu innehålla upp till terabyte och till och med petabyte data.

Data har visat sig vara av avgörande betydelse och en avgörande konkurrensfördel för företag. Men för att kunna dra nytta av stordata måste företag investera i starka, robusta och pålitliga infrastrukturer för hantering av stordata.

I den här bloggen kommer vi att titta på de viktigaste utvecklingarna inom hantering av stordata och bearbetningsarkitektur på företag och hur tekniker som MapReduce, Hadoop och Snowflake hjälper företag att utvinna värde från stordata med hjälp av datakällor som webbloggar, sensorer, mobila enheter, bilder, ljud, sociala medier, klickströmsdata , textmeddelanden och XML-dokument.

Men först och främst, vad är Big Data?

Big Data-hantering används för att beskriva företagsdata som visar tre sammanhängande trender

Enorm volym historisk data och streaming, IoT-data – 42,6 procent av respondenterna i en marknadsundersökning sa att de sparar mer än tre års data för analysändamål.
Massiv variation av data – Inte bara strukturerad data utan även semistrukturerad och ostrukturerad data växer i företag. Studier visar att upp till 80 % av företagsdata finns i ett ostrukturerat format.
Stöd för avancerade dataanalysarbetsbelastningar – Företag implementerar alltmer realtids- och avancerade analysarbetsbelastningar för att stödja affärskritiska användningsområden.

Tillväxten av behoven inom hantering av stordata har drivits av fyra viktiga trender som har kommit att prägla dagens företagsdatakrav.

Nya datakällor som mobiltelefoner, streaming- och IoT-data, medicinska sensorer, sociala medier, foton, videor etc.
Större mängder data och metadata som samlas in och analyseras idag.
Nya datakategorier – Medan tidigare den mesta data som samlades in och analyserades lagrades i relationsdatabaser och innehöll transaktionsposter, har datan idag utökats till att även omfatta semistrukturerade och ostrukturerade transaktions- och subtransaktionsdatatyper, såsom klickströmmar, textdata från sociala medier, foton, videor, ljud och XML-dokument.
Kommersialiserad programvara och hårdvara – Billiga programvaru- och hårdvarumiljöer har blivit populära de senaste åren och har omvandlat stordatatekniken, vilket gör det kostnadseffektivt och genomförbart att köra stordataarbetsbelastningar, vilket vi kommer att behandla nedan.

Utmaningar med stordata

Informationstillväxt: Den massiva tillväxten av big data – strukturerad, ostrukturerad och semistrukturerad – hotar att överbelasta den traditionella IT-strukturen om inte organisationer är väl förberedda.

Processorkraft: Den traditionella metoden att använda en enda, kraftfull och dyr server för att bearbeta information kan inte skalas för stordata. Att söndra och härska-programmeringsmetoden med kommodifierad hårdvara och mjukvara är vägen framåt.

Fysisk lagring: Lagring och bearbetning av stordata kan vara tidskrävande och dyrt och lätt överskrida budgetar och tidsramar.

Dataproblem: Brist på proprietära dataformat och interoperabilitet mellan datamobilitet och kan göra det utmanande att arbeta med stordata.

Kostnader: Extrahering, transformering och laddning kan vara mycket dyra med traditionell arkitektur och i avsaknad av specialiserad programvara.

MapReduce och Hadoop till undsättning

Som vi kan se kan äldre SQL-baserade tekniker inte bara skalas upp för att möta de utmaningar som big data innebär. Detta utgjorde en enorm utmaning för organisationer som försökte arbeta med massiva datamängder under årtusendenas första år. Sökmotorjätten Google behövde bearbeta den enorma mängden webbaserad ostrukturerad information för att indexera och ranka webbsidor på sina servrar för sökord.

År 2004 testade Google en innovativ teknik som använde parallell, distribuerad databehandling för att bearbeta och analysera de enorma mängder webb-härledd information som den samlade in. Resultatet blev en grupp tekniker och arkitekturdesignfilosofier som kom att bli kända som MapReduce. Google skapade också ett kraftfullt, distribuerat filsystem som kallas Google File System för att lagra denna enorma information . MapReduce och Google File System blev därefter grunden för Hadoop och Hadoop Distributed File System (HDFS).

Nyckelkonceptet med den nya metoden var parallell bearbetning - I MapReduce arbetade tusentals billig, kommodifierad programvara och hårdvara tillsammans på ett programmeringsproblem.

Snart blev det uppenbart för företag att MapReduce-tekniken inte bara skulle vara relevant för Google. Många företag skulle dra nytta av den – om den kunde göras mindre komplex och krånglig att hantera.

Doug Cutting och Mike Cafarella på Yahoo har fått erkännande för att ha utvecklat Hadoop-implementeringen av MapReduce år 2005 som en standardiserad, heltäckande och komplett lösning skriven i Java och som är lämplig för företag som vill använda MapReduce för att få insikter från sina big data. Efter att Hadoop skapades överlämnades det till Apache Software Foundation som underhåller det som ett öppen källkodsprojekt med en global community av bidragsgivare.

Tack vare arbetet av Doug Cutting (som nu är chefsarkitekt på Cloudera ) och Mike Cafarella, behövde organisationer nu bara tre ingredienser för att arbeta med stordata – massor av data (i petabyte-skala), massor av servrar ( molntjänster kom till undsättning här ) och Hadoop-programvara.

Apache Hadoop gör det möjligt för företag att arbeta med rådata som kan lagras i diskfiler, i relationsdatabaser eller båda. Informationen kan vara både strukturerad och ostrukturerad och består vanligtvis av text, binära filer eller poster med flera rader.

Men det har inte gått så smidigt

Apache Hadoop har accepterats som en fungerande lösning ett tag nu, men det har varit svårt att bli accepterad som en fungerande lösning för big data-lösningar på företag, främst på grund av

Brist på prestanda och skalbarhet
Brist på flexibel resurshantering
Brist på stöd för applikationsdistribution
Brist på tillräcklig servicekvalitet
Brist på stöd för flera datakällor

Apache Hadoop tenderar att vara extremt kostsamt och tidskrävande att driftsätta, konfigurera och hantera; och är särskilt ökänt för att erbjuda dåligt stöd för frågor med låg latens som många användare av Business Intelligence kan behöva. Dessutom krävs specialiserade färdigheter för att bygga lösningar på Hadoop-teknik, och detta hindrar utvecklare från att bygga effektiva lösningar för företagsbehov.

Apache Hadoop medför utmaningar att implementera, underhålla, optimera och skala om man inte har stark och djupgående teknisk expertis inom företaget. Det är också utmanande att integrera Hadoop-teknik med relationsdatabaser. Ofta behöver företag implementera och använda tredjepartsprogramvara som Cask, Mica, BedRock, hTrunk, Pentaho, Talend etc. för att hantera Hadoop-distributioner.

Ange snöflinga

På grund av de utmaningar och höga kostnader som är förknippade med att driftsätta, konfigurera, underhålla och skala Hadoop-baserade lösningar har molnbaserade datahanteringsplattformar som Snowflake blivit populära bland företag som vill implementera och dra nytta av stordataanalyser. Snowflake är en molnbaserad datahanterings-/datalagerplattform som finns tillgänglig i en pay-as-you-go-modell.

Snowflake lagrar data på mikropartitioner med variabel längd, men Hadoop dekonstruerar datafiler till fasta block (vanligtvis 128 MB), som sedan replikeras över flera noder. På grund av denna arkitektur är Hadoop en dålig lösning om datastorleken är liten och hela datamängden kan lagras på en enda nod. Till skillnad från Hadoop-tekniken kan Snowflakes molnbaserade datahanteringsplattform enkelt lagra och bearbeta både stora och mindre datamängder.

Snowflake erbjuder hög prestanda, frågeoptimering och låg latens för lagring och analys av stordata. Snowflake eliminerar begränsningarna i användningen av dina data och med Snowflake kan du kombinera ett datalager med en datasjö och få en 360-gradersvy över dina kunder och din verksamhet.

Snowflake erbjuder stöd för datainmatning i realtid och ger enorm motståndskraft, flexibilitet och tillgänglighet. Detta eliminerar behovet av att ha ett team av ingenjörer för att hantera och underhålla ett Hadoop-baserat system. Hadoop-baserade system kan endast användas och konfigureras av högtekniska systemadministratörer, databasadministratörer och utvecklare. Men Snowflake öppnar upp big data-världen för affärsanalytiker, dashboardanalytiker och data scientists.

Hadoop Distributed File System (HDFS) är inte heller elastiskt skalbart. Klusterstorleken kan bara ökas. Till skillnad från HDFS kan Snowflake omedelbart skalas upp från liten till stor skala inom millisekunder och kan sedan snabbt skalas ner eller så kan man till och med helt pausa tillgängliga resurser.

Sammanfattningsvis har HDFS fortfarande en framtid, om än begränsad, och är fortfarande en populär lösning för datainsamling och -bearbetning i realtid tack vare dess kostnadseffektiva stöd för text-, video- och ljuddata. Men framväxten av en mängd proprietära applikationer som Snowflake, Microsoft Blob Storage och Amazon S3 har förändrat big data-ekosystemet avsevärt under de senaste fem åren.

Hadoop-tekniken når inte upp till önskad prestanda, frågeoptimering, enkel konfiguration och driftsättning samt låg latens för företagslösningar, och Snowflake står idag som den mest robusta, motståndskraftiga och pålitliga datalagerplattformen som erbjuds idag.

För att veta mer om Snowflake och andra molnbaserade datahanterings- och molntjänster , kontakta våra representanter för en kostnadsfri konsultation idag.