HADOOP är ett paradigm för stordatabehandling som tillhandahåller ett pålitligt, skalbart lagrings- och bearbetningssystem.
Ett ramverk för stordatabehandling som Hadoop har förändrat hur vi bearbetar, lagrar och använder data. Jämfört med traditionella bearbetningsverktyg som RDBMS har Hadoop visat sig kunna hantera stordatautmaningar som:
- Mångfald av data: Hadoop kan lagra, bearbeta och visualisera strukturerad, semistrukturerad och ostrukturerad data.
- Datavolymen: Hadoop var specifikt utformad för att hantera petabyte data.
- Datahastighet: En stor fördel med Hadoop är dess förmåga att bearbeta petabyte data i snabb takt, jämfört med andra verktyg som RDBMS, dvs. det är mindre tidskrävande att bearbeta data i Hadoop.
1. Öppen källkod
Apache Hadoop är ett projekt med öppen källkod, vilket innebär att källkoden är tillgänglig gratis. Vi kan modifiera källkoden enligt våra affärskrav. Hadoop finns även i proprietära versioner, som Cloudera och Hortonworks.
2. Lätt skalbar
Hadoop-klustret består av ett antal maskiner. Skalbarhet är en viktig funktion i Hadoop. Att lägga till nya noder i klustret utan driftstopp gör att vi kan öka dess storlek efter behov. Vid horisontell skalning läggs nya maskiner till i klustret medan vertikal skalning innebär att man ökar antalet komponenter som RAM och hårddiskar.
3. Ett feltolerant system
Den mest framträdande funktionen hos Hadoop är dess feltolerans. HDFS tilldelar en replikeringsfaktor på 3 till varje block som standard. HDFS skapar två kopior av varje datablock och lagrar dem på olika platser i klustret. Vi har fortfarande två kopior av alla block som försvinner på grund av maskinfel, så vi kan fortfarande använda dem. Det är så Hadoop uppnår feltolerans.
4. Oberoende schema
Det finns olika typer av data som Hadoop kan bearbeta. Förutom att kunna lagra en mängd olika dataformat kan det även arbeta med både strukturerad och ostrukturerad data.
5. Låg latens och hög dataöverföringshastighet
Definitionen av dataflöde är mängden arbete som utförs per tidsenhet, och definitionen av låg latens är att bearbeta data med liten eller ingen fördröjning. Eftersom Hadoop är baserat på distribuerad lagring och parallell bearbetning bearbetas varje datablock oberoende och samtidigt. Dessutom flyttas kod till klustret istället för data. Högt dataflöde och låg latens är resultatet av dessa två faktorer.
För att lagra och hantera stordata använder Hadoop distribuerad lagring och parallell bearbetning. Stordata hanteras oftast med denna programvara. Hadoop består av tre komponenter.
- Hadoop HDFS - Hadoop Distributed File System (HDFS) är Hadoops lagringssystem.
- Hadoop MapReduce - Hadoop MapReduce är dess processorenhet.
- Hadoop YARN – Som en del av Hadoop tillhandahåller Hadoop YARN resurshantering.
LÄS MER: Big Data Management: Hadoop eller Snowflake