Hadoop ist ein Paradigma zur Verarbeitung großer Datenmengen, das ein zuverlässiges, skalierbares Speicher- und Verarbeitungssystem bietet.
Ein Big-Data -Verarbeitungsframework wie Hadoop hat die Art und Weise, wie wir Daten verarbeiten, speichern und nutzen, grundlegend verändert. Im Vergleich zu traditionellen Verarbeitungswerkzeugen wie relationalen Datenbankmanagementsystemen (RDBMS) hat sich Hadoop als fähig erwiesen, mit Big-Data-Herausforderungen wie beispielsweise … umzugehen.
- Vielfalt der Daten: Hadoop kann strukturierte, semistrukturierte und unstrukturierte Daten speichern, verarbeiten und visualisieren.
- Das Datenvolumen: Hadoop wurde speziell für die Verarbeitung von Petabytes an Daten entwickelt.
- Die Geschwindigkeit der Datenverarbeitung: Ein großer Vorteil von Hadoop ist seine Fähigkeit, Petabytes an Daten in kurzer Zeit zu verarbeiten, im Vergleich zu anderen Tools wie RDBMS, d. h. die Datenverarbeitung in Hadoop ist weniger zeitaufwändig.
1. Open Source
Apache Hadoop ist ein Open-Source-Projekt, dessen Quellcode frei zugänglich ist. Entsprechend unseren Geschäftsanforderungen können wir den Quellcode anpassen. Hadoop ist auch in proprietären Versionen wie Cloudera und Hortonworks erhältlich.
2. Leicht skalierbar
Ein Hadoop-Cluster besteht aus mehreren Maschinen. Skalierbarkeit ist ein zentrales Merkmal von Hadoop. Durch das Hinzufügen neuer Knoten ohne Ausfallzeiten lässt sich die Clustergröße bedarfsgerecht erweitern. Bei der horizontalen Skalierung werden dem Cluster neue Maschinen hinzugefügt, während die vertikale Skalierung die Erweiterung von Komponenten wie Arbeitsspeicher und Festplatten umfasst.
3. Ein fehlertolerantes System
Das herausragendste Merkmal von Hadoop ist seine Fehlertoleranz. HDFS weist jedem Datenblock standardmäßig einen Replikationsfaktor von 3 zu. HDFS erstellt zwei Kopien jedes Datenblocks und speichert diese an verschiedenen Orten innerhalb des Clusters. Selbst wenn ein Block aufgrund eines Maschinenausfalls verloren geht, sind somit noch zwei Kopien vorhanden und können verwendet werden. Dadurch erreicht Hadoop seine Fehlertoleranz.
4. Unabhängiges Schema
Hadoop kann verschiedene Datentypen verarbeiten. Es kann nicht nur eine Vielzahl von Datenformaten speichern, sondern auch sowohl strukturierte als auch unstrukturierte Daten verarbeiten.
5. Geringe Latenz und hoher Durchsatz
Der Durchsatz bezeichnet die pro Zeiteinheit verrichtete Arbeit, während geringe Latenz die Verarbeitung von Daten mit minimaler oder gar keiner Verzögerung beschreibt. Da Hadoop auf verteiltem Speicher und paralleler Verarbeitung basiert, wird jeder Datenblock unabhängig und gleichzeitig verarbeitet. Zudem wird der Code anstelle der Daten in den Cluster verlagert. Hoher Durchsatz und geringe Latenz sind das Ergebnis dieser beiden Faktoren.
Zur Speicherung und Verwaltung von Big Data nutzt Hadoop verteilten Speicher und parallele Verarbeitung. Big Data wird am häufigsten mit dieser Software verarbeitet. Hadoop besteht aus drei Komponenten.
- Hadoop HDFS – Das Hadoop Distributed File System (HDFS) ist das Speichersystem von Hadoop.
- Hadoop MapReduce – Hadoop MapReduce ist seine Verarbeitungseinheit.
- Hadoop YARN – Als Teil von Hadoop bietet Hadoop YARN Ressourcenmanagement.
WEITERLESEN: Big-Data-Management: Hadoop oder Snowflake