6.3 Die Grundlagen von Zookeeper

Zookeeper koordiniert jeden Hadoop-Job, der mehrere Hadoop-Komponenten gleichzeitig oder nacheinander anspricht.
Zookeeper koordiniert jedoch auch die Services einzeln in einem verteilten Cluster.
Vor Zookeeper war die Arbeit von mehreren Services gleichzeitig mühselig und zeitfressend, nun übernimmt dieser Services die Synchronisation, die Konfiguration, das Zusammenfassen und Benennen von Services und Adressen innerhalb von Hadoop.

Wie funktioniert Zookeeper? Wie ist die Architektur von Zookeeper?

Jede Anwendung, egal ob Pig, MapReduce, Spark oder eine ganz andere, besitzt die Adressen zum Ansprechen der Zookeeper Clients. Diese haben wiederrum die Adressen der Zookeeper Server, da über die Zookeeper Clients die Kommunikation zum Zookeeper Ensemble läuft. Typischerweise besitzt man im Cluster mehr als einen Zookeeper-Server, damit du weiterhin deine Anwendungen ausführen kannst, falls mal ein Zookeeper-Server ausfällt. Diese werden im sogenannten „Ensemble“ zusammengefasst. Beispiel: Sobald also ein Worker Daten schreiben möchte, greift dieser über den Zookeeper-Client auf die Zookeeper-Server zu. Dieser weist dann den Schreibvorgang an und meldet an die Anwendung über den selben Weg zurück, dass die Daten geschrieben und repliziert wurden. Zookeeper steuert hier nur den Vorgang, ausgeführt wird er dann im HDFS.

Weiter geht es mit: 7. Abschluss