3.1 Grundlagen von Ambari

Bevor wir Pig verwenden können, möchte ich dir Ambari vorstellen. Hintergrund ist, dass wir für die Verwendung von Pig ausschließlich auf Ambari zugreifen werden. Und da du auch bereits Ambari kennenlernen durftest und bereits ein bisschen getestet hast, wird es Zeit, dass du es genauer kennen lernst.

Falls du es nicht schon getan hast, starte bitte deine VirtualBox und öffne Ambari über localhost:8080. Danach kannst du mit der folgenden Anleitung fortsetzen.

Nach dem Anmelden an Ambari siehst du dieses Dashboard. Es zeigt dir links alle verfügbaren Services im Cluster mit sehr vielen Grafiken, welche Metriken im Hadoop-Cluster in Echtzeit aufgezeichnet werden und wie es um sie steht, beispielsweise die Speicherplatzauslastung deines HDFS oder die Uptime deines NameNodes. Du kannst auf die Widgets bzw. Grafiken klicken und anschließend dieses Feld bearbeiten, was Farben oder Größe angeht. Außerdem kannst du die Widgets auf der Seite verschieben. Probiere es ruhig mal aus. Das ist bereits die erste Funktion von Ambari: Schnell und einfach einen Überblick über das Hadoop-Cluster verschaffen können.

Wenn du ein Cluster komplett neu installierst, wirst du links nicht viele Services sehen. Da wir uns für die Hadoop-Sandbox entschieden haben, sind hier bereits alle möglichen Services installiert. Hintergrund hierfür ist, dass die Konfiguration von Services teilweise sehr schwer ist, deswegen bietet der Anbieter Hortonworks die Sandbox bereits fertig konfiguriert an.

Mit einem Klick auf den Services kannst du das sogenannte „Service-Dashboard“ aufrufen, beispielsweise von HDFS:

Du siehst hier die einzelnen Komponenten des Hadoop-Services „HDFS“ und deren Zustand. Außerdem siehst du auch hier die Metriken bildlich dargestellt. In der Sandbox ist aus Performance- und Ressourcengründen darauf verzichtet worden, dass der Service „Ambari Metrics“ aktiviert ist und diese Daten liefert. Aus diesem Grund wirst du wahrscheinlich keine Grafiken bei den Metriken sehen können.

Außerdem hast du den Reiter „Configs“ bei jedem Hadoop-Service. Hier kannst du Einstellungen an den Config-Dateien der jeweiligen Services vornehmen, ohne, dass du die Config-Dateien über die Kommandozeile anzeigen und editieren musst. Gleichzeitig sorgt Ambari dafür, dass alle Einstellungen cluster- und serviceweit gleich sind. Die Schieberegler, die du auf der folgenden Grafik siehst, kannst du auch verschieben. Ambari gibt dir hier den geeigneten Rahmen für die Einstellung vor und verhindert so auch teilweise Fehlkonfigurationen.

Außerdem kannst du in der oberen Leiste neben dem Aufruf des Dashboards und der Services, wie eben gezeigt, auch „Hosts“ aufrufen. Hier bekommst du eine Liste aller Knoten im Cluster und kannst dir anschauen, welche Services auf den jeweiligen Knoten installiert ist und gerade laufen (oder auch nicht laufen). Du kannst hier deine Services oder den ganzen Cluster mit allen Services auch starten, stoppen oder neu starten (oben rechts bei „Host Actions“).

Über „Alerts“ ist es möglich, Einstellungen zu setzen, um bei bestimmten Metrikgrenzen automatisch benachrichtigt zu werden. Weiterhin kann hier eingestellt werden, wann bei einer Metrik eine Warnung verschickt werden muss und wann die Metrik als „Kritisch“ angezeigt wird. Hier wird deutlich, dass dich Ambari in Bezug auf das Monitoring von den verschiedenen Hadoop-Services unterstützt.

Über das Admin-Feld ist es möglich, die Versionen aller Hadoop-Services einzusehen und Upgrades durchzuführen:

Außerdem gibt es das Feld mit den 9 Rechtecken, welche verschiedene Anwendungen in Ambari enthält. Verwendet haben wir von den Programmen bereits Files-View:

Der YARN-Queue-Manager zeigt dir alle Aufgaben, welche auf Ressourcenzuweisung von YARN warten und sich in der Warteschlange befinden:

Hive-View hast du auch bereits kennenlernen dürfen:

Hive-View 2.0 ergänzt die Hive-View nochmal mit einem moderneren Interface und erweitertem Funktionsangebot:

Pig View stellt uns eine Weboberfläche zum Arbeiten mit Pig zur Verfügung. Außerdem können hier Skripts gespeichert werden und stehen auch zur erneuten Ausführung bereit:

Bei Tez-View ist es genauso, eine Weboberfläche zum Arbeiten mit Tez:

Und zum Abschluss noch der Workflow-Manager, welcher und das Einrichten von Workflows ermöglicht:

Einrichtung eines Admin-Benutzers in Ambari

Für die weiteren Schritte ist es nun notwendig, dass wir einen Admin-Benutzer in Ambari zur Verfügung haben. Der User „maria_dev“ hat nicht ausreichend Rechte. Bitte logge dich dazu mittels Putty auf deiner Hadoop-VirtualBox ein. Danach gib bitte folgende Befehle ein:

sudo su - root #Befehl, um root-Nutzer zu werden
ambari-admin-password-reset

Bitte gib danach ein Passwort für den Admin-Benutzer ein. Du musst es anschließend erneut eingeben. Bitte notiere dir dies, du wirst es öfters im Kurs brauchen. Sind die beiden Eingaben identisch, so wird Ambari gestoppt, unsere Passwort-Einstellung wird gesetzt und Ambari danach wieder gestartet. Du bekommst in der Kommandozeile die Meldung, dass alles erfolgreich geklappt hat.


Weiter geht es mit: 3.2 Grundlagen von Pig mit einem Beispiel