1.1 Hortonworks Hadoop installieren und die Umgebung vorbereiten

Mit der virtuellen Maschine wird eine linuxbasierte Umgebung auf deinem Rechner erzeugt, welche abgeschottet (bzw. in einer Sandbox) von deinem Betriebssystem und deinen Dateien funktioniert. Mit dieser Anleitung lädst du ein vorinstalliertes Hadoop herunter, womit wir uns alle Komponenten anschauen und testen können, welche in diesem Kurs betrachtet werden. Du musst dich also nicht um die Installation der einzelnen Hadoop-Services kümmern. Bitte beachte, das dein System mindestens 8 GB Arbeitsspeicher benötigt, mehr wird empfohlen. Außerdem sind etwa 30 GB freier Festplattenspeicher notwendig.

VirtualBox installieren

Bitte gehe dazu auf https://www.virtualbox.org/wiki/Downloads und lade dir das für dein System benötigte Installationspaket herunter. Ich werde in diesem Kurs nur die Installation für Windows-Systeme vorstellen. Alternativ kannst du die virtuelle Instanz auch auf Linux laufen lassen oder dir mittels docker und einem Server ein eigenes Hadoop-System aufbauen. Bitte verfolge in diesem Fall die folgende Installationsanleitung auf der Seite von Hortonworks Hadoop: https://de.hortonworks.com/downloads/. Für alle Windows-Nutzer: Nach dem Download bitte den Installer öffnen, indem die heruntergeladene Datei gestartet wird. 

Die vorgeschlagenen Werte während der Installation können übernommen werden, sodass der Installer durchgeklickt werden kann. Wenn du beispielsweise den Pfad der Installation ändern möchtest, kannst du dies gerne im Installationsdialog tun. Während der Installation können von VirtualBox mehrere Treiber installiert werden, die du bitte mitinstallierst.

Hadoop für VirtualBox herunterladen

Während dieses Kurses wird Hortonworks Hadoop zum Einsatz kommen. Wir werden uns mit der „Hortonworks Data Platform“ (kurz HDP) beschäftigen. Um das Image für unsere Umgebung herunterzuladen, besuche bitte die Seite https://de.hortonworks.com/downloads/. Bitte lade hier die Virtual Box mit Version „HDP 2.6.5“ herunter. Dieser Kurs wurde auf diese Version abgestimmt. Solltest du eine ältere oder neuere Version einsetzen, kann es zu Problemen innerhalb dieses Tutorials kommen.

Der Download des Images wird relativ lange dauern, da das Image etwa 15 GB Größe hat. Nach dem Download kannst du dieses Tutorial fortsetzen.

Warum setzen wir HDP 2.6.5 statt einer aktuellen Version ein?

HDP 3.0.1 wird derzeit noch entwickelt. Leider fallen bei der neuen Version höhere Anforderungen an die Hardware an. Außerdem ist das Image größer und viele einsteigerfreundliche Tools sind weggefallen. Ich werde den Kurs zu gegebener Zeit aktualisieren.

Hadoop in Virtualbox einbinden 

Nach dem Download des richtigen Images kann man VirtualBox öffnen. Darin über „Datei“ –> „Appliance importieren“ das heruntergeladene Image auswählen und importieren. Auch das kann nochmal etwas Zeit in Anspruch nehmen. Im Anschluss kannst du die „VirtualBox“ starten und das Hadoop-System zum Laufen bringen. 
Die Sandbox läuft auf einem CentOS, eine minimalistische und quelloffene Linuxdistribution. Trotzdem benötigt auch der Start noch ein bisschen Zeit, je nach Ausstattung deines Rechners.

Daten für das Hadoop-Cluster herunterladen

Das Hadoop-Cluster arbeitet am Besten mit großen Datensätzen. „Grouplens“, eine wissenschaftliche Forschungsgruppe der Universität von Minnesota, stellt im Internet den Datensatz der Filmdatenbank IMDB zur Verfügung. 

„Die Internet Movie Database ist eine Datenbank zu Filmen, Fernsehserien, Videoproduktionen und Computerspielen sowie über Personen, die daran mitgewirkt haben. Im Jahr 2017 gab es Einträge zu 4,1 Mio. Filmproduktionen und zu über 7,7 Millionen Film- und Fernsehschaffenden. Betrieben wird die Datenbank von Amazon.com.“

https://de.wikipedia.org/wiki/Internet_Movie_Database

Wir haben hier also die Möglichkeit, mit den echten Filmdaten von der IMDB arbeiten zu können, und das völlig kostenlos. Auf Basis dieses Datensatzes werden wir unsere Abfragen durchführen. Bitte gehe zum Download des Datensatzes auf die Homepage der Grouplens-Forschungsgruppe unter https://grouplens.org/datasets/movielens/. Lade dort bitte nicht den ersten Eintrag herunter, da dieser 20 Millionen Einträge enthält. Für unsere Zwecke reicht der Datensatz mit 100.000 Einträgen im Abschnitt „recommended for education and development“. Bitte lade die Datei „MovieLens Latest Datasets – Small“ herunter.

Nach dem Herunterladen, öffne und entpacke die Datei bitte.

Die Struktur des Beispieldatensatzes

Du findest folgende Dateien im Beispieldatensatz:

  • links.csv
  • movies.csv
  • ratings.csv
  • tags.csv

und außerdem folgenden Kommentar zu den Dateien in der „Readme.txt“:

This dataset (ml-latest-small) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996 and September 24, 2018. This dataset was generated on September 26, 2018.
Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.
This is a development dataset. As such, it may change over time and is not an appropriate dataset for shared research results. See available benchmark datasets if that is your intent.

readme.txt des Beispieldatensatzes von Grouplens, Stand 12.12.2018

Wir benötigen für unsere Vorhaben nur die „ratings.csv“ und die „movies.csv“. Danach ist unsere Umgebung eingerichtet und es liegen uns alle Daten, Images und Anwendungen vor, die wir brauchen.


Weiter gehts mit: 1.2 Hadoop starten, Ambari testen und Hive verwenden