Willkommen bei Easy Hadoop!

Hadoop ist ein mächtiges Tool, um große Datenbestände auf einem Clusterverbund von Rechnern zu analysieren und anzupassen. Hadoop besteht aus Hunderten von verschiedenen Technologien, die aufeinander abgestimmt sind oder zusammen arbeiten können. Es ist nicht leicht, ein Verständnis darüber zu gewinnen, welche Technologien welche Aufgaben haben und wie diese ineinander greifen. Das wird in diesem Tutorial aufgezeigt.  

Dieses Tutorial hat folgende Ziele:

  1. die Hauptkomponenten eines Hadoop-Systems kennen, verstehen und einsetzen,
  2. das Zusammenspiel der Komponenten verstehen und den richtigen Einsatzzweck bestimmen können,
  3. mittels Aufgaben die Funktionsweise verstehen und
  4. mit den Komponenten arbeiten können.

Ich lege hier keinen Wert auf Vollständigkeit zu allen vorgestellten Komponenten, du bist hier jedoch genau richtig, wenn du dich erstmals informieren möchtest oder den Kurs zum Einstieg machen möchtest. Im Anschluss wirst du besser entscheiden können, welcher Bereich bei Hadoop dich mehr interessiert.

Um das zu erreichen, werden wir eine virtuelle Maschine einrichten, in der wir ein Hadoop-System aufbauen und testen. Dabei werden über 25 Hadoop-basierte Technologien zum Einsatz kommen, die du nach Absolvieren des Kurses kennen wirst:

  • Hive,
  • HBase,
  • Spark,
  • Oozie,
  • Ambari,
  • Cassandra,
  • Storm,
  • Pig,
  • Tez,
  • YARN,
  • MapReduce,
  • MySQL,
  • Sqoop und
  • Zookeeper.

Wir werden beispielsweise

  • Daten in relationale und nichtrelationale Datenbanken importieren und exportieren,
  • solche Daten mit SQL-ähnlichen Abfragen in Hadoop analysieren und bearbeiten,
  • Programme für MapReduce, Pig und Spark schreiben
  • und Einsatzszenarien anhand gegebener Beispielfälle aufstellen und analysieren können.

Es ist also egal, ob du ein Verständnis für Hadoop entwickeln möchtest oder ob du in die Programmierung bei Hadoop eintauchen möchtest, hier wirst du für den Einstieg fündig. Ich muss dich allerdings etwas vorwarnen: Ich komme aus der Betriebsführungsecke für Hadoop-Cluster, weshalb der Schwerpunkt auch hierauf liegen wird und deswegen die Programmierung etwas zu kurz kommt.

Dennoch bedanke ich mich schonmal dafür, dass du Hadoop mit mir kennenlernen möchtest und wünsche dir dabei viel Spaß!

Im nächsten Schritt werden wir das Hadoop-System innerhalb einer virtuellen Maschine vorbereiten. Navigiere dazu bitte links am Menü entlang oder klicke hier: 1.1 Hortonworks Hadoop installieren und die Umgebung vorbereiten