Suche
Suche Menü

Qudosoft goes Big Data

„Qudosoft goes Big Data“ ist eine fortlaufende Serie von Blogposts in der wir unsere Erfahrung unserer ersten Schritte und herausgefundenen Best Practices beschreiben.
In dem ersten Blogpost gehen wir auf den Cluster und die genutzte Software ein.

Seit Anfang dieses Jahres gibt es bei der Qudosoft eine Big Data Truppe, die sich zunächst mit zwei Entwicklern und einem Data Scientists gefunden haben und inzwischen aus drei Entwicklen und drei Data Scientists besteht. In dieser Serie von Blogposts wollen wir unsere ersten Schritte im Big Data Umfeld vorstellen. Wir wollen mit diesen Blogposts schnelle erste Erfolge, aber auch Probleme bekanntgeben, um gemeinsame Erfahrungen mit anderen Unternehmen austauschen zu können.

Im ersten Blogpost gehen wir grob auf unseren Hadoop-Cluster und die benutzte Software ein.

CLUSTER UND SOFTWARE

Das erste Problem, welches wir angegangen sind, war das Zusammenstellen eines “kleinen” Clusters bestehend aus vier Einheiten (ein Master und drei Worker). Als Cluster-Software haben wir uns für Clouderas CDH entschieden, da das Unternehmen seit Anfang des Big Data Hypes dabei war und zusammen mit dem Hadoop Erfinder Doug Cutting im Vorstand fast das komplette vorkonfigurierte Hadoop Ökosystem liefert. Nach einigen Updates der CDH-Version und einigen Fallstricken bezüglich der Konfiguration hatten wir schon erste Erkenntnisse gesammelt, wie im Cluster zwischen Master und Worker Daten ausgetauscht werden.

Man kann sicherlich alles komplett selber installieren und konfigurieren, doch Cloudera bietet aus unserer Sicht eine extreme Erleichterung. Die gilt insbesondere, wenn man sich dem Themenfeld komplett neu annähert, wenn man noch nicht alle Technologien und das mögliche Zusammenspiel zwischen diesen kennt. Gehen wir einmal kurz darauf ein, was alles mitgeliefert wird:

  • Hadoop
    • YARN
    • HDFS
  • Hive
  • Pig
  • Impala
  • Hue
  • HBase
  • Sqoop
  • Oozie
  • Spark
  • Zookeeper
  • Flume

Bei der Fülle aller Technologien, die im Hadoop Ökosystem liegen, kann man schon leicht die Übersicht verlieren. Unsere Erkenntnis ist, dass wir durch Nutzung der Cloudera Lösung einen schnelleren Einstieg hatten. Ansonsten hätten wir erst analysieren müssen, welche der Technologien für welchen Anwendungsfall benötigt wird, wie sie mit anderen Paketen zusammenspielt und wie sie uns persönlich gefällt, um uns dann für oder gegen eine Installation zu entscheiden. Die komplette manuelle Administration der Technologie und das Zusammenspiel mit den anderen wäre ebenfalls ein deutlicher Aufwand gewesen. Die Einschätzung, welche Version welcher Technologie mit einer anderen Version einer anderen Technologie am besten zusammenspielt, liegt wahrscheinlich besser in den Händen der Cloudera Entwickler, die an der Weiterentwicklung der Open Source Projekte der Hadoop Ökosystem Technologien beteiligt sind.

Bei dem nächsten Blogpost werden wir vorstellen welche Erfahrung wir mit den verschiedenen Technologien gemacht haben.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


Agile Softwareentwicklung