Alles über Big Data

Big Data: Was müssen Sie lernen? Ein kleiner Leitfaden für Anfänger

Big Data: Wie fängt man an?

Überall hören wir, dass es die Zukunft ist, dass wir zum Big Data übergehen müssen. So schnell wie möglich. Sehr gut. Aber womit fangen wir an? Was muss dringend gelernt werden? Was müssen Sie tun, um ein Meister im Big Data zu werden?

Auch lesenswert : Entdecken Sie alles, was Sie über Kürbisgemüse wissen müssen

Statt hier eine Auflistung typischer Schulungen mit Titeln zu präsentieren, die dieses Gefühl von trendigen Schlüsselwörtern aufrechterhalten, haben wir uns entschieden, Ihnen die Geschichte des Big Data zu erzählen. Wie und warum sind wir dazu gekommen?

Woher stammt dieser Begriff und welche technologischen Entwicklungen sollten die Welt des Big Data sprengen?

Ebenfalls empfehlenswert : Alles über Waschmittel mit Efeu

Indem Sie einen besseren Überblick darüber gewinnen, was Big Data ist, können Sie ableiten, was Sie lernen müssen, um ein Ass auf diesem Gebiet zu werden, und vor allem, was Sie selbst lernen müssen.

Big Data: Was ist der Unterschied zur Datenanalyse?

Die erste Frage ist die, die uns hilft, die Neuheit dieser Angelegenheit zu verstehen. Was ist der Unterschied zwischen Big Data und der guten Analyse alter Daten und den Statistik-Kursen, die wir in der Schule organisiert haben – und manchmal darüber hinaus?

Tatsächlich kommt die Neuheit aus dem Internet und der Tatsache, dass alle Daten jetzt sofort von allen Seiten produziert werden.

Laut IBM produziert die Menschheit täglich 2,5 Quintillionen (25 Milliarden Milliarden) Bits an Daten, essen, schlafen, spielen, arbeiten usw. Dies entspricht 2 Stapeln von DVDs, die übereinander gestapelt sind, deren Höhe von der Erde… bis zum Mond variiert! Wenn man bedenkt, dass diese DVDs alles enthalten, von den Texten, die wir senden, über die Fotos, die wir machen, bis hin zu den Daten von all den Maschinen, die miteinander kommunizieren, erklärt das warum die Daten so „groß“ geworden sind.

Und wenn die Leute von diesen Megadaten sprechen, denken sie in der Regel daran, dass wir einen großen Teil dieser Daten nehmen, sie analysieren und etwas Interessantes daraus ableiten werden.

Tatsächlich ist es viel mehr als das.

Big Data ist viel mehr als das.

Big Data besteht auch aus:

  • große Mengen an Daten aus verschiedenen Quellen zu erfassen,
  • diese Daten von sehr unterschiedlichen Typen zu verwenden, die in unterschiedlichen Geschwindigkeiten produziert werden ohne sie unbedingt in spezifische Formate „übersetzen“ zu müssen.
  • diese Daten zu speichern, damit sie gleichzeitig für eine Reihe von verschiedenen Analysen zu verschiedenen Zwecken verwendet werden können.
  • und all dies sehr schnell zu tun, und manchmal sogar… in Echtzeit.

Zu Beginn sprachen wir über die 3V oder VVV: Volumen (große Mengen), Vielfalt (verschiedene Datentypen) und Geschwindigkeit (Verarbeitungsgeschwindigkeit).

Big Data vs. Data Warehouse

Aber was das Akronym VVV nicht in Perspektive gesetzt hat, ist diese zentrale Innovation, die bedeutet, dass die Daten nicht systematisch „transformiert“ werden müssen, um analysiert zu werden.

Diese „nicht destruktive“ Verarbeitung bedeutete, dass Organisationen nun dieselben Datenmengen zu unterschiedlichen Zwecken analysieren und diese Daten aus Quellen extrahieren konnten, die sie selbst zu noch anderen Zwecken gesammelt hatten.

Ein neuer Ansatz ist also entstanden, der sich stark von dem unterscheidet, was wir damals rund um Data Mining und Data Warehouses kannten.

Das klassische Data Warehouse wurde für einen bestimmten Zweck konzipiert. Die Daten wurden strukturiert und in spezifische Formate umgewandelt. Die ursprünglichen Daten werden im Prozess notwendigerweise zerstört.

Wir sprachen über den ETL-Prozess: „extrahieren, transformieren und laden“.

Der ETL-Ansatz beschränkt sich also auf spezifische Analysen für spezifische Daten. Das war perfekt, wenn alle Ihre Daten in Ihrem Transaktionssystem vorhanden waren. Aber das ist nicht mehr so schlimm, wenn Sie alle Daten kennen, die hier und da in unserer hypervernetzten Welt existieren und die all die oben genannten Quintillionen von Daten produzieren.

Das ist also eine der ersten Dinge, die man lernen muss in der Welt von Big Data: – schauen Sie nach draußen, fragen Sie, welche Daten außerhalb des Systems verfügbar sind – schauen Sie sich die Daten an, die für alle verfügbar sind, die berühmten offenen Daten – fragen Sie, wie wir sie verbinden, sie kreuzen könnten, was wir aus diesen Daten lernen könnten, die wir bereits haben.

Das Ende der Data Warehouses?

Glauben Sie nicht, dass Big Data die Data Warehouses obsolet macht. Die Big Data-Systeme bringen Sie dazu, mit unstrukturierten Daten zu arbeiten, aber die Art der Abfrageergebnisse, die Sie erhalten, ist weit entfernt von der Raffinesse der Data Warehouses.

Das Data Warehouse ist für eine tiefgehende Datenanalyse konzipiert, was genau möglich ist, weil die Daten in ein spezifisches Format umgewandelt und geplant wurden.

Data Warehouse-Anbieter arbeiten seit Jahren daran, ihre Suchmaschinen zu optimieren, um den typischen Erwartungen eines bestimmten Unternehmens gerecht zu werden. Die

Wenn Sie oder Ihre Organisation ein Spezialist auf diesem Gebiet sind, fühlen Sie sich nicht im Rückstand oder überfordert. Wir sprechen nicht genau über dasselbe.

Big Data ermöglicht es Ihnen, viel mehr Daten aus vielen Quellen zu analysieren, aber mit weniger feiner Auflösung. Die

Big Data ist eine impressionistische Welt, die immer den Hyperrealismus der Data Warehouses benötigen wird.

Deshalb sind wir dazu verurteilt, mit den traditionellen Data Warehouses und dem neuen Verarbeitungsstil namens Big Data zu leben.

Big Data bedeutet also nicht, das zu verlernen, was Sie in der Schulung im Data Warehouse gelernt haben. Der Data Scientist muss nicht unbedingt den Business Intelligence Engineer ersetzen.

Stattdessen wird es notwendig sein, dass das Unternehmen die Frage aufwirft, wie man sicherstellt, dass beide sich gegenseitig bereichern. Und das muss ebenfalls gelernt und studiert werden.

Technologische Durchbrüche hinter Big Data

Das ist die philosophische und organisatorische Seite.

Aber es gibt auch die technologische Dimension. Noch einmal, Big Data basiert auf einer Revolution, die verstanden werden muss. Und an die man sich durch gezielte Schulungen und Lernen anpassen muss.

Im Gegensatz zu 3V ist Big Data 3V 1U: Volumen, Vielfalt, Geschwindigkeit und mehr: nicht destruktive Nutzung der Daten.

Um dies zu erreichen, mussten technologische Herausforderungen erfolgreich gemeistert werden.

In erster Linie die Entwicklung von verteilten Computersystemen: das ist das Gebiet von Hadoop, zum Beispiel.

Es brauchte auch eine Methode, um disparate Daten in Perspektive zu setzen: das ist das Territorium von Google MapReduce oder neuerdings Apache Spark.

Schließlich brauchte es ein Prinzip der Cloud-/Internet-Infrastruktur, um auf die Daten zuzugreifen und sie nach Wunsch zu nutzen.

Bis vor zwölf Jahren war es unmöglich, Datenmengen zu manipulieren, wie wir sie heute benötigen. Damals hatten wir sicherlich das Gefühl, dass diese Datenmengen riesig waren und dass unsere Data Warehouses in der Lage waren, massive Verarbeitung zu leisten.

Aber die Grenzen dieser Geräte damals in Bezug auf Standort und Speicherung, Rechenleistung und die Unfähigkeit, Daten unterschiedlicher Typen zu verarbeiten, ließen uns nicht mit einem neuen Kontext umgehen: dem eines Welten, in dem, dank des Internets, Daten überall, in alle Richtungen und jederzeit produziert und miteinander verbunden werden.

MapReduce

Um 2003 entwickelten Forscher von Google MapReduce. Diese Programmiertechnik vereinfacht die Verarbeitung von Datensätzen, indem sie die Daten zunächst auf Schlüssel-Wert-Paare reduziert und dann Berechnungen auf Daten mit ähnlichen Schlüsseln durchführt, um alles auf einen einzigen Wert zu reduzieren. Jeder „große Brocken“ von Daten könnte parallel auf Hunderten oder sogar Tausenden von kostengünstigen Maschinen verarbeitet werden. Diese Technik der parallelen Verarbeitung in großem Maßstab ermöglichte es Google, Suchergebnisse aus unglaublich größeren Datenmengen als zuvor zu generieren und das schneller.

Google ist die Quelle der beiden technologischen Durchbrüche, die Big Data ermöglicht haben:

Der erste war Hadoop, das aus zwei Schlüsselservices besteht:

  • ein Datenspeichersystem, das HDFS (Hadoop Distributed File System) verwendet
  • ein paralleles Datenverarbeitungssystem, das eine Technik namens MapReduce verwendet.

Hadoop läuft auf einer Gruppe von Servern in einer nicht geteilten Architektur.

Server können nach Belieben zu einem Hadoop-Cluster hinzugefügt oder entfernt werden. Das System erkennt und löst Probleme auf jedem Server. Hadoop „heilt sich selbst“. Daher kann es weiterhin Daten bereitstellen und in großem Maßstab arbeiten, indem es Aufgaben ausführt, die hohe Leistung erfordern, trotz Änderungen oder Ausfällen.

Sein wahrer Mehrwert liegt woanders: er stammt von den Add-Ons und anpassbaren Erweiterungen seiner Technologie. Hadoop bietet zusätzliche Projekte, die der Plattform Funktionen hinzufügen:

  • Hadoop Common: Dies sind die grundlegenden Werkzeuge, die für andere Hadoop-Projekte benötigt werden
  • Chukwa: ein Datenerfassungssystem zur Verwaltung großer verteilter Systeme.
  • HBase: eine verteilte und skalierbare Datenbank, die die Speicherung strukturierter Daten für große Tabellen unterstützt.
  • HDFS: ein verteiltes System, das schnellen Zugriff auf Daten von Anwendungen bietet
  • Hive: eine Data Warehouse-Infrastruktur, die eine Zusammenfassung der Daten und ein Ad-hoc-Abfragesystem bereitstellt.
  • MapReduce: eine Software-Infrastruktur für die Prozesse von verteilten Datensätzen
  • Pig: eine Sprache und ein Framework für die Ausführung paralleler Prozesse.
  • ZooKeeper: ein Hochleistungs-Koordinierungsdienst für verteilte Anwendungen.

Die Implementierung einer Hadoop-Plattform umfasst notwendigerweise einige dieser Unterprojekte.

Viele Organisationen entscheiden sich beispielsweise dafür, HDFS als primäres verteiltes Dateiverwaltungssystem und HBase als Datenbank zu verwenden, die Milliarden von Datenspalten speichern kann. Und die Verwendung von MapReduce (oder Spark) ist dann fast offensichtlich, da sie Geschwindigkeit und Agilität zur Hadoop-Plattform bringt.

Mit MapReduce können Entwickler Programme erstellen, die massive Mengen unstrukturierter Daten parallel über einen Cluster von verteilten Prozessoren verarbeiten. Das MapReduce-Framework ist in zwei funktionale Bereiche unterteilt:

  • Map, eine Funktion, die die Arbeit auf verschiedene Knoten in den Computer-Clustern verteilt.
  • Reduce, eine Funktion, die die Arbeit zusammenführt und die Ergebnisse in einem einfachen Wert zusammenfasst.

Einer der Hauptvorteile von MapReduce ist, dass es ausfallsicher oder fehlertolerant ist. Wie macht es das? Es „überwacht“ jeden Knoten im Cluster regelmäßig. Dieser soll periodisch eine vollständige Arbeit mit „Status“-Updates zurückgeben. Wenn ein Knoten länger als nötig still bleibt, wird dies von einem Master-Knoten gemeldet und die Arbeit wird den anderen Knoten im Cluster neu zugewiesen.

Ursprünglich entwickelt, um die Suchmaschine Nutch zu indizieren, wird Hadoop jetzt in allen großen Industrien für die Vielzahl von Big Data-Aufgaben eingesetzt.

Mit anderen Worten, dank des verteilten Computersystems HDFS und YARN (Yet Another Resource Negotiator) ermöglicht die Software dem Benutzer, riesige Datenmengen, die auf Tausenden von Computern verteilt sind, so zu verarbeiten, als wäre es eine riesige Maschine.

Wie passen Sie das auf Ihren Fall an? Die Geschichte dieser technologischen Sprünge ist unvermeidlich bindend für Sie und Ihre Organisation.

Sie kennen sich nicht mit verteilten Computern aus? Es ist dringend erforderlich, dies besser zu verstehen und sich selbst oder Ihre Teams zu schulen.

Was die Werkzeuge betrifft, zeigt die Geschichte von Hadoop, wie sehr seine Logik im Universum von Big Data durchgesetzt wird. Sein Universum sollte Ihnen nicht fremd sein. Denken Sie daran.

Aber die Geschichte ist noch nicht zu Ende.

Im Jahr 2009 entwickelten Forscher der Universität Kalifornien in Berkeley Apache Spark, eine Alternative zu MapReduce. Spark führt seine Berechnungen parallel unter Verwendung von In-Memory-Speicher durch, es ist bis zu 100 Mal schneller als MapReduce. Spark kann allein oder innerhalb von Hadoop verwendet werden.

Selbst mit Hadoop benötigen Sie immer noch ein Mittel, um die Daten zu speichern und darauf zuzugreifen.

Normalerweise werden dafür NoSQL-Datenbanken wie MongoDB, CouchDB oder Cassandra für die Verarbeitung von unstrukturierten oder semi-strukturierten Daten verwendet, die auf mehreren Maschinen verteilt sind.

Im Gegensatz zu Data Warehouses, wo massive Datenmengen in ein einheitliches Format überführt und in einem einzigen Datenspeicher gespeichert werden, ändern diese Werkzeuge die Natur oder den Standort der ursprünglichen Daten nicht – die E-Mails bleiben E-Mails, die Sensordaten bleiben Sensordaten – und können praktisch überall gespeichert werden.

Ein Problem bleibt: Massive Datenmengen in NoSQL-Datenbanken, die in Maschinenclustern installiert sind, sind nicht sehr nützlich, solange Sie nichts damit tun. Hier kommt die Analyse von Big Data ins Spiel.

Werkzeuge wie Tableau, Splunk und Jasper BI ermöglichen es Ihnen, diese Daten zu analysieren, um Muster zu identifizieren, Bedeutungen zu extrahieren und neue Perspektiven zu enthüllen. Was Sie damit machen, hängt von Ihren Bedürfnissen ab.

Noch einmal, die Fähigkeiten in diesen Analysen sind besonders gefragt. Das gehört zu den Fähigkeiten, die man erwerben sollte.

Beachten Sie auch, dass die Beherrschung von NoSQL-Datenbanken wichtig, wenn nicht sogar unerlässlich erscheint. Kenntnisse und Beherrschung von NoSQL scheinen daher für die Welt von Big Data entscheidend zu sein. Obwohl… in diesem Artikel werden Sie sehen, dass SQL im Universum von Big Data wieder im Kommen ist.

Fortsetzung folgt…

Bedarf an einer genaueren Diagnose?

Was müssen Sie lernen? Wer muss in Ihrer Organisation wofür geschult werden? Kontaktieren Sie uns für eine präzise Diagnose.

Quelle: InfoWorld. Artikel geschrieben von Galen Gruman (Chefredakteur), Steve Nunez (Chefredakteur), Frank Ohlhorst und Dan Tynan.

Tag: Was ist Big Data?

Alles über Big Data