Articles

Die 5 V’s von Big Data

Posted on

Google, Facebook, Netflix, LinkedIn, Twitter und alle anderen Social-Media-Plattformen gelten eindeutig als Big-Data-Technologiezentren. Aber wann haben sie angefangen, sich Gedanken über ihre Daten zu machen? Die Antwort ist einfach – es hängt von den Eigenschaften von Big Data ab und davon, wann die Datenverarbeitung beginnt, die 5 Vs zu überschreiten.

Lassen Sie uns die 5 Vs von Big Data sehen:

  1. Volumen, die Menge der Daten
  2. Velocity, wie oft neue Daten entstehen und gespeichert werden müssen
  3. Variety, wie heterogen die Datentypen sind
  4. Veracity, die „Wahrhaftigkeit“ oder „Unordentlichkeit“ der Daten
  5. Wert, die Bedeutung der Daten

# Volumen

Sie sind nicht wirklich in der Big-Data-Welt, wenn das Datenvolumen nicht Exabytes, Petabytes oder mehr beträgt. Big-Data-Technologieriesen wie Amazon, Shopify und andere E-Commerce-Plattformen erhalten jede Sekunde strukturierte und unstrukturierte Daten zwischen Terabyte und Zettabyte von Millionen von Kunden, vor allem Smartphone-Nutzern aus aller Welt. Sie verarbeiten die Daten nahezu in Echtzeit und treffen nach der Ausführung von Algorithmen für maschinelles Lernen zur Datenanalyse auf Big Data Entscheidungen, um das beste Kundenerlebnis zu bieten.

Wann wird Volumen zum Problem:

Eine schnelle Websuche zeigt, dass eine anständige 10-TB-Festplatte mindestens 300 US-Dollar kostet. Um ein Petabyte an Daten zu verwalten, sind das 100 x 300 USD = 30.000 USD. Vielleicht bekommen Sie einen Preisnachlass, aber selbst bei 50 % Rabatt sind Sie allein bei den Speicherkosten bei weit über 10.000 USD. Stellen Sie sich vor, Sie wollen nur eine redundante Version der Daten für die Notfallwiederherstellung aufbewahren. Dann bräuchten Sie noch mehr Speicherplatz. Das Datenvolumen wird also zum Problem, wenn es über das normale Maß hinauswächst und die Speicherung auf lokalen Speichergeräten ineffizient und kostspielig wird.

Lösung:

Amazon Redshift, ein verwalteter Cloud-Data-Warehouse-Service von AWS, ist eine der beliebtesten Optionen für die Speicherung. Er speichert Daten verteilt über mehrere Knoten, die im Vergleich zu relationalen On-Premise-Datenbanken wie Postgres und MySql katastrophenresistent und schneller für Berechnungen sind. Es ist auch einfach, Daten von relationalen Datenbanken zu Redshift zu replizieren, ohne dass es zu Ausfallzeiten kommt.

Um mehr über Redshift zu erfahren, werfen Sie einen Blick auf Redshift vs. relationale Datenbanken, Redshift vs. Hadoop und Redshift vs. traditionelle Data Warehouses.

# Velocity

Stellen Sie sich einen maschinellen Lerndienst vor, der ständig aus einem Datenstrom lernt, oder eine Social-Media-Plattform mit Milliarden von Benutzern, die rund um die Uhr Fotos posten und hochladen. Jede Sekunde finden Millionen von Transaktionen statt, und das bedeutet, dass jede Sekunde Petabytes und Zettabytes an Daten von Millionen von Geräten an ein Rechenzentrum übertragen werden. Diese Rate des hochvolumigen Datenzustroms pro Sekunde definiert die Datengeschwindigkeit.

Wann wird Velocity zum Problem:

High-Velocity-Daten klingen toll, denn – Geschwindigkeit x Zeit = Volumen und Volumen führt zu Erkenntnissen, und Erkenntnisse führen zu Geld. Allerdings ist dieser Weg zu wachsenden Umsätzen nicht ohne Kosten.

Es stellen sich viele Fragen, wie zum Beispiel: Wie verarbeiten Sie jedes Datenpaket, das durch Ihre Firewall kommt, auf Bösartigkeit? Wie verarbeiten Sie solche hochfrequenten strukturierten und unstrukturierten Daten „on the fly“? Wenn Sie außerdem eine hohe Datengeschwindigkeit haben, bedeutet das fast immer, dass es große Schwankungen in der Menge der pro Sekunde verarbeiteten Daten geben wird, Tweets auf Twitter sind während des Super Bowls viel aktiver als an einem durchschnittlichen Dienstag, wie gehen Sie damit um?

Lösung:

Glücklicherweise sind „Streaming Data“-Lösungen zur Rettung aufgetaucht. Die Apache-Organisation hat populäre Lösungen wie Spark und Kafka, wobei Spark sowohl für die Stapelverarbeitung als auch für die Streaming-Verarbeitung geeignet ist, während Kafka auf einem Publish/Subscribe-Mechanismus läuft. Amazon Kinesis ist ebenfalls eine Lösung, die über eine Reihe von verwandten APIs verfügt, die für die Verarbeitung von Streaming-Daten konzipiert sind. Google Cloud Functions (Google Firebase hat auch eine Version davon) ist eine weitere beliebte serverlose Funktions-API. All diese sind eine großartige Blackbox-Lösung für die Verwaltung komplexer Verarbeitungen von Nutzdaten im laufenden Betrieb, aber sie alle erfordern Zeit und Aufwand für die Erstellung von Datenpipelines.

Wenn Sie sich nicht mit dem Zeit- und Kostenaufwand für die Erstellung einer eigenen Datenpipeline befassen möchten, könnte sich etwas wie FlyData als nützlich erweisen. FlyData repliziert Ihre Postgres-, MySQL- oder RDS-Daten nahtlos und sicher in Redshift, und das nahezu in Echtzeit.

# Variety

Die reale Welt ist aufgrund unterschiedlicher Datentypen unübersichtlich, daher macht es Sinn, dass jeder, der sich mit spannenden Herausforderungen beschäftigt, auch mit unübersichtlichen Daten umgehen muss. Die Heterogenität der Daten ist oft eine Quelle von Stress beim Aufbau eines Data Warehouses. Nicht nur Videos, Fotos und stark hierarchisch verknüpfte Posts und Tweets auf sozialen Plattformen, sondern auch grundlegende Nutzerinformationen können in ganz unterschiedlichen Datentypen vorliegen. Diese heterogenen Datensätze stellen eine große Herausforderung für Big Data Analytics dar.

Wann wird die Vielfalt zum Problem:

Bei großen Datenmengen können die Daten unterschiedliche Datentypen (JSON, YAML, xSV (x = C(omma), P(ipe), T(ab), etc.), XML) haben, bevor man sie auf einen einheitlichen Datentyp massieren kann, um sie in einem Data Warehouse zu speichern. Noch mühsamer wird die Datenverarbeitung, wenn die Datenspalten oder Schlüssel nicht garantiert für immer existieren, wie z. B. bei der Umbenennung, Einführung und/oder Veraltung der Unterstützung für Schlüssel in einer API. Man versucht also nicht nur, eine Vielzahl von Datentypen in einen einheitlichen Datentyp zu quetschen, sondern die Datentypen können auch von Zeit zu Zeit variieren.

Lösung:

Eine Möglichkeit, mit einer Vielzahl von Datentypen umzugehen, besteht darin, jeden Transformationsmeilenstein aufzuzeichnen, der entlang der Route Ihrer Datenverarbeitungspipeline auf sie angewendet wird. Speichern Sie zunächst die Rohdaten im Ist-Zustand in einem Data Lake (ein Data Lake ist ein hyperflexibles Repository für Daten, die in ihrer rohen Form gesammelt und aufbewahrt werden, z. B. ein Amazon S3-Dateispeicher). Dann werden die Rohdaten mit verschiedenen Datentypen in einen aggregierten und verfeinerten Zustand umgewandelt, der dann an einem anderen Ort innerhalb des Data Lake gespeichert und später in eine relationale Datenbank oder ein Data Warehouse zur Datenverwaltung geladen werden kann.

# Veracity

Die Daten in der realen Welt sind so dynamisch, dass es schwer ist zu wissen, was richtig und was falsch ist. Veracity bezieht sich auf den Grad der Vertrauenswürdigkeit oder Unordentlichkeit von Daten, und wenn die Vertrauenswürdigkeit der Daten höher ist, dann ist die Unordentlichkeit geringer und umgekehrt. Veracity und Value definieren zusammen die Datenqualität, die Datenwissenschaftlern großartige Einblicke bieten kann.

Wann ist Veracity ein Problem:

Betrachten Sie den Fall von Tweets auf Twitter, die Dinge wie Hashtags, ungewöhnliche Slangs, Abkürzungen, Tippfehler und umgangssprachliche Sprache verwenden, all diese Daten haben eine Menge Unordnung oder Rauschen, und wenn das Datenvolumen zunimmt, steigt auch das Rauschen mit ihm, was manchmal auch exponentiell sein kann. Das Rauschen mindert die Gesamtqualität der Daten, was sich auf die Datenverarbeitung und später auf das Datenmanagement der verarbeiteten Daten auswirkt.

Lösung:

Wenn die Daten nicht hinreichend vertrauenswürdig sind, wird es wichtig, nur hochwertige Daten zu extrahieren, da es nicht immer sinnvoll ist, alle Daten zu sammeln, die man sammeln kann, da dies teuer ist und mehr Aufwand erfordert. Möglichst früh in der Datenverarbeitungspipeline bei der Datenextraktion Rauschen aus den Daten herausfiltern. So bleiben nur benötigte und vertrauenswürdige Daten übrig, die dann für die Datenanalyse transformiert und geladen werden können.

# Wert

Solange die Big Data, die wir haben, nicht in etwas Wertvolles transformiert werden können, sind sie nutzlos. Es ist sehr wichtig zu verstehen, wie viel Ressourcen und Aufwand in die Sammlung von Big Data investiert werden und wie viel Wert sie am Ende der Datenverarbeitung liefern.

Betrachten Sie den Fall von Netflix, wo die Daten über das Seh- und Surfverhalten der Benutzer aus verschiedenen Datenquellen gesammelt und dann in der Datenverarbeitungspipeline extrahiert und transformiert werden, um nur hochwertige Informationen wie Benutzerinteressen zu generieren und nützliche Empfehlungen zu geben. Dies wiederum hilft Netflix, Benutzerabwanderung zu vermeiden und noch mehr Benutzer für seine Plattform zu gewinnen. Die generierten Informationen hätten von geringem Wert sein können, wenn sie den Benutzer nicht zufrieden gestellt hätten. Daher beeinflusst der Wert von Big Data viele Geschäftsentscheidungen und verschafft einen Wettbewerbsvorteil gegenüber anderen.

# Fazit

Im heutigen Zeitalter gibt es konstante Ströme von hochvolumigen Echtzeitdaten, die von Geräten wie Smartphones, IoT-Geräten, Laptops fließen – all diese Ströme bilden Big Data, und die 5 V’s sind wichtige Merkmale (ein Rahmen für Big Data, wenn Sie so wollen), die Ihnen helfen, zu erkennen, was alles zu beachten ist, wenn der Datenstrom skaliert. Big Data spielt eine entscheidende Rolle in vielen Bereichen wie künstliche Intelligenz, Business Intelligence, Datenwissenschaften und maschinelles Lernen, wo die Datenverarbeitung (Extraktion-Transformation-Laden) zu neuen Erkenntnissen, Innovationen und besseren Entscheidungen führt. Die Aufschlüsselung von Big Data verschafft auch denjenigen, die Datenanalysen vor der Entscheidungsfindung durchführen, Wettbewerbsvorteile gegenüber denjenigen, die herkömmliche Daten zur Führung ihres Unternehmens verwenden. Lösungen wie Amazon Redshift werden sicherlich einen Vorteil gegenüber relationalen Datenbanken für Data Warehousing bieten, während Spark und Kafka vielversprechende Lösungen für das kontinuierliche Streaming von Daten zu den Data Warehouses sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.