Google, Facebook, Netflix, LinkedIn, Twitter en alle andere social media platformen kwalificeren duidelijk als big data technologie centra. Maar wanneer wisten ze dat ze zich zorgen moesten gaan maken over de gegevens die ze hebben? Het antwoord is simpel – het hangt allemaal af van de kenmerken van big data, en wanneer de gegevensverwerking de 5 V’s begint binnen te dringen.
Laten we eens kijken naar de 5 V’s van Big Data:
- Volume, de hoeveelheid data
- Velocity, hoe vaak nieuwe data wordt gecreëerd en moet worden opgeslagen
- Variëteit, hoe heterogeen de datatypes zijn
- Veracity, de “waarheidsgetrouwheid” of “rommeligheid” van de gegevens
- Waarde, het belang van gegevens
# Volume
Je zit pas echt in de big data-wereld als het volume van de gegevens exabytes, petabytes, of meer is. Big data-technologiegiganten zoals Amazon, Shopify en andere e-commerceplatforms krijgen elke seconde real-time gestructureerde en ongestructureerde gegevens van miljoenen klanten, met name smartphonegebruikers, van over de hele wereld. Ze verwerken de gegevens bijna in realtime en na het uitvoeren van machine learning-algoritmen om data-analyses op big data uit te voeren, nemen ze beslissingen om de beste klantervaring te bieden.
Wanneer vinden we Volume als een probleem:
Een snelle zoektocht op het web laat zien dat een fatsoenlijke harde schijf van 10 TB ten minste 300 dollar kost. Om een petabyte aan gegevens te beheren is dat 100 x $300 USD = $30.000 USD. Misschien krijg je korting, maar zelfs met 50% korting zit je al ruim boven de $10.000 dollar aan opslagkosten alleen. Stel u voor dat u alleen een redundante versie van de gegevens wilt bewaren voor noodherstel. Dan zou je nog meer schijfruimte nodig hebben. Het volume van de gegevens wordt dus een probleem wanneer het de normale grenzen overschrijdt en wordt een inefficiënte en dure manier om op lokale opslagapparaten op te slaan.
Oplossing:
Amazon Redshift, dat een beheerde cloud datawarehousedienst van AWS is, is een van de populaire opties voor opslag. Het slaat gegevens op verdeeld over meerdere nodes, die bestand zijn tegen rampen en sneller zijn voor berekeningen in vergelijking met on-premise relationele databases zoals Postgres en MySql. Het is ook eenvoudig om gegevens te repliceren van relationele databases naar Redshift zonder downtime.
Om meer te weten te komen over Redshift, kijk dan eens naar Redshift vs relationele databases, Redshift vs Hadoop, en Redshift vs traditionele datawarehouses.
# Velocity
Stelt u zich een machine learning service voor die voortdurend leert van een stroom gegevens, of een social media-platform met miljarden gebruikers die 24x7x365 foto’s posten en uploaden. Elke seconde vinden er miljoenen transacties plaats, en dat betekent dat er elke seconde petabytes en zettabytes aan gegevens van miljoenen apparaten naar een datacenter worden overgebracht. Deze snelheid van hoge volume data-instroom per seconde definieert de snelheid van data.
Wanneer vinden we Velocity als een probleem:
High-velocity data klinkt geweldig want – velocity x time = volume en volume leidt tot inzichten, en inzichten leiden tot geld. Deze weg naar groeiende inkomsten is echter niet zonder kosten.
Er zijn veel vragen die opkomen, zoals, hoe verwerk je elk pakketje data dat door je firewall komt, op kwaadaardigheid? Hoe verwerk je zulke hoogfrequente gestructureerde en ongestructureerde gegevens in de lucht? Bovendien, als je een hoge snelheid van data hebt, betekent dat bijna altijd dat er grote schommelingen komen in de hoeveelheid verwerkte data per seconde, tweets op Twitter zijn veel actiever tijdens de Super Bowl dan op een gemiddelde dinsdag, hoe ga je daar mee om?
Oplossing:
Gelukkig zijn er “streaming data” oplossingen opgedoken die uitkomst bieden. De Apache-organisatie heeft populaire oplossingen als Spark en Kafka, waarbij Spark zeer geschikt is voor zowel batchverwerking als streaming processing, terwijl Kafka draait op een publish/subscribe-mechanisme. Amazon Kinesis is ook een oplossing, die een reeks verwante API’s heeft die zijn ontworpen om streaming data te verwerken. Google Cloud Functions (Google Firebase heeft hier ook een versie van) is een andere populaire serverloze functie-API. Al deze oplossingen zijn een geweldige black-box oplossing voor het beheren van complexe verwerking van payloads on the fly, maar ze vereisen allemaal tijd en moeite om data pipelines te bouwen.
Nu, als je je niet wilt bezighouden met de tijd en kosten van het creëren van je eigen data pipeline, dat is waar iets als FlyData van pas kan komen. FlyData repliceert naadloos en veilig uw Postgres-, MySQL- of RDS-gegevens naar Redshift in bijna real-time.
# Verscheidenheid
De echte wereld is rommelig door verschillende soorten gegevens, dus het is logisch dat iedereen die te maken heeft met spannende uitdagingen ook te maken moet krijgen met rommelige gegevens. Data heterogeniteit is vaak een bron van stress bij het opbouwen van een data warehouse. Niet alleen video’s, foto’s en sterk hiërarchisch met elkaar verbonden berichten en tweets op sociale platforms, maar ook basisinformatie van gebruikers kan in wild verschillende datatypes voorkomen. Deze heterogene datasets vormen een grote uitdaging voor big data analytics.
Wanneer vinden we variëteit een probleem:
Bij het consumeren van een groot volume aan data kunnen de data verschillende datatypes hebben (JSON, YAML, xSV (x = C(omma), P(ipe), T(ab), etc.), XML) voordat men ze kan masseren tot een uniform datatype om op te slaan in een datawarehouse. De gegevensverwerking wordt nog pijnlijker wanneer niet gegarandeerd is dat de gegevenskolommen of -sleutels eeuwig zullen blijven bestaan, zoals bij hernoeming, invoering en/of afschrijving van ondersteuning voor sleutels in een API. Men probeert dus niet alleen een verscheidenheid aan gegevenstypen in een uniform gegevenstype te persen, maar ook kunnen de gegevenstypen van tijd tot tijd variëren.
Oplossing:
Een manier om met een verscheidenheid aan gegevenstypen om te gaan, is het vastleggen van elke transformatiemijlpaal die erop wordt toegepast langs de route van uw gegevensverwerkingspijplijn. Eerst slaat u de ruwe gegevens op zoals ze zijn in een data lake (een data lake is een hyperflexibele opslagplaats van gegevens die in hun meest rauwe vorm worden verzameld en bewaard, zoals de bestandsopslag Amazon S3). Transformeer vervolgens de ruwe data met verschillende soorten datatypes in een geaggregeerde en verfijnde staat, die dan kan worden opgeslagen op een andere locatie binnen het data lake, en dan later kan worden geladen in een relationele database of een data warehouse voor datamanagement.
# Veracity
De data in de echte wereld is zo dynamisch dat het moeilijk is om te weten wat juist is en wat onjuist is. Veracity heeft betrekking op de mate van betrouwbaarheid of rommeligheid van gegevens, en als hoger de betrouwbaarheid van de gegevens, dan lager de rommeligheid en vice versa. Veracity en Value bepalen samen de kwaliteit van de gegevens, die data scientists grote inzichten kunnen verschaffen.
Wanneer vinden we Veracity een probleem:
Zie het geval van tweets op Twitter, waarin dingen worden gebruikt als hashtags, ongewoon jargon, afkortingen, typefouten en spreektaal, al deze gegevens hebben veel rommel of ruis en als het volume van de gegevens toeneemt, neemt ook de ruis toe, die soms ook exponentieel kan zijn. De ruis vermindert de algehele kwaliteit van de gegevens, hetgeen van invloed is op de gegevensverwerking en later op het gegevensbeheer van de verwerkte gegevens.
Oplossing:
Als de gegevens niet voldoende betrouwbaar zijn, wordt het belangrijk om alleen gegevens met een hoge waarde te extraheren, omdat het niet altijd zinvol is om alle gegevens te verzamelen die je kunt, omdat het duur is en meer inspanning vergt om dit te doen. Tijdens de gegevensextractie zo vroeg mogelijk in de gegevensverwerkingspijplijn ruis uit de gegevens filteren. Zo blijven alleen benodigde en betrouwbare gegevens over die vervolgens kunnen worden getransformeerd en geladen voor data analytics.
# Waarde
Totdat en tenzij de big data die we hebben niet kunnen worden getransformeerd in iets waardevols, is het nutteloos. Het is heel belangrijk om de kosten van middelen en moeite te begrijpen die worden geïnvesteerd in het verzamelen van big data en hoeveel waarde het oplevert aan het eind van de gegevensverwerking. Waarde is erg belangrijk, omdat het een bedrijf runt door zakelijke beslissingen te beïnvloeden en een concurrentievoordeel te bieden.
Kijk eens naar het geval van Netflix, waar gegevens over het kijk- en bladerpatroon van gebruikers worden verzameld uit verschillende gegevensbronnen en vervolgens worden geëxtraheerd en getransformeerd in de gegevensverwerkingspijplijn om alleen informatie met een hoge waarde te genereren, zoals interesses van gebruikers om nuttige aanbevelingen te kunnen doen. Dit helpt Netflix op zijn beurt om gebruikersverbranding te voorkomen en nog meer gebruikers voor zijn platform aan te trekken. De gegenereerde informatie had van lage waarde kunnen zijn als de gebruiker er niet tevreden mee was geweest. De waarde van big data heeft dus invloed op veel zakelijke beslissingen en biedt een concurrentievoordeel ten opzichte van anderen.
# Conclusie
In het huidige tijdperk zijn er constante stromen van grote hoeveelheden real-time gegevens die stromen van apparaten zoals smartphones, IoT-apparaten, laptops, al deze stromen vormen Big Data, en de 5 V’s zijn belangrijke kenmerken (kader voor big data zo u wilt) die u helpen te identificeren wat u allemaal moet overwegen bij het opschalen van de toestroom van gegevens. Big data speelt een instrumentele rol in vele domeinen zoals artificiële intelligentie, business intelligence, data wetenschappen, en machine learning waar data verwerking (extractie-transformatie-loading) leidt tot nieuwe inzichten, innovatie, en betere besluitvorming. Big data breakdown geeft ook concurrentievoordelen aan degenen die data-analyse doen voordat ze beslissingen nemen ten opzichte van degenen die traditionele data gebruiken om hun bedrijf te runnen. Oplossingen zoals Amazon Redshift zullen zeker een voorsprong bieden op relationele databases voor datawarehousing, terwijl Spark en Kafka veelbelovende oplossingen zijn voor het continu streamen van gegevens naar de datawarehouses.