Google, Facebook, Netflix, LinkedIn, Twitter et toutes les autres plateformes de médias sociaux se qualifient clairement de centres technologiques du Big Data. Mais quand ont-ils su qu’il fallait commencer à se préoccuper des données qu’ils possèdent ? La réponse est simple – tout dépend des caractéristiques du big data, et du moment où le traitement des données commence à empiéter sur les 5 V.
Voyons les 5 V du big data :
- Volume, la quantité de données
- Velocity, la fréquence à laquelle de nouvelles données sont créées et doivent être stockées
- Variété, l’hétérogénéité des types de données
- Veracity, la » véracité » ou le » désordre » des données
- Valeur, l’importance des données
# Volume
Vous n’êtes pas vraiment dans le monde du big data à moins que le volume de données soit des exaoctets, des pétaoctets ou plus. Les géants de la technologie du big data comme Amazon, Shopify et d’autres plateformes de commerce électronique obtiennent des données en temps réel, structurées et non structurées, se situant entre des téraoctets et des zettaoctets chaque seconde, de la part de millions de clients, en particulier des utilisateurs de smartphones du monde entier. Ils effectuent un traitement des données en temps quasi réel et après avoir exécuté des algorithmes d’apprentissage automatique pour effectuer des analyses de données sur le big data, ils prennent des décisions pour offrir la meilleure expérience client.
Quand nous trouvons le volume comme un problème :
Une recherche rapide sur le Web révèle qu’un disque dur décent de 10 To coûte au moins 300 $. Pour gérer un pétaoctet de données, cela fait 100 x 300 dollars américains = 30 000 dollars américains. Vous bénéficierez peut-être d’une remise, mais même avec une réduction de 50 %, les coûts de stockage dépassent largement les 10 000 USD. Imaginez que vous souhaitiez simplement conserver une version redondante des données pour la reprise après sinistre. Vous auriez besoin d’encore plus d’espace disque. Dès lors, le volume de données devient un problème lorsqu’il dépasse les limites normales et devient un moyen inefficace et coûteux de stocker sur des périphériques de stockage locaux.
Solution:
Amazon Redshift, qui est un service d’entrepôt de données en nuage géré par AWS est l’une des options populaires pour le stockage. Il stocke des données distribuées sur plusieurs nœuds, qui sont résilients aux catastrophes et plus rapides pour les calculs par rapport aux bases de données relationnelles sur site comme Postgres et MySql. Il est également facile de répliquer les données des bases de données relationnelles vers Redshift sans aucun temps d’arrêt.
Pour en savoir plus sur Redshift, jetez un œil à Redshift vs bases de données relationnelles, Redshift vs Hadoop et Redshift vs entrepôts de données traditionnels.
# Velocity
Imaginez un service d’apprentissage automatique qui apprend constamment à partir d’un flux de données, ou une plateforme de médias sociaux avec des milliards d’utilisateurs qui publient et téléchargent des photos 24x7x365. Chaque seconde, des millions de transactions ont lieu, ce qui signifie que des pétaoctets et des zettaoctets de données sont transférés de millions d’appareils vers un centre de données chaque seconde. Ce taux d’afflux de données à haut volume par seconde définit la vélocité des données.
Quand trouvons-nous la vélocité comme un problème :
Les données à haute vélocité semblent géniales car – vélocité x temps = volume et le volume conduit à des insights, et les insights conduisent à de l’argent. Cependant, ce chemin pour augmenter les revenus n’est pas sans coûts.
Il y a beaucoup de questions qui se posent comme, comment traiter chaque paquet de données qui passe par votre pare-feu, pour la malveillance ? Comment traiter à la volée des données structurées et non structurées d’une telle fréquence ? De plus, lorsque vous avez une grande vélocité de données, cela signifie presque toujours qu’il va y avoir de grandes fluctuations dans la quantité de données traitées chaque seconde, les tweets sur Twitter sont beaucoup plus actifs pendant le Super Bowl que lors d’un mardi moyen, comment gérez-vous cela ?
Solution:
Heureusement, des solutions de « streaming data » ont surgi à la rescousse. L’organisation Apache a des solutions populaires comme Spark et Kafka, où Spark est excellent pour le traitement par lots et le traitement en continu, Kafka fonctionne sur un mécanisme de publication/abonnement. Amazon Kinesis est également une solution, qui dispose d’un ensemble d’API connexes conçues pour traiter les données en continu. Google Cloud Functions (Google Firebase en possède également une version) est une autre API de fonction sans serveur très populaire. Toutes ces solutions constituent une excellente boîte noire pour gérer le traitement complexe des charges utiles à la volée, mais elles nécessitent toutes du temps et des efforts pour construire des pipelines de données.
Maintenant, si vous ne voulez pas vous occuper du temps et des dépenses nécessaires pour créer votre propre pipeline de données, c’est là que quelque chose comme FlyData pourrait être utile. FlyData réplique de manière transparente et sécurisée vos données Postgres, MySQL ou RDS dans Redshift en quasi temps réel.
Notre monde réel est désordonné en raison de différents types de données, il est donc logique que quiconque s’occupe de défis passionnants doive également gérer des données désordonnées. L’hétérogénéité des données est souvent une source de stress lors de la constitution d’un entrepôt de données. Non seulement les vidéos, les photos, les messages et les tweets hautement hiérarchisés des plateformes sociales, mais aussi les informations de base sur les utilisateurs peuvent se présenter sous des formes très différentes. Ces ensembles de données hétérogènes possèdent un grand défi pour l’analyse des big data.
Quand trouvons-nous la variété comme un problème :
Lors de la consommation d’un grand volume de données, les données peuvent avoir différents types de données (JSON, YAML, xSV (x = C(omma), P(ipe), T(ab), etc.), XML) avant que l’on puisse les masser vers un type de données uniforme pour les stocker dans un entrepôt de données. Le traitement des données devient encore plus pénible lorsque l’existence des colonnes de données ou des clés n’est pas garantie pour toujours, par exemple en cas de renommage, d’introduction et/ou de suppression de la prise en charge des clés dans une API. Ainsi, non seulement on essaie de serrer une variété de types de données dans un type de données uniforme, mais aussi les types de données peuvent varier de temps en temps.
Solution:
Une façon de traiter une variété de types de données est d’enregistrer chaque jalon de transformation qui lui est appliqué le long du parcours de votre pipeline de traitement des données. Tout d’abord, stockez les données brutes telles quelles dans un lac de données( un lac de données est un référentiel hyper-flexible de données collectées et conservées dans leur forme la plus brute, comme le stockage de fichiers Amazon S3 ). Ensuite, transformer les données brutes avec différents types de données dans un certain état agrégé et raffiné, qui peut ensuite être stocké dans un autre emplacement à l’intérieur du lac de données, puis plus tard peut être chargé dans une base de données relationnelle ou un entrepôt de données pour la gestion des données.
# Veracity
Les données dans le monde réel sont si dynamiques qu’il est difficile de savoir ce qui est juste et ce qui est faux. La véracité fait référence au niveau de confiance ou de désordre des données, et si la confiance des données est plus élevée, alors le désordre est plus faible et vice versa. La véracité et la valeur définissent toutes deux la qualité des données, ce qui peut fournir de grandes informations aux data scientists.
Quand trouvons-nous la véracité comme un problème :
Pensez au cas des tweets sur Twitter, qui utilisent des choses comme les hashtags, les argot peu communs, les abréviations, les typos et le langage familier, toutes ces données ont beaucoup de désordre ou de bruit et comme le volume de données augmente, le bruit augmente également avec lui, ce qui peut être parfois exponentiel aussi. Le bruit réduit la qualité globale des données affectant le traitement des données et plus tard la gestion des données traitées.
Solution:
Si les données ne sont pas suffisamment dignes de confiance, il devient alors important d’extraire uniquement les données à haute valeur ajoutée car il n’est pas toujours judicieux de collecter toutes les données possibles car cela coûte cher et demande plus d’efforts pour le faire. Filtrer les bruits le plus tôt possible dans le pipeline de traitement des données pendant l’extraction des données. Cela ne laisse que les données requises et dignes de confiance qui peuvent ensuite être transformées et chargées pour l’analyse des données.
Valeur
Jusqu’à ce que les big data dont nous disposons ne puissent pas être transformées en quelque chose de précieux, elles sont inutiles. Il est très important de comprendre le coût des ressources et des efforts investis dans la collecte du big data et la valeur qu’il apporte à la fin du traitement des données. La valeur est très importante car c’est ce qui fait fonctionner l’entreprise en ayant un impact sur les décisions commerciales et en fournissant un avantage concurrentiel.
Prenons le cas de Netflix, où les données relatives aux modèles de visualisation et de navigation des utilisateurs sont collectées à partir de différentes sources de données, puis extraites et transformées dans le pipeline de traitement des données pour générer uniquement des informations à forte valeur, comme les intérêts des utilisateurs, afin de fournir des recommandations utiles. Cela permet à Netflix d’éviter la désaffection des utilisateurs et d’attirer encore plus d’utilisateurs sur sa plateforme. Les informations générées auraient pu être de faible valeur si elles n’avaient pas satisfait l’utilisateur. Par conséquent, la valeur du big data a un impact sur de nombreuses décisions d’affaires et fournit un avantage concurrentiel sur les autres.
# Conclusion
À l’époque actuelle, il y a des flux constants de données en temps réel à haut volume provenant d’appareils comme les smartphones, les appareils IoT, les ordinateurs portables, tous ces flux forment le big data, et les 5 V sont des caractéristiques importantes (cadre pour le big data si vous voulez) qui vous aident à identifier ce que tout doit prendre en compte lorsque l’afflux de données augmente. Le big data joue un rôle déterminant dans de nombreux domaines tels que l’intelligence artificielle, la veille économique, les sciences des données et l’apprentissage automatique, où le traitement des données (extraction-transformation-chargement) débouche sur de nouvelles perspectives, l’innovation et une meilleure prise de décision. La ventilation du big data donne également des avantages concurrentiels à ceux qui font de l’analyse de données avant de prendre des décisions par rapport à ceux qui utilisent des données traditionnelles pour gérer leur entreprise. Des solutions comme Amazon Redshift offriront certainement un avantage sur les bases de données relationnelles pour l’entreposage de données, tandis que Spark et Kafka sont des solutions prometteuses pour le streaming continu de données vers les entrepôts de données.