Google, Facebook, Netflix, LinkedIn, Twitter y todas las demás plataformas de medios sociales se califican claramente como centros tecnológicos de big data. Pero, ¿cuándo supieron que debían empezar a preocuparse por los datos que tienen? La respuesta es sencilla: todo depende de las características del big data, y de cuándo el procesamiento de datos empieza a invadir las 5 V.
Veamos las 5 Vs del Big Data:
- Volumen, la cantidad de datos
- Velocidad, la frecuencia con la que se crean nuevos datos y es necesario almacenarlos
- Variedad, lo heterogéneos que son los tipos de datos
- Veracidad, la «veracidad» o «desorden» de los datos
- Valor, la importancia de los datos
Volumen
No se está realmente en el mundo del big data a menos que el volumen de datos sea de exabytes, petabytes o más. Los gigantes de la tecnología de big data como Amazon, Shopify y otras plataformas de comercio electrónico obtienen datos estructurados y no estructurados en tiempo real, entre terabytes y zettabytes cada segundo de millones de clientes, especialmente usuarios de smartphones de todo el mundo. Realizan un procesamiento de datos casi en tiempo real y, tras ejecutar algoritmos de aprendizaje automático para realizar análisis de datos sobre big data, toman decisiones para ofrecer la mejor experiencia al cliente.
Cuándo encontramos que el volumen es un problema:
Una búsqueda rápida en la web revela que un disco duro decente de 10TB cuesta al menos 300 dólares. Para manejar un petabyte de datos eso es 100 x $300 USD = $30,000 USD. Tal vez consigas un descuento, pero incluso con un 50% de descuento, estás por encima de los 10.000 dólares sólo en costes de almacenamiento. Imagina que sólo quieres mantener una versión redundante de los datos para la recuperación de desastres. Necesitarías aún más espacio en disco. Por lo tanto, el volumen de datos se convierte en un problema cuando crece más allá de los límites normales y se convierte en una forma ineficiente y costosa de almacenar en dispositivos de almacenamiento local.
Solución:
Amazon Redshift, que es un servicio de almacén de datos en la nube gestionado por AWS es una de las opciones populares para el almacenamiento. Almacena datos distribuidos en múltiples nodos, que son resistentes a los desastres y más rápidos para los cálculos en comparación con las bases de datos relacionales locales como Postgres y MySql. También es fácil replicar los datos de las bases de datos relacionales a Redshift sin ningún tiempo de inactividad.
Para saber más sobre Redshift, echa un vistazo a Redshift vs bases de datos relacionales, Redshift vs Hadoop y Redshift vs almacenes de datos tradicionales.
# Velocidad
Imagine un servicio de aprendizaje automático que está aprendiendo constantemente de un flujo de datos, o una plataforma de medios sociales con miles de millones de usuarios que publican y suben fotos 24x7x365. Cada segundo se producen millones de transacciones, y esto significa que cada segundo se transfieren petabytes y zettabytes de datos desde millones de dispositivos a un centro de datos. Esta tasa de afluencia de datos de alto volumen por segundo define la velocidad de los datos.
Cuándo encontramos la velocidad como un problema:
La alta velocidad de los datos suena muy bien porque – velocidad x tiempo = volumen y el volumen conduce a conocimientos, y los conocimientos conducen al dinero. Sin embargo, este camino hacia el crecimiento de los ingresos no está exento de costes.
Hay muchas preguntas que surgen como, ¿cómo se procesa cada paquete de datos que entra a través de su firewall, en busca de malicia? Cómo se procesan sobre la marcha datos estructurados y no estructurados de tan alta frecuencia? Además, cuando tienes una alta velocidad de datos, eso casi siempre significa que va a haber grandes oscilaciones en la cantidad de datos procesados cada segundo, los tweets en Twitter son mucho más activos durante la Super Bowl que en un martes promedio, ¿cómo manejas eso?
Solución:
Afortunadamente, las soluciones de «streaming data» han surgido al rescate. La organización Apache tiene soluciones populares como Spark y Kafka, donde Spark es genial tanto para el procesamiento por lotes como para el procesamiento de streaming, Kafka funciona con un mecanismo de publicación/suscripción. Amazon Kinesis también es una solución, que cuenta con un conjunto de APIs relacionadas diseñadas para procesar datos en streaming. Google Cloud Functions (Google Firebase también tiene una versión de esto) es otra popular API de funciones sin servidor. Todas ellas son una gran solución de caja negra para gestionar el procesamiento complejo de cargas útiles sobre la marcha, pero todas ellas requieren tiempo y esfuerzo para construir pipelines de datos.
Ahora, si no quieres lidiar con el tiempo y el gasto de crear tu propio pipeline de datos, ahí es donde algo como FlyData podría ser útil. FlyData replica sin problemas y de forma segura sus datos de Postgres, MySQL o RDS en Redshift casi en tiempo real.
# Variedad
El mundo real es desordenado debido a los diferentes tipos de datos, por lo que tiene sentido que cualquier persona que se ocupe de los desafíos emocionantes también deba lidiar con los datos desordenados. La heterogeneidad de los datos es a menudo una fuente de estrés en la construcción de un almacén de datos. No sólo los vídeos, las fotos y las publicaciones y los tweets interconectados de forma muy jerárquica en las plataformas sociales, sino también la información básica de los usuarios pueden presentarse en tipos de datos muy diferentes. Estos conjuntos de datos heterogéneos suponen un gran reto para el análisis de big data.
Cuándo encontramos la variedad como un problema:
Cuando se consume un gran volumen de datos, éstos pueden tener diferentes tipos de datos (JSON, YAML, xSV (x = C(omma), P(ipe), T(ab), etc.), XML) antes de poder masajearlos a un tipo de datos uniforme para almacenarlos en un almacén de datos. El tratamiento de los datos se vuelve aún más doloroso cuando no se garantiza que las columnas de datos o las claves existan para siempre, como cuando se cambia el nombre, se introduce y/o se deja de dar soporte a las claves en una API. Por lo tanto, no sólo se está tratando de exprimir una variedad de tipos de datos en un tipo de datos uniforme, sino que también los tipos de datos pueden variar de vez en cuando.
Solución:
Una forma de lidiar con una variedad de tipos de datos es registrar cada hito de transformación aplicado a lo largo de la ruta de su tubería de procesamiento de datos. En primer lugar, almacene los datos brutos tal cual en un lago de datos ( un lago de datos es un repositorio hiperflexible de datos recogidos y conservados en su forma más cruda, como el almacenamiento de archivos de Amazon S3 ). A continuación, transformar los datos en bruto con diferentes tipos de datos en algún estado agregado y refinado, que luego puede ser almacenado en otra ubicación dentro del lago de datos, y más tarde se puede cargar en una base de datos relacional o un almacén de datos para la gestión de datos.
# Veracidad
Los datos en el mundo real son tan dinámicos que es difícil saber lo que es correcto y lo que es incorrecto. La veracidad se refiere al nivel de confianza o desorden de los datos, y si es mayor la confianza de los datos, entonces menor el desorden y viceversa. La veracidad y el valor definen conjuntamente la calidad de los datos, lo que puede proporcionar grandes conocimientos a los científicos de datos.
Cuándo encontramos la veracidad como un problema:
Considere el caso de los tweets en Twitter, que utilizan cosas como hashtags, jergas poco comunes, abreviaturas, errores tipográficos y el habla coloquial, todos estos datos tienen una gran cantidad de desorden o ruido y a medida que el volumen de datos aumenta el ruido también aumenta con él, que a veces también puede ser exponencial. El ruido reduce la calidad general de los datos, lo que afecta al procesamiento de los datos y, posteriormente, a la gestión de los datos procesados.
Solución:
Si los datos no son lo suficientemente fiables, entonces es importante extraer sólo los datos de alto valor, ya que no siempre tiene sentido recopilar todos los datos que se puedan porque es caro y requiere más esfuerzo para hacerlo. Filtrar los ruidos lo antes posible en la cadena de procesamiento de datos mientras se extraen los datos. Esto deja sólo los datos necesarios y confiables que luego pueden ser transformados y cargados para el análisis de datos.
# Valor
Hasta que y a menos que el big data que tenemos no pueda ser transformado en algo valioso, es inútil. Es muy importante entender el coste de los recursos y el esfuerzo invertido en la recogida de big data y cuánto valor aporta al final del procesamiento de los datos. El valor es muy importante porque es lo que hace funcionar el negocio impactando en las decisiones empresariales y proporcionando una ventaja competitiva.
Consideremos el caso de Netflix donde los datos de patrones de visualización y navegación de los usuarios se recogen de diferentes fuentes de datos y luego se extraen y transforman dentro del pipeline de procesamiento de datos para generar sólo información de alto valor como los intereses de los usuarios para proporcionar recomendaciones útiles. Esto, a su vez, ayuda a Netflix a evitar la pérdida de usuarios y a atraer aún más usuarios a su plataforma. La información generada podría haber tenido poco valor si no hubiera satisfecho al usuario. Por lo tanto, el valor de los big data impacta en muchas decisiones de negocio y proporciona una ventaja competitiva sobre los demás.
# Conclusión
En la era actual, hay constantes flujos de datos en tiempo real de gran volumen que fluyen desde dispositivos como teléfonos inteligentes, dispositivos IoT, ordenadores portátiles, todos estos flujos forman Big Data, y las 5 V’s son características importantes (marco de trabajo para los big data si se quiere) que ayudan a identificar lo que todos deben considerar cuando la afluencia de datos está escalando. Los big data desempeñan un papel fundamental en muchos campos, como la inteligencia artificial, la inteligencia empresarial, las ciencias de los datos y el aprendizaje automático, en los que el procesamiento de los datos (extracción-transformación-carga) conduce a nuevos conocimientos, a la innovación y a una mejor toma de decisiones. El desglose de los big data también da ventajas competitivas a los que hacen análisis de datos antes de la toma de decisiones frente a los que utilizan los datos tradicionales para dirigir su negocio. Soluciones como Amazon Redshift proporcionarán sin duda una ventaja sobre las bases de datos relacionales para el almacenamiento de datos, mientras que Spark y Kafka son soluciones prometedoras para el flujo continuo de datos a los almacenes de datos.