En la era de la información, los datos ya no son escasos: son abrumadores. La clave está en cribar el abrumador volumen de datos de que disponen las organizaciones y empresas e interpretar correctamente sus implicaciones. Pero para ordenar toda esta información, se necesitan las herramientas de análisis estadístico de datos adecuadas.
Con la actual obsesión por el «big data», los analistas han producido un montón de herramientas y técnicas extravagantes a disposición de las grandes organizaciones. Sin embargo, hay un puñado de herramientas básicas de análisis de datos que la mayoría de las organizaciones no están utilizando… en su detrimento.
Sugerimos comenzar sus esfuerzos de análisis de datos con los siguientes cinco fundamentos -y aprender a evitar sus trampas- antes de avanzar a técnicas más sofisticadas.
Media
La media aritmética, más comúnmente conocida como «el promedio», es la suma de una lista de números dividida por el número de elementos de la lista. La media es útil para determinar la tendencia general de un conjunto de datos o para proporcionar una instantánea rápida de sus datos. Otra ventaja de la media es que es muy fácil y rápida de calcular.
Caída:
Tomada por sí sola, la media es una herramienta peligrosa. En algunos conjuntos de datos, la media también está estrechamente relacionada con la moda y la mediana (otras dos medidas cercanas a la media). Sin embargo, en un conjunto de datos con un alto número de valores atípicos o una distribución sesgada, la media simplemente no proporciona la precisión que usted necesita para una decisión matizada.
Desviación estándar
La desviación estándar, a menudo representada con la letra griega sigma, es la medida de la dispersión de los datos alrededor de la media. Una desviación estándar alta significa que los datos están más dispersos de la media, mientras que una desviación estándar baja señala que más datos se alinean con la media. En una cartera de métodos de análisis de datos, la desviación estándar es útil para determinar rápidamente la dispersión de los puntos de datos.
Peligro:
Al igual que la media, la desviación estándar es engañosa si se toma sola. Por ejemplo, si los datos tienen un patrón muy extraño, como una curva no normal o una gran cantidad de valores atípicos, entonces la desviación estándar no le dará toda la información que necesita.
Regresión
La regresión modela las relaciones entre las variables dependientes y explicativas, que suelen representarse en un gráfico de dispersión. La línea de regresión también designa si esas relaciones son fuertes o débiles. La regresión se enseña comúnmente en los cursos de estadística de la escuela secundaria o de la universidad, con aplicaciones para la ciencia o los negocios en la determinación de las tendencias a lo largo del tiempo.
Peligro:
La regresión no es muy matizada. A veces, los valores atípicos en un gráfico de dispersión (y las razones para ellos) importan significativamente. Por ejemplo, un punto de datos atípico puede representar la entrada de su proveedor más crítico o su producto más vendido. Sin embargo, la naturaleza de una línea de regresión le tienta a ignorar estos valores atípicos. Como ilustración, examine una imagen del cuarteto de Anscombe, en la que los conjuntos de datos tienen exactamente la misma línea de regresión, pero incluyen puntos de datos muy diferentes.
Determinación del tamaño de la muestra
Cuando se mide un conjunto de datos grande o una población, como una fuerza de trabajo, no siempre es necesario recoger información de cada miembro de esa población – una muestra hace el trabajo igual de bien. El truco consiste en determinar el tamaño adecuado para que una muestra sea precisa. Utilizando los métodos de proporción y desviación estándar, podrá determinar con precisión el tamaño correcto de la muestra que necesita para que su recopilación de datos sea estadísticamente significativa.
Peligro:
Cuando se estudia una variable nueva y no probada en una población, es posible que sus ecuaciones de proporción tengan que basarse en ciertas suposiciones. Sin embargo, estas suposiciones podrían ser completamente inexactas. Este error se transmite a la determinación del tamaño de la muestra y luego al resto de su análisis estadístico de datos
Prueba de hipótesis
También llamada prueba t, la prueba de hipótesis evalúa si una determinada premisa es realmente cierta para su conjunto de datos o población. En el análisis de datos y la estadística, se considera que el resultado de una prueba de hipótesis es estadísticamente significativo si los resultados no podrían haber ocurrido por azar. Las pruebas de hipótesis se utilizan en todos los ámbitos, desde la ciencia y la investigación hasta los negocios y la economía
Caída:
Para ser rigurosas, las pruebas de hipótesis deben tener cuidado con los errores comunes. Por ejemplo, el efecto placebo se produce cuando los participantes esperan falsamente un determinado resultado y luego perciben (o consiguen realmente) ese resultado. Otro error común es el efecto Hawthorne (o efecto del observador), que se produce cuando los participantes sesgan los resultados porque saben que están siendo estudiados.
En general, estos métodos de análisis de datos añaden mucha información a su cartera de decisiones, especialmente si nunca ha analizado un proceso o conjunto de datos con estadísticas. Sin embargo, evitar las trampas comunes asociadas a cada método es igual de importante. Una vez que domine estas técnicas fundamentales para el análisis de datos estadísticos, entonces estará listo para avanzar hacia herramientas de análisis de datos más potentes.
Para obtener más información sobre cómo mejorar su análisis de datos estadísticos a través de una potente visualización de datos, haga clic en el botón de abajo para descargar nuestra guía gratuita, «5 consejos para el análisis de datos de seguridad» y comience a convertir sus números abstractos en un éxito medible.