Na Era da Informação, os dados já não são escassos – são avassaladores. A chave é peneirar o volume esmagador de dados disponíveis para as organizações e empresas e interpretar correctamente as suas implicações. Mas para classificar toda esta informação, são necessárias as ferramentas certas de análise de dados estatísticos.
Com a obsessão actual por “grandes dados”, os analistas produziram muitas ferramentas e técnicas extravagantes disponíveis para as grandes organizações. No entanto, há um punhado de ferramentas básicas de análise de dados que a maioria das organizações não está a utilizar…em seu detrimento.
Sugerimos iniciar os seus esforços de análise de dados com os cinco fundamentos seguintes – e aprender a evitar as suas armadilhas – antes de avançar para técnicas mais sofisticadas.
Mean
A média aritmética, mais comummente conhecida como “a média”, é a soma de uma lista de números dividida pelo número de itens da lista. A média é útil para determinar a tendência geral de um conjunto de dados ou para fornecer um instantâneo rápido dos seus dados. Outra vantagem da média é que é muito fácil e rápida de calcular.
Pitfall:
Apenas a média, a média é uma ferramenta perigosa. Em alguns conjuntos de dados, a média está também intimamente relacionada com o modo e a mediana (duas outras medidas próximas da média). No entanto, num conjunto de dados com um elevado número de valores aberrantes ou uma distribuição distorcida, a média simplesmente não fornece a precisão necessária para uma decisão matizada.
Desvio padrão
O desvio padrão, frequentemente representado com a letra grega sigma, é a medida de uma dispersão de dados em torno da média. Um desvio-padrão elevado significa que os dados se espalham mais amplamente a partir da média, onde um desvio-padrão baixo sinaliza que mais dados se alinham com a média. Numa carteira de métodos de análise de dados, o desvio padrão é útil para determinar rapidamente a dispersão de pontos de dados.
Pitfall:
Apenas como a média, o desvio padrão é enganoso se tomado isoladamente. Por exemplo, se os dados tiverem um padrão muito estranho, como uma curva não-normal ou uma grande quantidade de outliers, então o desvio padrão não lhe dará toda a informação necessária.
Regressão
Modelos de regressão as relações entre variáveis dependentes e explicativas, que normalmente são cartografadas num gráfico de dispersão. A linha de regressão também designa se essas relações são fortes ou fracas. A regressão é geralmente ensinada em cursos de estatística do ensino secundário ou universitário com aplicações para ciência ou negócios na determinação de tendências ao longo do tempo.
Pitfall:
Regressão não é muito matizada. Por vezes, os valores aberrantes num “scatterplot” (e as razões para eles) têm uma importância significativa. Por exemplo, um ponto de dados periférico pode representar a entrada do seu fornecedor mais crítico ou o seu produto mais vendido. A natureza de uma linha de regressão, contudo, tenta-o a ignorar estes valores aberrantes. Como ilustração, examine uma imagem do quarteto de Anscombe, em que os conjuntos de dados têm exactamente a mesma linha de regressão mas incluem pontos de dados muito diferentes.
Determinação do tamanho da amostra
Ao medir um grande conjunto de dados ou população, como uma força de trabalho, nem sempre precisa de recolher informações de cada membro dessa população – uma amostra faz o trabalho da mesma forma. O truque é determinar o tamanho certo para que uma amostra seja exacta. Utilizando métodos de proporção e desvio padrão, é possível determinar com precisão o tamanho certo da amostra necessária para tornar a sua recolha de dados estatisticamente significativa.
Pitfall:
Ao estudar uma variável nova, não testada, numa população, as suas equações de proporção podem ter de se basear em certas suposições. No entanto, estas suposições podem ser completamente imprecisas. Este erro é então passado para a sua determinação do tamanho da amostra e depois para o resto da sua análise de dados estatísticos
Testes de Tipotese
Tão vulgarmente chamados testes t, os testes de hipóteses avaliam se uma certa premissa é realmente verdadeira para o seu conjunto de dados ou população. Na análise de dados e estatística, considera-se o resultado de um teste de hipóteses estatisticamente significativo se os resultados não pudessem ter acontecido por acaso. Os testes de hipóteses são utilizados em tudo, desde a ciência e investigação até aos negócios e economia
Pitfall:
Para serem rigorosos, os testes de hipóteses precisam de estar atentos a erros comuns. Por exemplo, o efeito placebo ocorre quando os participantes esperam falsamente um determinado resultado e depois percebem (ou realmente alcançam) esse resultado. Outro erro comum é o efeito Hawthorne (ou efeito observador), que ocorre quando os participantes enviesam os resultados porque sabem que estão a ser estudados.
Overtudo, estes métodos de análise de dados acrescentam muita perspicácia à sua carteira de decisões, particularmente se nunca analisou um processo ou conjunto de dados com estatísticas antes. Contudo, evitar as armadilhas comuns associadas a cada método é igualmente importante. Uma vez dominadas estas técnicas fundamentais para análise de dados estatísticos, então está pronto para avançar para ferramentas de análise de dados mais poderosas.
Para aprender mais sobre como melhorar a sua análise de dados estatísticos através da visualização de dados poderosos, clique no botão abaixo para descarregar o nosso guia gratuito, “5 Dicas para Análise de Dados de Segurança” e começar a transformar os seus números abstractos em sucesso mensurável.