Nell’era dell’informazione, i dati non sono più scarsi – sono schiaccianti. La chiave è setacciare il volume schiacciante di dati disponibili per le organizzazioni e le imprese e interpretarne correttamente le implicazioni. Ma per ordinare tutte queste informazioni, avete bisogno dei giusti strumenti di analisi statistica dei dati.
Con l’attuale ossessione per i “big data”, gli analisti hanno prodotto un sacco di strumenti di fantasia e tecniche disponibili per le grandi organizzazioni. Tuttavia, ci sono una manciata di strumenti di base per l’analisi dei dati che la maggior parte delle organizzazioni non sta utilizzando… a loro discapito.
Suggeriamo di iniziare i vostri sforzi di analisi dei dati con i seguenti cinque fondamenti – e imparare a evitare le loro insidie – prima di avanzare verso tecniche più sofisticate.
Media
La media aritmetica, più comunemente conosciuta come “la media”, è la somma di una lista di numeri divisa per il numero di elementi della lista. La media è utile per determinare la tendenza generale di una serie di dati o per fornire un’istantanea rapida dei vostri dati. Un altro vantaggio della media è che è molto facile e veloce da calcolare.
Pitfall:
Presa da sola, la media è uno strumento pericoloso. In alcune serie di dati, la media è anche strettamente legata alla modalità e alla mediana (altre due misure vicine alla media). Tuttavia, in un set di dati con un alto numero di outlier o una distribuzione asimmetrica, la media semplicemente non fornisce la precisione necessaria per una decisione sfumata.
Deviazione standard
La deviazione standard, spesso rappresentata con la lettera greca sigma, è la misura della diffusione dei dati attorno alla media. Un’alta deviazione standard significa che i dati sono diffusi più ampiamente dalla media, mentre una bassa deviazione standard segnala che più dati si allineano alla media. In un portafoglio di metodi di analisi dei dati, la deviazione standard è utile per determinare rapidamente la dispersione dei punti di dati.
Pitfall:
Proprio come la media, la deviazione standard è ingannevole se presa da sola. Per esempio, se i dati hanno un modello molto strano come una curva non normale o una grande quantità di outlier, allora la deviazione standard non vi darà tutte le informazioni di cui avete bisogno.
Regressione
La regressione modella le relazioni tra le variabili dipendenti e quelle esplicative, che sono di solito rappresentate su un grafico a dispersione. La linea di regressione indica anche se queste relazioni sono forti o deboli. La regressione è comunemente insegnata nei corsi di statistica delle scuole superiori o del college con applicazioni per la scienza o il business nel determinare le tendenze nel tempo.
Pitfall:
La regressione non è molto sfumata. A volte, i valori anomali su un grafico di dispersione (e le ragioni per cui lo sono) hanno un’importanza significativa. Per esempio, un punto di dati anomalo può rappresentare l’input del vostro fornitore più critico o il vostro prodotto più venduto. La natura di una linea di regressione, tuttavia, ti spinge a ignorare questi valori anomali. Come illustrazione, esaminate un’immagine del quartetto di Anscombe, in cui i set di dati hanno la stessa identica linea di regressione ma includono punti dati molto diversi.
Determinazione della dimensione del campione
Quando si misura un grande set di dati o una popolazione, come una forza lavoro, non è sempre necessario raccogliere informazioni da ogni membro di quella popolazione – un campione fa il lavoro altrettanto bene. Il trucco è determinare la giusta dimensione per un campione che sia accurato. Usando i metodi della proporzione e della deviazione standard, siete in grado di determinare accuratamente la giusta dimensione del campione di cui avete bisogno per rendere la vostra raccolta di dati statisticamente significativa.
Pitfall:
Quando studiate una nuova variabile non testata in una popolazione, le vostre equazioni di proporzione potrebbero dover fare affidamento su certe assunzioni. Tuttavia, queste ipotesi potrebbero essere completamente inaccurate. Questo errore viene poi passato alla determinazione della dimensione del campione e quindi al resto dell’analisi statistica dei dati
Test di ipotesi
Comunemente chiamato anche test t, il test di ipotesi valuta se una certa premessa è effettivamente vera per il tuo set di dati o la tua popolazione. Nell’analisi dei dati e nella statistica, si considera il risultato di un test d’ipotesi statisticamente significativo se i risultati non avrebbero potuto verificarsi per caso. I test d’ipotesi sono usati in tutto, dalla scienza e dalla ricerca al business e all’economia
Pitfall:
Per essere rigorosi, i test d’ipotesi devono fare attenzione agli errori comuni. Per esempio, l’effetto placebo si verifica quando i partecipanti si aspettano falsamente un certo risultato e poi percepiscono (o effettivamente ottengono) quel risultato. Un altro errore comune è l’effetto Hawthorne (o effetto osservatore), che si verifica quando i partecipanti distorcono i risultati perché sanno di essere studiati.
In generale, questi metodi di analisi dei dati aggiungono un sacco di informazioni al vostro portafoglio decisionale, in particolare se non avete mai analizzato un processo o un set di dati con le statistiche prima. Tuttavia, evitare le insidie comuni associate a ciascun metodo è altrettanto importante. Una volta padroneggiate queste tecniche fondamentali per l’analisi statistica dei dati, sarete pronti a passare a strumenti di analisi dei dati più potenti.
Per saperne di più su come migliorare la vostra analisi statistica dei dati attraverso una potente visualizzazione dei dati, cliccate sul pulsante qui sotto per scaricare la nostra guida gratuita, “5 consigli per l’analisi dei dati sulla sicurezza” e iniziare a trasformare i vostri numeri astratti in successi misurabili.