Articles

5 Belangrijkste methoden voor statistische gegevensanalyse

Posted on

In het informatietijdperk zijn gegevens niet langer schaars – ze zijn overheersend. Het komt erop aan de overweldigende hoeveelheid gegevens waarover organisaties en bedrijven beschikken, te sorteren en de implicaties ervan correct te interpreteren. Maar om al deze informatie te sorteren, hebt u de juiste statistische analysetools nodig.

Door de huidige obsessie met “big data” hebben analisten een heleboel fancy tools en technieken ontwikkeld die beschikbaar zijn voor grote organisaties. Er zijn echter een handvol basisgereedschappen voor gegevensanalyse die de meeste organisaties niet gebruiken.

Wij stellen voor uw gegevensanalyse-inspanningen te beginnen met de volgende vijf basisgereedschappen – en hun valkuilen te leren vermijden – voordat u verder gaat met meer geavanceerde technieken.

Gemiddelde

Het rekenkundig gemiddelde, beter bekend als “het gemiddelde”, is de som van een lijst getallen gedeeld door het aantal items op de lijst. Het gemiddelde is nuttig om de algemene trend van een gegevensverzameling te bepalen of om een snelle momentopname van uw gegevens te maken. Een ander voordeel van het gemiddelde is dat het heel gemakkelijk en snel te berekenen is.

Pitfall:

Op zichzelf beschouwd is het gemiddelde een gevaarlijk instrument. In sommige gegevensverzamelingen is het gemiddelde ook nauw verwant met de modus en de mediaan (twee andere metingen in de buurt van het gemiddelde). Maar in een dataset met veel uitschieters of een scheve verdeling biedt het gemiddelde niet de nauwkeurigheid die u nodig hebt voor een genuanceerde beslissing.

Standaardafwijking

De standaardafwijking, vaak weergegeven met de Griekse letter sigma, is de maat voor de spreiding van gegevens rond het gemiddelde. Een hoge standaardafwijking betekent dat de gegevens verder van het gemiddelde af liggen, terwijl een lage standaardafwijking aangeeft dat meer gegevens op één lijn liggen met het gemiddelde. In een portefeuille van methoden voor gegevensanalyse is de standaardafwijking nuttig om snel de spreiding van gegevenspunten te bepalen.

Pitfall:

Net als het gemiddelde is de standaardafwijking bedrieglijk als deze alleen wordt genomen. Als de gegevens bijvoorbeeld een heel vreemd patroon vertonen, zoals een niet-normale curve of een groot aantal uitschieters, dan geeft de standaardafwijking u niet alle informatie die u nodig hebt.

Regressie

Regressie modelleert de relaties tussen afhankelijke en verklarende variabelen, die gewoonlijk op een scatterplot in kaart worden gebracht. De regressielijn geeft ook aan of die relaties sterk of zwak zijn. Regressie wordt vaak onderwezen in statistiekcursussen op middelbare scholen of universiteiten, met toepassingen voor de wetenschap of het bedrijfsleven bij het bepalen van trends in de tijd.

Pitfall:

Regressie is niet erg genuanceerd. Soms zijn de uitschieters op een scatterplot (en de redenen daarvoor) van groot belang. Een afwijkend gegevenspunt kan bijvoorbeeld de input van uw meest kritische leverancier of uw best verkopende product zijn. De aard van een regressielijn brengt u er echter toe deze uitschieters te negeren. Bekijk ter illustratie een plaatje van het kwartet van Anscombe, waarin de datasets precies dezelfde regressielijn hebben maar zeer verschillende datapunten bevatten.

Bepaling van de steekproefgrootte

Bij het meten van een grote dataset of populatie, zoals een personeelsbestand, hoeft u niet altijd informatie te verzamelen van elk lid van die populatie – een steekproef doet het werk net zo goed. De truc is om de juiste grootte van een steekproef te bepalen om accuraat te zijn. Met behulp van verhoudings- en standaardafwijkingsmethoden kunt u nauwkeurig de juiste steekproefgrootte bepalen die u nodig hebt om uw gegevensverzameling statistisch significant te maken.

Pitfall:

Bij het bestuderen van een nieuwe, niet-geteste variabele in een populatie, moeten uw verhoudingsvergelijkingen wellicht op bepaalde aannames berusten. Deze aannames kunnen echter volledig onjuist zijn. Deze fout wordt dan doorberekend in de bepaling van de steekproefgrootte en vervolgens in de rest van de statistische gegevensanalyse

Hypothesetest

Ook wel t-tests genoemd, bij hypothesetests wordt nagegaan of een bepaalde aanname ook echt waar is voor uw gegevensverzameling of populatie. In data-analyse en statistiek beschouw je het resultaat van een hypothesetest als statistisch significant als de resultaten niet door willekeurig toeval kunnen zijn ontstaan. Hypothesetests worden overal gebruikt, van wetenschap en onderzoek tot het bedrijfsleven en de economie

Pitfall:

Om rigoureus te zijn, moeten hypothesetests waken voor veelgemaakte fouten. Het placebo-effect treedt bijvoorbeeld op wanneer deelnemers ten onrechte een bepaald resultaat verwachten en dat resultaat vervolgens waarnemen (of ook werkelijk bereiken). Een andere veel voorkomende fout is het Hawthorne-effect (of waarnemerseffect), dat optreedt wanneer deelnemers de resultaten verdraaien omdat ze weten dat ze worden bestudeerd.

Over het geheel genomen voegen deze methoden van gegevensanalyse veel inzicht toe aan uw besluitvormingsportfolio, vooral als u nog nooit een proces of gegevensreeks met behulp van statistieken hebt geanalyseerd. Het vermijden van de veel voorkomende valkuilen die met elke methode samenhangen, is echter net zo belangrijk. Als u deze fundamentele technieken voor statistische gegevensanalyse eenmaal onder de knie hebt, bent u klaar om verder te gaan met krachtigere gegevensanalysetools.

Om meer te weten te komen over het verbeteren van uw statistische gegevensanalyse door middel van krachtige gegevensvisualisatie, klikt u op de knop hieronder om onze gratis gids “5 tips voor veiligheidsgegevensanalyse” te downloaden en te beginnen met het omzetten van uw abstracte cijfers in meetbaar succes.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *