Articles

5 najważniejszych metod statystycznej analizy danych

Posted on

W erze informacji dane nie są już rzadkością – są wręcz obezwładniające. Kluczem jest przebrnięcie przez przytłaczającą ilość danych dostępnych dla organizacji i firm oraz właściwa interpretacja ich implikacji. Ale aby posortować wszystkie te informacje, potrzebujesz odpowiednich narzędzi do statystycznej analizy danych.

Przy obecnej obsesji na punkcie „big data” analitycy stworzyli wiele wymyślnych narzędzi i technik dostępnych dla dużych organizacji. Istnieje jednak kilka podstawowych narzędzi do analizy danych, z których większość organizacji nie korzysta… ze szkodą dla siebie.

Proponujemy rozpoczęcie analizy danych od pięciu poniższych podstaw – i nauczenie się unikania ich pułapek – przed przejściem do bardziej zaawansowanych technik.

Średnia

Średnia arytmetyczna, bardziej znana jako „średnia”, jest sumą listy liczb podzieloną przez liczbę pozycji na liście. Średnia jest przydatna w określaniu ogólnego trendu w zbiorze danych lub w dostarczaniu szybkiej migawki danych. Kolejną zaletą średniej jest to, że jest ona bardzo łatwa i szybka do obliczenia.

Wpadka:

Patrząc na nią samodzielnie, średnia jest niebezpiecznym narzędziem. W niektórych zestawach danych, średnia jest również ściśle związana z trybem i medianą (dwie inne miary w pobliżu średniej). Jednak w przypadku danych z dużą liczbą wartości odstających lub w przypadku rozkładu skośnego, średnia po prostu nie zapewnia dokładności, której potrzebujesz do podjęcia właściwej decyzji.

Odchylenie standardowe

Odchylenie standardowe, często przedstawiane za pomocą greckiej litery sigma, jest miarą rozrzutu danych wokół średniej. Wysokie odchylenie standardowe oznacza, że dane są rozłożone szerzej od średniej, podczas gdy niskie odchylenie standardowe sygnalizuje, że więcej danych jest zgodnych ze średnią. W portfolio metod analizy danych, odchylenie standardowe jest przydatne do szybkiego określenia rozproszenia punktów danych.

Pitfall:

Tak jak średnia, odchylenie standardowe jest zwodnicze, jeśli jest brane samodzielnie. Na przykład, jeśli dane mają bardzo dziwny wzór, taki jak krzywa nienormalna lub duża ilość wartości odstających, wtedy odchylenie standardowe nie da ci wszystkich informacji, których potrzebujesz.

Regresja

Regresja modeluje związki pomiędzy zmiennymi zależnymi i objaśniającymi, które są zwykle przedstawione na wykresie rozrzutu. Linia regresji określa również, czy te związki są silne czy słabe. Regresja jest powszechnie nauczana na kursach statystyki w szkole średniej lub wyższej, z zastosowaniami w nauce lub biznesie do określania trendów w czasie.

Pitfall:

Regresja nie jest bardzo zniuansowana. Czasami wartości odstające na wykresie rozrzutu (i ich przyczyny) mają duże znaczenie. Na przykład, odstający punkt danych może reprezentować dane wejściowe od najbardziej krytycznego dostawcy lub najlepiej sprzedającego się produktu. Natura linii regresji kusi jednak, aby zignorować te wartości odstające. Jako ilustrację, proszę przeanalizować zdjęcie kwartetu Anscombe’a, w którym zestawy danych mają dokładnie taką samą linię regresji, ale zawierają bardzo różne punkty danych.

Określenie wielkości próby

Przy pomiarze dużego zestawu danych lub populacji, jak np. siła robocza, nie zawsze trzeba zbierać informacje od każdego członka tej populacji – próbka wykonuje to zadanie równie dobrze. Sztuką jest określenie właściwego rozmiaru próbki, aby była ona dokładna. Korzystając z metod proporcji i odchylenia standardowego, można dokładnie określić odpowiednią wielkość próby, która jest potrzebna, aby zebrane dane były statystycznie istotne.

Pitfall:

Podczas badania nowej, niesprawdzonej zmiennej w populacji, równania proporcji mogą wymagać przyjęcia pewnych założeń. Założenia te mogą być jednak całkowicie niedokładne. Ten błąd jest następnie przekazywany do określenia wielkości próby, a następnie do reszty analizy danych statystycznych

Testowanie hipotez

Zwany również testem t, testowanie hipotez ocenia czy pewne założenie jest rzeczywiście prawdziwe dla twojego zestawu danych lub populacji. W analizie danych i statystyce, wynik testu hipotezy uważa się za statystycznie istotny, jeśli wyniki nie mogły się pojawić przypadkowo. Testy hipotez są stosowane we wszystkim, od nauki i badań po biznes i ekonomię

Pitfall:

Aby być rygorystycznym, testy hipotez muszą uważać na powszechne błędy. Na przykład, efekt placebo występuje wtedy, gdy uczestnicy fałszywie oczekują określonego rezultatu, a następnie postrzegają (lub faktycznie osiągają) ten rezultat. Innym częstym błędem jest efekt Hawthorne’a (lub efekt obserwatora), który występuje, gdy uczestnicy przekłamują wyniki, ponieważ wiedzą, że są badani.

Ogółem, te metody analizy danych wnoszą wiele do Twojego portfela decyzyjnego, szczególnie jeśli nigdy wcześniej nie analizowałeś procesu lub zbioru danych za pomocą statystyk. Równie ważne jest jednak unikanie typowych pułapek związanych z każdą z metod. Po opanowaniu tych podstawowych technik statystycznej analizy danych, można przejść do bardziej zaawansowanych narzędzi analizy danych.

Aby dowiedzieć się więcej o ulepszaniu statystycznej analizy danych poprzez potężną wizualizację danych, kliknij poniższy przycisk, aby pobrać nasz darmowy przewodnik „5 Tips for Security Data Analysis” i zacząć przekształcać abstrakcyjne liczby w wymierny sukces.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *