3.2 Łagodne wprowadzenie do analizy czynnikowej
Gdy badacz zmierzył wiele zmiennych, które wykazują pewne istotne korelacje ze sobą, użyteczne może być zredukowanie liczby zmiennych poprzez sklasyfikowanie ich w grupy według korelacji. Jednakże, kiedy liczba zmiennych jest duża, a wzór korelacji między nimi jest złożony, nie jest łatwo zobaczyć, które zmienne powinny być połączone w grupę. W tym celu stosuje się statystyczną technikę analizy czynnikowej. Analiza czynnikowa pozwala badaczowi zredukować wiele specyficznych cech do kilku bardziej ogólnych „czynników” lub grup cech, z których każda zawiera kilka specyficznych cech.
Analiza czynnikowa może być stosowana z wieloma rodzajami zmiennych, nie tylko z cechami osobowości. Rozważmy następujący przykład analizy czynnikowej. Załóżmy, że namówiłem kilkuset moich wysportowanych, zdrowych, młodych osobowościowo studentów, aby przebrali się w stroje gimnastyczne i wykonali baterię testów fizycznych. Oto zmienne, na których moi studenci mają być mierzeni:
skok pionowy (wysokość skoku z pozycji kucznej),
40-jardowy bieg (czas sprintu na 40 jardów lub 36.5 m),
Skok trójskoczkowy stojący (odległość skoku, kroku, skoku ze startu stojącego),
Bieg 12-minutowy (dystans przebiegnięty w ciągu 12 min),
2-km wiosłowanie (czas wiosłowania na dystansie 2 km, czyli 1.25 mil, na maszynie wioślarskiej),
20-min cykl (dystans przejechany na rowerze w ciągu 20 min na standardowym rowerze treningowym),
procent włókien mięśniowych o szybkim splocie (z próbki tkanki pobranej z uda), i
procent tkanki tłuszczowej (mierzony suwmiarką fałdu skórnego).
Teraz załóżmy, że zmierzyłem moich studentów w zakresie tych zmiennych. Korelacje między tymi zmiennymi są pokazane w tabeli 3.1. (Zauważ, że wszystkie te dane są sztuczne. Tak naprawdę nie zmierzyłem nikogo pod kątem tych zmiennych, więc te korelacje są wymyślone na potrzeby tego przykładu. Ale korelacje prawdopodobnie nie są zbyt dalekie od tego, co można by znaleźć w prawdziwym życiu.)
Tabela 3.1. Korelacje między sprawnością fizyczną a pomiarami fizjologicznymi
Zmienne | VJ | Kreska | TJ | Run | Row | Cycle | Type | Fat |
---|---|---|---|---|---|---|---|---|
Wysokość skoku pionowego (VJ) | 1.00 | |||||||
40-Yard (36-m) dash time (dash) | -.52 | 1.00 | ||||||
Odległość trójskoku na stojąco (TJ) | .56 | -.60 | 1.00 | |||||
Dystans biegu 12-minutowego (run) | .00 | .01 | .00 | 1.00 | ||||
2-km (1.25-mile) czas wiosłowania (rząd) | -.01 | .00 | .01 | -.54 | 1.00 | |||
20-min odległość cyklu (cykl) | .00 | -.01 | .00 | .58 | -.50 | 1.00 | ||
Odsetek włókien mięśniowych typu fast-twitch (typ) | .30 | -.26 | .22 | -.29 | .25 | -.21 | 1.00 | |
Procentowa zawartość tłuszczu w organizmie (fat) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 |
To są hipotetyczne (wyimaginowane) dane.
Macierz korelacji w tabeli 3.1 pokazuje, jak każda zmienna jest skorelowana z każdą inną zmienną. Szukając nazwy jednej zmiennej u góry i drugiej zmiennej z boku, a następnie znajdując komórkę, w której spotykają się kolumna jednej zmiennej i wiersz drugiej zmiennej, można zobaczyć korelację między tymi dwiema zmiennymi. (Jeśli komórka jest pusta, po prostu zamień miejscami dwie zmienne; ja wypełniłem tylko jedną połowę macierzy, ponieważ korelacja A z B jest taka sama jak korelacja B z A. Na przekątnych wstawiłem 1.00, ponieważ korelacja każdej zmiennej z samą sobą wynosi 1.00.)
Zauważ w Tabeli 3.1, że istnieją dość silne korelacje pomiędzy pierwszymi trzema zmiennymi. Skok pionowy i trójskok na stojąco wykazują silną dodatnią korelację ze sobą, a czas 40-jardowego skoku dosiężnego koreluje ujemnie z obiema zmiennymi. Najwyraźniej zdolność do skoku wzwyż i zdolność do skoku w przód są ze sobą powiązane, a obie są związane z umiejętnością szybkiego sprintu. Zauważ, że korelacje skoków z 40-yard dash są ujemne, ponieważ ludzie, którzy wzięli długi czas do sprintu 40 jardów nie skakać bardzo wysokie lub bardzo daleko.
Zauważ również, że istnieją dość silne korelacje między drugimi trzech zmiennych. Dystans 12 minut biegu i dystans 20 minut jazdy na rowerze są dodatnio skorelowane ze sobą, a ujemnie z czasem wiosłowania na 2 km. Najwyraźniej zdolność do biegania na długim dystansie i do jazdy na rowerze na długim dystansie są ze sobą powiązane, a obie są powiązane ze zdolnością do wiosłowania na długim dystansie. Zauważ, że korelacje dystansów biegu i cyklu z czasem wiosłowania są ujemne, ponieważ ludzie, którzy zajęli dużo czasu, aby wiosłować 2 km nie biegali lub nie jeździli na rowerze bardzo daleko.
W odniesieniu do tych dwóch grup trzech zmiennych, zauważ, że korelacje w obu grupach są dość słabe. Korelacje skoku pionowego, 40-jardowego sprintu i trójskoku na stojąco z 12-minutowym biegiem, dwukilometrowym wioślarstwem i 20-minutowym cyklem są bliskie zeru. Wskazuje to, że wydajność osoby na pierwszych trzech testów nie daje nam żadnych wskazówek, jak ta osoba będzie wykonywać na drugim trzech testów, i vice versa.
Teraz rozważmy ostatnie dwie zmienne. Po pierwsze, procent włókien mięśniowych szybkosprzężonych wykazuje pewne skromne korelacje z pierwszymi trzema zmiennymi (dodatnie ze skokiem pionowym, ujemne z czasem sprintu na 40 jardów i dodatnie z trójskokiem na stojąco), a także z drugimi trzema zmiennymi (ujemne z dystansem 12-minutowego biegu, dodatnie z czasem wiosłowania na 2 km i ujemne z dystansem 20-minutowego cyklu). Wyniki te wskazują, że ludzie z wyższym odsetkiem mięśni szybkorozciągliwych mają tendencję do stosunkowo dobrze w pierwszych trzech wydarzeniach, ale stosunkowo słabo w ostatnich trzech wydarzeniach.
Wreszcie, procent tkanki tłuszczowej wykazuje pewne skromne korelacje ze wszystkimi sześcioma zmiennymi (negatywne z pionowym skoku, pozytywne z 40-jardowy czas sprintu, negatywne z stojąc potrójny skok, negatywne z 12-min odległość biegu, pozytywne z 2-km czas wiersza, i negatywne z 20-min odległość rower). Wyniki te wskazują, że osoby z wyższym procentem tkanki tłuszczowej mają tendencję do wykonywania stosunkowo słabo we wszystkich sześciu wydarzeniach.
Zobaczmy teraz, co się dzieje, gdy analizujemy czynnikowo te korelacje. Zgodnie z analizą czynnikową, korelacje pomiędzy ośmioma mierzonymi zmiennymi wskazują, że zmienne te można podzielić na dwie grupy lub czynniki.3 Tabela 3.2 przedstawia te dwa czynniki poprzez wskazanie, jak silnie każda zmienna należy do każdej grupy – lub, używając bardziej technicznych terminów, jak bardzo każda zmienna „obciąża” każdy „czynnik”.”
Tabela 3.2. Obciążenia sprawności fizycznej i pomiarów fizjologicznych na dwa czynniki
Zmienne | Factors | |
---|---|---|
I | II | |
Wysokość skoku pionowego | .71 | -.01 |
Czas 40-jardowego (36-metrowego) skoku w dal | -.76 | -.01 |
Odległość trójskoku na stojąco | .77 | .01 |
12-min run distance | -.02 | .77 |
2-km (1.25-mile) czas wiosłowania | .01 | -.70 |
20-min dystans rowerowy | .01 | .74 |
Odsetek włókien mięśniowych typu fast-twitch | .35 | -.34 |
Odsetek tkanki tłuszczowej | -.32 | -.34 |
To są hipotetyczne (wyimaginowane) dane.
Spójrz najpierw na kolumnę liczb po lewej stronie dla czynnika I. Liczby te nazywamy ładunkami czynnikowymi i mogą one mieścić się w przedziale od -1 do +1, podobnie jak współczynniki korelacji. Zauważcie, że w tej kolumnie liczby obok skoku pionowego, 40-jardowego sprintu i trójskoku na stojąco są dość duże: Skok pionowy ma „obciążenie” równe .71, 40-jardowy czas sprintu ma obciążenie równe -.76, a stojący trójskok ma obciążenie równe .77. Te duże obciążenia wskazują, że te zmienne bardzo wyraźnie są częścią pierwszego czynnika. Czynnik ten najwyraźniej reprezentuje ogólną zdolność do skoków i sprintu, ponieważ trzy zmienne dotyczące skoków i sprintu mają wysokie ładunki (najwyższe spośród wszystkich zmiennych) na tym czynniku. Zauważ, że w przeciwieństwie do obciążeń dwóch zmiennych dotyczących skoków, obciążenie dla czasu sprintu na 40 jardów jest ujemne; ma to jednak sens, ponieważ osoba, której sprint na 40 jardów zajmuje dużo czasu, jest powolna i jest mało prawdopodobne, że skoczy bardzo wysoko lub bardzo daleko.
Spójrz teraz na kolumnę liczb po prawej stronie dla czynnika II. Zauważ, że w tej kolumnie liczby obok 12-min biegu, 2-km rzędów i 20-min cyklu są dość duże: 12-min run ma ładunek .77, 2-km row time ma ładunek -.70, a 20-min cycle ma ładunek .74. Tak duże ładunki wskazują, że zmienne te wyraźnie należą do drugiego czynnika. Czynnik ten najwyraźniej reprezentuje ogólną zdolność do wyścigów długodystansowych, ponieważ trzy zmienne dotyczące biegów długodystansowych – bieganie, wiosłowanie i jazda na rowerze – mają wysokie ładunki (najwyższe spośród wszystkich zmiennych) w tym czynniku. Zauważmy, że w przeciwieństwie do obciążenia dla biegu i jazdy na rowerze, obciążenie dla czasu wiosłowania na 2 km jest ujemne; ma to jednak sens, ponieważ osoba, której wiosłowanie na 2 km zajmuje dużo czasu, nie jest w stanie utrzymać szybkiego tempa wiosłowania i jest mało prawdopodobne, aby biegła lub jeździła na rowerze na bardzo długim dystansie.
Analiza czynnikowa ujawniła więc jeden czynnik, który obejmuje zmienne związane ze zdolnością sprinterską i skocznością do skoków oraz drugi czynnik, który obejmuje zmienne związane z wytrzymałością lub wydajnością długodystansową. Ważne jest, aby zrozumieć, że są to dwa oddzielne, niezależne czynniki; nie są to dwa przeciwległe bieguny tego samego czynnika. Gdyby zmienne dotyczące sprintu/skoków i zmienne dotyczące długich dystansów były przeciwstawne – gdyby były silnie ujemnie skorelowane – wówczas należałyby do tego samego czynnika, ale wykazywałyby przeciwne ładunki. Zamiast tego, każda z tych grup zmiennych zdefiniowała swój własny czynnik. Zauważmy, że wszystkie zmienne dotyczące sprintu i skoków miały ładunki bliskie zeru na drugim czynniku, a wszystkie zmienne dotyczące długich dystansów miały ładunki bliskie zeru na pierwszym czynniku. Wskazuje to, że każdy zestaw zmiennych nie jest związany z czynnikiem, który jest definiowany przez inny zestaw zmiennych; to znaczy, że każdy zestaw nie jest ani pozytywnie, ani negatywnie związany z innym zestawem.
Są jeszcze dwie inne zmienne, których jeszcze nie rozważaliśmy. Po pierwsze, spójrz na obciążenia dla procentu szybkich włókien mięśniowych. Jak widać, zmienna ta wykazała umiarkowanie duże dodatnie obciążenie na pierwszym czynniku (.35) i umiarkowanie duże ujemne obciążenie na drugim czynniku (-.34). Wyniki te wskazują, że zmienna ta nie mieści się jednoznacznie w żadnym z czynników, lecz jest częściowo związana z obydwoma czynnikami. Dodatni ładunek na pierwszym czynniku wskazuje, że posiadanie wysokiego odsetka włókien mięśniowych szybkoskurczowych wiąże się z dobrymi wynikami w sprincie i skokach. Jednakże, negatywne obciążenie drugiego czynnika wskazuje, że posiadanie wysokiego procentu włókien mięśniowych szybkoskurczowych wiąże się ze słabymi wynikami długodystansowymi i wytrzymałościowymi. (Ma to sens, biorąc pod uwagę funkcję włókien mięśniowych typu fast-twitch: jeśli brałeś udział w zajęciach z kinezjologii, możesz być świadomy, że te włókna mięśniowe szybko się kurczą i umożliwiają szybki, eksplozywny ruch, ale łatwo się męczą i nie umożliwiają stałego wysiłku.)
Następnie spójrz na obciążenia dla procentu tkanki tłuszczowej. Jak widać, zmienna ta wykazała umiarkowanie duży ujemny ładunek zarówno na pierwszym czynniku (-.32), jak i na drugim (-.34). Podobnie jak w przypadku zmiennej dotyczącej włókien mięśniowych, o której mowa w poprzednim akapicie, wyniki te wskazują, że procent tkanki tłuszczowej nie mieści się ściśle w żadnym z czynników, lecz częściowo w obu. Ale zauważ, że wzór jest inny, ponieważ procent tkanki tłuszczowej obciąża negatywnie zarówno pierwszy, jak i drugi czynnik. Obciążenia te wskazują, że wysoki procent tkanki tłuszczowej jest związany zarówno z niską wydajnością sprintu i skoków, jak i z niską wydajnością długodystansową, wytrzymałościową. Ma to sens, ponieważ posiadanie dużej ilości tkanki tłuszczowej oznacza dużo dodatkowej „martwej” wagi, która utrudnia sprint i skoki eksplozywne oraz pokonywanie długich dystansów z zachowaną prędkością.
Jak pokazują te wyniki, możemy zauważyć, że analiza czynnikowa pozwala nam podsumować relacje między dużą liczbą zmiennych w kategoriach tylko niewielkiej liczby grup lub czynników. Podczas gdy w poprzednim przypadku zaczynaliśmy od ośmiu zmiennych, byliśmy w stanie wykazać, że reprezentują one dwie główne grupy zmiennych i byliśmy w stanie zrozumieć naturę każdej grupy poprzez rozważenie tożsamości zmiennych w jej obrębie. Od tej pory, jeśli chcę zmierzyć tego rodzaju zdolności fizyczne moich uczniów, mogę prawdopodobnie zaoszczędzić trochę czasu, stosując tylko jeden test sprintu lub skoków i tylko jeden test długodystansowy, zamiast pełnej baterii ośmiu zmiennych. Na przykład, być może mógłbym zmierzyć tylko trójskok na stojąco (który reprezentuje czynnik „zdolności sprinterskie i skocznościowe”) oraz 12-minutowy bieg (który reprezentuje czynnik „długodystansowy”). (Oczywiście, gdybym był zainteresowany każdą zmienną ze względu na nią samą, nadal używałbym wszystkich ośmiu.)
W przykładzie właśnie pokazanym, liczba zmiennych była dość mała, a wzór korelacji między tymi zmiennymi był stosunkowo prosty. Patrząc na macierz korelacji między zmiennymi, można by prawdopodobnie zobaczyć, że zmienne będą należeć do dwóch głównych czynników. Jednak w większości przypadków, kiedy psychologowie stosują analizę czynnikową, wyniki nie są tak oczywiste: Często jest wiele zmiennych, a wzorzec korelacji między nimi jest bardzo złożony, z wieloma średnimi korelacjami i mniejszą liczbą korelacji bardzo dużych lub bardzo małych. W takim przypadku analiza czynnikowa może być bardzo pomocna dla badacza, ponieważ pozwala na wyodrębnienie niezwykle skomplikowanego wzorca korelacji między dużą liczbą zmiennych i zredukowanie tych zmiennych do niewielkiej liczby czynników.
Dokładne określenie liczby czynników w danym zbiorze zmiennych nie zawsze jest łatwe. Istnieją różne zasady, których badacz może użyć, aby zdecydować, ile czynników jest naprawdę, ale te zasady nie zawsze dają ten sam wynik. Jednym z ważnych sposobów na ustalenie prawdziwej liczby czynników jest sprawdzenie, jakie zestawy czynników można znaleźć w wielu różnych badaniach, z wykorzystaniem różnych uczestników badań lub nawet różnych zestawów zmiennych mierzących te same ogólne rodzaje cech. Na przykład, może się okazać, że ten sam zestaw trzech czynników może być konsekwentnie odzyskiwany w wielu różnych badaniach, ale żaden pojedynczy zestaw czterech czynników nie jest konsekwentnie znajdowany. Jeśli byłoby to prawdą, wtedy prawdopodobnie zdecydowałbyś, że istnieją trzy, ale nie cztery czynniki, które leżą u podstaw tej domeny cech.
Jedna ważna uwaga na temat analizy czynnikowej: Grupy zmiennych zidentyfikowane przez tę technikę powinny być traktowane jako wymiary, wzdłuż których ludzie się różnią, a nie jako „typy” ludzi. W podanym przykładzie ludzie mają różne poziomy czynnika (lub wymiaru) zdolności do sprintu i skoków, przy czym kilka osób jest bardzo dobrych w tych zdolnościach, a kilka innych bardzo słabych, ale większość ludzi znajduje się gdzieś pomiędzy. Podobnie, dla drugiego czynnika (lub wymiaru) zdolności do wyścigów długodystansowych, jest również kilka osób z bardzo wysokim poziomem, kilka innych z bardzo niskim poziomem, a większość pozostałych jest gdzieś pomiędzy. To znaczy, dla każdego z tych dwóch wymiarów, możemy opisać osobę w kategoriach pewnej liczby (takiej jak standardowy wynik), która reprezentuje jej poziom tego wymiaru.