Articles

Factoranalyse

Posted on

3.2 Een voorzichtige inleiding tot factoranalyse

Wanneer een onderzoeker veel variabelen heeft gemeten die substantiële correlaties met elkaar vertonen, kan het nuttig zijn om het aantal variabelen te verminderen door ze in groepen in te delen volgens de correlaties. Wanneer het aantal variabelen echter groot is en het patroon van de onderlinge correlaties complex, is het niet gemakkelijk te zien welke variabelen in een groep moeten worden samengevoegd. Dit is het punt waarop de statistische techniek van de factoranalyse wordt gebruikt. Met factoranalyse kan de onderzoeker veel specifieke kenmerken terugbrengen tot een paar algemenere “factoren” of groepen van kenmerken, die elk een aantal van de specifieke kenmerken omvatten.

Factoranalyse kan worden gebruikt voor veel soorten variabelen, niet alleen persoonlijkheidskenmerken. Beschouw het volgende voorbeeld van een factoranalyse. Stel dat ik een paar honderd van mijn fitte, gezonde, jonge persoonlijkheidsstudenten heb overgehaald om zich om te kleden in de sportschool en een reeks fysieke tests te doen. Dit zijn de variabelen waarop mijn studenten moeten worden gemeten:

verticale sprong (hoogte van de sprong vanuit een gehurkte positie),

40-yard dash (tijd om 40 yards of 36.5 m),

drievoudige staande sprong (afstand van hop, stap, sprong vanuit staande start),

12-minuten hardlopen (afstand hardlopen in 12 min),

2-km roeien (tijd om 2 km, of 1,25 mijl, te roeien op een roeimachine)25 mijl, op roeimachine),

20-min fietsen (afstand gefietst in 20 min op standaard hometrainer),

percent fast-twitch spiervezels (van weefselmonster genomen van dij), en

percent lichaamsvet (gemeten met huidplooikalibers).

Nu, stel dat ik mijn studenten op deze variabelen heb gemeten. De correlaties tussen de variabelen staan in tabel 3.1. (Merk op dat al deze gegevens kunstmatig zijn. Ik heb niemand echt gemeten op deze variabelen, dus deze correlaties zijn gewoon verzonnen voor het doel van dit voorbeeld. Maar de correlaties liggen waarschijnlijk niet ver af van wat men in het echte leven zou vinden.)

Tabel 3.1. Correlaties tussen lichamelijke fitheid en fysiologische metingen

.00

Variabelen VJ Dash TJ Run Row Cycle Type Fat
Verticale spronghoogte (VJ) 1.00
40-Yard (36-m) dash tijd (dash) -.52 1.00
Staande driesprong afstand (TJ) .56 -.60 1.00
12-min afstand hardlopen (run) .00 .01 .00 1.00
2-km (1.25-mijl) roeitijd (hardlopen) .00 .25-mijl) roeitijd (rij) -.01 .00 .01 -.54 1.00
20-min fietsafstand (cyclus) .00 -.01 .00 .58 -.50 1.00
Snelle-trekker spiervezeltype percentage (type) .30 -.26 .22 -.29 .25 -.21 1.00
Lichaamsvetpercentage (vet) -.20 .28 -.24 -.21 .25 -.29 .00 1.00

Het gaat hier om hypothetische (denkbeeldige) gegevens.

De correlatiematrix in tabel 3.1 laat zien hoe elke variabele met elke andere variabele gecorreleerd is. Door de naam van de ene variabele bovenaan te zoeken en die van de andere variabele onderaan, en dan de cel te vinden waar de kolom van de ene variabele en de rij van de andere variabele samenkomen, kun je de correlatie tussen die twee variabelen zien. (Als de cel leeg is, verwisselt u gewoon de twee variabelen; ik heb slechts één helft van de matrix ingevuld, omdat de correlatie van A met B dezelfde is als de correlatie van B met A. Ik heb 1,00’s in de diagonalen gezet, omdat de correlatie van elke variabele met zichzelf 1,00 is.)

Merk in tabel 3.1 op dat er vrij sterke correlaties zijn tussen de eerste drie variabelen. De verticale sprong en de staande driesprong vertonen een sterke positieve correlatie met elkaar, en de 40 meter sprinttijd correleert negatief met beide variabelen. Blijkbaar zijn het vermogen om omhoog te springen en het vermogen om vooruit te springen aan elkaar gerelateerd, en beide zijn gerelateerd aan het vermogen om snel te sprinten. Merk op dat de correlaties van de sprongen met de 40-yard dash negatief zijn, omdat mensen die er lang over deden om 40 yards te sprinten niet erg hoog of erg ver sprongen.

Merk ook op dat er vrij sterke correlaties zijn tussen de tweede drie variabelen. De 12-min ren afstand en de 20-min fiets afstand zijn positief gecorreleerd met elkaar, en negatief gecorreleerd met de 2 km roeitijd. Blijkbaar zijn het vermogen om een lange afstand te lopen en een lange afstand te fietsen aan elkaar gerelateerd, en beide zijn gerelateerd aan het vermogen om een lange afstand te roeien. Merk op dat de correlaties van de ren- en fietsafstanden met de roeitijden negatief zijn, omdat mensen die er lang over deden om 2 km te roeien niet erg ver liepen of fietsten.

Met betrekking tot deze twee groepen van drie variabelen, merk op dat de correlaties tussen de twee groepen vrij zwak zijn. De correlaties van de verticale sprong, de 40 meter sprinttijd, en de staande driesprong met de 12-minuten loop, de 2-kilometer roei, en de 20-minuten cyclus zijn alle ongeveer nul. Dit geeft aan dat de prestaties van een persoon op de eerste drie tests ons geen enkele indicatie geven over hoe die persoon zal presteren op de tweede drie tests, en vice versa.

Laten we nu eens kijken naar de laatste twee variabelen. Ten eerste vertoont het percentage snelle spiervezels een bescheiden correlatie met de eerste drie variabelen (positief met verticale sprong, negatief met 40 meter sprinttijd, en positief met staande driesprong), en ook met de tweede drie variabelen (negatief met 12-min hardloopafstand, positief met 2-kilometer rijtijd, en negatief met 20-min fietsafstand).

Ten slotte vertoont het lichaamsvetpercentage enkele bescheiden correlaties met alle zes variabelen (negatief met verticale sprong, positief met sprinttijd van 40 meter, negatief met staande driesprong, negatief met hardloopafstand van 12 minuten, positief met roeitijd van 2 km, en negatief met fietsafstand van 20 minuten). Deze resultaten geven aan dat mensen met een hoger percentage lichaamsvet het relatief slecht doen op alle zes de onderdelen.

Nu gaan we kijken wat er gebeurt als we deze correlaties in factoren analyseren. Volgens de factoranalyse geven de correlaties tussen de acht hier gemeten variabelen aan dat deze variabelen in twee groepen of factoren kunnen worden ingedeeld.3 Tabel 3.2 toont deze twee factoren door aan te geven hoe sterk elke variabele tot elke groep behoort – of, om meer technische termen te gebruiken, hoeveel elke variabele “laadt” op elke “factor.”

Tabel 3.2. Laadfactoren van fysieke fitheid en fysiologische metingen op twee factoren

Variabelen Factoren
I II
Verticale spronghoogte .71 -.01
40-yard (36-m) dash tijd -.76 -.01
Standstand driesprong afstand .77 .01
12-min hardloopafstand -.02 .77
2-km (1.25-mijl) roeitijd -.01
.25-mijl) roeitijd .01 -.70
20-min fietsafstand .01 .74
Fast-twitch spiervezeltype percentage .35 -.34
Lichaamsvetpercentage -.32 -.34

Dit zijn hypothetische (denkbeeldige) gegevens.

Kijk eerst naar de kolom met getallen aan de linkerkant voor factor I. Deze getallen worden factorladingen genoemd, en zij kunnen in grootte variëren tussen -1 en +1, net als correlatiecoëfficiënten. Merk op dat, voor deze kolom, de getallen naast de verticale sprong, de 40 meter sprinttijd, en de staande driesprong vrij groot zijn: Verticale sprong heeft een “lading” van .71, de 40 meter sprinttijd heeft een lading van -.76, en de staande driesprong heeft een lading van .77. Deze grote ladingen geven aan dat deze variabelen zeer duidelijk deel uitmaken van de eerste factor. Deze factor vertegenwoordigt blijkbaar een algemene spring- en sprintvaardigheid, want de drie spring- en sprintvariabelen hebben hoge ladingen (de hoogste van alle variabelen) op deze factor. Merk op dat, in tegenstelling tot de ladingen van de twee springvariabelen, de lading voor de sprinttijd van 40 meter negatief is; dit is echter logisch, want iemand die er lang over doet om 40 meter te sprinten is traag, en zal waarschijnlijk niet erg hoog of ver springen.

Kijk nu naar de kolom met getallen aan de rechterkant voor factor II. Merk op dat, voor deze kolom, de getallen naast 12-min hardlopen, 2-km rijtijd, en 20-min cyclus vrij groot zijn: 12-min hardlopen heeft een lading van .77, 2-kilometer rijtijd heeft een lading van -.70, en 20-min cyclus heeft een lading van .74. Deze grote ladingen geven aan dat deze variabelen zeer duidelijk deel uitmaken van de tweede factor. Deze factor vertegenwoordigt blijkbaar een algemene vaardigheid in lange-afstandsracen, want de drie lange-afstandsvariabelen – lopen, roeien en fietsen – hebben een hoge lading (de hoogste van alle variabelen) op deze factor. Merk op dat, in tegenstelling tot de ladingen van lopen en fietsen, de lading voor de roeitijd van 2 km negatief is; dit is echter logisch, omdat iemand die er lang over doet om 2 km te roeien, niet in staat is een snel roeitempo aan te houden en waarschijnlijk ook niet zal lopen of fietsen over een zeer lange afstand.

Dus, de factoranalyse heeft één factor aan het licht gebracht die variabelen omvat die geassocieerd zijn met sprint- en springvermogen, en een andere factor die variabelen omvat die geassocieerd zijn met uithoudingsvermogen of lange-afstandsprestaties. Het is belangrijk te begrijpen dat dit twee afzonderlijke, onafhankelijke factoren zijn; het zijn niet twee tegenovergestelde polen van dezelfde factor. Als de variabelen voor sprinten/springen en de variabelen voor de lange afstand tegenover elkaar hadden gestaan – als ze sterk negatief gecorreleerd waren geweest – dan zouden ze tot dezelfde factor hebben behoord, maar zouden ze er tegengestelde ladingen op hebben vertoond. In plaats daarvan heeft elk van deze groepen variabelen zijn eigen factor gedefinieerd. Merk op dat de sprint- en springvariabelen allemaal een lading dicht bij nul hadden op de tweede factor, en dat de lange-afstandsvariabelen allemaal een lading dicht bij nul hadden op de eerste factor. Dit wijst erop dat elke reeks variabelen geen verband houdt met de factor die door de andere reeks variabelen wordt gedefinieerd; dat wil zeggen dat elke reeks noch positief noch negatief verband houdt met de andere reeks.

Er zijn nog twee variabelen die we nog niet hebben bekeken. Ten eerste, kijk naar de belasting van het percentage snelle spiervezels. Zoals u kunt zien, heeft deze variabele een bescheiden positieve lading op de eerste factor (.35) en een bescheiden negatieve lading op de tweede factor (-.34). Deze resultaten wijzen erop dat deze variabele niet netjes binnen één van beide factoren past, maar in plaats daarvan gedeeltelijk binnen beide factoren valt. De positieve lading van de eerste factor geeft aan dat het hebben van een hoog percentage snelle spiervezels geassocieerd is met goede sprint- en springprestaties. De negatieve lading van de tweede factor geeft echter aan dat het hebben van een hoog percentage snelle spiervezels samenhangt met slechte prestaties op de lange afstand, uithoudingsvermogen. (Dit is logisch gezien de functie van snelle spiervezels: als u kinesiologie hebt gevolgd, weet u misschien dat deze spiervezels snel samentrekken en snelle, explosieve bewegingen mogelijk maken, maar dat ze snel moe worden en geen langdurige, constante inspanning mogelijk maken.)

Kijk vervolgens naar de belastingsfactoren voor het percentage lichaamsvet. Zoals u kunt zien, vertoont deze variabele een bescheiden negatieve lading op zowel de eerste factor (-.32) als de tweede factor (-.34). Zoals het geval was voor de spiervezelvariabele die in de vorige paragraaf werd vermeld, geven deze resultaten aan dat het percentage lichaamsvet niet netjes binnen één van beide factoren past, maar in plaats daarvan gedeeltelijk binnen beide factoren valt. Maar merk op dat het patroon anders is, omdat het lichaamsvetpercentage zowel op de eerste als op de tweede factor een negatieve lading heeft. Deze belastingsfactoren geven aan dat een hoog lichaamsvetpercentage zowel verband houdt met slechte sprint- en springprestaties als met slechte uithoudingsprestaties op de lange afstand. Dit is logisch, want veel lichaamsvet betekent veel extra “dood” gewicht dat het moeilijker maakt om explosief te sprinten en te springen en om een lange afstand met volgehouden snelheid af te leggen.

Zoals uit deze resultaten blijkt, zien we dat factoranalyse ons in staat stelt om de relaties tussen een groot aantal variabelen samen te vatten in termen van slechts een klein aantal groepen, of factoren. Terwijl wij in het vorige geval met acht variabelen begonnen, konden wij aantonen dat deze twee grote groepen variabelen vertegenwoordigden, en konden wij de aard van elke groep begrijpen door de identiteit van de variabelen binnen die groep in aanmerking te nemen. Van nu af aan, als ik dit soort fysieke vaardigheden van mijn leerlingen wil meten, kan ik waarschijnlijk wat tijd besparen door slechts één sprint- of springtest te gebruiken, en slechts één lange-afstandstest, in plaats van de volledige batterij van acht variabelen. Ik zou bijvoorbeeld alleen de staande driesprong kunnen meten (die de factor “sprint- en springvaardigheid” weergeeft) en de 12-minuten-loop (die de factor “lange afstand” weergeeft). (Natuurlijk, als ik in elke variabele omwille van zichzelf geïnteresseerd zou zijn, zou ik ze alle acht blijven gebruiken.)

In het zojuist getoonde voorbeeld was het aantal variabelen vrij klein, en het patroon van de correlaties tussen die variabelen was betrekkelijk eenvoudig. Als je de matrix van de correlaties tussen de variabelen bekijkt, zou je waarschijnlijk kunnen zien dat de variabelen in twee hoofdfactoren zouden vallen. Maar in de meeste gevallen dat psychologen factoranalyse gebruiken, zijn de resultaten lang niet zo duidelijk: Er zijn vaak veel variabelen, en het patroon van de onderlinge correlaties is zeer complex, met veel middelgrote correlaties en minder correlaties die zeer groot of zeer klein zijn. In dat geval kan factoranalyse een grote hulp zijn voor de onderzoeker, door een zeer ingewikkeld patroon van correlaties tussen een groot aantal variabelen te nemen en die variabelen terug te brengen tot een klein aantal factoren.

Hoeveel factoren een gegeven verzameling variabelen precies heeft, is niet altijd gemakkelijk uit te vinden. Er zijn verschillende regels die een onderzoeker kan gebruiken om te bepalen hoeveel factoren er werkelijk zijn, maar deze regels geven niet altijd hetzelfde resultaat. Een belangrijke manier om het werkelijke aantal factoren te achterhalen is na te gaan welke reeksen factoren kunnen worden gevonden in veel verschillende studies, waarbij verschillende deelnemers aan het onderzoek worden gebruikt of zelfs verschillende reeksen variabelen waarmee dezelfde algemene soorten kenmerken worden gemeten. U zou bijvoorbeeld kunnen vaststellen dat dezelfde set van drie factoren consistent kan worden teruggevonden in veel verschillende studies, maar dat geen enkele set van vier factoren consistent wordt gevonden. Als dit waar is, dan zou u waarschijnlijk besluiten dat er drie, maar niet vier, factoren ten grondslag liggen aan dit domein van kenmerken.

Een belangrijke opmerking over factoranalyse: De groepen variabelen die met deze techniek worden geïdentificeerd, moeten worden beschouwd als dimensies waarin mensen verschillen, en niet als “typen” mensen. In het zojuist gegeven voorbeeld hebben mensen verschillende niveaus van de factor (of dimensie) sprint- en springvaardigheid, waarbij een paar mensen heel goed zijn in deze vaardigheden en een paar anderen heel slecht, maar de meeste mensen ergens daartussenin zitten. Ook voor de andere factor (of dimensie) van lange-afstandsracen zijn er een paar mensen met een zeer hoog niveau, een paar anderen met een zeer laag niveau, en de meeste anderen ergens daartussenin. Dat wil zeggen, voor elk van deze twee dimensies kunnen we een individu beschrijven in termen van een getal (zoals een standaardscore) dat zijn of haar niveau van die dimensie weergeeft.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *