3.2 Eine sanfte Einführung in die Faktorenanalyse
Wenn ein Forscher viele Variablen gemessen hat, die erhebliche Korrelationen miteinander aufweisen, kann es sinnvoll sein, die Anzahl der Variablen zu reduzieren, indem sie entsprechend der Korrelationen in Gruppen eingeteilt werden. Wenn die Anzahl der Variablen jedoch groß ist und das Muster der Korrelationen zwischen ihnen komplex ist, ist es nicht einfach zu erkennen, welche Variablen zu einer Gruppe zusammengefasst werden sollten. An dieser Stelle kommt die statistische Technik der Faktorenanalyse zum Einsatz. Die Faktorenanalyse ermöglicht es dem Forscher, viele spezifische Merkmale auf einige allgemeinere „Faktoren“ oder Gruppen von Merkmalen zu reduzieren, von denen jedes mehrere der spezifischen Merkmale enthält.
Die Faktorenanalyse kann mit vielen Arten von Variablen verwendet werden, nicht nur mit Persönlichkeitsmerkmalen. Betrachten Sie das folgende Beispiel für eine Faktorenanalyse. Nehmen wir an, ich habe ein paar hundert meiner fitten, gesunden, jungen Persönlichkeitsstudenten überredet, ihre Sportkleidung anzuziehen und eine Batterie von körperlichen Tests durchzuführen. Hier sind die Variablen, an denen meine studentischen Teilnehmer gemessen werden sollen:
Vertikalsprung (Sprunghöhe aus der Hocke),
40-Yard-Sprint (Zeit für den Sprint über 40 Yards oder 36.5 m),
Dreisprung aus dem Stand (Sprungweite aus dem Stand),
12-min-Lauf (gelaufene Strecke in 12 min),
2-km-Rudern (Zeit zum Rudern von 2 km oder 1.25 Meilen auf dem Rudergerät),
20-min-Radfahren (in 20 min auf einem Standardtrainer zurückgelegte Strecke),
Prozent schnell zuckende Muskelfasern (aus einer Gewebeprobe des Oberschenkels) und
Prozent Körperfett (gemessen mit einem Hautfaltenzirkel).
Nun nehmen wir an, dass ich meine Studenten zu diesen Variablen gemessen habe. Die Korrelationen zwischen den Variablen sind in Tabelle 3.1 dargestellt. (Beachten Sie, dass alle diese Daten künstlich sind. Ich habe niemanden wirklich für diese Variablen gemessen, also sind diese Korrelationen nur für den Zweck dieses Beispiels erfunden. Aber die Korrelationen sind wahrscheinlich nicht allzu weit von dem entfernt, was man im wirklichen Leben finden würde.)
Tabelle 3.1. Korrelationen zwischen körperlicher Fitness und physiologischen Messungen
Variablen | VJ | Strich | TJ | Lauf | Reihe | Zyklus | Typ | Fett | |
---|---|---|---|---|---|---|---|---|---|
Vertikalsprunghöhe (VJ) | 1.00 | ||||||||
40-Yard (36-m)-Sprintzeit (Dash) | -.52 | 1.00 | |||||||
Standard-Dreisprungweite (TJ) | .56 | -.60 | 1.00 | ||||||
12-Minuten-Laufstrecke (Run) | .00 | .01 | .00 | 1.00 | |||||
2-km (1.25-Meile) Ruderzeit (Ruder) | -.01 | .00 | .01 | -.54 | 1.00 | ||||
20-min Zyklusabstand (Zyklus) | .00 | -.01 | .00 | .58 | -.50 | 1.00 | |||
Anteil der schnell zuckenden Muskelfasertypen (Typ) | .30 | -.26 | .22 | -.29 | .25 | -.21 | 1.00 | ||
Körperfettanteil (Fett) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 |
Dies sind hypothetische (imaginäre) Daten.
Die Korrelationsmatrix in Tabelle 3.1 zeigt, wie jede Variable mit jeder anderen Variable korreliert ist. Indem Sie den Namen der einen Variable oben und den der anderen Variable unten suchen und dann die Zelle finden, in der sich die Spalte der einen Variable und die Zeile der anderen Variable treffen, können Sie die Korrelation zwischen diesen beiden Variablen sehen. (Wenn die Zelle leer ist, tauschen Sie einfach die beiden Variablen aus; ich habe nur eine Hälfte der Matrix ausgefüllt, weil die Korrelation von A mit B die gleiche ist wie die Korrelation von B mit A. Ich habe 1,00 in die Diagonalen gesetzt, weil die Korrelation jeder Variable mit sich selbst 1,00 ist)
Beachten Sie in Tabelle 3.1, dass es ziemlich starke Korrelationen zwischen den ersten drei Variablen gibt. Der Vertikalsprung und der Dreisprung aus dem Stand zeigen eine starke positive Korrelation miteinander, und die 40-Meter-Sprintzeit korreliert negativ mit beiden Variablen. Offensichtlich sind die Fähigkeit zum Hochsprung und die Fähigkeit zum Vorwärtssprung miteinander korreliert, und beide stehen in Zusammenhang mit der Fähigkeit, schnell zu sprinten. Beachten Sie, dass die Korrelationen der Sprünge mit dem 40-Yard-Sprint negativ sind, weil Personen, die lange für den 40-Yard-Sprint brauchten, nicht sehr hoch oder sehr weit sprangen.
Beachten Sie auch, dass es ziemlich starke Korrelationen zwischen den zweiten drei Variablen gibt. Die 12-minütige Laufstrecke und die 20-minütige Radstrecke sind positiv miteinander korreliert und negativ mit der 2-km-Ruderzeit. Offensichtlich sind die Fähigkeit, eine lange Strecke zu laufen, und die Fähigkeit, eine lange Strecke mit dem Fahrrad zu fahren, miteinander korreliert, und beide sind mit der Fähigkeit, eine lange Strecke zu rudern, korreliert. Beachten Sie, dass die Korrelationen der Lauf- und Radfahrdistanzen mit der Ruderzeit negativ sind, weil Personen, die lange für 2 km Rudern brauchten, nicht sehr weit gelaufen oder geradelt sind.
Beim Blick auf diese beiden Gruppen von drei Variablen ist zu beachten, dass die Korrelationen über die beiden Gruppen hinweg eher schwach sind. Die Korrelationen des Vertikalsprungs, der 40-Meter-Sprintzeit und des Dreisprungs aus dem Stand mit dem 12-Minuten-Lauf, dem 2-km-Rudern und dem 20-Minuten-Radfahren liegen alle bei Null. Das bedeutet, dass die Leistung einer Person bei den ersten drei Tests keinen Hinweis darauf gibt, wie diese Person bei den zweiten drei Tests abschneiden wird, und umgekehrt.
Betrachten wir nun die letzten beiden Variablen. Zunächst zeigt der Anteil der schnell zuckenden Muskelfasern einige bescheidene Korrelationen mit den ersten drei Variablen (positiv mit dem Vertikalsprung, negativ mit der 40-Meter-Sprintzeit und positiv mit dem Dreisprung aus dem Stand) und auch mit den zweiten drei Variablen (negativ mit der 12-minütigen Laufstrecke, positiv mit der 2-km-Ruderzeit und negativ mit der 20-minütigen Radfahrstrecke). Diese Ergebnisse deuten darauf hin, dass Personen mit einem höheren Anteil an schnell zuckenden Muskeln dazu neigen, in den ersten drei Disziplinen relativ gut abzuschneiden, aber relativ schlecht in den letzten drei Disziplinen.
Schließlich zeigt der Körperfettanteil einige bescheidene Korrelationen mit allen sechs Variablen (negativ mit dem Vertikalsprung, positiv mit der 40-Meter-Sprintzeit, negativ mit dem Dreisprung aus dem Stand, negativ mit der 12-minütigen Laufdistanz, positiv mit der 2-km-Ruderzeit und negativ mit der 20-minütigen Radfahrstrecke). Diese Ergebnisse deuten darauf hin, dass die Personen mit einem höheren Körperfettanteil dazu neigen, in allen sechs Disziplinen relativ schlecht abzuschneiden.
Nun wollen wir sehen, was passiert, wenn wir diese Korrelationen faktoranalysieren. Nach der Faktorenanalyse deuten die Korrelationen zwischen den acht hier gemessenen Variablen darauf hin, dass diese Variablen in zwei Gruppen oder Faktoren sortiert werden können.3 Tabelle 3.2 zeigt diese beiden Faktoren, indem sie angibt, wie stark jede Variable zu jeder Gruppe gehört – oder, um es etwas technischer auszudrücken, wie stark jede Variable auf jeden „Faktor“ „lädt“.“
Tabelle 3.2. Ladungen der körperlichen Fitness und physiologischen Messungen auf zwei Faktoren
Variablen | Faktoren | |
---|---|---|
I | II | |
Vertikale Sprunghöhe | .71 | -.01 |
40-Yard (36-m)-Sprintzeit | -.76 | -.01 |
Standard-Dreisprungweite | .77 | .01 |
12-min-Laufstrecke | -.02 | .77 |
2-km (1.25-Meile) Ruderzeit | .01 | -.70 |
20-min Radfahrstrecke | .01 | .74 |
Anteil der schnell zuckenden Muskelfasertypen | .35 | -.34 |
Körperfettanteil | -.32 | -.34 |
Dies sind hypothetische (imaginäre) Daten.
Schauen Sie sich zuerst die Zahlenspalte links für Faktor I an. Diese Zahlen werden Faktorladungen genannt, und sie können wie Korrelationskoeffizienten zwischen -1 und +1 liegen. Beachten Sie, dass in dieser Spalte die Zahlen neben dem Vertikalsprung, der 40-Meter-Sprintzeit und dem Dreisprung aus dem Stand recht groß sind: Der Vertikalsprung hat eine „Ladung“ von .71, die 40-Meter-Sprintzeit hat eine Ladung von -.76 und der Standing Triple Jump hat eine Ladung von .77. Diese großen Ladungen deuten darauf hin, dass diese Variablen ganz klar Teil des ersten Faktors sind. Dieser Faktor repräsentiert offensichtlich eine allgemeine Sprung- und Sprintfähigkeit, denn die drei Sprung- und Sprintvariablen haben hohe Ladungen (die höchsten von allen Variablen) auf diesem Faktor. Beachten Sie, dass im Gegensatz zu den Ladungen der beiden Sprungvariablen die Ladung für die 40-Meter-Sprintzeit negativ ist; dies macht jedoch Sinn, da eine Person, die lange für einen 40-Meter-Sprint braucht, langsam ist und wahrscheinlich nicht sehr hoch oder weit springen kann.
Schauen Sie sich nun die Zahlenspalte auf der rechten Seite für Faktor II an. Beachten Sie, dass in dieser Spalte die Zahlen neben dem 12-Minuten-Lauf, der 2-km-Reihenzeit und dem 20-Minuten-Zyklus ziemlich groß sind: Der 12-minütige Lauf hat eine Ladung von 0,77, die 2-km-Reihenzeit hat eine Ladung von -,70 und der 20-minütige Zyklus hat eine Ladung von 0,74. Diese hohen Ladungen deuten darauf hin, dass diese Variablen ganz klar Teil des zweiten Faktors sind. Dieser Faktor repräsentiert offensichtlich eine allgemeine Langstrecken-Rennfähigkeit, denn die drei Langstrecken-Variablen – Laufen, Rudern und Radfahren – haben hohe Ladungen (die höchsten von allen Variablen) auf diesem Faktor. Beachten Sie, dass im Gegensatz zu den Ladungen des Laufens und Radfahrens die Ladung für die 2-km-Ruderzeit negativ ist; dies macht jedoch Sinn, da eine Person, die lange für 2 km Rudern braucht, nicht in der Lage ist, ein schnelles Rudertempo beizubehalten, und es unwahrscheinlich ist, dass sie eine sehr lange Strecke laufen oder Rad fahren kann.
Die Faktorenanalyse hat also einen Faktor ergeben, der Variablen enthält, die mit der Sprint- und Sprungfähigkeit assoziiert sind, und einen weiteren Faktor, der Variablen enthält, die mit der Ausdauer- oder Langstreckenleistung assoziiert sind. Es ist wichtig zu verstehen, dass es sich um zwei separate, unabhängige Faktoren handelt; es sind nicht zwei entgegengesetzte Pole desselben Faktors. Wenn die Sprint-/Sprungvariablen und die Langstreckenvariablen einander entgegengesetzt wären – wenn sie stark negativ korreliert wären -, dann würden sie zum selben Faktor gehören, hätten aber entgegengesetzte Ladungen auf ihm gezeigt. Stattdessen definierte jede dieser Gruppen von Variablen ihren eigenen Faktor. Beachten Sie, dass die Sprint- und Sprungvariablen alle Ladungen nahe Null auf dem zweiten Faktor hatten, und dass die Langstreckenvariablen alle Ladungen nahe Null auf dem ersten Faktor hatten. Dies deutet darauf hin, dass jeder Variablensatz in keinem Zusammenhang mit dem Faktor steht, der durch den anderen Variablensatz definiert wird; d. h., jeder Satz steht weder in einem positiven noch in einem negativen Zusammenhang mit dem anderen Satz.
Es gibt zwei weitere Variablen, die wir noch nicht berücksichtigt haben. Schauen Sie sich zunächst die Ladungen für den Anteil der schnell zuckenden Muskelfasern an. Wie Sie sehen können, zeigt diese Variable eine mäßig große positive Ladung auf dem ersten Faktor (.35) und eine mäßig große negative Ladung auf dem zweiten Faktor (-.34). Diese Ergebnisse weisen darauf hin, dass diese Variable nicht genau in einen der beiden Faktoren passt, sondern teilweise in beide Faktoren. Die positive Ladung auf dem ersten Faktor deutet darauf hin, dass ein hoher Anteil an schnell zuckenden Muskelfasern mit guten Sprint- und Sprungleistungen verbunden ist. Die negative Ladung des zweiten Faktors weist jedoch darauf hin, dass ein hoher Anteil an schnell zuckenden Muskelfasern mit schlechten Langstrecken- und Ausdauerleistungen verbunden ist. (Dies macht Sinn, wenn man die Funktion der schnell zuckenden Muskelfasern bedenkt: Wenn Sie einen Kinesiologie-Kurs belegt haben, wissen Sie vielleicht, dass diese Muskelfasern sich schnell zusammenziehen und schnelle, explosive Bewegungen ermöglichen, aber leicht ermüden und keine anhaltende, gleichmäßige Anstrengung ermöglichen.)
Nächste Betrachtung der Ladungen für den prozentualen Körperfettanteil. Wie Sie sehen können, zeigte diese Variable eine mäßig große negative Ladung sowohl auf dem ersten Faktor (-.32) als auch auf dem zweiten Faktor (-.34). Wie bei der im vorigen Abschnitt erwähnten Muskelfaser-Variable deuten diese Ergebnisse darauf hin, dass der prozentuale Körperfettanteil nicht genau in einen der beiden Faktoren passt, sondern stattdessen teilweise in beiden Faktoren enthalten ist. Beachten Sie jedoch, dass das Muster anders ist, da der prozentuale Körperfettanteil sowohl auf dem ersten als auch auf dem zweiten Faktor negativ geladen ist. Diese Ladungen weisen darauf hin, dass ein hoher Körperfettanteil sowohl mit schlechter Sprint- und Sprungleistung als auch mit schlechter Langstrecken- und Ausdauerleistung verbunden ist. Das macht Sinn, denn viel Körperfett bedeutet viel zusätzliches „totes“ Gewicht, das es schwieriger macht, explosiv zu sprinten und zu springen und schwieriger, eine lange Strecke mit einer anhaltenden Geschwindigkeit zurückzulegen.
Wie diese Ergebnisse zeigen, können wir sehen, dass die Faktorenanalyse es uns erlaubt, die Beziehungen zwischen einer großen Anzahl von Variablen in Form von nur einer kleinen Anzahl von Gruppen oder Faktoren zusammenzufassen. Während wir im vorherigen Fall von acht Variablen ausgingen, konnten wir zeigen, dass diese zwei Hauptgruppen von Variablen darstellten, und wir waren in der Lage, die Natur jeder Gruppe zu verstehen, indem wir die Identität der Variablen innerhalb dieser Gruppe betrachteten. Wenn ich von nun an diese Art von körperlichen Fähigkeiten meiner Schüler messen möchte, könnte ich wahrscheinlich etwas Zeit sparen, indem ich nur einen Sprint- oder Sprungtest und nur einen Langstreckentest verwende, anstatt der vollen Batterie von acht Variablen. Zum Beispiel könnte ich vielleicht nur den Dreisprung aus dem Stand messen (der den Faktor „Sprint- und Sprungfähigkeit“ repräsentiert) und den 12-Minuten-Lauf (der den Faktor „Langstrecke“ repräsentiert). (Natürlich würde ich, wenn ich an jeder Variable um ihrer selbst willen interessiert wäre, weiterhin alle acht verwenden.)
In dem gerade gezeigten Beispiel war die Anzahl der Variablen ziemlich klein und das Muster der Korrelationen zwischen diesen Variablen war relativ einfach. Wenn Sie sich die Matrix der Korrelationen zwischen den Variablen ansehen, können Sie wahrscheinlich erkennen, dass die Variablen in zwei Hauptfaktoren fallen. Aber in den meisten Fällen, in denen Psychologen die Faktorenanalyse verwenden, sind die Ergebnisse nicht annähernd so offensichtlich: Es gibt oft viele Variablen, und das Muster der Korrelationen zwischen ihnen ist sehr komplex, mit vielen mittelgroßen Korrelationen und weniger Korrelationen, die sehr groß oder sehr klein sind. Wenn dies der Fall ist, kann die Faktorenanalyse dem Forscher eine große Hilfe sein, indem sie ein extrem kompliziertes Muster von Korrelationen zwischen einer großen Anzahl von Variablen nimmt und diese Variablen auf eine kleine Anzahl von Faktoren reduziert.
Wie viele Faktoren es in einem gegebenen Satz von Variablen genau gibt, ist nicht immer leicht herauszufinden. Es gibt verschiedene Regeln, die ein Forscher verwenden kann, um zu entscheiden, wie viele Faktoren es wirklich gibt, aber diese Regeln liefern nicht immer das gleiche Ergebnis. Eine wichtige Möglichkeit, die wahre Anzahl der Faktoren herauszufinden, besteht darin, zu sehen, welche Sätze von Faktoren in vielen verschiedenen Studien gefunden werden können, wobei verschiedene Forschungsteilnehmer oder sogar verschiedene Sätze von Variablen verwendet werden, die die gleichen allgemeinen Arten von Merkmalen messen. Sie könnten z. B. feststellen, dass derselbe Satz von drei Faktoren in vielen verschiedenen Studien konsistent wiedergefunden werden kann, dass aber kein einzelner Satz von vier Faktoren konsistent gefunden wird. Wenn dies der Fall wäre, würden Sie wahrscheinlich entscheiden, dass es drei, aber nicht vier Faktoren gibt, die diesem Merkmalsbereich zugrunde liegen.
Eine wichtige Anmerkung zur Faktorenanalyse: Die Gruppen von Variablen, die durch diese Technik identifiziert werden, sollten als Dimensionen betrachtet werden, entlang derer sich Menschen unterscheiden, und nicht als „Typen“ von Menschen. In dem eben genannten Beispiel haben Menschen unterschiedliche Ausprägungen des Faktors (oder der Dimension) Sprint- und Sprungvermögen, wobei einige wenige Menschen sehr gut in diesen Fähigkeiten sind und einige andere sehr schlecht, die meisten Menschen aber irgendwo dazwischen liegen. In ähnlicher Weise gibt es auch für den anderen Faktor (oder die Dimension) der Langstreckenlauffähigkeit einige wenige Personen mit sehr hohen Werten, einige andere mit sehr niedrigen Werten und die meisten anderen irgendwo dazwischen. Das heißt, für jede dieser beiden Dimensionen können wir eine Person anhand einer Zahl (z. B. einer Standardpunktzahl) beschreiben, die ihr Niveau in dieser Dimension repräsentiert.