3.2 Une introduction douce à l’analyse factorielle
Lorsqu’un chercheur a mesuré de nombreuses variables qui présentent certaines corrélations substantielles entre elles, il peut être utile de réduire le nombre de variables en les classant en groupes en fonction des corrélations. Cependant, lorsque le nombre de variables est important et que le schéma des corrélations entre elles est complexe, il n’est pas facile de voir quelles variables doivent être combinées dans un groupe. C’est là qu’intervient la technique statistique de l’analyse factorielle. L’analyse factorielle permet au chercheur de réduire de nombreux traits spécifiques en quelques « facteurs » ou groupes de traits plus généraux, dont chacun comprend plusieurs des traits spécifiques.
L’analyse factorielle peut être utilisée avec de nombreux types de variables, et pas seulement avec des caractéristiques de personnalité. Considérez l’exemple suivant d’une analyse factorielle. Supposons que j’ai persuadé quelques centaines de mes étudiants en forme, en bonne santé et dotés d’une jeune personnalité de se mettre en tenue de sport et d’effectuer une batterie de tests physiques. Voici les variables sur lesquelles mes étudiants participants doivent être mesurés :
saut vertical (hauteur du saut depuis une position accroupie),
dash de 40 yards (temps pour sprinter 40 yards ou 36.5 m),
triple saut debout (distance du saut, du pas, du saut à partir d’un départ debout),
course de 12 minutes (distance parcourue en 12 min),
rame de 2 km (temps pour ramer 2 km, ou 1.25 miles, sur un rameur),
cyclisme de 20 min (distance parcourue en 20 min sur un vélo d’exercice standard),
pourcentage de fibres musculaires à contraction rapide (à partir d’un échantillon de tissu prélevé sur la cuisse), et
pourcentage de graisse corporelle (mesuré par des étriers à pli de peau).
Maintenant, supposons que j’ai mesuré mes étudiants sur ces variables. Les corrélations entre les variables sont présentées dans le tableau 3.1. (Notez que toutes ces données sont artificielles. Je n’ai vraiment mesuré personne pour ces variables, donc ces corrélations sont juste inventées pour les besoins de cet exemple. Mais les corrélations ne sont probablement pas trop éloignées de ce que l’on trouverait dans la vie réelle.)
Tableau 3.1. Corrélations entre la condition physique et les mesures physiologiques
Variables | VJ | Dash | TJ | Course | Rangée | Cycle | Type | Graisse | |
---|---|---|---|---|---|---|---|---|---|
Hauteur du saut vertical (VJ) | 1.00 | ||||||||
Temps du sprint de 40 yards (36 m) (sprint) | -.52 | 1,00 | Distance au triple saut debout (TJ) | .56 | -.60 | 1.00 | |||
Distance de course à pied de 12 minutes (run) | .00 | .01 | .00 | 1.00 | 2-km (1.25-mile) temps de rameur (row) | -.01 | .00 | .01 | -.54 | 1.00 |
Distance du cycle de 20 minutes (cycle) | .00 | -.01 | .00 | .58 | -.50 | 1,00 | |||
Pourcentage de fibres musculaires à contraction rapide (type) | .30 | -.26 | .22 | -.29 | .25 | -.21 | 1,00 | ||
Pourcentage de graisse corporelle (graisse) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 |
Il s’agit de données hypothétiques (imaginaires).
La matrice de corrélation du tableau 3.1 montre comment chaque variable est corrélée à chaque autre variable. En cherchant le nom d’une variable en haut et celui de l’autre variable en bas sur le côté, puis en trouvant la cellule où la colonne d’une variable et la ligne de l’autre variable se rencontrent, vous pouvez voir la corrélation entre ces deux variables. (Si la cellule est vide, il suffit d’intervertir les deux variables ; je n’ai rempli qu’une moitié de la matrice, car la corrélation de A avec B est la même que la corrélation de B avec A. J’ai mis des 1,00 dans les diagonales car la corrélation de chaque variable avec elle-même est de 1,00.)
Notez dans le tableau 3.1 qu’il existe des corrélations assez fortes entre les trois premières variables. Le saut vertical et le triple saut debout présentent une forte corrélation positive l’un avec l’autre, et le temps du 40 yards dash présente une corrélation négative avec les deux variables. Apparemment, la capacité à sauter vers le haut et la capacité à sauter vers l’avant sont liées l’une à l’autre, et toutes deux sont liées à la capacité à sprinter rapidement. Notez que les corrélations des sauts avec le sprint de 40 yards sont négatives, car les personnes qui ont mis beaucoup de temps à sprinter 40 yards n’ont pas sauté très haut ou très loin.
Notez également qu’il existe des corrélations assez fortes entre les trois secondes variables. La distance de course de 12 minutes et la distance de vélo de 20 minutes sont positivement corrélées entre elles, et négativement corrélées avec le temps de rameur de 2 km. Apparemment, la capacité à courir sur une longue distance et à faire du vélo sur une longue distance sont liées l’une à l’autre, et toutes deux sont liées à la capacité à ramer sur une longue distance. Notez que les corrélations des distances de course et de cyclisme avec les temps d’aviron sont négatives, parce que les personnes qui ont mis beaucoup de temps à ramer 2 km n’ont pas couru ou fait du vélo très loin.
En ce qui concerne ces deux groupes de trois variables, remarquez que les corrélations entre les deux groupes ont tendance à être assez faibles. Les corrélations du saut vertical, du temps de sprint de 40 yards et du triple saut debout avec la course de 12 minutes, l’aviron de 2 km et le cycle de 20 minutes sont toutes proches de zéro. Cela indique que la performance d’une personne sur les trois premiers tests ne nous donne aucune indication sur la façon dont cette personne se comportera sur les trois autres tests, et vice versa.
Maintenant, considérons les deux dernières variables. Tout d’abord, le pourcentage de fibres musculaires à contraction rapide présente quelques corrélations modestes avec les trois premières variables (positives avec le saut vertical, négatives avec le temps de sprint de 40 yards et positives avec le triple saut debout), et également avec les trois secondes variables (négatives avec la distance de course de 12 minutes, positives avec le temps de rameur de 2 km et négatives avec la distance de cycle de 20 minutes). Ces résultats indiquent que les personnes ayant un pourcentage plus élevé de muscles à contraction rapide ont eu tendance à faire relativement bien dans les trois premières épreuves, mais relativement mal dans les trois dernières.
Enfin, le pourcentage de graisse corporelle montre quelques corrélations modestes avec les six variables (négatif avec le saut vertical, positif avec le temps de sprint de 40 yards, négatif avec le triple saut debout, négatif avec la distance de course de 12 min, positif avec le temps de rameur de 2 km, et négatif avec la distance de cycle de 20 min). Ces résultats indiquent que les personnes ayant un pourcentage de graisse corporelle plus élevé avaient tendance à obtenir des résultats relativement médiocres dans les six épreuves.
Maintenant, voyons ce qui se passe lorsque nous faisons une analyse factorielle de ces corrélations. Selon l’analyse factorielle, les corrélations entre les huit variables mesurées ici indiquent que ces variables peuvent être triées en deux groupes ou facteurs.3 Le tableau 3.2 montre ces deux facteurs en indiquant à quel point chaque variable appartient à chaque groupe – ou, pour utiliser des termes plus techniques, à quel point chaque variable « charge » chaque « facteur ».
Tableau 3.2. Chargements de la condition physique et des mesures physiologiques sur deux facteurs
Variables | Facteurs | |
---|---|---|
I | II | |
Hauteur de saut vertical | .71 | -.01 |
Temps du sprint de 40 yards (36 m) | -.76 | -.01 | Distance du triple saut debout | .77 | .01 |
Distance de course de 12 minutes | -.02 | .77 | Temps de rameur de 2 km (1.25-mile) temps de rameur | .01 | -.70 |
Distance de vélo de 20 minutes | .01 | .74 |
Pourcentage de type de fibre musculaire à contraction rapide | .35 | -.34 | Pourcentage de graisse corporelle | -.32 | -.34 |
Il s’agit de données hypothétiques (imaginaires).
Regardez tout d’abord la colonne de chiffres à gauche pour le facteur I. Ces nombres sont appelés charges factorielles, et leur taille peut varier entre -1 et +1, tout comme les coefficients de corrélation. Remarquez que, pour cette colonne, les nombres à côté du saut vertical, du temps de sprint de 40 yards et du triple saut debout sont assez grands : Le saut vertical a une « charge » de 0,71, le temps de sprint sur 40 yards a une charge de – 0,76 et le triple saut debout a une charge de 0,77. Ces charges importantes indiquent que ces variables font très clairement partie du premier facteur. Ce facteur représente apparemment une capacité générale de saut et de sprint, car les trois variables de saut et de sprint ont des saturations élevées (les plus élevées de toutes les variables) sur ce facteur. Remarquez que, contrairement aux chargements des deux variables de saut, le chargement pour le temps de sprint de 40 yards est négatif ; cependant, cela est logique, car une personne qui prend beaucoup de temps pour sprinter 40 yards est lente, et serait peu susceptible de sauter très haut ou très loin.
Regardez maintenant la colonne de chiffres à droite pour le facteur II. Remarquez que, pour cette colonne, les nombres à côté de 12-min run, 2-km row time, et 20-min cycle sont assez grands : 12-min run a une saturation de .77, 2-km row time a une saturation de -.70, et 20-min cycle a une saturation de .74. Ces charges importantes indiquent que ces variables font très clairement partie du deuxième facteur. Ce facteur représente apparemment une capacité générale de course sur longue distance, car les trois variables de course sur longue distance – course, aviron et cyclisme – ont des saturations élevées (les plus élevées de toutes les variables) sur ce facteur. Remarquez que, contrairement aux chargements de la course à pied et du cyclisme, le chargement pour le temps d’aviron de 2 km est négatif ; cependant, cela est logique, car une personne qui prend beaucoup de temps pour ramer 2 km est incapable de maintenir un rythme d’aviron rapide et serait peu susceptible de courir ou de faire du cyclisme sur une très longue distance.
Donc, l’analyse factorielle a révélé un facteur qui comprend des variables associées à la capacité de sprint et de saut, et un autre facteur qui comprend des variables associées à l’endurance ou à la performance sur longue distance. Il est important de comprendre qu’il s’agit de deux facteurs distincts et indépendants ; ce ne sont pas deux pôles opposés d’un même facteur. Si les variables de sprint/saut et les variables de longue distance avaient été opposées l’une à l’autre – si elles avaient été fortement corrélées négativement – alors elles auraient appartenu au même facteur, mais auraient présenté des charges opposées sur celui-ci. Au lieu de cela, chacun de ces groupes de variables a défini son propre facteur. Remarquez que les variables de sprint et de saut ont toutes des saturations proches de zéro sur le deuxième facteur, et que les variables de longue distance ont toutes des saturations proches de zéro sur le premier facteur. Cela indique que chaque ensemble de variables n’est pas lié au facteur qui est défini par l’autre ensemble de variables, c’est-à-dire que chaque ensemble n’est ni positivement ni négativement lié à l’autre ensemble.
Il y a deux autres variables que nous n’avons pas encore considérées. Tout d’abord, regardez les chargements pour la fibre musculaire à contraction rapide. Comme vous pouvez le voir, cette variable a montré une charge positive de taille modeste sur le premier facteur (.35) et une charge négative de taille modeste sur le deuxième facteur (-.34). Ces résultats indiquent que cette variable ne s’inscrit pas clairement dans l’un ou l’autre des facteurs, mais qu’elle se situe plutôt en partie dans les deux facteurs. La saturation positive du premier facteur indique que le fait d’avoir un pourcentage élevé de fibres musculaires à contraction rapide est associé à de bonnes performances de sprint et de saut. Cependant, la charge négative du deuxième facteur indique qu’un pourcentage élevé de fibres musculaires à contraction rapide est associé à de mauvaises performances en endurance sur longue distance. (Cela a du sens étant donné la fonction des fibres musculaires à contraction rapide : si vous avez suivi un cours de kinésiologie, vous savez peut-être que ces fibres musculaires se contractent rapidement et permettent un mouvement rapide et explosif, mais se fatiguent facilement et ne permettent pas un effort soutenu et régulier.)
Puis, regardez les chargements pour le pourcentage de graisse corporelle. Comme vous pouvez le voir, cette variable a montré une charge négative de taille modeste à la fois sur le premier facteur (-,32) et également sur le deuxième facteur (-,34). Comme c’était le cas pour la variable des fibres musculaires mentionnée dans le paragraphe précédent, ces résultats indiquent que le pourcentage de graisse corporelle ne s’inscrit pas clairement dans l’un ou l’autre des facteurs, mais qu’il se situe en partie dans les deux facteurs. Mais remarquez que le schéma est différent, car le pourcentage de graisse corporelle se charge négativement sur le premier et le deuxième facteur. Ces charges indiquent qu’un pourcentage élevé de graisse corporelle est associé à la fois à de mauvaises performances de sprint et de saut et à de mauvaises performances d’endurance sur longue distance. Cela est logique, car avoir beaucoup de graisse corporelle signifie beaucoup de poids « mort » supplémentaire qui rendra plus difficile le sprint et le saut explosifs et plus difficile de couvrir une longue distance à une vitesse soutenue.
Comme le montrent ces résultats, nous pouvons constater que l’analyse factorielle nous permet de résumer les relations entre un grand nombre de variables en termes de seulement un petit nombre de groupes, ou facteurs. Alors que nous avions commencé avec huit variables dans le cas précédent, nous avons pu montrer que celles-ci représentaient deux grands groupes de variables, et nous avons pu comprendre la nature de chaque groupe en considérant l’identité des variables qui le composent. Désormais, si je veux mesurer ce type de capacités physiques chez mes élèves, je pourrais probablement gagner du temps en utilisant un seul test de sprint ou de saut, et un seul test de longue distance, au lieu de la batterie complète de huit variables. Par exemple, je pourrais peut-être me contenter de mesurer le triple saut debout (qui représente le facteur « capacité de sprint et de saut ») et la course de 12 minutes (qui représente le facteur « longue distance »). (Bien sûr, si je m’intéressais à chaque variable pour elle-même, je continuerais à utiliser les huit.)
Dans l’exemple que nous venons de montrer, le nombre de variables était assez faible, et le schéma des corrélations entre ces variables était relativement simple. En regardant la matrice des corrélations entre les variables, vous pourriez probablement voir que les variables tomberaient dans deux facteurs principaux. Mais dans la plupart des cas, lorsque les psychologues utilisent l’analyse factorielle, les résultats sont loin d’être aussi évidents : il y a souvent de nombreuses variables, et le schéma des corrélations entre elles est très complexe, avec de nombreuses corrélations de taille moyenne et moins de corrélations très grandes ou très petites. Lorsque c’est le cas, l’analyse factorielle peut être d’une grande aide pour le chercheur, en prenant un schéma extrêmement compliqué de corrélations entre un grand nombre de variables et en réduisant ces variables à un petit nombre de facteurs.
Il n’est pas toujours facile de déterminer exactement combien de facteurs existent dans un ensemble donné de variables. Il existe différentes règles qu’un chercheur peut utiliser pour décider combien de facteurs il y a réellement, mais ces règles ne donnent pas toujours le même résultat. Une façon importante de déterminer le nombre réel de facteurs est de voir quels ensembles de facteurs peuvent être trouvés dans de nombreuses études différentes, en utilisant différents participants à la recherche ou même différents ensembles de variables mesurant les mêmes types généraux de caractéristiques. Par exemple, vous pourriez constater que le même ensemble de trois facteurs peut être retrouvé de manière cohérente dans de nombreuses études différentes, mais qu’aucun ensemble de quatre facteurs n’est retrouvé de manière cohérente. Si cela était vrai, alors vous décideriez probablement qu’il y a trois, mais pas quatre, facteurs qui sous-tendent ce domaine de caractéristiques.
Une note importante sur l’analyse factorielle : Les groupes de variables identifiés par cette technique doivent être considérés comme des dimensions selon lesquelles les personnes diffèrent, et non comme des « types » de personnes. Dans l’exemple qui vient d’être donné, les gens ont différents niveaux du facteur (ou de la dimension) de l’aptitude au sprint et au saut, quelques personnes étant très douées pour ces capacités et quelques autres étant très médiocres, mais la plupart des gens se situant entre les deux. De même, pour l’autre facteur (ou dimension) de l’aptitude à la course de fond, il y a aussi quelques personnes avec des niveaux très élevés, quelques autres avec des niveaux très bas, et la plupart des autres entre les deux. Autrement dit, pour chacune de ces deux dimensions, nous pouvons décrire un individu en fonction d’un certain nombre (tel qu’un score standard) qui représente son niveau de cette dimension.