Articles

因子分析

Posted on

3.2 因子分析のやさしい紹介

研究者が多くの変数を測定し、それらが互いに実質的な相関関係を示す場合、相関関係に応じてグループに分類することで、変数の数を減らすことが有用な場合があります。 しかし、変数の数が多く、それらの間の相関のパターンが複雑な場合、どの変数をグループにまとめるべきかを判断するのは容易ではありません。 そこで、統計的手法である因子分析が用いられる。

因子分析は、性格特性に限らず、多くの種類の変数に使用することができます。 因子分析の例を考えてみましょう。 体格の良い健康な若い個性的な学生数百人を説得して、体操服に着替えさせ、一連の身体検査をさせたとします。

垂直跳び(しゃがんだ状態からの跳躍の高さ)、

40ヤードダッシュ(40ヤードまたは36.5mを走破する時間)、

2つの変数を測定します。

40ヤードダッシュ(40ヤードまたは36.5メートルを走破する時間)、

立位三段跳び(立った状態からホップ、ステップ、ジャンプした距離)、

12分走(12分間で走った距離)、

2kmローイング(ローイングマシンで2kmまたは1.25マイルを漕いだ時間)。

2-km row(ローイングマシンで2kmまたは1.25マイルを漕ぐ時間)、

20-min cycle(標準的なエクササイズバイクで20分間に漕いだ距離)、

percent fast-twitch muscle fiber(大腿部から採取した組織サンプルから)、

percent body fat(皮膚折り返しキャリパーで測定)

さて、これらの変数について学生を測定したとします。 各変数の相関関係は表3.1のようになります(なお、これらのデータはすべて人工的なものです。 私は実際にこれらの変数について誰かを測定したわけではないので、これらの相関関係はこの例の目的のために作られたものです。

表3.1. 体力と生理学的測定値の相関関係

変数 VJ Dashth TJ Run Row Cycle Type Fat
垂直方向のジャンプの高さ(VJ) 1.00
40ヤード(36m)ダッシュタイム(ダッシュ) -.52 -1.00 -1.00 -1.00
立ち三段跳びの距離(TJ) -0.56 -0.60 -1.00
12分走距離(ラン) .00 .01 .00 1.00
2km(1.25マイル)の漕ぎ出し時間(ローイング) -0.01 -0.00 -0.01 -0.54 -1.00
20分サイクルの距離(サイクル) -.00 -.01 .00 .58 -.50 1.00
速筋繊維タイプの割合(タイプ) .30 -.26 -.22 -.29 -.25 -.21 1.00
体脂肪率(fat) -.20 -.28 -.24 -.21 -.25 -.29 .00 1.00

これらは仮定(想像)のデータです。

表3.1の相関行列は、各変数が他の変数とどのように相関しているかを示しています。 一方の変数の名前を上に、他方の変数の名前を横に探し、一方の変数の列と他方の変数の行が交わるセルを見つけることで、その2つの変数の相関関係がわかります。

表3.1では、最初の3つの変数の間にかなり強い相関があることに注目してください。 垂直跳びと立ち三段跳びは互いに強い正の相関があり、40ヤードダッシュのタイムはどちらの変数とも負の相関があります。 跳び上がる能力と前に飛び出す能力は互いに関連しており、どちらもスプリントの速さに関係していることがわかります。 なお、ジャンプと40ヤード走の相関は負の値を示していますが、これは40ヤード走に時間がかかっている人は、あまり高くも遠くもジャンプしていないからです。 12分間の走行距離と20分間の自転車走行距離は互いに正の相関があり、2kmのボート漕ぎの時間とは負の相関があります。 長距離走能力と長距離自転車能力は互いに関連しており、両者は長距離漕ぎ能力にも関連していることがわかります。

これら2つのグループの3つの変数について、2つのグループ間の相関は非常に弱いことに注意してください。 垂直跳び、40ヤード走、立ち三段跳びと、12分走、2km漕ぎ、20分サイクルの相関は、いずれもゼロに近い値です。

さて、最後の2つの変数について考えてみましょう。 まず、速筋繊維の割合は、最初の3つの変数(垂直跳びとの正、40ヤードスプリントタイムとの負、立ち三段跳びとの正)、および2番目の3つの変数(12分走距離との負、2km漕ぎタイムとの正、20分サイクル距離との負)とわずかな相関関係を示しています。

最後に、体脂肪率は6つの変数(垂直跳びとのマイナス、40ヤードスプリントタイムとのプラス、立ち三段跳びとのマイナス、12分走距離とのマイナス、2km漕ぎタイムとのプラス、20分サイクルディスタンスとのマイナス)と緩やかな相関関係を示しました。

では、これらの相関関係を因子分析するとどうなるか見てみましょう。

表3.2は、各変数がそれぞれのグループにどれだけ強く属しているか、専門用語で言えば、各変数が各「因子」にどれだけ「負荷」をかけているかを示したものです。 体力と生理的測定値の2つの因子への負荷量

変数th 要因
I II
縦方向のジャンプの高さ .71 -.01
40ヤード(36m)ダッシュタイム -.76 -.01
立ち三段跳びの距離 .77 .01
12分間のランの距離 -.02 .77
2km(1.25マイル)のローイングタイム .01 -.70
20分サイクルの距離 .01 .74
速筋繊維タイプの割合 .35 -.34
体脂肪率 -.32 -.34

これらは仮想(想像)のデータです。

まず、左の第1因子の数字の列を見てください。 これらの数値は因子負荷量と呼ばれ、相関係数のように -1 ~ +1 の範囲で大きさを変えることができます。 この列では,垂直跳び,40ヤードスプリントタイム,立ち三段跳びの横の数字がかなり大きいことに注目してください。 垂直跳びの「負荷」は0.71,40ヤードスプリントタイムの「負荷」は-0.76,立ち三段跳びの「負荷」は0.77です。 これらの大きな負荷量は,これらの変数が明らかに第1因子の一部であることを示しています。 この因子は、3つのジャンプとスプリントの変数がこの因子に高い負荷(どの変数よりも高い)をかけていることから、一般的なジャンプとスプリントの能力を表しているようです。 2つのジャンプ変数の負荷とは異なり、40ヤードのスプリント時間の負荷は負であることに注意してください。しかし、これは理にかなっています。なぜなら、40ヤードのスプリントに長い時間がかかる人は、スピードが遅く、非常に高く、あるいは非常に遠くにジャンプすることはないと思われるからです。 この列では、「12分間のランニング」、「2kmのローイングタイム」、「20分間のサイクル」の数字が非常に大きいことに注目してください。 12-min runの負荷は0.77,2km row timeの負荷は-0.70,20-min cycleの負荷は0.74である。 これらの大きな負荷は、これらの変数が明らかに第2因子の一部であることを示している。 この因子は、一般的な長距離レースの能力を表していると思われる。なぜなら、3つの長距離変数、すなわち、ランニング、ローイング、サイクリングは、この因子に高い負荷(どの変数よりも高い)をかけているからである。

このように、因子分析の結果、スプリントやジャンプの能力に関連する変数を含む因子と、持久力や長距離のパフォーマンスに関連する変数を含む因子が明らかになりました。 ここで重要なのは、これらが2つの独立した要因であり、同じ要因の対極にある2つの要因ではないということです。 もし、スプリント/ジャンプの変数と長距離の変数が互いに逆の関係にあったとしたら、つまり、それらが強い負の相関を持っていたとしたら、それらは同じ因子に属していたはずですが、その因子に対する負荷量は逆になっていたでしょう。 しかし,これらの変数群はそれぞれ独自の因子を定義していた。 スプリントとジャンプの変数はすべて第2因子の負荷量がゼロに近く、長距離の変数はすべて第1因子の負荷量がゼロに近いことに注目してください。 これは、各変数のセットが、他の変数のセットによって定義される要因とは無関係であることを示しています。 まず、速筋繊維の割合 (percent fast-twitch muscle fiber) の負荷量を見てみましょう。 ご覧のように、この変数は、第1因子に中程度の正の負荷(0.35)、第2因子に中程度の負の負荷(-0.34)を示しました。 これらの結果は、この変数がどちらの因子にもきちんと当てはまらず、むしろ両方の因子に部分的に含まれていることを示しています。 第1因子の正の負荷は、速筋繊維の割合が高いことが、スプリントやジャンプのパフォーマンスの高さと関連していることを示している。 しかし、第2因子の負の負荷は、速筋繊維の割合が高いことが長距離持久力の低下と関連していることを示しています。

次に、体脂肪率の負荷量を見てみましょう。 ご覧のように、この変数は、第1因子(-.32)と第2因子(-.34)の両方に中程度の大きさの負の負荷を示しました。 前の段落で述べた筋繊維の変数と同様に、これらの結果は、体脂肪率がどちらの因子にもきちんと当てはまらず、むしろ両方の因子に部分的に含まれていることを示しています。 しかし、体脂肪率は第1因子と第2因子の両方に負の影響を与えるため、パターンが異なることに注意してください。 これらの負荷は、体脂肪率の高さが、スプリントやジャンプのパフォーマンスの低下と、長距離の持久力の低下の両方に関連していることを示しています。

これらの結果からわかるように、因子分析では、多数の変数間の関係を少数のグループまたは因子のみで要約することができます。 先ほどは8つの変数からスタートしましたが、それが大きく分けて2つのグループであることを示し、そのグループ内の変数の同一性を考慮することで、それぞれのグループの性質を理解することができました。 今後、生徒の身体能力を測定する場合は、8つの変数を使うのではなく、1つのスプリントテストやジャンプテスト、1つの長距離テストを使うことで、時間を短縮することができるでしょう。 例えば、立位三段跳び(「走力・跳躍力」の要素)と12分間走(「長距離」の要素)を測定すればいいのです。

先ほどの例では、変数の数がかなり少なく、変数間の相関のパターンも比較的単純でした。 変数間の相関関係のマトリックスを見れば、変数が主に2つの要因に分類されることがわかるでしょう。 多くの変数があり、それらの間の相関のパターンは非常に複雑で、多くの中程度の相関があり、非常に大きいまたは非常に小さい相関は少ないのです。 このような場合、因子分析は、多数の変数間の相関の非常に複雑なパターンを取り上げ、それらの変数を少数の因子に減らすことで、研究者にとって大きな助けとなります。

与えられた変数のセットにいくつの因子があるかを正確に把握することは、必ずしも容易ではありません。

与えられた変数群にどれだけの要因があるかを正確に把握することは、必ずしも容易ではありません。 要因の数を知るための重要な方法の1つは、異なる研究対象者を用いた多くの異なる研究で、あるいは同じ一般的な種類の特性を測定する異なる変数のセットでさえ、どの要因のセットが見られるかを確認することです。 例えば、3つの因子の同じセットは多くの異なる研究で一貫して回収されるが、4つの因子の単一のセットは一貫して見つからないことがわかるかもしれません。

因子分析に関する重要な注意点があります。 この手法によって特定された変数のグループは、人々の「タイプ」ではなく、人々が異なる次元であると考えるべきです。 先ほどの例では、人々は、スプリントやジャンプの能力という要因 (または次元) の異なるレベルを持っており、これらの能力が非常に優れている人もいれば、非常に劣っている人もいますが、ほとんどの人はその中間に位置しています。 同様に、もう一つのファクター(次元)である長距離レースの能力についても、非常に高い人が数人、非常に低い人が数人、そしてほとんどの人がその中間に位置しています。 つまり、これらの2つの次元のそれぞれについて、その次元のレベルを表す何らかの数値 (標準スコアなど) で個人を表現することができます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です