Conducting a hypothesis test for the population correlation coefficient ρ｜STAT 501

相関係数rと決定係数r2についての議論の中で、まだ強調していない点がもう1つあります – すなわち、この2つの尺度は、サンプルのみにおける線形関係の強さを要約しています。つまり、この2つの指標は、サンプルにおける線形関係の強さを要約したものであり、異なるサンプルを入手した場合には、異なる相関関係、異なるr2値が得られ、したがって、異なる結論が得られる可能性があるということです。いつものように、私たちはサンプルだけでなく、集団についての結論を出したいのです。そのためには、仮説検定を行うか、信頼区間を計算する必要があります。

ちなみに、回帰分析の4つのステップのうち、このトピックはどこに当てはまるのでしょうか。

モデルの定式化
モデルの推定
モデルの評価
モデルの使用

2つの量的変数の間に線形関係が存在するかどうかという、特定の研究課題に答えるためにモデルを使用する状況です

一般的には。一般的に研究者は、どの変数を応答と見なすべきかが明らかでない場合、2つの変数の間に線形関係があることを知るために母集団相関ρの仮説検定を使用すべきです。この点について、2つの異なる研究課題の例を挙げて説明します。

皮膚がん死亡率と緯度の間に線形関係があるかどうかを評価するには、次のいずれかの検定を行えばよいことを前回学びました。例えば、夫の年齢と妻の年齢の間に線形関係があるかどうかを評価したいとします。この場合は、夫の年齢を応答として扱うことができます。

husband's age vs wife's age plot's age vs wife's age plot

または、妻の年齢を回答として扱うこともできます。

妻の年齢 vs 夫の年齢のプロット's age vs husband's age plot

このようなケースでは。このような場合には、母集団相関係数H0を検定するt検定を用いて、線形関係の存在に関する研究課題に答えます。 ρ = 0.

早速ですが、仮説検定の手順をご紹介します。母集団相関係数ρの仮説検定を行う際には、標準的な仮説検定の手順に従います。

帰無仮説 H0: ρ = 0
対立仮説 HA: ρ ≠ 0 or HA: ρ < 0 or HA: ρ > 0

2番目に、次の式を用いて検定統計量の値を計算します。

第3に、得られた検定統計量を用いてP値を計算します。いつものように、P 値は、”帰無仮説が真であった場合に、検定統計量 t* が同じように極端になる可能性はどれくらいか?” という質問に対する答えです。

最後に、私たちは決断を下します：

P値が有意水準αより小さければ、帰無仮説を棄却して対立仮説を支持します。
P値が有意水準αよりも大きければ、帰無仮説を棄却しないと結論づける。予測変数xと応答yの間に母集団で線形関係があると結論づけるには、αレベルで十分な証拠がない」

n = 170組の夫婦に基づく標本相関がr = 0.939である夫の年齢と妻の年齢のデータについて、仮説検定を行ってみましょう。 H0: ρ = 0 を代替の HA: ρ≠0 に対して検定すると、次のような検定統計量が得られます：

P値を得るためには、検定統計量を自由度168（170 – 2 = 168）のt分布と比較する必要があります。特に、35.39よりも極端な検定統計量を観測する確率を求め、両側検定を行っているので、その確率に2をかける必要があるのです。

minitab output

出力は、検定統計量が 35.39 より小さくなる確率が 0.999 より大きいことを示しています。したがって、テスト統計量が 35.39 よりも大きい確率は、0.001 よりも小さいことになります。このに示されているように、2を掛けてP値が0.002より小さいことを判断します。 P値は0.05よりも小さいので、帰無仮説を棄却することができます。夫の年齢と妻の年齢の間に有意な線形関係があると結論づけるには、α=0.05レベルで十分な統計的証拠があります。

ちなみに、Minitabのような統計ソフトウェアに、汚れ仕事をすべて任せることができます。

minitab output

線形関係の存在を検定するために学んだ 3 つの仮説検定 (H0.β1=0 の t 検定、H0.β1=0 の ANOVA 検定、H0.β1=0 の ANOVA 検定) は、以下のように報告されますので、注意が必要です。 β1=0に対するt検定、H0:β1=0に対するANOVA F検定、H0:ρ=0に対するt検定の3つの仮説検定は、常に同じ結果になることに注意が必要です。例えば、夫の年齢（”HAge”）を応答として、妻の年齢（”WAge”）を予測変数として扱うと、それぞれの検定でP値が0.000になります…。 < 0.001:

minitab output

そして同様に、妻の年齢(「WAge」)を応答として、夫の年齢(「HAge」)を予測因子として扱うと、それぞれの検定でP値は0.000…. < 0.001:

minitab output

技術的には、P値を得るためにどのようなテストを使用するかは重要ではありません。常に同じ P 値を得ることができます。

変数の 1 つが応答として明確に識別できる場合、H0: β1 = 0 をテストするために t-テストまたは F-テストの結果を実施したことを報告してください (x を使用して y を予測することは意味がありますか?)。
どの変数が応答であるかが明らかでない場合、H0: ρ = 0を検定するためにt-testを実施したことを報告してください (xとyの間の関連性を探すことだけに意味があるのでしょうか?)

最後に1つだけ……いつものように、H0: ρ = 0を検定するためにt-testを使用してもよい場合を明確にする必要があります。このガイドラインは、単純な線形回帰モデルのために作られた「LINE」の仮定を簡単に拡張したものです。

どの変数が応答であるかが明らかでない場合
(x, y)のペアが二変量正規母集団からの無作為抽出である場合

各xについて、y’sは等分散の正規である。

各yについて、xは等分散の正規分布である。

yはxの線形関数とみなすことができる。

または、xはyの線形関数とみなすことができる。

(x, y)のペアは独立である。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル