サンプルとは?
サンプルとは、より大きな集団の中で、より小さく、管理しやすいものを指します。 これは、より大きな集団の特徴を含むサブセットです。 サンプルは、母集団のサイズが大きすぎて、テストにすべての可能なメンバーや観測値を含めることができない場合に、統計的テストで使用されます。
重要なポイント
- サンプルとは、より大きな集団の、より小さく、管理しやすいバージョンのことを指します。
- 偏りのないサンプルを得るためには、母集団の全員がサンプルグループに加えられる可能性が等しく、かつ高い確率であるように、選択は無作為でなければなりません。
- 単純無作為抽出では、母集団のすべての実体は同一ですが、層別無作為抽出では、全体の母集団をより小さなグループに分割します。
サンプルについて
サンプルとは、母集団から採取された偏りのない数の観測値のことです。 基本的な用語で言えば、母集団とは、任意の対象の個体、動物、アイテム、観察、データなどの総数を指します。 つまり、サンプルとは、言い換えれば、全体の中の一部、パート、分数であり、母集団のサブセットとして機能します。 サンプルは、研究が行われる様々な場面で使用されます。
研究のために全体の集団を使用することには課題があり、それがサンプルを使用する理由です。 研究者は、集団全体にすぐにアクセスできない場合があります。 また、研究の性質上、研究者が必要とする結果をタイムリーに得ることが難しい場合もあります。 そのため、研究者はサンプルを使用するのです。
研究者が使用するサンプルは、母集団に近いものでなければなりません。 サンプルに含まれるすべての参加者は、同じ特徴や資質を共有していなければなりません。 つまり、男性の大学1年生を対象とした研究であれば、サンプルは、この説明に当てはまる男性のごく一部でなければなりません。 同様に、ある研究グループが50歳以上の独身女性の睡眠パターンに関する研究を行う場合、サンプルにはこの層の女性のみを含めるべきです。
学術研究者のチームが、CFA試験のために40時間未満しか勉強していないのに合格した学生が何人いるかを知りたいと考えてみましょう。
実際には、母集団からのデータを収集して分析する頃には、数年が経過しており、新たな母集団が出現しているため、分析の価値はありません。
偏りのないサンプルを得るためには、母集団の誰もが等しくグループに加えられる可能性があるように、選択は無作為でなければなりません
偏りのないサンプルを得るためには、母集団の誰もが等しくサンプルグループに加えられる可能性があるように、選択は無作為でなければなりません。
サンプリングの種類
単純無作為抽出
単純無作為抽出は、母集団内のすべての存在が同一である場合に理想的です。 研究者が、サンプル対象者がすべて男性であるか、すべて女性であるか、あるいは何らかの形で両性が組み合わさっているかどうかを気にしない場合、単純無作為抽出は良い選択手法となるかもしれません。
2016年にCFA試験を受験した20万人の受験者がいて、そのうち40%が女性、60%が男性だったとします。
しかし、40時間未満の勉強で試験に合格した男女の比率を知ることが重要な場合はどうでしょうか。
層化無作為抽出
このタイプの抽出は、比例無作為抽出またはクォータ無作為抽出とも呼ばれ、全体の母集団をより小さなグループに分割します。 これらは層として知られています。
研究者がデータに含めたい重要な要素として、年齢があるとしたらどうでしょうか。 層化無作為抽出法を使って、各年齢層に層を作ることができます。 各層からの抽出は、その層に属するすべての人がサンプルに含まれる可能性があるように、無作為でなければなりません。 例えば,2人の参加者,AlexとDavidは,それぞれ22歳と24歳です. サンプルの選択では、何らかの優遇措置に基づいてどちらかを選ぶことはできません。 二人とも、同じ年齢層から同じ確率で選ばれなければなりません。 層は次のようになります。
階層 (年齢) | 母集団の人数 | サンプルに含まれる人数 |
20-!24 | 30,000 | 150 |
25-29 | 70,000 | 350 |
30-34 | 40,000 | 200 |
35-39 | 30,000 | 150 |
40-44 | 20,000 | 100 |
> 44 | 10,000 | 50 |
合計 | 200,000 | 1,000 |
この表から、人口を年齢別に分けています。 例えば、20歳から24歳の年齢層内の3万人が、2016年にCFAの試験を受けました。 これと同じ割合で、サンプルグループには、このグループに該当する(30,000÷200,000)×1,000=150人の受験者がいることになります。 サンプルの150人のランダムな受験者の中には、AlexとDavidのどちらか、あるいは両方、あるいはどちらでもない人が含まれているかもしれません。
サンプルサイズを決める際にまとめられる層は、他にもたくさんあります。
サンプルサイズを決定する際には、さらに多くの層が考えられます。研究者によっては、サンプルの作成方法を決定する際に、受験者の職能、国、配偶者の有無などを入力するかもしれません。
サンプルの例
2017年現在、世界の人口は75億人で、そのうち女性が49.6%、男性が50.4%です。 また、任意の国の人口総数も人口規模とすることができます。 また、ある都市の学生の総数も人口と言えますし、ある都市の犬の総数も人口と言えます。
CFAの試験を例にとると、20万人の受験者の中から、1,000人のCFA参加者を母集団として、必要なデータを抽出することができます。 このサンプルの平均値をとって、40時間未満しか勉強していないのに合格したCFA試験受験者の平均値を推定します。 つまり、1,000人のCFA試験受験者のサンプル平均が50であれば、200,000人の受験者の母集団の平均も約50になるはずです。