標本抽出法

投稿者: | 2018-04-29

統計検定2級では毎回のように標本抽出法の問題が出題されています。ここでは主要な標本抽出法の概要と特徴をまとめ、統計検定2級での出題例を解説します。

標本抽出について

推測統計学では母集団から一部を抽出し、抽出した集団の性質から母集団の性質を推測します。母集団から標本を抽出する方法として以下の手法

  • 単純無作為抽出法
  • 系統抽出法
  • 層化無作為抽出法
  • 多段抽出法
  • クラスター抽出法

が知られておりそれぞれメリット、デメリットがあります。

ここでは、アンケート調査会社が登録会員数[math]N[/math]人(会員番号が[math]1[/math]から[math]N[/math]まで振られているとします)から健康調査用に[math]n[/math]人を抽出する状況を考えます。

単純無作為抽出法

母集団の各個体が標本として選ばれる確率が等しく[math]p=n/N[/math]であるように抽出する方法です。[math]1[/math]から[math]N[/math]の数字を乱数で[math]n[/math]個重複がないように選ぶ方法などがあります。

  • メリット: 簡単に標本抽出が可能
  • デメリット: たまたま偏りを持った標本(例: 喫煙者が多く選ばれるなど)が抽出される可能性がある

系統抽出法

はじめに1つの標本を無作為に選び、それ以降は等間隔で標本を抽出する方法です。例えば、[math]1[/math]から[math]N[/math]の数字を乱数で[math]1[/math]つ選び、それ以降は[math]3[/math]個おきに標本を選ぶ方法です。

  • メリット: 簡単に標本抽出が可能
  • デメリット: 個体の並びに周期性がある場合は偏りを持った標本が抽出される可能性がある

層化無作為抽出法

母集団を何らかの基準でいくつかの層に分けて各層の個体に対して単純無作為抽出法や系統抽出法を用いる方法です。例えば、登録会員を「喫煙者」と「非喫煙者」の2つのグループに分け、「喫煙者」の構成割合が[math]20\%[/math]の場合

  • 「喫煙者」グループから[math]0.2n[/math]人
  • 「非喫煙者」グループから[math]0.8n[/math]人

を無作為抽出する方法です。

  • メリット: 各層ごとに分布が大きく異なる場合、母集団の推定精度が高まる
  • デメリット: 母集団に関する正確な情報が必要で、適切な層化基準を決めるのが難しいことがある

多段抽出法

母集団を何らかの基準でいくつかのブロックに分割し

  1. ブロックからいくつかのブロックを無作為に抽出
  2. 抽出されたブロックをさらに小さなブロックに分割
  3. 分割したブロックからいくつかのブロックを無作為に抽出
  4. ブロックが十分小さくなるまで繰り返し、[math]n[/math]個の標本を無作為に抽出

として抽出する方法です。

例えば、会員の居住地を都道府県で分割し

  1. 抽出対象ブロックを抽出: (例)京都府、大分県
  2. 抽出したブロックをさらに小さなブロックに分割: 市町村単位に分割
  3. 分割したブロックから無作為に抽出: (例)京都府宇治市、大分県別府市
  4. 京都府宇治市、大分県別府市の会員から[math]n[/math]人を無作為抽出

とします。

  • メリット: 調査コストを抑えられる
  • デメリット: 段数が多くなるほど代表性が低くなり標本が偏りを持ちやすい

クラスター抽出法

母集団をいくつかのクラスターに分割し、分割したクラスターの中から無作為に抽出し、抽出したクラスターの個体のすべてを標本にする方法です。

例えば、会員の居住地を市町村単位で分割し無作為に選んだクラスター(例: 京都府宇治市)の会員全員を標本とする抽出法です。

  • メリット: 調査コストを抑えられる
  • デメリット: 同じクラスターに属する個体は似た傾向を持つことが多く標本が偏りを持ちやすい

統計検定2級での出題例

統計検定2級では毎回のように標本抽出法に関する問題が出されています。ここでは2017年11月実施分の問題を紹介します。

次の記述1〜3の正誤を答えよ。

  1. クラスター(集落)抽出法は,母集団を適当なグループに分け,その中から無作為抽出で選ばれたグループに含まれるすべての個体を抽出する方法である。
  2. 多段抽出法は,抽出のコストが高くなるという短所があるが,標本に偏りが生じにくい。
  3. 系統抽出法は,母集団の各個体に通し番号を付け,1番目の個体番号を無作為に抽出した後,2番目以降は番号を等間隔に選んでいく方法である。

それぞれ各標本抽出法の概要とメリット/デメリットを理解していれば

  1. クラスター抽出法の説明文として正しく「正」
  2. 多段抽出法は抽出コストが低いという長所と偏りが生じやすいという短所があるため「誤」
  3. 系統抽出法の説明文として正しく「正」

と難なく正誤を解答できると思います。

参考情報

スポンサーリンク


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です