単純なランダムサンプルと層別ランダムサンプル:概要
単純なランダムサンプルと成層ランダムサンプルは、両方とも統計的測定ツールです。 単純なランダムサンプルを使用して、データ母集団全体を表します。 階層化されたランダムサンプルは、共有された特性に基づいて、母集団をより小さなグループまたは階層に分割します。
母集団は、観測値またはデータの合計セットです。 サンプルは、母集団からの観測のセットです。 サンプリング方法は、母集団からサンプルを取得するプロセスです。
単純なランダムサンプル
シンプルランダムサンプリングは、データ母集団から取得した非常に基本的なサンプルを記述するために使用される統計ツールです。 このサンプルは、母集団全体に相当します。
単純なランダムサンプルは、データ母集団に関する利用可能な情報が非常に少ない場合、データ母集団の差異が多すぎてさまざまなサブセットに分割できない場合、またはデータ母集団間に明確な特性が1つしかない場合によく使用されます。
たとえば、菓子会社は、製品ラインの将来を決定するために、顧客の購買習慣を調査することができます。 10, 000人の顧客がいる場合、ランダムなサンプルとして100人の顧客を選択して使用できます。 その後、これらの100人の顧客から得た情報を残りのベースに適用できます。
統計学者は、データ母集団の網羅的なリストを考案し、その大規模なグループ内のランダムなサンプルを選択します。 このサンプルでは、母集団のすべてのメンバーがサンプルの一部として選択される可能性が等しくなります。 次の2つの方法で選択できます。
- 人口の各メンバーに番号が与えられる手動宝くじを通じて。 次に、誰かがサンプルに含める番号をランダムに描画します。 これは、小グループを見るときに最適です。コンピューター生成サンプリング。 この方法は、人間ではなくコンピューターを使用してサンプルを選択することにより、より大きなデータセットで最適に機能します。
単純なランダムサンプリングを使用すると、研究者は特定の母集団について一般化を行い、偏りを排除できます。 これは、将来の決定方法を決定するのに役立ちます。 上記の例のキャンディー会社はこのツールを使用して、100人の顧客の現在の好みに基づいて製造する新しいキャンディーフレーバーを開発できます。 ただし、これらは一般化されているため、エラーが発生する可能性があります。 結局のところ、それは単純なサンプルです。 これらの100人の顧客は、人口全体の好みを正確に表していない可能性があります。
層別ランダムサンプリング
単純なランダムサンプルとは異なり、層別ランダムサンプルは、異なるサブグループまたはサブセットに簡単に分割できる母集団で使用されます。 これらのグループは特定の基準に基づいており、グループのサイズと母集団に比例して、それぞれからランダムに要素を選択します。
このサンプリング方法は、各グループからの選択があることを意味します。そのサイズは、母集団全体に対する割合に基づいています。 しかし、研究者は層が重ならないようにしなければなりません。 母集団の各ポイントは1つの階層にのみ属している必要があるため、各ポイントは相互に排他的です。 重複する階層は、一部のデータが含まれる可能性を高め、サンプルを歪めます。
キャンディ会社は、100人の顧客をさまざまな年齢層に分けて、ランダムな層別サンプリング手法を使用して、生産の将来について判断するのに役立てることができます。
ポートフォリオマネージャーは、階層化されたランダムサンプリングを使用して、債券インデックスなどのインデックスを複製することでポートフォリオを作成できます。
層別サンプリングには、単純なランダムサンプリングと比較して、いくつかの利点と欠点があります。 特定の特性を使用するため、母集団をさまざまなサブセットに分割するために使用されるものに基づいて、母集団のより正確な表現を提供できます。 多くの場合、これにはより小さなサンプルサイズが必要で、リソースと時間を節約できます。 さらに、各層からの十分なサンプルポイントを含めることにより、研究者は個々の層ごとに個別の分析を行うことができます。
ただし、層別サンプルを抽出するには、ランダムサンプルよりも多くの作業が必要です。 研究者は、各層のデータを個別に追跡して検証する必要があり、ランダムサンプリングに比べてはるかに時間がかかる場合があります。
重要なポイント
- 単純なランダムサンプルと成層化されたランダムサンプルは、統計測定ツールです。単純なランダムサンプルは、母集団全体の小さな基本部分を使用して、データセット全体を表します。 母集団は、同様の特性を共有するさまざまなグループに分割され、層別化されたランダムサンプルが取得されます。