信頼区間とは何ですか?
統計における信頼区間は、母集団パラメーターが一定の割合で2つの設定値の間に収まる確率を指します。 信頼区間は、サンプリング方法の不確実性または確実性の程度を測定します。 信頼区間は任意の数の確率を取ることができ、最も一般的なものは95%または99%の信頼水準です。
信頼 区間 と信頼 レベル は相互に関連していますが、まったく同じではありません。
信頼区間について
統計学者は、信頼区間を使用して不確実性を測定します。 たとえば、研究者は同じ母集団から異なるサンプルをランダムに選択し、各サンプルの信頼区間を計算します。 結果のデータセットはすべて異なります。 一部の区間には真の母集団パラメーターが含まれ、他の区間には含まれません。
信頼区間 は、未知の母集団パラメーターを含む可能性が高い値の範囲です。 信頼レベル とは、ランダムなサンプルを何度も描画したときに、信頼区間に真の母集団パラメーターが含まれる確率または確実性の割合を指します。 または、用語では、「これらのデータセット (信頼区間)の ほとんどが真の母集団パラメーターを含むことは99%確実( 信頼レベル) です」。
重要なポイント
- 信頼区間は、母集団パラメーターが2つの設定値の間に収まる確率を計算します。信頼区間は、サンプリング手法の不確実性または確実性の程度を測定します。ほとんどの場合、信頼区間は95%または99%の信頼レベルを反映します。
信頼区間の計算
あるグループの研究者が高校のバスケットボール選手の身長を研究しているとします。 研究者は母集団から無作為のサンプルを採取し、74インチの平均身長を確立します。 74インチの平均は、母平均のポイント推定です。 ポイント推定値自体は、推定値に関連する不確実性を明らかにしないため、有用性が限られています。 この74インチのサンプル平均が母集団平均からどれだけ離れているかについてはよくわかりません。 欠落しているのは、この単一サンプルの不確実性の程度です。
信頼区間は、ポイント推定よりも多くの情報を提供します。 サンプルの平均と標準偏差を使用して95%の信頼区間を確立し、ベルカーブで表される正規分布を仮定すると、研究者は95%の時間の真の平均を含む上限と下限に到達します。 間隔が72インチから76インチの間であると想定します。 研究者が高校のバスケットボール選手の集団から100個のランダムなサンプルを採取した場合、それらのサンプルの95個の平均は72インチから76インチの間に収まるはずです。
研究者がさらに高い信頼性が必要な場合は、間隔を99%の信頼性に拡張できます。 これを行うと、より多くのサンプル平均値の余地ができるため、常に広い範囲が作成されます。 70インチから78インチの間の99%信頼区間を確立する場合、100個のサンプルのうち99個がこれらの数値の間に平均値を含むと評価されます。 90%の信頼レベルとは、間隔推定値の90%に母集団パラメーターが含まれることを意味します。 同様に、99%の信頼レベルは、間隔の95%にパラメーターが含まれることを意味します。
信頼区間に関する一般的な誤解
信頼区間に関する最大の誤解は、上限と下限の間にある特定のサンプルからのデータの割合を表すということです。 たとえば、前述の70〜78インチの99%信頼区間を、ランダムサンプルのデータの99%がこれらの数値の間にあることを示すと誤って解釈する場合があります。 これは間違っていますが、そのような決定を行うための統計分析の別の方法が存在します。 そのためには、サンプルの平均と標準偏差を特定し、これらの数値を釣鐘曲線にプロットします。