目次
- T検定とは何ですか?
- T検定の説明
- あいまいなテスト結果
- T検定の仮定
- T検定の計算
- 相関(またはペア)T検定
- 等分散(プール)T検定
- 不等分散T検定
- 使用するT検定の決定
- 不等分散T検定の例
T検定とは何ですか?
t検定は、特定の機能に関連する可能性のある2つのグループの平均の間に有意差があるかどうかを判断するために使用される推論統計の一種です。 これは、コインを100回反転した結果として記録されたデータセットなど、データセットが正規分布に従い、未知の分散を持つ場合に主に使用されます。 t検定は仮説検定ツールとして使用され、母集団に適用可能な仮定の検定を可能にします。
t検定は、t統計、t分布値、および自由度を調べて、2つのデータセット間の差の確率を決定します。 3つ以上の変数を使用してテストを実行するには、分散分析を使用する必要があります。
T検定
T検定の説明
基本的に、t検定により、2つのデータセットの平均値を比較し、それらが同じ母集団に由来するかどうかを判断できます。 上記の例で、クラスAの生徒のサンプルとクラスBの生徒の別のサンプルを取得する場合、それらの生徒の平均と標準偏差がまったく同じになるとは考えられません。 同様に、プラセボを与えられた対照群から採取されたサンプルと薬剤処方群から採取されたサンプルは、わずかに異なる平均値と標準偏差を持っている必要があります。
数学的には、t検定は2つのセットのそれぞれからサンプルを取得し、2つの平均が等しいという帰無仮説を仮定して問題ステートメントを確立します。 適用可能な式に基づいて、特定の値が計算され、標準値と比較され、それに応じて帰無仮説が受け入れられるか拒否されます。
帰無仮説が棄却される資格がある場合、データの読み取りが強く、偶然ではないことを示します。 t検定は、この目的で使用される多くのテストの1つにすぎません。 統計学者はさらに、t検定以外の検定を使用して、より多くの変数とより大きなサンプルサイズの検定を調べる必要があります。 サンプルサイズが大きい場合、統計学者はz検定を使用します。 他のテストオプションには、カイ二乗検定とf検定が含まれます。
t検定には3つのタイプがあり、それらは依存t検定と独立t検定に分類されます。
重要なポイント
- t検定は、特定の特徴に関連する可能性のある2つのグループの平均に有意差があるかどうかを判断するために使用される推論統計の一種です。t検定は、仮説検定の目的で使用される多くの検定の1つです。 t検定を計算するには、3つの重要なデータ値が必要です。 それらには、各データセットの平均値の差(平均差と呼ばれる)、各グループの標準偏差、および各グループのデータ値の数が含まれます。必要な分析のデータとタイプについて。
あいまいなテスト結果
製薬会社が新しく発明された薬をテストしたいと考えていると考えてください。 これは、あるグループの患者に薬を試し、対照グループと呼ばれる別のグループにプラセボを投与するという標準的な手順に従います。 対照群に与えられたプラセボは、意図された治療的価値のない物質であり、実際の薬物を投与された他の群がどのように反応するかを測定するベンチマークとして機能します。
薬物試験の後、プラセボを投与された対照群のメンバーは平均寿命が3年伸びたと報告し、新薬を処方されたグループのメンバーは平均寿命が4年伸びたと報告しました。 即時観察により、薬物を使用しているグループにとって結果が良好であるため、薬物が実際に機能していることが示される場合があります。 ただし、観測が偶然の発生、特に驚くべき運の結果である可能性もあります。 t検定は、結果が実際に正しく、母集団全体に適用可能かどうかを結論付けるのに役立ちます。
学校では、クラスAの100人の生徒が平均85%を獲得し、標準偏差は3%でした。 クラスBに属する別の100人の学生は、平均87%を獲得し、標準偏差は4%でした。 クラスBの平均はクラスAの平均よりも優れていますが、クラスBの生徒の全体的なパフォーマンスがクラスAの生徒のそれよりも優れているという結論にジャンプするのは正しくない場合があります。つまり、クラスBの標準偏差もクラスAの標準偏差よりも高くなっています。それは、クラスAの場合と比較して、低い側と高い側の極端な割合がはるかに広がっていたことを示しています。どのクラスの方がうまくいきました。
T検定の仮定
- t検定に関して行われた最初の仮定は、測定のスケールに関するものです。 t検定の仮定は、収集されたデータに適用される測定スケールが、IQテストのスコアなどの連続的または順序的なスケールに従うことです。2番目の仮定は、単純なランダムサンプルの仮定で、データは3番目の仮定は、プロットされたときに、正規分布のベル型の分布曲線をもたらすデータです。4番目の仮定は、適度に大きいサンプルサイズが使用されることです。 サンプルサイズが大きいほど、結果の分布は通常の釣鐘型の曲線に近づくはずです。最後の仮定は、分散の均一性です。 サンプルの標準偏差がほぼ等しい場合、均一な、または等しい分散が存在します。
T検定の計算
t検定を計算するには、3つの重要なデータ値が必要です。 これらには、各データセットの平均値の差(平均差と呼ばれる)、各グループの標準偏差、および各グループのデータ値の数が含まれます。
t検定の結果は、t値を生成します。 この計算されたt値は、クリティカル値テーブル(T分布テーブルと呼ばれる)から取得された値と比較されます。 この比較により、平均値の差が偶然に発生した可能性や、データセットに本質的な違いがあるかどうかを判断できます。 t検定は、グループ間の差が研究の真の差を表しているのか、それとも無意味な統計的差である可能性が高いのかを疑問視します。
T分布テーブル
T分布表は、片側および両側の形式で利用できます。 前者は、明確な方向(正または負)の固定値または範囲を持つケースの評価に使用されます。 たとえば、出力値が-3未満のままである確率、またはサイコロのペアを転がすときに7を超える確率はどのくらいですか? 後者は、座標が-2から+2の間にあるかどうかを尋ねるなど、範囲境界分析に使用されます。
計算は、MS Excelにあるような必要な統計機能をサポートする標準ソフトウェアプログラムで実行できます。
T値と自由度
t検定は、出力として2つの値、t値と自由度を生成します。 t値は、2つのサンプルセットの平均とサンプルセット内に存在する差との差の比率です。 分子値(2つのサンプルセットの平均の差)は計算が簡単ですが、分母(サンプルセット内に存在する差)は、関与するデータ値のタイプによっては少し複雑になる場合があります。 比率の分母は、分散または変動性の測定値です。 tスコアの高い値のt値は、2つのサンプルセットの間に大きな差があることを示しています。 t値が小さいほど、2つのサンプルセットの類似性が高くなります。
- 大きなtスコアはグループが異なることを示します。小さなtスコアはグループが類似していることを示します。
自由度とは、変化する自由があり、帰無仮説の重要性と妥当性を評価するために不可欠な研究の値を指します。 これらの値の計算は、通常、サンプルセットで使用可能なデータレコードの数に依存します。
相関(またはペア)T検定
相関t検定は、サンプルが通常、類似したユニットの一致したペアで構成される場合、または反復測定のケースがある場合に実行されます。 たとえば、特定の治療を受ける前後に、同じ患者が繰り返し検査される場合があります。 そのような場合、各患者は自分自身に対する対照サンプルとして使用されています。
この方法は、サンプルが何らかの方法で関連している場合や、子供、親、兄弟を含む比較分析など、一致する特性がある場合にも適用されます。 相関またはペアのt検定は、2セットのサンプルが関連する場合を含むため、依存型です。
対応のあるt検定のt値と自由度を計算する式は次のとおりです。
- Mean1 と mean2 は各サンプルセットの平均値で、 var1 と var2 は各サンプルセットの分散を表します。
残りの2つのタイプは、独立したt検定に属します。 これらのタイプのサンプルは、互いに独立して選択されます。つまり、2つのグループのデータセットは同じ値を参照しません。 それらには、100人の患者のグループがそれぞれ50人の患者の2つのセットに分割されるようなケースが含まれます。 グループの1つはコントロールグループになり、プラセボが与えられ、もう1つのグループは処方された治療を受けます。 これは、互いにペアになっていない2つの独立したサンプルグループを構成します。
等分散(またはプール)T検定
等分散t検定は、各グループのサンプル数が同じ場合、または2つのデータセットの分散が類似している場合に使用されます。 等分散t検定のt値と自由度の計算には、次の式が使用されます。
。。。 T値= n1 + n2−2(n1−1)×var12 +(n2−1)×var22×n11 + n21 mean1−mean2 where:mean1およびmean2 =各サンプルセットvar1の平均値およびvar2 =各サンプルセットの分散n1およびn2 =各サンプルセットのレコード数
そして、
。。。 自由度= n1 + n2-2ここで:n1およびn2 =各サンプルセットのレコード数
不等分散T検定
不均等分散t検定は、各グループのサンプル数が異なり、2つのデータセットの分散も異なる場合に使用されます。 このテストは、ウェルチのt検定とも呼ばれます。 次の式は、不等分散t検定のt値と自由度を計算するために使用されます。
。。。 T-value = n1var12 + n2var22 mean1-mean2 where:mean1 and mean2 =各サンプルセットの平均値var1およびvar2 =各サンプルセットの分散n1およびn2 =各サンプルセットのレコード数
そして、
。。。 自由度= n1−1(n1var12)2 + n2−1(n2var22)2(n1var12 + n2var22)2ここで:var1およびvar2 =各サンプルセットの分散n1およびn2 = Number各サンプルセットのレコードの
使用する正しいT検定の決定
次のフローチャートを使用して、サンプルセットの特性に基づいて、どのt検定を使用するかを決定できます。 考慮すべき重要な項目には、サンプルレコードが類似しているかどうか、各サンプルセットのデータレコード数、および各サンプルセットの分散が含まれます。
画像:Julie Bang©Investopedia 2019
不等分散T検定の例
アートギャラリーで受け取った絵画を斜めに測定しているとします。 サンプルの1つのグループには10の絵画が含まれ、もう1つのグループには20の絵画が含まれます。 対応する平均値と分散値を持つデータセットは次のとおりです。
セット1 | セット2 | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21.95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.9 | ||
13.3 | ||
平均 | 19.4 | 21.6 |
分散 | 1.4 | 17.1 |
セット2の平均はセット1の平均よりも高いですが、セット2の分散はセット1よりも大幅に大きいため、すべての絵画の平均長は約21.6ユニットであると結論付けることはできません。アートギャラリーで受け取ったすべての絵画の全体的な人口の中で? 平均が2つのサンプルセット間で同じであるという帰無仮説を仮定して問題を確立し、t検定を実行して仮説が当てはまるかどうかを確認します。
データレコードの数が異なり(n1 = 10とn2 = 20)、分散も異なるため、不等分散T検定で述べた式を使用して、上記のデータセットのt値と自由度が計算されます。セクション。
t値は-2.24787です。 2つのt値を比較する場合、マイナス記号は無視できるため、計算値は2.24787です。
自由度の値は24.38で、値を可能な限り最小の整数値に切り捨てる必要がある式の定義により、24に減少します。
正規分布が仮定されるときはいつでも、受け入れの基準として確率のレベル(アルファレベル、有意性のレベル、 p )を指定できます。 ほとんどの場合、5%の値を想定できます。
24の自由度値と5%の有意水準を使用して、t値分布表を見ると2.064の値が得られます。 この値を2.247の計算値と比較すると、計算されたt値が有意水準5%でテーブル値よりも大きいことが示されます。 したがって、平均間に差がないという帰無仮説を棄却しても安全です。 母集団には本質的な違いがあり、偶然ではありません。
投資口座の比較×この表に表示されるオファーは、Investopediaが報酬を受け取るパートナーシップからのものです。 プロバイダー名説明関連用語
分散分析(ANOVA)の仕組み分散分析(ANOVA)は、データセット内で見つかった合計変動性を2つのコンポーネント(ランダムおよびシステマティックファクター)に分離する統計分析ツールです。 詳細Z検定の定義Z検定は、分散が既知でサンプルサイズが大きい場合に2つの母平均が異なるかどうかを判断するために使用される統計検定です。 詳細自由度の定義自由度とは、論理的に独立した値の最大数を指します。これは、データサンプル内で変化する自由がある値です。 T分布の理解AT分布は、小さなサンプルサイズまたは未知の分散の母集団パラメーターの推定に適した確率関数の一種です。 詳細準偏差の測定値準偏差は、投資利益率の平均以下の変動を評価する方法です。 標準偏差の代替として使用されます。 詳細BonferroniテストBonferroniテストは、統計分析で使用される多重比較テストの一種です。 その他のパートナーリンク関連記事
経済
t検定を実施する際にどのような仮定が行われますか?
危機管理
過去のボラティリティを使用して将来のリスクを測定する
株式取引戦略と教育
Excelを使用して株価をシミュレートする方法
財務比率
ExcelでIRRをどのように計算しますか?
数学と統計
相対標準誤差とは
財務比率