Homoskedasticとは
Homoskedastic( "homoscedastic"とも呼ばれます)は、回帰モデルの残差(誤差項)の分散が一定である状態を指します。 つまり、予測変数の値が変化しても、誤差項はあまり変化しません。 ただし、等分散性の欠如は、従属変数のパフォーマンスを説明するために、回帰モデルに追加の予測変数を含める必要があることを示唆する場合があります。
重要なポイント
- 回帰モデルの誤差項の分散が一定の場合、同相性が発生します。 誤差項の分散が等分散である場合、モデルは明確に定義されています。 分散が多すぎると、モデルが適切に定義されない場合があります。 予測変数を追加すると、従属変数のパフォーマンスの説明に役立ちます。逆に、誤差項の分散が一定でない場合、不均一分散が発生します。
Homoskedasticの仕組み
同相性は、線形回帰モデリングの前提の1つです。 回帰線周辺の誤差の分散が大きく変動する場合、回帰モデルの定義が不十分である可能性があります。 「均一」の反対が「不均一」であるように、同分散の反対は不均一分散です。 異分散性(「異分散性」とも表記)は、回帰方程式の誤差項の分散が一定ではない状態を指します。
分散が与えられた状況の予測結果と実際の結果との間の測定された差であると考える場合、ホモスケダスティクスを決定することは、正確性のために調整する必要がある要因を決定するのに役立ちます。
特別な考慮事項
単純な回帰モデルまたは方程式は、4つの用語で構成されています。 左側には従属変数があります。 モデルが「説明」しようとする現象を表します。 右側には、定数、予測変数、および残差(エラー)項があります。 エラー項は、予測変数によって説明されない従属変数の変動の量を示します。
Homoskedasticの例
たとえば、各学生が学習に費やした時間を使用して、学生のテストスコアを説明したいとします。 この場合、テストスコアは従属変数になり、学習に費やした時間は予測変数になります。
エラー用語は、学習時間の長さでは説明されなかったテストスコアの分散量を示します。 その分散が均一であるか、ホモスケスティクスである場合、モデルはテストパフォーマンスの適切な説明である可能性があり、学習に費やした時間の観点から説明できます。
しかし、分散は不均一分散である可能性があります。 誤差項データのプロットは、高いテストスコアと非常に密接に対応する大量の学習時間を示している場合がありますが、低い学習時間のテストスコアは大きく異なり、非常に高いスコアも含まれていました。 そのため、スコアの分散は、1つの予測変数である学習時間だけでは十分に説明できません。 この場合、他の要因がおそらく機能しており、モデルを識別するためにモデルを強化する必要がある場合があります。 さらなる調査により、一部の生徒は事前にテストの回答を見たか、以前に同様のテストを受けたことがあるため、この特定のテストのために勉強する必要はなかったことが明らかになる場合があります。
したがって、研究者は、回帰モデルを改善するために、テストの前に生徒が解答を見たかどうかを示す別の説明変数を追加します。 その場合、回帰モデルには2つの説明変数があります。時間学習と、学生が解答の予備知識を持っているかどうかです。 これらの2つの変数を使用すると、テストスコアの分散の詳細が説明され、エラー項の分散がホモスケスティクスになり、モデルが明確に定義されたことが示唆されます。