Winsorized Meanとは何ですか?
Winsorized meanは、最初に最小値と最大値をそれらに最も近い観測値で置き換える平均化の方法です。 これは、異常な極値または外れ値が計算に与える影響を制限するために行われます。 値を置き換えた後、算術平均式を使用してウィンザー平均を計算します。
Winsorized Mean Isの公式
。。。 Winsorized Mean = Nxn… xn + 1 + xn + 2… xn where:n =観測によって置き換えられる最大および最小のデータポイントの数
Winsorized手段は2つの方法で表現されます。 「k n 」winsorized平均は、「k」が整数である「k」の最小および最大の観測値の置換を指します。 「X%」winsorized平均には、データの両端の値の特定の割合を置き換えることが含まれます。
Winsorized Meanの計算方法
ウィンザー平均は、最小および最大のデータポイントを置き換え、すべてのデータポイントを合計し、合計をデータポイントの総数で割ることによって計算されます。
Winsorizedが意味することは何ですか?
ウィンザー化された平均値は、異常値にあまり敏感ではありません。極端な値に置き換えることができるからです。 つまり、アウトラインの影響を受けにくくなります。 ただし、分布にファットテールがある場合、分布図の変動性が高いため、分布の最高値と最低値を削除しても、影響はほとんどありません。
重要なポイント
- 最小値と最大値をそれらに最も近い観測値で置換することを含む平均化方法。より極端な値で置き換えることができるため、外れ値の影響を受けにくくなります。近い傾向があります。
Winsorized Meanの使用例
次のデータセットのウィンザー平均を計算できます:1、5、7、8、9、10、14。この例では、ウィンザー平均が最初の順序であると仮定し、最小値と最大値をそれぞれの値に置き換えます。最も近い観測。
データセットは、次のように表示されます。5、5、7、8、9、10、10。新しいセットの算術平均を取ると、7.7、または(5 + 5 + 7 + 8 + 9 + 10 + 10)7で割った。
または、上位10%と下位10%を取り、それらを次に近い値に置き換える、20%のウィンソライズ平均を検討します。 次のデータセットをwinsorizeします:2、4、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、62、75。最小および最大のデータポイント(10%)は、次に近い値に置き換えられます。 したがって、新しいデータセットは、7、7、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、61、61です。平均は33.9、またはデータの合計(678)をデータポイントの合計数(20)で割った値です。
Winsorized MeanとTrimmed Meanの違い
ウィンザー平均にはデータポイントの変更が含まれ、トリミング平均にはデータポイントの削除が含まれます。 ウィンザー平均とトリム平均が近いことはよくあります。
Winsorized Meanの使用の制限
winsorized手段の1つの大きな欠点は、データセットにバイアスを導入することです。 確かに、修正後のデータセットのバイアスは、外れ値が残っている場合よりも理想的です。
Winsorized Meanの詳細
関連する洞察については、キー平均計算の違いについて。