四分位とは何ですか?
四分位数は、データの値と、それらが観測セット全体と比較する方法に基づいて、観測値を4つの定義された間隔に分割することを表す統計用語です。
四分位を理解する
四分位数を理解するには、中央値を中心傾向の尺度として理解することが重要です。 統計の中央値は、一連の数値の中央値です。 データのちょうど半分が中央値の上下にあるポイントです。
したがって、13個の数字のセットが与えられた場合、中央値は7番目の数字になります。 この値の前にある6つの数値は、データ内の最小の数値であり、中央値の後の6つの数値は、指定されたデータセット内の最大の数値です。 中央値は分布の極値や外れ値の影響を受けないため、平均よりも好ましい場合があります。
中央値は位置の強力な推定値ですが、その値の両側のデータがどのように拡散または分散されるかについては何も言いません。 そこで四分位数が入ります。四分位数は、分布を4つのグループに分割することにより、平均の上下の値の広がりを測定します。
重要なポイント
- 四分位数は、分布を4つのグループに分割することにより、平均値の上下の値の広がりを測定します。四分位範囲を計算します。これは、中央値の周りの変動性の尺度です。
四分位の仕組み
中央値がデータを半分に分割し、測定値の50%が中央値より下に、50%がその上にあるように、四分位数はデータを4分の1に分割し、測定値の25%が下位四分位数50よりも小さくなるようにします%は平均よりも小さく、75%は上位四分位よりも小さいです。
四分位数は、データを3つのポイント(下位四分位数、中央値、および上位四分位数)に分割し、データセットの4つのグループを形成します。 下位の四分位数または最初の四分位数はQ1として示され、データセットの最小値と中央値の間の中間の数値です。 2番目の四分位数Q2も中央値です。 Q3として示される上位または3番目の四分位数は、分布の中央値と最大数の間にある中心点です。
これで、四分位数から形成された4つのグループをマップできます。 値の最初のグループには、Q1までの最小数が含まれます。 2番目のグループには、中央値にQ1が含まれます。 3番目のセットはQ3の中央値です。 4番目のカテゴリは、Q3からセット全体の最高データポイントまでです。
各四分位には、合計観測値の25%が含まれます。 一般的に、データは最小から最大の順に並べられます。
- 最初の四分位数:数値の最低25%2番目の四分位数:25.1%から50%(中央値まで)3番目の四分位数:51%から75%(中央値以上)4番目の四分位数:数値の最高25%
四分位の例
例を使ってみましょう。 19人の生徒のクラスの数学スコアの昇順の分布は次のとおりです。
59、60、65、65、68、69、70、72、75、75、76、77、81、82、84、87、90、95、98
まず、中央値Q2をマークダウンします。この場合、10番目の値は75です。
Q1は、最小スコアと中央値の間の中心点です。 この場合、Q1は最初のスコアと5番目のスコアの68の間に入ります。
Q3は、Q2と最高スコアの中間値である84です。
四分位数ができたので、それらの数を解釈してみましょう。 68(Q1)のスコアは最初の四分位数を表し、25 番目のパーセンタイルです。 68は、利用可能なデータに設定されているスコアの下半分の中央値、つまり59から75までのスコアの中央値です。
Q1は、スコアの25%が68未満であり、クラススコアの75%が大きいことを示しています。 Q2(中央値)は50パーセンタイルであり、スコアの50%が75未満であり、スコアの50%が75を超えることを示しています。最後に、75パーセンタイルであるQ3は、スコアの25% 75%以上が84未満です。
特別な考慮事項
Q1のデータポイントが中央値から遠く離れている場合、Q3は中央値から離れている場合、データセットの小さい値の方が大きい値よりも大きなばらつきがあると言えます。 Q1が中央値から離れているよりもQ3がQ2から離れている場合、同じロジックが適用されます。
または、偶数のデータポイントがある場合、中央値は中央の2つの数値の平均になります。 上記の例では、19人ではなく20人の生徒がいた場合、スコアの中央値は10番目と11番目の数の算術平均になります。
四分位数は、四分位範囲を計算するために使用されます。これは、中央値の周りの変動性の尺度です。 四分位範囲は、1番目と3番目の四分位の差として単純に計算されます:Q3 – Q1。 実際には、データがどの程度広がっているかを示すのは、データの中央半分の範囲です。
大規模なデータセットの場合、Microsoft Excelには四分位数を計算するQUARTILE関数があります。