2020年10月1日木曜日

【統計ソフト】[統計の基礎4]データの分布を表現するグラフについて知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,データの分布を表現するグラフ,についてです。
データの特徴を確認する際に,基本統計量など数値的な要約だけでは分布が分かりづらい場合があります。そのような場合,グラフを使うことで,データの全体像を簡略に示すことができます。分布を表現する代表的なグラフには以下のようなものがあります。

・ヒストグラム(histogram)

量的データを,その値によっていくつかの階級に分け,それぞれの階級に含まれる度数を柱(高さ)で表現したものです。


分布の全体を見せるのが基本です(分布の一部だけを切り取って見せることはしない)。
各階級の柱を他の階級の柱と密着させて作図します。
階級は小さい順に左から並べるのが一般的です。また,すべての階級の範囲(幅)を等しくするのが基本です。範囲を等しくしない場合は,階級の範囲に比例して柱の横幅を広げます。また,その場合,その柱の高さは階級の範囲に反比例させます。

棒グラフは各柱が独立した要素の度数を表現しているのに対し,ヒストグラムの各柱は量的に変化する同じ要素の各階級の度数を表現しています。

・箱ひげ図(box plot,box-and-whisker plot)

複数のデータの分布を比較したいような時,ヒストグラムでは見づらくなってしまいます。
そこでより簡易な分布表現のグラフとして用いられるのが以下のような箱ひげ図です。


縦向きで描く場合,以下が作図上の基本の考え方になります。
ひげの下端が最小値で,ひげの上端が最大値です。
箱の下端が第1四分位数,箱の中の線が第2四分位数(中央値),箱の上端が第3四分位数です。平均をバツ印などで書き込むこともあります。


また,データの観測値の中に,他と比べてとても大きな値や小さな値が含まれる場合があります。このような値を「外れ値」といいますが,箱ひげ図では,この値を以下のように表現する方法が広く用いられています。
  • ある観測値が,第1四分位数より小さい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
  • ある観測値が,第3四分位数より大きい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
外れ値を表現する場合,ヒゲの上端と下端は,外れ値を除いた最大値と最小値になります。


なお,エクセルで箱ひげ図を作図すると,デフォルトでこの外れ値の条件で作図されます。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。