2020年10月30日金曜日

【統計ソフト】SPSSの基本的な使い方を説明する動画の第6弾(線形回帰:単回帰分析,重回帰分析)を作成しました。

SPSSの基本的な使い方を説明する動画の第6弾(線形回帰:単回帰分析,重回帰分析)を作成しました。
線形回帰分析の操作方法について説明しています。

・SPSSの基本(6)線形回帰:単回帰分析,重回帰分析

動画内で使用しているSAMPLEデータは以下からダウンロードできます。

以下のブロク記事でSAMPLEファイルの内容を説明しています。 

以下のブロク記事で動画中に出てくる用語を説明しています。

この動画を含むSPSSの操作説明の動画リストはこちらです。
・SPSSの基本(Youtubeへ移動)

【統計ソフトヘルプデスク】
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】[統計の基礎7]線形回帰(単回帰・重回帰)

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,線形回帰(単回帰・重回帰)についてです。

線形回帰,とは,回帰分析の手法の一つで,変数間の関係を線形(直線)で表現(予測)する分析方法です。

予測したい対象の変数(y)のことを,「目的変数(従属変数・応答変数)」などと呼びます。
目的変数の説明に用いる変数(x)のことを,「説明変数(独立変数・予測変数)」などと呼びます。
一般的に,目的変数にも説明変数にも量的な変数を用いますが,カテゴリカルな説明変数を0/1でダミー化して適用することもあります。

説明変数が1つであれば「単回帰」,
複数(n個)あれば「重回帰」となります。

説明に用いる説明変数以外の定数(α)を「切片」,
単回帰の時の説明変数の係数(β)のことを「傾き」と呼びます。

単回帰・重回帰は以下のような式で表現されます。

・単回帰

・重回帰




回帰式の予測の良さ(当てはまりの良さ)を表す数値のことを「決定係数」といい,記号では一般にR^{2}と表現されます。決定係数は,0から1までの値をとり,1に近いほど、その回帰式の予測が良いことを表します。

決定係数は,説明変数の数が増えると高くなります。このため,説明変数が複数ある場合は,その数に応じて値を調整したものを「(自由度)調整済決定係数」と言います。重回帰モデルの比較の際などに使われます。

また,
説明変数の間に相関関係がある状態を,「(多重)共線性」がある,といいます。
重回帰分析は説明変数が互いに独立であることを前提としているため,共線性がある場合,回帰係数の推定が不安定になってしまいます。このため,重回帰分析では結果を見る際に,共線性についても確認する必要があります。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

2020年10月28日水曜日

【統計ソフト】SPSSの基本的な使い方を説明する動画の第5弾(相関係数・偏相関係数)を作成しました。

SPSSの基本的な使い方を説明する動画の第5弾(相関係数・偏相関係数)を作成しました。
相関係数の出し方について説明しています。

・SPSSの基本(5)相関係数・偏相関係数:Pearsonの積率相関係数,偏相関係数

動画内で使用しているSAMPLEデータは以下からダウンロードできます。

以下のブロク記事でSAMPLEファイルの内容を説明しています。 

以下のブロク記事で動画中に出てくる用語を説明しています。 https://mncstatsoft.blogspot.com/2020/10/6.html

この動画を含むSPSSの操作説明の動画リストはこちらです。
・SPSSの基本(Youtubeへ移動)

【統計ソフトヘルプデスク】
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

2020年10月26日月曜日

【統計ソフト】フリー統計ソフト「EZR」のWindows環境でのインストール方法および起動方法

フリー統計ソフト「EZR」のWindows環境でのインストール方法および起動方法について説明します。

説明環境はWindows10, EZRのバージョンは1.53です。
EZRの基本的な説明はこちらのブログ記事をご参照ください。

Mac環境でのインストール・起動方法はこちらの記事をご参照下さい。

1.ソフトの入手


1)以下のサイトにアクセスします。

・無料統計ソフトEZR (Easy R) - 自治医科大学
もしくは,Googleなどで「EZR」と検索すると上位に出てきます。

2)左側のメニューバーから「ダウンロード(Windows標準)」を選択します。


3)「Windows版はここをクリックしてダウンロードしてください(Ver. 1.53 2020/10/15)。」をクリックし,ダウンロードします。

バージョン名や更新日付などはダウンロードの時期によって異なる可能性があります。
サイズが600MBほどあります。インターネットの回線の状況によっては,ダウンロードに少々時間がかかります。

2020年10月24日土曜日

【統計ソフト】[統計の基礎6]相関係数について知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,相関係数についてです。

相関係数(r)」とは,2変量間の直線的(線形)な関係性の強さ(相関:correlation)を表すものです。
-1から+1の間の値を取ります。値の絶対値が大きいほど2変量の相関が強い状態です。

関係の強さに絶対的な指標はありませんが,
以下の図のように言われることが多いです。


一方の値が増えるともう一方の値も増える,右肩上がりの関係を「正の相関」といいます。
一方の値が増えるともう一方の値が減る,右肩下がりの関係を「負の相関」といいます。

量的尺度のデータ同士の相関を表す場合には,「Pearsonの積率相関係数」が用いられることが多いです。
順位尺度やノンパラメトリックなデータ同士の相関を表す場合には,「Spearmanの順位相関係数」などが用いられます。

その他,名義尺度同士の相関についてはクラメールの連関係数などで表現することがあります。ここでは説明を割愛します。

なお,
2変量の間に線形以外の関係がある場合は,相関係数では正しく計ることはできません。また,相関関係がある,とは因果関係があるということではありません。

[参考]
・中村 好一. 論文を正しく読み書くためのやさしい統計学. 改訂第3版. 診断と治療社; 2019.
・BellCurve. 統計WEB. https://bellcurve.jp/statistics/
など

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

2020年10月16日金曜日

【統計ソフト】SPSSの基本的な使い方を説明する動画の第4弾(差の検定)を作成しました。

SPSSの基本的な使い方を説明する動画の第4弾(差の検定)を作成しました。
パラメトリックとノンパラメトリックで2回に分けています。

・SPSSの基本(4-1)差の検定:パラメトリック検定:t検定,一元配置分散分析

・SPSSの基本(4-2)差の検定:ノンパラメトリック検定:Mann-Whitney(マン=ホイットニー)のU検定,Kruskal-Wallis(クラスカル=ウォリス)検定

動画内で使用しているSAMPLEデータは以下からダウンロードできます。

以下のブロク記事でSAMPLEファイルの内容を説明しています。 

以下のブロク記事で動画中に出てくる用語を説明しています。

この動画を含むSPSSの操作説明の動画リストはこちらです。
・SPSSの基本(Youtubeへ移動)

【統計ソフトヘルプデスク】
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

2020年10月1日木曜日

【統計ソフト】[統計の基礎5]用語解説:「パラメトリック」「ノンパラメトリック」,「対応のある」「対応のない(独立した)」

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,統計の検定方法選択の際などに重要となる「パラメトリック」「ノンパラメトリック」「対応のある」「対応のない(独立した)」という用語についてです。

Ⅰ.「パラメトリック」「ノンパラメトリック」


パラメトリック・ノンパラメトリックとは,分析対象のデータの"分布"に関する用語です。その分布がパラメーター(母数)を持っているか否かを表しています。

パラメーター(母数)とは,データがなんらかの確率分布に従っているとき,その分布の特性を表す値のことです。例えば,「正規分布」の場合の代表的なパラメーター(母数)は,「平均」や「分散」です。

1. パラメトリック

「パラメトリック」とは,対象とするデータが,パラメーター(母数)を持ったなんらかの確率分布に従っていることを指します。また,そのようなデータに対して行なう検定を「パラメトリック検定」といいます。

パラメトリックなデータの代表的な分布は「正規分布」です。
正規分布した複数群の比較に用いる代表的なパラメトリック検定の方法に,「t検定(t test)」や「一元配置分散分析(one-way analysis of variance / one-way ANOVA)」があります。平均や分散を用いて,各群の平均値が同じと言えるか否かを検定します。

2. ノンパラメトリック

「ノンパラメトリック」とは,対象とするデータが,パラメーター(母数)を持たない,つまり特定の確率分布に従っているかわからない,もしくはそうとは決められないことを指します。また,そのようなデータに対して行なう検定を「ノンパラメトリック検定」といいます。

代表的なノンパラメトリック検定の方法に,「マン=ホイットニーのU検定(Mann-Whitney U test)」や「クラスカル=ウォリス検定(Kruskal-Wallis test)」があります。データを,各値の実数ではなく,値の大きさの順位に変えて比較し,群間に差がないと言えるか否かを検定します。

Ⅱ.「対応のある」「対応のない(独立した)」


対応のある・対応のない(独立した)とは,比較される各群の”関係性”を表す用語です。


1. 対応のある

「対応のある」とは,同じ個体群を対象にして条件を変えて繰り返し測定(比較)している状態を指します。例えば,同じ患者群における薬の投与前の値と投与後の値とを比較する場合,これは対応のあるデータの比較になります。

2. 対応のない(独立した)

「対応のない(独立した)」とは,異なる個体群をそれぞれの条件で測定(比較)している状態を指します。例えば,A薬を投与した患者群とプラセボを投与した患者群とを比較する場合,これは対応のないデータの比較になります。



【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】[統計の基礎4]データの分布を表現するグラフについて知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,データの分布を表現するグラフ,についてです。
データの特徴を確認する際に,基本統計量など数値的な要約だけでは分布が分かりづらい場合があります。そのような場合,グラフを使うことで,データの全体像を簡略に示すことができます。分布を表現する代表的なグラフには以下のようなものがあります。

・ヒストグラム(histogram)

量的データを,その値によっていくつかの階級に分け,それぞれの階級に含まれる度数を柱(高さ)で表現したものです。


分布の全体を見せるのが基本です(分布の一部だけを切り取って見せることはしない)。
各階級の柱を他の階級の柱と密着させて作図します。
階級は小さい順に左から並べるのが一般的です。また,すべての階級の範囲(幅)を等しくするのが基本です。範囲を等しくしない場合は,階級の範囲に比例して柱の横幅を広げます。また,その場合,その柱の高さは階級の範囲に反比例させます。

棒グラフは各柱が独立した要素の度数を表現しているのに対し,ヒストグラムの各柱は量的に変化する同じ要素の各階級の度数を表現しています。

・箱ひげ図(box plot,box-and-whisker plot)

複数のデータの分布を比較したいような時,ヒストグラムでは見づらくなってしまいます。
そこでより簡易な分布表現のグラフとして用いられるのが以下のような箱ひげ図です。


縦向きで描く場合,以下が作図上の基本の考え方になります。
ひげの下端が最小値で,ひげの上端が最大値です。
箱の下端が第1四分位数,箱の中の線が第2四分位数(中央値),箱の上端が第3四分位数です。平均をバツ印などで書き込むこともあります。


また,データの観測値の中に,他と比べてとても大きな値や小さな値が含まれる場合があります。このような値を「外れ値」といいますが,箱ひげ図では,この値を以下のように表現する方法が広く用いられています。
  • ある観測値が,第1四分位数より小さい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
  • ある観測値が,第3四分位数より大きい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
外れ値を表現する場合,ヒゲの上端と下端は,外れ値を除いた最大値と最小値になります。


なお,エクセルで箱ひげ図を作図すると,デフォルトでこの外れ値の条件で作図されます。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】[統計の基礎3]基本統計量について知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,基本統計量についてです。
「統計量」とは,データの特徴や性質を表す数値のことで,代表的なものには次に上げるようなものがあります。これらの代表的・基本的な統計量のことを「基本統計量」と呼びます。

1. 量的な要約に基づく基本統計量

・平均(mean)

量的な変数の観測値を合計し,観測値の数で割ったものが「(算術)平均」です。
全観測値の重心に位置します。分布が左右対称である場合は,ほぼ中心になりますが,
分布が左右対称でない場合は,中心としての意味は弱くなります。その場合,平均の代わりにデータを代表する値として,中央値や最頻値が用いられることがあります(後
述・下図も参照)。
データの中に,極端に大きな(小さな)値が含まれる場合,それに引きづられて値が大きく変動してしまうという特徴があります。

・分散(variance)

各観測値の平均からの差(偏差:deviation)を2乗して,その平均をとったものが「分散」です。
2乗するため,平均との差の正負に関係なく計算できます。
データの散らばり具合を表す指標の一つです。

・標準偏差(standard deviation, SD)

分散の正の平方根が「標準偏差」です。
分散は2乗されているため,元の観測値と単位が合わなくなります。そこで,観測値と単位が同じになるように,平方根をとっています。
データの散らばり具合を表す指標の一つです。

2. 順位に基づく基本統計量

・中央値(median)

観測値を小さい順に並べたときに,ちょうど真ん中に位置する観測値です。
データの数が偶数の場合は,真ん中に位置する2つの値の平均が中央値となります。
データの分布が左右対称から大きくズレているような場合,平均の代わりに用いられることがあります。
データの中に,極端に大きな(小さな)値が含まれている場合でも,平均に比べると影響が少ないという特徴があります。

・範囲(range)

観測値の最大値から最小値を引いたものです。データが分布している範囲を表します。

・四分位数(quartile)

観測値を小さい順に並べてデータ数を4等分した時の,区切りの位置にあたる値です。
下から順に,それぞれ,第1四分位数(25%点),第2四分位数(50%点),第3四分位数(75%点)といいます。第2四分位数=中央値です。第3四分位数から第1四分位数を引いたものを,「四分位範囲」といいます。

3. 度数に基づく基本統計量

・最頻値(mode) 

データをその値などに基づいて階級分けした場合に,最も多くの観測値が観測された階級値のことです。
データの分布が左右対称から大きくズレているような場合,平均の代わりに用いられることがあります。なお,分布に山が2つ以上あるときに用いることは適切ではありません。

4. 平均・中央値・最頻値の関係

データの分布が左右対称かどうかで,平均・中央値・最頻値のデータの中での位置関係が変わってきます。
下図1のように,左右対称で中央に山がある分布の場合,これら3つの値はほぼ同じになります。
分布が左右対称から大きくずれるような場合は,これら3つの値は異なります。例えば下図2のように,右に歪んだ分布の場合,最頻値<中央値<平均,となります。

図1

図2


【統計ソフトヘルプデスク】
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】[統計の基礎2]データの尺度の種類について知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介するシリーズです。
以下のリンクから関連のブログ記事を一覧できます。

今回は,データの尺度についてです。
データの尺度は,それぞれの値が持つ性質から,大まかに次の4種類に大別して考えることができます。「名義尺度」「順序尺度」「間隔尺度」「比尺度」。

また,名義尺度と順序尺度をあわせて「質的尺度」,間隔尺度と比尺度をあわせて「量的尺度」と呼びます。

それぞれの尺度の性質と,利用できる統計量(データの要約値)については,以下の図をご参照ください。


なお,統計ソフトでは,間隔尺度と比尺度を同等のものとして扱う場合があります。
※SPSSの場合は,間隔尺度と比尺度をまとめて,「スケール」と呼んでいます。

また,量的な尺度を持つデータは,この尺度とは別に,「連続変数」「離散変数」という形で分類することができます。
連続変数とは,身長や体重のように,計測する装置の精度に依存するものの,本来は途切れなく連続した値をとる変数のことを指します。
一方,離散変数とは,貸し出された本の数や,施設を訪れた訪問者数,といったように,計測の最小単位が決まっていて,飛び飛びの整数値しかとり得ないものを指します。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】[統計の基礎1]統計の種類を知る

統計ソフトを使う上で知っておくと役に立つ統計の基礎的な用語を紹介します。
以下のリンクから関連のブログ記事を一覧できます。

今回は,統計の種類についてです。
統計は大まかに以下の2つに分けることができます。

1. 記述統計(descriptive statistics)
得られたデータ(標本,サンプル:sample)の特徴や性質を,数値や図表を用いて要約・説明します。
  • 数値:平均,分散,標準偏差,中央値,最頻値,四分位数,比率 など
  • 図表:棒グラフ,度数分布表,ヒストグラム,箱ひげ図 など

業務で行うデータの集計や報告書などで,データそのものの情報を把握する際に用いられます。
多くの場合,エクセルなどの汎用的なソフトウェアを使って計算・作図することができます。

2. 推測統計(inferential statistics)
得られたデータ(標本,サンプル)に基づいて,そのデータそのものではなく,データのもとになっている集団(母集団:population)の特徴や性質を予測します。回帰分析,推定(点・区間),検定などを含みます。
研究などで,実験や調査によって得られたデータから,より広汎に適用できる情報を推理・推論する際に用いられます。
高度な数学的バックボーンに基づいた計算を必要とするため,多くの場合,SPSSやRのような専用の統計ソフトが必要となります。(もしくは,それらのソフトを用いることで簡便に計算が実行できます。)

なお,分散や標準偏差などの一部の数値は,記述統計で用いる場合と推測統計で用いる場合とで算出方法が異なります。統計ソフトでこれらの数値を算出すると,基本的には推測統計で用いる方法によって値が算出されます。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。

【統計ソフト】SPSSとEZRの説明動画で使用しているSAMPLEファイルのダウンロードリンクと内容説明

SPSSとEZRの説明動画で使用しているSAMPLE(サンプル)ファイルのダウンロードリンク集です。また,ファイルの内容についても説明しています。

1.「sample_SHHS*」ファイルについて


イギリスで行われた心疾患有病率についての疫学研究(Scottish Heart Health Study(SHHS)1984-1986)を参考にしたSAMPLEデータです。

ファイルへのリンク
https://www.mnc.toho-u.ac.jp/mc/doc/mmc/helpdesk/sample_SHHS.sav
https://www.mnc.toho-u.ac.jp/mc/doc/mmc/helpdesk/sample_SHHS_v3.sav
https://www.mnc.toho-u.ac.jp/mc/doc/mmc/helpdesk/sample_SHHS_v3.xlsx

データ数
・400行

カラム情報
【全ファイル共通】
・age:年齢
・age_range:年齢幅(1=40~44, 2=45~49, 3=50~54, 4=55~59)
・TC:総コレステロール(mmol/L)
・BMI:(kg/m2)
・SBP:収縮期血圧(mmHg)
・smoke:喫煙歴(1=never, 2=ex, 3=current)
・PA:身体活動(1=active, 2=average, 3=inactive)
・CHD:冠動脈疾患発生有無(0=no, 1=yes)

【sample_SHHS_v2】
・PA2値:身体活動有無(0=活動有, 1=活動無)
 ※このカラムを追加しました。

【sample_SHHS_v3】
・PA2値v3:身体活動有無(0=活動無, 1=活動有)
 ※v2と0/1の意味を逆にしました。
・smoke2値:喫煙有無(0=喫煙無,1=喫煙有)
 ※このカラムを追加しました。
・SBP10:収縮期血圧(mmHg)/10
 ※このカラムを追加しました。

2.「correlation」ファイルについて


6歳から18歳の架空の100人の子どもの,「身長」「体重」「BMI」「年齢」「あるテストの点数」のデータが含まれているSAMPLEデータです。

ファイルへのリンク

カラム情報
・身長:cm
・体重:kg
・BMI:体重/(身長(m))^2
・年齢:6~18
・点数:架空のテストの点数です。

3.「sample_recurrent」ファイルについて


架空の患者群の,ある疾患の再発までの日数などを記録したSAMPLEデータです。
なんらかの事情で再発無しのまま研究期間の途中で研究参加をやめた患者データについては,その時点までの日数を記録し,再発無としています。

ファイルへのリンク

データ数
・80行

カラム情報
・no.:ID
・sex:性別(F=女性,M=男性)
・treatment:治療法(0=A, 1=B)
・event:再発有無(0=再発なし,1=再発)
・recurrent_day:再発までの日数

4.「sample_enquete」ファイルについて


ある病院の看護師さんへの架空のアンケート結果を記録したSAMPLEデータです。
アンケートの質問項目は以下です。

問1 勤続年数を教えてください(年)
問2 性別を教えてください(0=男性, 1=女性)
問3 看護職としての業務について満足していますか
  (1=不満, 2=少し不満, 3=普通, 4=少し満足, 5=満足)
問4 あなたが働く目的について,以下から選択してください【複数回答可】
  (1=自己実現のため, 2=人の役に立ちたい, 3=収入を得るため, 4=その他(  ))

ファイルへのリンク

データ数
・30行

カラム情報
・ID:No.
・問1.勤続年数:年
・問2.性別:0=男性, 1=女性
・問3.満足度:1=不満, 2=少し不満, 3=普通, 4=少し満足, 5=満足
・問4.目的:自己実現のため(0/1)
・問4.目的:人の役に立ちたい(0/1)
・問4.目的:収入を得るため(0/1)
・問4.目的:その他(0/1)
・問4.目的:その他(自由記述)


【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
 ※「☆」記号を「@」に置き換えて下さい。