2020年12月9日水曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第10弾(多重回答の集計)を作成しました。
2020年11月30日月曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第9弾(生存時間分析)を作成しました。
2020年11月27日金曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第8弾(ロジスティック回帰分析)を作成しました。
2020年11月26日木曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第7弾(群間の比率の比較:クロス集計・カイ2乗検定)を作成しました。
【統計ソフト】[統計の基礎8]ロジスティック回帰分析
以下のリンクから関連のブログ記事を一覧できます。
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
2020年10月30日金曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第6弾(線形回帰:単回帰分析,重回帰分析)を作成しました。
【統計ソフト】[統計の基礎7]線形回帰(単回帰・重回帰)
以下のリンクから関連のブログ記事を一覧できます。
今回は,線形回帰(単回帰・重回帰)についてです。
線形回帰,とは,回帰分析の手法の一つで,変数間の関係を線形(直線)で表現(予測)する分析方法です。
目的変数の説明に用いる変数(x)のことを,「説明変数(独立変数・予測変数)」などと呼びます。
説明変数が1つであれば「単回帰」,
単回帰の時の説明変数の係数(β)のことを「傾き」と呼びます。

【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
2020年10月28日水曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第5弾(相関係数・偏相関係数)を作成しました。
2020年10月26日月曜日
【統計ソフト】フリー統計ソフト「EZR」のWindows環境でのインストール方法および起動方法
1.ソフトの入手
1)以下のサイトにアクセスします。
2)左側のメニューバーから「ダウンロード(Windows標準)」を選択します。
3)「Windows版はここをクリックしてダウンロードしてください(Ver. 1.53 2020/10/15)。」をクリックし,ダウンロードします。
2020年10月24日土曜日
【統計ソフト】[統計の基礎6]相関係数について知る
以下のリンクから関連のブログ記事を一覧できます。
-1から+1の間の値を取ります。値の絶対値が大きいほど2変量の相関が強い状態です。
関係の強さに絶対的な指標はありませんが,
以下の図のように言われることが多いです。
一方の値が増えるともう一方の値も増える,右肩上がりの関係を「正の相関」といいます。
一方の値が増えるともう一方の値が減る,右肩下がりの関係を「負の相関」といいます。
量的尺度のデータ同士の相関を表す場合には,「Pearsonの積率相関係数」が用いられることが多いです。
順位尺度やノンパラメトリックなデータ同士の相関を表す場合には,「Spearmanの順位相関係数」などが用いられます。
その他,名義尺度同士の相関についてはクラメールの連関係数などで表現することがあります。ここでは説明を割愛します。
なお,
2変量の間に線形以外の関係がある場合は,相関係数では正しく計ることはできません。また,相関関係がある,とは因果関係があるということではありません。
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
2020年10月16日金曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第4弾(差の検定)を作成しました。
2020年10月1日木曜日
【統計ソフト】[統計の基礎5]用語解説:「パラメトリック」「ノンパラメトリック」,「対応のある」「対応のない(独立した)」
以下のリンクから関連のブログ記事を一覧できます。
Ⅰ.「パラメトリック」「ノンパラメトリック」
1. パラメトリック
正規分布した複数群の比較に用いる代表的なパラメトリック検定の方法に,「t検定(t test)」や「一元配置分散分析(one-way analysis of variance / one-way ANOVA)」があります。平均や分散を用いて,各群の平均値が同じと言えるか否かを検定します。
2. ノンパラメトリック
Ⅱ.「対応のある」「対応のない(独立した)」
1. 対応のある
2. 対応のない(独立した)
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
【統計ソフト】[統計の基礎4]データの分布を表現するグラフについて知る
・ヒストグラム(histogram)
量的データを,その値によっていくつかの階級に分け,それぞれの階級に含まれる度数を柱(高さ)で表現したものです。・箱ひげ図(box plot,box-and-whisker plot)
- ある観測値が,第1四分位数より小さい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
- ある観測値が,第3四分位数より大きい方向に,四分位範囲の1.5倍以上離れている場合,これらの値を個別の点として表現する。
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
【統計ソフト】[統計の基礎3]基本統計量について知る
以下のリンクから関連のブログ記事を一覧できます。
1. 量的な要約に基づく基本統計量
・平均(mean)
量的な変数の観測値を合計し,観測値の数で割ったものが「(算術)平均」です。全観測値の重心に位置します。分布が左右対称である場合は,ほぼ中心になりますが,分布が左右対称でない場合は,中心としての意味は弱くなります。その場合,平均の代わりにデータを代表する値として,中央値や最頻値が用いられることがあります(後述・下図も参照)。
データの中に,極端に大きな(小さな)値が含まれる場合,それに引きづられて値が大きく変動してしまうという特徴があります。
・分散(variance)
各観測値の平均からの差(偏差:deviation)を2乗して,その平均をとったものが「分散」です。2乗するため,平均との差の正負に関係なく計算できます。データの散らばり具合を表す指標の一つです。
・標準偏差(standard deviation, SD)
分散の正の平方根が「標準偏差」です。分散は2乗されているため,元の観測値と単位が合わなくなります。そこで,観測値と単位が同じになるように,平方根をとっています。データの散らばり具合を表す指標の一つです。
2. 順位に基づく基本統計量
・中央値(median)
観測値を小さい順に並べたときに,ちょうど真ん中に位置する観測値です。データの数が偶数の場合は,真ん中に位置する2つの値の平均が中央値となります。データの分布が左右対称から大きくズレているような場合,平均の代わりに用いられることがあります。
データの中に,極端に大きな(小さな)値が含まれている場合でも,平均に比べると影響が少ないという特徴があります。
・範囲(range)
観測値の最大値から最小値を引いたものです。データが分布している範囲を表します。
・四分位数(quartile)
観測値を小さい順に並べてデータ数を4等分した時の,区切りの位置にあたる値です。下から順に,それぞれ,第1四分位数(25%点),第2四分位数(50%点),第3四分位数(75%点)といいます。第2四分位数=中央値です。第3四分位数から第1四分位数を引いたものを,「四分位範囲」といいます。
3. 度数に基づく基本統計量
・最頻値(mode)
データをその値などに基づいて階級分けした場合に,最も多くの観測値が観測された階級値のことです。データの分布が左右対称から大きくズレているような場合,平均の代わりに用いられることがあります。なお,分布に山が2つ以上あるときに用いることは適切ではありません。
4. 平均・中央値・最頻値の関係
【統計ソフト】[統計の基礎2]データの尺度の種類について知る
以下のリンクから関連のブログ記事を一覧できます。
データの尺度は,それぞれの値が持つ性質から,大まかに次の4種類に大別して考えることができます。「名義尺度」「順序尺度」「間隔尺度」「比尺度」。
また,名義尺度と順序尺度をあわせて「質的尺度」,間隔尺度と比尺度をあわせて「量的尺度」と呼びます。
それぞれの尺度の性質と,利用できる統計量(データの要約値)については,以下の図をご参照ください。
※SPSSの場合は,間隔尺度と比尺度をまとめて,「スケール」と呼んでいます。
【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
【統計ソフト】[統計の基礎1]統計の種類を知る
1. 記述統計(descriptive statistics)
得られたデータ(標本,サンプル:sample)の特徴や性質を,数値や図表を用いて要約・説明します。
- 数値:平均,分散,標準偏差,中央値,最頻値,四分位数,比率 など
- 図表:棒グラフ,度数分布表,ヒストグラム,箱ひげ図 など
2. 推測統計(inferential statistics)
得られたデータ(標本,サンプル)に基づいて,そのデータそのものではなく,データのもとになっている集団(母集団:population)の特徴や性質を予測します。回帰分析,推定(点・区間),検定などを含みます。
【統計ソフト】SPSSとEZRの説明動画で使用しているSAMPLEファイルのダウンロードリンクと内容説明
1.「sample_SHHS*」ファイルについて
イギリスで行われた心疾患有病率についての疫学研究(Scottish Heart Health Study(SHHS)1984-1986)を参考にしたSAMPLEデータです。
ファイルへのリンク
https://www.mnc.toho-u.ac.jp/mc/doc/mmc/helpdesk/sample_SHHS.sav
https://www.mnc.toho-u.ac.jp/mc/doc/mmc/helpdesk/sample_SHHS_v3.xlsx
データ数
・400行
【全ファイル共通】
・age:年齢
・age_range:年齢幅(1=40~44, 2=45~49, 3=50~54, 4=55~59)
・TC:総コレステロール(mmol/L)
・BMI:(kg/m2)
・SBP:収縮期血圧(mmHg)
・smoke:喫煙歴(1=never, 2=ex, 3=current)
・PA:身体活動(1=active, 2=average, 3=inactive)
・CHD:冠動脈疾患発生有無(0=no, 1=yes)
【sample_SHHS_v2】
・PA2値:身体活動有無(0=活動有, 1=活動無)
※このカラムを追加しました。
【sample_SHHS_v3】
・PA2値v3:身体活動有無(0=活動無, 1=活動有)
2.「correlation」ファイルについて
6歳から18歳の架空の100人の子どもの,「身長」「体重」「BMI」「年齢」「あるテストの点数」のデータが含まれているSAMPLEデータです。
カラム情報
・身長:cm
・体重:kg
・BMI:体重/(身長(m))^2
・年齢:6~18
・点数:架空のテストの点数です。
3.「sample_recurrent」ファイルについて
4.「sample_enquete」ファイルについて
2020年9月30日水曜日
【統計ソフト】SPSSの基本的な使い方を説明する動画の第2弾(データの確認)・第3弾(グラフの作成)を作成しました。
2020年9月10日木曜日
【統計ソフト】SPSSの基本的な使い方(起動・データインポート)を説明する動画を作成しました。
・SPSSの操作説明動画
2020年6月22日月曜日
【統計ソフト】EZR(イージーアール)とは
EZRってなに?
フリーの統計解析ソフト「R」のカスタマイズパッケージで,誰でも無料で利用できます。
自治医科大学付属さいたま医療センター血液科の神田善伸氏が作成しています。
EZRの特徴は?どんな解析が行えるの?
通常のRではスクリプトを打って操作する必要がありますが,「EZR」は市販の統計ソフトやエクセルなどと同じように,メニュー画面からマウスで操作をすることができます。
また,メニューから操作できるその他のRパッケージと比べても,医療統計で役立つ解析が充実しています。主な解析機能は以下から確認できます。
・無料統計ソフトEZR (Easy R) 解析機能一覧 / 自治医科大学附属さいたま医療センター血液科
http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/function.html
論文に使えるの?
EZRの統計処理はRによって行われており,Rは世界的にも信頼のある統計ソフトです。
開発者によると,EZRを用いて書かれた英語論文は2020年9月時点で4,000本以上あるとのことです。(ただし,統計ソフトとしてEZRの使用を認めるかどうかは個別の雑誌の判断になると思います。)
どこから入手するの?
以下の開発者サイトからダウンロードできます。
・無料統計ソフトEZR / 自治医科大学附属さいたま医療センター血液科
http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html
どんなOS上で使えるの?
開発者サイトでは以下のOSでの動作確認が報告されています。(2020年6月時点)
当ヘルプデスクでは基本的にはWindows10環境をサポートします。
Mac環境も可能な範囲でサポートしますが,ヘルプデスクではMacを保有していないため,
Mac固有の操作方法・問題・症状には回答できません。
・Windows XP~10
・Mac OS X Snow Leopard(10.6) ~ Catalina(10.15)
・Ubuntu※ 11.10~20.04
※Linuxのメジャーなディストリビューションの一つです。
----
本ブログのそのほかの記事を紹介します。
・SPSSの操作説明動画
【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
2020年6月17日水曜日
【統計ソフト】SPSS(エスピーエスエス)とは_20200622更新
SPSSって何?
SPSSの特徴は?
どこから入手するの?
バージョンやモジュールがたくさんあるみたいだけど,どれを買えばいいの?
一度買ったソフトはいつまで使えるの?
どんなOS上で使えるの?
Mac環境も可能な範囲でサポートしますが,ヘルプデスクではMacを保有していないため,
Mac固有の操作方法・問題・症状には回答できません。
モジュール名 | 簡易説明 | |
Advanced Statistics | 一般化線形モデルや混合モデル、多変量の分散分析,カプランマイヤー・Cox回帰など高度な分析手法が利用できます。 | * ** *** |
Regression | 多項・二項ロジスティック回帰、プロビット回帰など、高度な回帰分析を実行できます。 | * ** *** |
Custom Tables | 多次元・入れ子状などの複雑なクロス集計が簡単に作成可能になります。 | ** *** |
Exact Tests | 小標本でも正確なP値を算出。正確確率検定が可能になります。 | ** *** |
Decision Trees | CHAID, CRT, QUESTなどを搭載し、決定木分析が可能です。 | *** |
Missing Values | 欠損値のパターン認知と推定をし、補完を支援します。 | *** |
Categories | カテゴリカルデータの分析に特化。コレスポンデンス分析などが可能です。 |
・SPSSの操作説明動画
2020年6月16日火曜日
【統計ソフト】統計処理に使えるエクセルの関数の簡易チートシート
関数名 | 簡易説明 |
ABS | 数値から符号を抜いた絶対値を返します。 |
AVERAGE | 引数の平均値を返します。 |
CHISQ.DIST.RT | カイ 2 乗分布の片側確率の値を返します。 |
CHISQ.INV.RT | カイ 2 乗分布の片側確率の逆関数の値を返します。 |
CHISQ.TEST | カイ 2 乗 (χ2) 検定を行います。 |
COMBIN | 組み合わせの数を計算します。 |
CORREL | 2 つの配列データの相関係数を返します。 |
COUNT | 引数リストの各項目に含まれる数値の個数を返します。 |
COVARIANCE.P | 共分散を返します。 |
F.INV.RT | F 分布の確率関数の逆関数の値を返します。 |
FISHER | フィッシャー変換の値を返します。 |
FISHERINV | フィッシャー変換の逆関数の値を返します。 |
GEOMEAN | 相乗平均を返します。 |
EXP | eの乗数(exを返します) |
LN | e(=2.718281828459...)を底とする対数を返します。 |
LOG | 任意の底の対数を返します・ |
LOG10 | 10を底とする対数(常用対数)を返します。 |
MAX | 引数リストに含まれる最大の数値を返します。 |
MEDIAN | 引数リストに含まれる数値のメジアン (中央値) を返します。 |
NORM.S.DIST | 標準正規分布の累積分布関数の値を返します。 |
NORM.INV | 指定した平均と標準偏差に対する正規分布の累積分布関数の逆関数の値を返します。 |
POWER | 累乗(Xy)します。 |
QUARTILE.INC | 配列に含まれるデータから四分位数を抽出します。 |
RAND | 0 以上で 1 より小さい実数の乱数を返します。 |
RANDBETWEEN | 指定された範囲内の整数の乱数を返します。 |
RANK.EQ | 数値のリストの中で、指定した数値の序列を返します。 |
STDEV.S | 引数を正規母集団の標本と見なし、 標本に基づいて母集団の標準偏差の推定値を返します。 |
STDEV.P | 引数を母集団全体と見なし、母集団の標準偏差を返します。 |
T.DIST | スチューデントの t 分布のパーセンテージ (確率) を返します。 |
T.INV | スチューデントの t 分布の t 値を、確率の関数と自由度で返します。 |
T.TEST | スチューデントの t 分布に従う確率を返します。 |
VAR.S | 引数を正規母集団の標本と見なし、 標本に基づいて母集団の分散の推定値 (不偏分散) を返します。 |
VAR.P | 引数を母集団全体と見なし、母集団の分散 (標本分散) を返します。 |
使用例:
【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。
2020年6月15日月曜日
統計ソフトヘルプデスク OPENしました!
サービスの詳細や相談のお申し込みは,メディアセンターサイトの「統計ソフトヘルプデスク」のページをご覧ください。
【統計ソフトヘルプデスク】
HP:https://www.mnc.toho-u.ac.jp/mc/mnc_stat.php
メール:mnc_stat☆ml.toho-u.jp
※「☆」記号を「@」に置き換えて下さい。