公衆衛生学:
統計学・第 1-2 回
-記述統計学
愛知医大 公衆衛生 西山毅(たけし)
2017 年 4 月 17 日
目次
統計学とは?
どの統計ソフトを使うべきか?
R の概要
1 変量データの要約
2 変量データの要約
演習
課題
これらの 10 年で最もセクシーな職業
Hal Varian, the chief economist at Googl e, is known to have said, “The sexy job in the next 10 years will be
statistician
s
”Thomas H. Davenport and D.J. Patil. Harvard Business Review, Oct., 2012.
数学と統計学の違い
数学とは
例えば, x+2=3 の場合 x= ?
両辺に -2 を足して x=1
なぜこれが正しいの?
答え:「 a=b なら a+c=b+c 」が成り立つから
なぜこれが正しいの?
答え:これが正しいと決めているから
正しいと決めた出発点=公理
公理から導かれた結論=定理
数学とは
公理から定理を導く学問
例えば,ユークリッド幾何学では 5 つの公理か ら無数の定理を導き出す
公理公理
定理
定理 定理
定理
公理公理
公理を言い換えて定理をつくるだけ 公理を言い換えて定理をつくるだけ
演繹
統計学とは
現実(データ)から法則を導く学問
例えば,日本人 5000 人のデータから 「背の高い 人ほど体重が重い」という法則を見つけた
法則
データ
法則 法則
データ データ
現実から新しい情報を発見 現実から新しい情報を発見
帰納
数学は新たな知識を増やさない
数学:言い換え
統計学:現実から新たな知識を取り出す
サイエンスでは統計学が基盤となる
医学,物理学,生物学,化学,…
演繹
帰納
統計学の習得法
紙とエンピツを使った学習とソフトウェアを使った学 習は車輪の両輪
テキストや講習会については,統計インフラの作り方のサ イトを参照 https://sites.google.com/site/statinfr a または, Google で「統計インフラ」で検索.
どの統計ソフトを使うべきか?
広く流通するソフトを使うべき
テキスト・セミナーが入手しやすい
詳しい人に教えてもらえる
継続して使い続けられるソフトを選ぶ
途中で他のソフトに切り替えるのは大変
ずっと大学にいるか
自腹か
フリーソフトウェア
製品名 販売会社 OS 価格 日本語化
SAS SAS Win, UNIX )( Linux, \620,000 り \200,000/ 年次年度よ あり
JMP SAS Win, Mac ¥78,000 あり
SPSS IBM Win, Mac, Linux \14,300 ( graduate pack )
, \350,000 あり
Stata ライトストーン Win, Mac, Linux, UNIX
\22,050 (grad
plan) , \84,000 なし
S-PLUS 数理システム Win, UNIX) ( Linux, ¥19,950 あり
R ― Win, Max, Linux ¥0 あり
STATISTIC
A スタットソフト Win ¥159,600 あり
SYSTAT HULINKS Win ¥61,845 あり
MINITAB 構造計画研究所 Win ¥39,800 あり
Prism エムデーエフ Win, Mac ¥107,163 あり
SigmaStat HULINKS Win 販売終了
STATVIEW HULINKS Win, Mac 販売終了
市場シェア① :調査会社による調査結果
Percent of KDnuggets for 12 months prior to May 2012
市場シェア② 論文中の記載数
• R が 2 位に!
• Google Scholar の検索の不正確さあり
結論
13
メジャーな5大ソフトを選ぶべき
SAS, SPSS, JMP, STATA, R (S-PLUS)
価格
SAS >> SPSS >> STATA≒JMP > S-PLUS >> R
機能
臨床研究に必要な統計解析なら,どれでも同じ
論文中のシェア
SPSS > R > SAS > STATA> JMP これから使うなら R を これから使うなら R を
R の概要
フリーの統計ソフト
世界中の専門家が開発に携わる
グラフィックスが美しい
そのまま論文に使える
スクリプト(プログラム)で操作する
GUI 版もあり
歴史
AT&T ベル研究所で S 言語誕生
ニュージーランドの Robert Gentleman と Ross Ih aka が S 言語クローンとして統計ソフト R を開発
筑波大学の岡田昌史先生を中心に日本語化
R の概要(続)
GUI で操作するためのパッケージである EZR が 自治医大の神田善伸先生により開発
ボタンを押すだけで医学統計に必要なほぼす べての解析を行える
「 EZR 」で Google 検索して自治医大のページ からダウンロードできます
ぜひ自分の PC にインストールしてください
ダブルクリック するだけで自動 的にインストー ルされる
1 変量データの要約
変数の種類によって,データの要約法は異なる
変数の種類:
大きく量的変数と質的変数に分かれる
量的変数=数値として測れる変数
身長( cm ) , 体重( kg ),年齢(才),入 試得点
質的変数=数値として測れず,どのカテゴリー に属するかを表す変数
性別:男女,学歴:中卒・高卒・大卒・その 他
量的変数には
原点 0 がある量(比がとれる)
身長( cm ),体重( kg ),年齢(才)
原点 0 がない量(比がとれず,差だけ意味あり) 体温(℃),カレンダーの日付け(日)
の2つに分かれる.前者を比尺度,後者を間隔尺 度と呼びわける人がいるが,統計学上あまり区別 する必要はない.
数字で測れる量はすべて量的変数
数字で測れる量はすべて量的変数
質的変数には
性別:男・女,人種:黒人・白人・黄色人種
単なるカテゴリへの分類
便宜的に男 =1, 女 =0 とする場合,この 1/0 には数値としての意味はない(男 =1 は女 =0 より 1 大きいという意味はない!).
学歴:中卒・高卒・大卒
カテゴリへの分類だが,順序はある(中卒< 高卒<大卒)
順序変数と呼び,上の名義変数と区別するこ とがある
変数の種類まとめ
数字で測れる→量的変数
数字で測れない→質的変
数
数字で測れる→量的変数
数字で測れない→質的変
数
サンプルのデータを要約する方法
質的変数はカテゴリごとの数(度数)を数えて 表をつくる
性別:男 10 人,女 6 人など←カウントデータ
量的変数は要約統計量を求める
身長:平均 162.1cm ,標準偏差 5.0cm など
質的変数→表を作る
量的変数→要約統計量を求める
質的変数→表を作る
量的変数→要約統計量を求める
要約統計量とは
サンプル全体を一言で言い表す量を要約統計量 とか記述統計量という
サンプル数が少なければすべてのデータを示 せば済む
サンプルデータの中心を表す量(中心傾向)と
,バラツキを表す量(散布度)に大別できる
.
中心を表す量
例えば, 10 点満点の小テストデータ
2 点, 2 点, 3 点, 4 点, 5 点, 8 点
平均値=( 2+2+3+4+5+8)÷6=4 点
中央値 =3.5 点
← 3 番・ 4 番目の成分を足して 2 で割る
2 点, 3 点, 4 点の中央値は 3 点
2 点, 3 点, 4 点, 5 点の中央値は 3.5 点
最頻値 =2 点
平均値は
もし 8 点の代わりに,100点が入れば,
平均値=( 2+2+3+4+5+100)÷6≒19.3 点
一方,中央値と最頻値は不変
平均値は外れ値の影響を受けやすい
平均値は外れ値の影響を受けやすい
最頻値は
最頻値(モード)はそもそも離散変数でないと存 在しない
身長 171.232cm, 162.311cm,… のような連続変 数では同順位(タイ)がないので,最頻値が存 在しない
離散変数とは,年齢のようにとびとびの値をとる もの⇔連続変数
質的変数はすべて離散
量的変数には離散と連続の両方あり
最頻値は
例えば,身長 168, 170, 172, 178, 180cm のデータ
身長 170cm 未満・ 170cm 以上 175cm 未満・ 175cm 以上 にわけて表をつくると
モード =170cm 以上 175cm 未満
身長 173cm 未満・ 173cm 以上 178cm 未満・ 178cm 以上 にわけて表を作ると
モード =173cm 未満
連続変数を離散化した場合,
モードは一意に決まらない
連続変数を離散化した場合,
モードは一意に決まらない
どれが一番良いの?
左右対称な山形の分布では,
平均値=中央値=最頻値
最頻値はほとんど使わない
外れ値があれば平均値は使えない ⇒中央値はいつでも使える
バラツキを表す量
例えば, 10 点満点の小テストデータ
2 点, 2 点, 3 点, 4 点, 5 点, 8 点
中心を表す平均値 m = 4 点からのズレ(偏差)は,
-2 点, -2 点, -1 点, 0 点, 1 点, 4 点
足し合わせるとゼロになる
(X1-m)+(X2-m)+…+(X6-m)
= ( X1+X2+…+X6) - m×6
= ( X1+X2+…+X6) -( X1+X2+…+X6)/6×6 = 0
平均偏差とは
絶対値を足してデータ数で割る
( 2+2+1+0+1+4 ) /6≒1.67 :平均偏差
各データの平均値からの平均的なズレ
絶対値があるので,計算しにくい!
標準偏差とは
計算しやすいように,平均偏差の 2 乗を足し合わせて 6 で割る
( 22+22+12+02+12+42) /6≒3.67 :分散
これだと,単位が点 2となるので,もとの単位(点)にそ ろえるために平方根を付けたものが標準偏差 Standard D eviation (SD)
標準偏差も平均値の呪いがかかる
標準偏差も,平均値を使う以上,外れ値の影響を 受けやすいという平均値の欠点を受け継ぐ
もっとよい,バラツキの指標はないのか?
IQR ( InterQuartile Range)
Quartile 四分位点
大きさの順に並べて,前から 1/4 番目のデータが 第 1 四分位点( Q1 ),前から 2/4 番目のデータ が第 2 四分位点( Q2 = 中央値),前から 1/4 番 目のデータが第 3 四分位点( Q 3)
IQR の具体例
小テストデータ: 2 点, 2 点, 3 点, 4 点, 8 点
IQR = Q3-Q1= 4 – 2 = 2
小テストデータ: 2 点, 2 点, 3 点, 4 点, 100 点
IQR = Q3-Q1= 4 – 2 = 2
IQR は外れ値の影響を受けない
IQR は外れ値の影響を受けない
要約統計量のまとめ
中心を表す量:平均値,中央値, ( 最頻値 )
バラツキを表す量:標準偏差,四分位範囲
外れ値の影響を受けにくいのは,
中央値と四分位範囲のペア
外れ値がない場合に使えるのは,
平均値と標準偏差のペア
このペアは様々な確率分布を扱うときに便利 なので,よく使われる
1 変量データの要約法のまとめ
質的変数はカテゴリごとの数(度数)を数えて 表をつくる
性別:男 10 人,女 6 人など
量的変数は要約統計量を求める
中央値&四分位範囲
平均値&標準偏差
質的変数→表を作る
量的変数→要約統計量を求める
質的変数→表を作る
量的変数→要約統計量を求める
2 変量データの要約
2つの変数の種類の組み合わせでまとめ方が異 なる
質的 × 質的
質的 × 量的
量的 × 量的
質的 × 質的:
2重分割表( 2×3 分割表,2重クロス表, 2×3 表)を作る
質的変数 × 質的変数⇒ 2 重クロス表
質的変数 × 質的変数⇒ 2 重クロス表
質的変数 × 量的変数のまとめ方
質的 × 量的:
質的変数のカテゴリーごとに量的変数の要約統計量 を求める
例えば,性別(質) × 身長(量)をまとめるには,
男性:平均 =172.1cm, 標準偏差 =5.6cm
女性:平均 =164.6cm, 標準偏差 =4.6cm
質的 × 量的をまとめるときの質的変数のカテゴリー を層と呼ぶ.層別解析.
質的変数 × 量的変数
⇒ 質的変数のカテゴリーごとに量的変数を
要約
質的変数 × 量的変数
⇒ 質的変数のカテゴリーごとに量的変数を
要約
量的変数 × 量的変数のまとめ方
2つの量的変数の関係は相関係数で表す
⇒ 2 つの量的変数の間の直線性を示す指
標
傾き正の直線の周りに集まっていれば 1 に近 く,
傾き負の直線の周りに集まっていれば -1 に近 い
(注)直線の傾きも切片も関係ない!
-4 -2 0 2 4
-4-2024
x
y2
r=1
-4 -2 0 2 4
-4-2024
x
y1
r=1
-4 -2 0 2 4
-4-2024
x
y3
r=1
相関係数とは
直線に近いほど 1 ( -1 )に近づく
2 次関数でも 1 ( -1 )に近くない
-4 -2 0 2 4-4-2024
x
y4
r=0.7
-4 -2 0 2 4
-4-2024
x
y4
r=0.9
-4 -2 0 2 4
-4-2024
x
y4
r=0.5
-4 -2 0 2 4
-4-2024
x
z
r = 0.2
⇒
直線に近いかどうかだけを表す
0→1 と 0→ - 1 は「直線への近さ」の点で
は対称.直線の傾きが正か負の違い
直線に近い
-4 -2 0 2 4
-4-2024
x
y4
0.7
-4 -2 0 2 4
-4-2024
x
y4
-4 -2 0 2 4
-4-2024
x
y4
0.5
0.9
-0.7 -0.5
-4 -2 0 2 4
-4-2024
x
z4
-4 -2 0 2 4
-4-2024
x
z4
-4 -2 0 2 4
-4-2024
x
z4
-0.9
2 変量データの要約法のまとめ
質的変数 × 質的変数⇒ 2 重クロス表を作る
質的変数 × 量的変数
⇒質的変数の水準(層)ごと
に
要約統計量を求める
量的変数 × 量的変数⇒相関係数を求める
??? Questions ???
デモ
demo.csv を読み込み以下の問いに答えなさい.
① 性別と学歴をそれぞれ変数ごとに要約しな さい
② 性別と学歴を両方いっしょに要約しなさい
③ 身長と体重をそれぞれ変数ごとに要約しな さい
④ 身長と体重を両方いっしょに要約しなさい
⑤ 身長と性別を両方いっしょに要約しなさい
課題
自分の番号のデータ”番号 .csv” を読み込み以下の問 いに答えなさい.
① 変数 Depression と Sleep , Sex をそれぞれ要約しな さい(量的変数は平均値と標準偏差,四分位範囲を 求め,質的変数はそれぞれの数を数えなさい).
② 変数 Depression と Sleep を両方いっしょに要約し なさい.
③ 変数 Depression と Sex を両方いっしょに要約しな さい
平均値と標準偏差,四分位範囲は小数点以下 1 ケタま で,相関係数は小数点以下 2 ケタまで求めよ
提出
4 月 24 日(月) 1 限に提出
データ番号と学生番号の対応表
学生番号の下 3 ケタ
例) 115054→54
留年した人は以下
114026→114
114110→115
114115→116
113007→117
113094→118