情報・統計処理
統計パート 第
5
回
臨床試験管理センター西山毅(たけし)
前回のまとめ
質的変数はカテゴリごとの数(度数)を
数えて表をつくる
性別:男 10 人,女 6 人など
量的変数は要約統計量を求める
中央値&四分位範囲←どんな場合も OK
変数2つについてまとめるときは?
2つの変数の種類の組み合わせでまとめ方が
異なる
質的 × 質的
質的 × 量的
量的 × 量的
質的 × 質的:
2重分割表( 2×3 分割表,2重クロス表,
2×3 表)を作る
質的変数 × 質的変数⇒ 2 重クロス表
変数2つについてまとめるときは?
質的 × 量的:
質的変数のカテゴリーごとに量的変数の要約統計 量を求める
例えば,性別(質) × 身長(量)をまとめるに
は,
男性:平均 =172.1cm, 標準偏差 =5.6cm 女性:平均 =164.6cm, 標準偏差 =4.6cm
質 × 量をまとめるときの質的変数のカテゴ リーを「層」と呼ぶ.「層別に要約」.
質的変数 × 量的変数
⇒ 質的変数のカテゴリーごとに量的変数を 要約
質的変数 × 量的変数
量的変数
×
量的変数のまとめ方
2つの量的変数の関係は相関係数で表す
⇒ 2 つの量的変数の間の直線性を示す指 標
傾き正の直線の周りに集まっていれば 1 に近
く,
傾き負の直線の周りに集まっていれば -1 に近
い
(注)直線の傾きも切片も関係ない!
-4 -2 0 2 4
-4 -2 0 2 4 x y2 r=1
-4 -2 0 2 4
-4 -2 0 2 4 x y1 r=1
-4 -2 0 2 4
相関係数とは
直線に近いほど 1 ( -1 )に近づく
2 次関数でも 1 ( -1 )に近くない -4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.7
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.9
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.5
-4 -2 0 2 4
-4 -2 0 2 4 x z
r = 0.2
0→1 と 0→ - 1 は「直線への近さ」の点で
は対称.直線の傾きが正か負の違い
直線に近い
-4 -2 0 2 4
-4 -2 0 2 4 x y4 0.7
-4 -2 0 2 4
-4 -2 0 2 4 x y4
-4 -2 0 2 4
-4 -2 0 2 4 x y4 0.5 0.9 -0.7 -0.5
-4 -2 0 2 4
-4 -2 0 2 4 x z4
-4 -2 0 2 4
-4 -2 0 2 4 x z4
-4 -2 0 2 4
R
ではどうするの?
まず” demo.csv” ファイルを読み込み,変数 d
に代入
d= read.csv(“demo.csv”)
質的変数 d$Sex (性別)と d$School (学
歴)で 2×3 表を作る
table(d$Sex, d$School)
2 重クロス表⇒ table(X, Y)
R
ではどうするの?
男女別の身長の要約
まず,男だけ,女だけのデータを作る
m = data[data$Sex==“m”, ]
f = data[data$Sex==“f”, ]
それぞれの平均と標準偏差を求める
mean(m$Ht), sd(m$Ht)
mean(f$Ht), sd(f$Ht)
層別の要約⇒層ごとのデータを作る
R
ではどうするの?
身長と体重の相関係数を求めるには
cor(d$Ht, d$Wt)
[1] 0.6812133
X 軸を身長, Y 軸を体重にしたグラフを散
布図と呼ぶ. R での描き方は plot(d$Ht, d$Wt)
140 150 160 170 180
4 0 6 0 8 0 1 0 0 d$Ht d $ W t
量的変数 × 量的変数 ⇒ 相関係数を求める
2
変数データのまとめ方
質的変数 × 質的変数⇒ 2 重クロス表を作る 質的変数 × 量的変数
⇒質的変数のカテゴリ(層)ごと に
要約統計量を求める
量的変数 × 量的変数⇒相関係数を求める
何で直線に近づくと相関係数→ ±1 に?
推測統計学
とは
ここまでやったことが記述統計学です.これ
からやるのが,統計学のメインである推測統 計学です.
1922 年の Fisher RA” On the mathematical f
oundations of theoretical statistics” が 嚆矢
標本(サンプル)と母集団とを区別し,標本
から母集団について調べる統計理論です.
まだ 100 年経っていない「若い」学問
推測統計学のコンセプト
母集団=神の世界のことが知りたいが,人間界では その一部のサンプルしか手に入らない.
一部のサンプルから母集団のことを何とか伺い知る というのが推測( inference )のコンセプト
母集団( population ) 標本( sample )
神の世界
どうすればそんなことができる?
母集団は ある統計モデルに従うと仮定する
母集団=神の世界からランダムサンプリング
サンプルの値から,統計モデルのパラメータを
推測する
母集団( population ) 標本( sample )
神の世界
神の世界
ランダム人間界
人間界
サンプリング
ランダム
サンプリング
統計モデル
統計モデルとは
身長の測定値=真の身長+測定誤差
(誤 差は正規分布)
統計モデルを書くときの約束:
X = α + 誤差( ε )
誤差も観測値でないので,ギリシャ文字 ε と書く
178.0=178.0 + 0 178.1=178.0 + 0.1 179.9=178.0 + (-0.1)
パラメータはギリシャ文字( α , β など)で書く 観測値はローマ文字の大文字( X, Y など)で書く
統計モデルとは
モデルとは,プラモデル,ファッションモデル,モデル
動物など全て現実の代用品であるということを意味して いる.注目すべきは,統計モデルは現実と完全に同じで
ないことである.雑多な現実を 100 %正確に表すには,
生データを全て列挙すれば良い.しかし,現実(のデー
タ)を上手く説明できる統計モデルを作れれば,その
データを生み出すメカニズムに対して洞察が得られる. そのような洞察を得たり,そのモデルに基づいて予測す ることが統計モデルをたてる目的である.
統計モデルは世界を認識する枠組み
推測にもい
ろ
い
ろ
ある
設定した統計モデルのパラメータの見積り
⇒推定
設定した統計モデルのパラメータが仮説を満
たすかどうか調べる ⇒検定
設定した統計モデルのもとで,別のサンプル
がどういう値を取るか予想する ⇒予測
推定のコンセプト
パラメータの真の値は神のみぞ知る情報であり,われ
われ人間が知ることができるのはサンプルの限られた
情報だけ.
推定の「良さ」の基準を外から与えて,そのような基
準にあうパラメータの推定を「良い」推定とする
母集団( population ) 標本( sample )
神の世界
神の世界
ランダム人間界
人間界
サンプリング
ランダム
サンプリング
統計モデル
推定の「
良
さ」の
基
準
例えば,推定の「良さ」の基準には,
誤差の 2 乗の和を最小にする
尤度を最大にする←一番メジャーな基準
など色々ある.
という統計モデルのもとでは, α を推定
して得られた値は X の平均値となる.
• 身長の測定値 X = 真の身長 α+ 誤差 ε • 誤差 ε は標準正規分布
• 身長の測定値 X = 真の身長 α+ 誤差 ε • 誤差 ε は標準正規分布
推定の実
際
統計モデル
推定の「良さ」の基準
により,パラメータの推定量は異なる
実際には,どういう統計モデルを使うか 決めたら,それを統計ソフト R に指定す れば,一番良さそうな推定値を求めてく れる
統計モデルを指定するだけで,
推定値は自動的に出る
統計モデルを指定するだけで,
推定の例
1
この統計モデルを R で指定するには,
t.test(data$Ht)
• 身長の測定値 X = 真の身長 α+ 誤差 ε • 誤差 ε は標準正規分布
• 身長の測定値 X = 真の身長 α+ 誤差 ε • 誤差 ε は標準正規分布
推定値の例
2
この統計モデルを R で指定するには,
lm(Ht~Sex,data)
• 身長の測定値 X
= 女の身長 α+ (女<男)の増分 β+ 誤差 ε
• 誤差 ε は標準正規分布 • 身長の測定値 X
= 女の身長 α+ (女<男)の増分 β+ 誤差 ε
• 誤差 ε は標準正規分布
さあ R でやってみましょう
https://
sites.google.com/site/courseofr