実習資料統計ソフトRを使った統計学実習

(1)

情報・統計処理

統計パート　第

5 回

臨床試験管理センター西山毅（たけし）

(2)

前回のまとめ

 質的変数はカテゴリごとの数（度数）を

数えて表をつくる

 性別：男 10 人，女 6 人など

 量的変数は要約統計量を求める

 中央値＆四分位範囲←どんな場合も OK

(3)

(4)

変数２つについてまとめるときは？

 ２つの変数の種類の組み合わせでまとめ方が

異なる

 質的 × 質的

 質的 × 量的

 量的 × 量的

 質的 × 質的：

　２重分割表（ 2×3 分割表，２重クロス表，

　 2×3 表）を作る

質的変数 × 質的変数⇒ 2 重クロス表

(5)

変数２つについてまとめるときは？

 質的 × 量的：

質的変数のカテゴリーごとに量的変数の要約統計量を求める

 例えば，性別（質） × 身長（量）をまとめるに

は，

 男性：平均 =172.1cm, 標準偏差 =5.6cm  女性：平均 =164.6cm, 標準偏差 =4.6cm

質 × 量をまとめるときの質的変数のカテゴリーを「層」と呼ぶ．「層別に要約」．

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を要約

質的変数 × 量的変数

(6)

量的変数

×

量的変数のまとめ方

 ２つの量的変数の関係は相関係数で表す

　⇒ 2 つの量的変数の間の直線性を示す指標

 傾き正の直線の周りに集まっていれば 1 に近

く，

 傾き負の直線の周りに集まっていれば -1 に近

い

 （注）直線の傾きも切片も関係ない！

-4 -2 0 2 4

-4 -2 0 2 4 x y2 r=1

-4 -2 0 2 4

-4 -2 0 2 4 x y1 r=1

-4 -2 0 2 4

(7)

相関係数とは

 直線に近いほど 1 （ -1 ）に近づく

 2 次関数でも 1 （ -1 ）に近くない -4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.7

-4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.9

-4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.5

-4 -2 0 2 4

-4 -2 0 2 4 x z

r ＝ 0.2

(8)

 0→1 と 0→ － 1 は「直線への近さ」の点で

は対称．直線の傾きが正か負の違い

直線に近い

-4 -2 0 2 4

-4 -2 0 2 4 x y4 0.7

-4 -2 0 2 4

-4 -2 0 2 4 x y4

-4 -2 0 2 4

-4 -2 0 2 4 x y4 0.5 0.9 -0.7 -0.5

-4 -2 0 2 4

-4 -2 0 2 4 x z4

-4 -2 0 2 4

-4 -2 0 2 4 x z4

-4 -2 0 2 4

(9)

R

ではどうするの？

 まず” demo.csv” ファイルを読み込み，変数 d

に代入

 d= read.csv(“demo.csv”)

 質的変数 d$Sex （性別）と d$School （学

歴）で 2×3 表を作る

 table(d$Sex, d$School)

2 重クロス表⇒ table(X, Y)

(10)

R

ではどうするの？

 男女別の身長の要約

 まず，男だけ，女だけのデータを作る

 m = data[data$Sex==“m”, ]

 f = data[data$Sex==“f”, ]

 それぞれの平均と標準偏差を求める

 mean(m$Ht), sd(m$Ht)

 mean(f$Ht), sd(f$Ht)

層別の要約⇒層ごとのデータを作る

(11)

R

ではどうするの？

 身長と体重の相関係数を求めるには

 cor(d$Ht, d$Wt)

 [1] 0.6812133

 X 軸を身長， Y 軸を体重にしたグラフを散

布図と呼ぶ． R での描き方は  plot(d$Ht, d$Wt)

140 150 160 170 180

4 0 6 0 8 0 1 0 0 d$Ht d $ W t

量的変数 × 量的変数 ⇒ 相関係数を求める

(12)

2 変数データのまとめ方

 質的変数 × 質的変数⇒ 2 重クロス表を作る  質的変数 × 量的変数

　　　　　　　⇒質的変数のカテゴリ（層）ごとに

　　　　　　　要約統計量を求める

 量的変数 × 量的変数⇒相関係数を求める

何で直線に近づくと相関係数→ ±1 に？

(13)

推測統計学

とは

 ここまでやったことが記述統計学です．これ

からやるのが，統計学のメインである推測統計学です．

 1922 年の Fisher RA” On the mathematical f

oundations of theoretical statistics” が嚆矢

 標本（サンプル）と母集団とを区別し，標本

から母集団について調べる統計理論です．

まだ 100 _{年経っていない「若い」学問}

(14)

推測統計学のコンセプト

 母集団＝神の世界のことが知りたいが，人間界ではその一部のサンプルしか手に入らない．

 一部のサンプルから母集団のことを何とか伺い知るというのが推測（ inference ）のコンセプト

母集団（ population ）標本（ sample ）

神の世界

(15)

どうすればそんなことができる？

 母集団はある統計モデルに従うと仮定する

 母集団＝神の世界からランダムサンプリング

 サンプルの値から，統計モデルのパラメータを

　推測する

神の世界

ランダム

_人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(16)

統計モデルとは

 身長の測定値＝真の身長＋測定誤差

　　　　　　（誤差は正規分布）

 統計モデルを書くときの約束：

 X ＝ α + 誤差（ ε ）

 誤差も観測値でないので，ギリシャ文字 ε と書く

178.0=178.0 + 0 178.1=178.0 + 0.1 179.9=178.0 + (-0.1)

パラメータはギリシャ文字（ α ， β など）で書く観測値はローマ文字の大文字（ X, Y など）で書く

(17)

統計モデルとは

 モデルとは，プラモデル，ファッションモデル，モデル

動物など全て現実の代用品であるということを意味している．注目すべきは，統計モデルは現実と完全に同じで

ないことである．雑多な現実を 100 ％正確に表すには，

生データを全て列挙すれば良い．しかし，現実（のデー

タ）を上手く説明できる統計モデルを作れれば，その

データを生み出すメカニズムに対して洞察が得られる．そのような洞察を得たり，そのモデルに基づいて予測することが統計モデルをたてる目的である．

統計モデルは世界を認識する枠組み

(18)

推測にもい

ろ

い

ろ

ある

 設定した統計モデルのパラメータの見積り

　　　⇒推定

 設定した統計モデルのパラメータが仮説を満

たすかどうか調べる　　　⇒検定

 設定した統計モデルのもとで，別のサンプル

がどういう値を取るか予想する　　　⇒予測

(19)

推定のコンセプト

 パラメータの真の値は神のみぞ知る情報であり，われ

われ人間が知ることができるのはサンプルの限られた

情報だけ．

 推定の「良さ」の基準を外から与えて，そのような基

準にあうパラメータの推定を「良い」推定とする

神の世界

ランダム

_人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(20)

推定の「

良

さ」の

基

準

 例えば，推定の「良さ」の基準には，

 誤差の 2 乗の和を最小にする

 尤度を最大にする←一番メジャーな基準

　など色々ある．

 という統計モデルのもとでは， α を推定

して得られた値は X の平均値となる．

• _{身長の測定値} _{X =} _真の身長 _α+ _誤差 _ε • _誤差 _ε _{は標準正規分布}

(21)

推定の実

際

 統計モデル

 推定の「良さ」の基準

　により，パラメータの推定量は異なる

 実際には，どういう統計モデルを使うか決めたら，それを統計ソフト R に指定すれば，一番良さそうな推定値を求めてくれる

統計モデルを指定するだけで，

　　　　　　推定値は自動的に出る

統計モデルを指定するだけで，

(22)

推定の例

1

 この統計モデルを R で指定するには，

 t.test(data$Ht)

• _{身長の測定値} _{X =} _真の身長 _α+ _誤差 _ε • _誤差 _ε _{は標準正規分布}

実習資料 統計ソフトRを使った統計学実習

情報・統計処理

統計パート 第

5

回

前回のまとめ

変数２つについてまとめるときは？

変数２つについてまとめるときは？

量的変数

×

量的変数のまとめ方

相関係数とは

R

ではどうするの？

R

ではどうするの？

R

ではどうするの？

2

変数データのまとめ方

推測統計学

とは

推測統計学のコンセプト

神の世界

どうすればそんなことができる？

神の世界

神の世界

人間界

人間界

統計モデルとは

統計モデルとは

推測にもい

ろ

い

ろ

ある

推定のコンセプト

神の世界

神の世界

人間界

人間界

推定の「

良

さ」の

基

準

推定の実

際

推定の例

1

推定値の例

2

https://

sites.google.com/site/courseofr

9

章

「

2

変量データの要約」

ペ

ー

ジ

の

１番下

に

添付

した

demo.csv

ファイル

をダ

ウ

ンロー

ド

して，

R

に読み込み

実習資料統計ソフトRを使った統計学実習

統計パート　第

_人間界

_人間界