• 検索結果がありません。

実習資料 統計ソフトRを使った統計学実習

N/A
N/A
Protected

Academic year: 2018

シェア "実習資料 統計ソフトRを使った統計学実習"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

情報・統計処理

     

統計パート 第

5

臨床試験管理センター西山毅(たけし)

(2)

前回のまとめ

 質的変数はカテゴリごとの数(度数)を

数えて表をつくる

 性別:男 10 人,女 6 人など

 量的変数は要約統計量を求める

 中央値&四分位範囲←どんな場合も OK

(3)
(4)

変数2つについてまとめるときは?

 2つの変数の種類の組み合わせでまとめ方が

異なる

 質的 × 質的

 質的 × 量的

 量的 × 量的

 質的 × 質的:

 2重分割表( 2×3 分割表,2重クロス表,

  2×3 表)を作る

質的変数 × 質的変数⇒ 2 重クロス表

(5)

変数2つについてまとめるときは?

 質的 × 量的:

質的変数のカテゴリーごとに量的変数の要約統計 量を求める

 例えば,性別(質) × 身長(量)をまとめるに

は,

 男性:平均 =172.1cm, 標準偏差 =5.6cm  女性:平均 =164.6cm, 標準偏差 =4.6cm

質 × 量をまとめるときの質的変数のカテゴ リーを「層」と呼ぶ.「層別に要約」.

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を 要約

質的変数 × 量的変数

(6)

量的変数

×

量的変数のまとめ方

 2つの量的変数の関係は相関係数で表す

 ⇒ 2 つの量的変数の間の直線性を示す指 標

 傾き正の直線の周りに集まっていれば 1 に近

く,

 傾き負の直線の周りに集まっていれば -1 に近

 (注)直線の傾きも切片も関係ない!

-4 -2 0 2 4

-4 -2 0 2 4 x y2 r=1

-4 -2 0 2 4

-4 -2 0 2 4 x y1 r=1

-4 -2 0 2 4

(7)

相関係数とは

 直線に近いほど 1 ( -1 )に近づく

 2 次関数でも 1 ( -1 )に近くない -4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.7

-4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.9

-4 -2 0 2 4

-4 -2 0 2 4 x y4 r=0.5

-4 -2 0 2 4

-4 -2 0 2 4 x z

r = 0.2

(8)

 0→1 と 0→ - 1 は「直線への近さ」の点で

は対称.直線の傾きが正か負の違い

直線に近い

-4 -2 0 2 4

-4 -2 0 2 4 x y4 0.7

-4 -2 0 2 4

-4 -2 0 2 4 x y4

-4 -2 0 2 4

-4 -2 0 2 4 x y4 0.5 0.9 -0.7 -0.5

-4 -2 0 2 4

-4 -2 0 2 4 x z4

-4 -2 0 2 4

-4 -2 0 2 4 x z4

-4 -2 0 2 4

(9)

R

ではどうするの?

 まず” demo.csv” ファイルを読み込み,変数 d

に代入

 d= read.csv(“demo.csv”)

 質的変数 d$Sex (性別)と d$School (学

歴)で 2×3 表を作る

 table(d$Sex, d$School)

2 重クロス表⇒ table(X, Y)

(10)

R

ではどうするの?

 男女別の身長の要約

 まず,男だけ,女だけのデータを作る

 m = data[data$Sex==“m”, ]

 f = data[data$Sex==“f”, ]

 それぞれの平均と標準偏差を求める

 mean(m$Ht), sd(m$Ht)

 mean(f$Ht), sd(f$Ht)

層別の要約⇒層ごとのデータを作る

(11)

R

ではどうするの?

 身長と体重の相関係数を求めるには

 cor(d$Ht, d$Wt)

 [1] 0.6812133

 X 軸を身長, Y 軸を体重にしたグラフを散

布図と呼ぶ. R での描き方は  plot(d$Ht, d$Wt)

140 150 160 170 180

4 0 6 0 8 0 1 0 0 d$Ht d $ W t

量的変数 × 量的変数 ⇒ 相関係数を求める

(12)

2

変数データのまとめ方

 質的変数 × 質的変数⇒ 2 重クロス表を作る  質的変数 × 量的変数

       ⇒質的変数のカテゴリ(層)ごと に

        要約統計量を求める

 量的変数 × 量的変数⇒相関係数を求める

何で直線に近づくと相関係数→ ±1 に?

(13)

推測統計学

とは

 ここまでやったことが記述統計学です.これ

からやるのが,統計学のメインである推測統 計学です.

 1922 年の Fisher RA” On the mathematical f

oundations of theoretical statistics” が 嚆矢

 標本(サンプル)と母集団とを区別し,標本

から母集団について調べる統計理論です.

まだ 100 年経っていない「若い」学問

(14)

推測統計学のコンセプト

 母集団=神の世界のことが知りたいが,人間界では その一部のサンプルしか手に入らない.

 一部のサンプルから母集団のことを何とか伺い知る というのが推測( inference )のコンセプト

母集団( population ) 標本( sample )

神の世界

(15)

どうすればそんなことができる?

 母集団は ある統計モデルに従うと仮定する

 母集団=神の世界からランダムサンプリング

 サンプルの値から,統計モデルのパラメータを

 推測する

母集団( population ) 標本( sample )

神の世界

神の世界

ランダム

人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(16)

統計モデルとは

 身長の測定値=真の身長+測定誤差

      (誤 差は正規分布)

 統計モデルを書くときの約束:

 X = α + 誤差( ε )

 誤差も観測値でないので,ギリシャ文字 ε と書く

178.0=178.0 + 0 178.1=178.0 + 0.1 179.9=178.0 + (-0.1)

パラメータはギリシャ文字( α , β など)で書く 観測値はローマ文字の大文字( X, Y など)で書く

(17)

統計モデルとは

 モデルとは,プラモデル,ファッションモデル,モデル

動物など全て現実の代用品であるということを意味して いる.注目すべきは,統計モデルは現実と完全に同じで

ないことである.雑多な現実を 100 %正確に表すには,

生データを全て列挙すれば良い.しかし,現実(のデー

タ)を上手く説明できる統計モデルを作れれば,その

データを生み出すメカニズムに対して洞察が得られる. そのような洞察を得たり,そのモデルに基づいて予測す ることが統計モデルをたてる目的である.

統計モデルは世界を認識する枠組み

(18)

推測にもい

ある

 設定した統計モデルのパラメータの見積り

   ⇒推定

 設定した統計モデルのパラメータが仮説を満

たすかどうか調べる    ⇒検定

 設定した統計モデルのもとで,別のサンプル

がどういう値を取るか予想する    ⇒予測

(19)

推定のコンセプト

 パラメータの真の値は神のみぞ知る情報であり,われ

われ人間が知ることができるのはサンプルの限られた

情報だけ.

 推定の「良さ」の基準を外から与えて,そのような基

準にあうパラメータの推定を「良い」推定とする

母集団( population ) 標本( sample )

神の世界

神の世界

ランダム

人間界

人間界

サンプリング

ランダム

サンプリング

統計モデル

(20)

推定の「

さ」の

 例えば,推定の「良さ」の基準には,

 誤差の 2 乗の和を最小にする

 尤度を最大にする←一番メジャーな基準

 など色々ある.

 という統計モデルのもとでは, α を推定

して得られた値は X の平均値となる.

身長の測定値 X = 真の身長 α+ 誤差 ε誤差 ε は標準正規分布

身長の測定値 X = 真の身長 α+ 誤差 ε誤差 ε は標準正規分布

(21)

推定の実

 統計モデル

 推定の「良さ」の基準

 により,パラメータの推定量は異なる

 実際には,どういう統計モデルを使うか 決めたら,それを統計ソフト R に指定す れば,一番良さそうな推定値を求めてく れる

統計モデルを指定するだけで,

      推定値は自動的に出る

統計モデルを指定するだけで,

(22)

推定の例

1

 この統計モデルを R で指定するには,

 t.test(data$Ht)

身長の測定値 X = 真の身長 α+ 誤差 ε誤差 ε は標準正規分布

身長の測定値 X = 真の身長 α+ 誤差 ε誤差 ε は標準正規分布

(23)

推定値の例

2

 この統計モデルを R で指定するには,

 lm(Ht~Sex,data)

身長の測定値 X

     = 女の身長 α+ (女<男)の増分 β+ 誤差 ε

誤差 ε は標準正規分布身長の測定値 X

     = 女の身長 α+ (女<男)の増分 β+ 誤差 ε

誤差 ε は標準正規分布

(24)

さあ R でやってみましょう

https://

sites.google.com/site/courseofr

9

2

変量データの要約」

1番下

添付

した

demo.csv

ファイル

をダ

ンロー

して,

R

に読み込み

参照

関連したドキュメント

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

にも物騒に見える。南岸の中部付近まで来ると崖が多く、容易に汀線を渡ることが出

 Whereas the Greater London Authority Act 1999 allows only one form of executive governance − a directly elected Mayor − the Local Government Act 2000 permits local authorities

委 員:重症心身障害児の実数は、なかなか統計が取れないという特徴があり ます。理由として、出生後

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

In the main square of Pilsen, an annual event where people can experience hands-on science and technology demonstrations is held, involving the whole region, with the University

原子炉隔離時冷却系系統流量計 高圧炉心注水系系統流量計 残留熱除去系系統流量計 原子炉圧力計.