講義資料 aichimeduniv

(1)

公衆衛生学：

　統計学・第 1-2 回

　 ^{－記述統計学}

愛知医大公衆衛生　西山毅（たけし）

2017 _{年 4 月 17 日}

(2)

_{統計学とは？}



どの統計ソフトを使うべきか？



_{R の概要}



_{1 変量データの要約}



_{2 変量データの要約}



_演習



_課題

(3)

これらの 10 年で最もセクシーな職業

 Hal Varian, the chief economist at Googl e, is known to have said, “The sexy job in the next 10 years will be

statistician

s

”

Thomas H. Davenport and D.J. Patil. Harvard Business Review, Oct., 2012.

(4)

数学と統計学の違い

 _数学とは

 例えば， x+2=3 の場合 x= ？

両辺に -2 を足して x=1

 _{なぜこれが正しいの？}

答え：「 a=b なら a+c=b+c 」が成り立つから

 _{なぜこれが正しいの？}

答え：これが正しいと決めているから

正しいと決めた出発点＝公理

公理から導かれた結論＝定理

(5)

数学とは

 公理から定理を導く学問

 例えば，ユークリッド幾何学では 5 つの公理から無数の定理を導き出す

公理公理

定理

定理 _定理

定理

公理公理

公理を言い換えて定理をつくるだけ公理を言い換えて定理をつくるだけ

演繹

(6)

統計学とは

 現実（データ）から法則を導く学問

 例えば，日本人 5000 人のデータから「背の高い人ほど体重が重い」という法則を見つけた

法則

データ

法則法則

データデータ

現実から新しい情報を発見現実から新しい情報を発見

帰納

(7)

数学は新たな知識を増やさない

 _{数学：言い換え}

 統計学：現実から新たな知識を取り出す

 サイエンスでは統計学が基盤となる

 医学，物理学，生物学，化学，…

演繹

帰納

(8)

統計学の習得法

 紙とエンピツを使った学習とソフトウェアを使った学習は車輪の両輪

 テキストや講習会については，統計インフラの作り方のサイトを参照 https://sites.google.com/site/statinfr a 　または， Google で「統計インフラ」で検索．

(9)

どの統計ソフトを使うべきか？

 広く流通するソフトを使うべき

 テキスト・セミナーが入手しやすい

 詳しい人に教えてもらえる

 継続して使い続けられるソフトを選ぶ

 途中で他のソフトに切り替えるのは大変

_{ずっと大学にいるか}

_自腹か

_{フリーソフトウェア}

(10)

製品名販売会社 OS 価格 ^日本語化

SAS ^SAS ^Win,_UNIX _）^{（ Linux,} ^\620,000り \200,000/ 年^次年度よ ^あり

JMP ^SAS ^{Win, Mac} ^¥78,000 あり

SPSS ^IBM Win, Mac, Linux ^\14,300 （ graduate pack ）

， \350,000 ^あり

Stata ライトストーン Win, Mac, Linux, UNIX

\22,050 (grad

plan) _{， \84,000} ^なし

S-PLUS 数理システム ^Win,_UNIX_）^{（ Linux,} ^¥19,950 あり

R ― Win, Max, Linux ¥0 _あり

STATISTIC

A ^{スタットソフト}^Win ^¥159,600 ^あり

SYSTAT ^HULINKS ^Win ^¥61,845 あり

MINITAB 構造計画研究所 ^Win ^¥39,800 あり

Prism エムデーエフ ^{Win, Mac} ^¥107,163 あり

SigmaStat ^HULINKS ^Win 販売終了

STATVIEW ^HULINKS ^{Win, Mac} 販売終了

(11)

市場シェア① ：調査会社による調査結果

Percent of KDnuggets for 12 months prior to May 2012

(12)

市場シェア②　 ^{論文中の記載数}

• R _{が 2 位に！}

• Google Scholar _{の検索の不正確さあり}

(13)

結論

13

 メジャーな５大ソフトを選ぶべき

 SAS, SPSS, JMP, STATA, R (S-PLUS)

 _価格

 SAS >> SPSS >> STATA≒JMP > S-PLUS >> R

 _機能

 臨床研究に必要な統計解析なら，どれでも同じ

 _{論文中のシェア}

 SPSS > R > SAS > STATA> JMP これから使うなら R を これから使うなら ^R を

(14)

R ^の概要

 _{フリーの統計ソフト}

世界中の専門家が開発に携わる

 グラフィックスが美しい

_{そのまま論文に使える}

 スクリプト（プログラム）で操作する

_GUI _版もあり

 _歴史

_AT&T ベル研究所で S 言語誕生

ニュージーランドの Robert Gentleman と Ross Ih aka が S 言語クローンとして統計ソフト R を開発

筑波大学の岡田昌史先生を中心に日本語化

(15)

R ^{の概要（続）}

 GUI で操作するためのパッケージである EZR が自治医大の神田善伸先生により開発

 ボタンを押すだけで医学統計に必要なほぼすべての解析を行える

 「 EZR 」で Google 検索して自治医大のページからダウンロードできます

ぜひ自分の PC にインストールしてください

(16)

ダブルクリックするだけで自動的にインストールされる

(17)

1 変量データの要約

 変数の種類によって，データの要約法は異なる

 _{変数の種類：}

大きく量的変数と質的変数に分かれる

 量的変数＝数値として測れる変数

 身長（ cm ） , 体重（ kg ），年齢（才），入試得点

 質的変数＝数値として測れず，どのカテゴリー　　　　　　　　　に属するかを表す変数

 性別：男女，学歴：中卒・高卒・大卒・その他

(18)

量的変数には

 原点 0 がある量（比がとれる）

身長（ cm ），体重（ kg ），年齢（才）

 原点 0 がない量（比がとれず，差だけ意味あり）体温（℃），カレンダーの日付け（日）

の２つに分かれる．前者を比尺度，後者を間隔尺度と呼びわける人がいるが，統計学上あまり区別する必要はない．

数字で測れる量はすべて量的変数

(19)

質的変数には

 性別：男・女，人種：黒人・白人・黄色人種

 単なるカテゴリへの分類

 便宜的に男 =1, 女 =0 とする場合，この 1/0 には数値としての意味はない（男 =1 は女 =0 より 1 大きいという意味はない！）．

 学歴：中卒・高卒・大卒

 カテゴリへの分類だが，順序はある（中卒＜高卒＜大卒）

 順序変数と呼び，上の名義変数と区別することがある

(20)

変数の種類まとめ

数字で測れる→量的変数

数字で測れない→質的変

数

数字で測れる→量的変数

数字で測れない→質的変

数

(21)

サンプルのデータを要約する方法

 質的変数はカテゴリごとの数（度数）を数えて表をつくる

 性別：男 10 人，女 6 人など←カウントデータ

 量的変数は要約統計量を求める

 身長：平均 162.1cm ，標準偏差 5.0cm など

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

(22)

要約統計量とは

 サンプル全体を一言で言い表す量を要約統計量とか記述統計量という

 サンプル数が少なければすべてのデータを示せば済む

 サンプルデータの中心を表す量（中心傾向）と

，バラツキを表す量（散布度）に大別できる

_．

(23)

中心を表す量

 例えば， 10 点満点の小テストデータ

 2 点， 2 点， 3 点， 4 点， 5 点， 8 点

 平均値＝（ 2+2+3+4+5+8)÷6=4 点

 _中央値 _{=3.5 点}

　　　　　　　← 3 番・ 4 番目の成分を足して 2 で割る

 2 点， 3 点， 4 点の中央値は 3 点

 2 点， 3 点， 4 点， 5 点の中央値は 3.5 点

 _最頻値 _{=2 点}

(24)

平均値は

 もし 8 点の代わりに，１００点が入れば，

 平均値＝（ 2+2+3+4+5+100)÷6≒19.3 点

 一方，中央値と最頻値は不変

平均値は外れ値の影響を受けやすい

(25)

最頻値は

 最頻値（モード）はそもそも離散変数でないと存在しない

 身長 171.232cm, 162.311cm,… のような連続変数では同順位（タイ）がないので，最頻値が存在しない

 離散変数とは，年齢のようにとびとびの値をとるもの⇔連続変数

 _{質的変数はすべて離散}

 量的変数には離散と連続の両方あり

(26)

最頻値は

 例えば，身長 168, 170, 172, 178, 180cm のデータ

 身長 170cm 未満・ 170cm 以上 175cm 未満・ 175cm 以上にわけて表をつくると

モード =170cm 以上 175cm 未満

 身長 173cm 未満・ 173cm 以上 178cm 未満・ 178cm 以上にわけて表を作ると

モード =173cm 未満

連続変数を離散化した場合，

　　　　　　モードは一意に決まらない

連続変数を離散化した場合，

　　　　　　モードは一意に決まらない

(27)

どれが一番良いの？

 左右対称な山形の分布では，

 平均値＝中央値＝最頻値

 最頻値はほとんど使わない

 外れ値があれば平均値は使えない　⇒中央値はいつでも使える

(28)

バラツキを表す量

 例えば， 10 点満点の小テストデータ

 2 点， 2 点， 3 点， 4 点， 5 点， 8 点

 中心を表す平均値 m = 4 点からのズレ（偏差）は，

 -2 点， -2 点， -1 点， 0 点， 1 点， 4 点

 足し合わせるとゼロになる

 (X1-m)+(X2-m)+…+(X6-m)

　　　 = （ X1+X2+…+X6) － m×6

= （ X1+X2+…+X6) －（ X1+X2+…+X6)/6×6 = 0

(29)

平均偏差とは

 絶対値を足してデータ数で割る

（ 2+2+1+0+1+4 ） /6≒1.67 ：平均偏差

 各データの平均値からの平均的なズレ

 絶対値があるので，計算しにくい！

(30)

標準偏差とは

 計算しやすいように，平均偏差の 2 乗を足し合わせて 6 で割る

 _{（ 2}2₊₂2₊₁2₊₀2₊₁2₊₄2） /6≒3.67 ：分散

 _{これだと，単位が点} ₂となるので，もとの単位（点）にそろえるために平方根を付けたものが標準偏差 Standard 　 D eviation (SD)

(31)

標準偏差も平均値の呪いがかかる

 標準偏差も，平均値を使う以上，外れ値の影響を受けやすいという平均値の欠点を受け継ぐ

 もっとよい，バラツキの指標はないのか？

 IQR （ InterQuartile Range)

 Quartile 四分位点

 大きさの順に並べて，前から 1/4 番目のデータが第 1 四分位点（ Q1 ），前から 2/4 番目のデータが第 2 四分位点（ Q2 = 中央値），前から 1/4 番目のデータが第 3 四分位点（ Q ３）

(32)

IQR の具体例

 小テストデータ： 2 点， 2 点， 3 点， 4 点， 8 点

 IQR = Q3-Q1= 4 – 2 = 2

 小テストデータ： 2 点， 2 点， 3 点， 4 点， 100 点

 IQR = Q3-Q1= 4 – 2 = 2

IQR は外れ値の影響を受けない

(33)

要約統計量のまとめ

 中心を表す量：平均値，中央値， ( 最頻値 )

 バラツキを表す量：標準偏差，四分位範囲

 外れ値の影響を受けにくいのは，

 中央値と四分位範囲のペア

 外れ値がない場合に使えるのは，

 平均値と標準偏差のペア

 このペアは様々な確率分布を扱うときに便利なので，よく使われる

(34)

1 変量データの要約法のまとめ

 質的変数はカテゴリごとの数（度数）を数えて表をつくる

 性別：男 10 人，女 6 人など

 量的変数は要約統計量を求める

 _{中央値＆四分位範囲}

 _{平均値＆標準偏差}

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

(35)

2 変量データの要約

 ２つの変数の種類の組み合わせでまとめ方が異なる

 _{質的 × 質的}

 _{質的 × 量的}

 _{量的 × 量的}

 _{質的 × 質的：}

　２重分割表（ 2×3 分割表，２重クロス表，　 2×3 表）を作る

質的変数 × 質的変数⇒ 2 重クロス表

(36)

質的変数 × 量的変数のまとめ方

 _{質的 × 量的：}

質的変数のカテゴリーごとに量的変数の要約統計量を求める

 例えば，性別（質） × 身長（量）をまとめるには，

 男性：平均 =172.1cm, 標準偏差 =5.6cm

 女性：平均 =164.6cm, 標準偏差 =4.6cm

 質的 × 量的をまとめるときの質的変数のカテゴリーを層と呼ぶ．層別解析．

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を

要約

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を

要約

(37)

量的変数 × 量的変数のまとめ方



２つの量的変数の関係は相関係数で表す

　⇒ 2 つの量的変数の間の直線性を示す指

標

 傾き正の直線の周りに集まっていれば 1 に近く，

 傾き負の直線の周りに集まっていれば -1 に近い

（注）直線の傾きも切片も関係ない！

-4 -2 0 2 4

-4-2024

x

y2

r=1

-4 -2 0 2 4

-4-2024

x

y1

r=1

-4 -2 0 2 4

-4-2024

x

y3

r=1

(38)

相関係数とは



直線に近いほど 1 （ -1 ）に近づく



2 次関数でも 1 （ -1 ）に近くない

^-4 ^-2 ⁰ ² ⁴

-4-2024

x

y4

r=0.7

-4 -2 0 2 4

-4-2024

x

y4

r=0.9

-4 -2 0 2 4

-4-2024

x

y4

r=0.5

-4 -2 0 2 4

-4-2024

x

z

r _{＝ 0.2}

⇒

直線に近いかどうかだけを表す

(39)



0→1 と 0→ － 1 は「直線への近さ」の点で

は対称．直線の傾きが正か負の違い

直線に近い

-4 -2 0 2 4

-4-2024

x

y4

0.7

-4 -2 0 2 4

-4-2024

x

y4

-4 -2 0 2 4

-4-2024

x

y4

0.5

0.9 -0.7 -0.5

-4 -2 0 2 4

-4-2024

x

z4

-4 -2 0 2 4

-4-2024

x

z4

-4 -2 0 2 4

-4-2024

x

z4

-0.9

(40)

2 変量データの要約法のまとめ



質的変数 × 質的変数⇒ 2 重クロス表を作る



質的変数 × 量的変数

　　　　　　　⇒質的変数の水準（層）ごと

に

　　　　　　　要約統計量を求める



量的変数 × 量的変数⇒相関係数を求める

(41)

？？？ Questions ？？？

(42)

デモ

demo.csv を読み込み以下の問いに答えなさい．

① 性別と学歴をそれぞれ変数ごとに要約しなさい

② 性別と学歴を両方いっしょに要約しなさい

③ 身長と体重をそれぞれ変数ごとに要約しなさい

④ 身長と体重を両方いっしょに要約しなさい

⑤ 身長と性別を両方いっしょに要約しなさい

(43)

課題

自分の番号のデータ”番号 .csv” を読み込み以下の問いに答えなさい．

① 変数 Depression と Sleep ， Sex をそれぞれ要約しなさい（量的変数は平均値と標準偏差，四分位範囲を求め，質的変数はそれぞれの数を数えなさい）．

② 変数 Depression と Sleep を両方いっしょに要約しなさい．

③ 変数 Depression と Sex を両方いっしょに要約しなさい

平均値と標準偏差，四分位範囲は小数点以下 1 ケタまで，相関係数は小数点以下 2 ケタまで求めよ

(44)

提出

 4 月 24 日（月） 1 限に提出

 データ番号と学生番号の対応表

 学生番号の下 3 ケタ

例） 115054→54

 _{留年した人は以下}

_114026→114

_114110→115

_114115→116

_113007→117

_113094→118

講義資料 aichimeduniv

公衆衛生学：

統計学・第 1-2 回

－記述統計学

愛知医大 公衆衛生 西山毅（たけし）

目次

統計学とは？

どの統計ソフトを使うべきか？

R の概要

1 変量データの要約

2 変量データの要約

演習

課題

これらの 10 年で最もセクシーな職業

statistician

s

数学と統計学の違い

数学とは

演繹

統計学とは

帰納

数学は新たな知識を増やさない

統計学の習得法

どの統計ソフトを使うべきか？

市場シェア① ：調査会社による調査結果

市場シェア② 論文中の記載数

結論

R の概要

R の概要（続）

1 変量データの要約

量的変数には

数字で測れる量はすべて量的変数

数字で測れる量はすべて量的変数

質的変数には

変数の種類まとめ

数字で測れる→量的変数

数字で測れない→質的変

数

数字で測れる→量的変数

数字で測れない→質的変

数

サンプルのデータを要約する方法

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

要約統計量とは

．

中心を表す量

平均値は

平均値は外れ値の影響を受けやすい

平均値は外れ値の影響を受けやすい

最頻値は

最頻値は

連続変数を離散化した場合，

モードは一意に決まらない

連続変数を離散化した場合，

モードは一意に決まらない

どれが一番良いの？

バラツキを表す量

平均偏差とは

標準偏差とは

標準偏差も平均値の呪いがかかる

IQR の具体例

IQR は外れ値の影響を受けない

IQR は外れ値の影響を受けない

要約統計量のまとめ

1 変量データの要約法のまとめ

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

2 変量データの要約

質的変数 × 質的変数⇒ 2 重クロス表

質的変数 × 質的変数⇒ 2 重クロス表

質的変数 × 量的変数のまとめ方

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を

要約

質的変数 × 量的変数

　統計学・第 1-2 回

　 ^{－記述統計学}

愛知医大公衆衛生　西山毅（たけし）

_{統計学とは？}

_{R の概要}

_{1 変量データの要約}

_{2 変量データの要約}

_演習

_課題

市場シェア②　 ^{論文中の記載数}

R ^の概要

R ^{の概要（続）}

_．

　　　　　　モードは一意に決まらない

　　　　　　モードは一意に決まらない

　⇒ 2 つの量的変数の間の直線性を示す指

　　　　　　　⇒質的変数の水準（層）ごと

　　　　　　　要約統計量を求める