• 検索結果がありません。

講義資料 aichimeduniv

N/A
N/A
Protected

Academic year: 2018

シェア "講義資料 aichimeduniv"

Copied!
44
0
0

読み込み中.... (全文を見る)

全文

(1)

公衆衛生学:

 統計学・第 1-2 回

  -記述統計学

愛知医大 公衆衛生 西山毅(たけし)

2017 年 4 月 17 日

(2)

目次

統計学とは?

どの統計ソフトを使うべきか?

R の概要

1 変量データの要約

2 変量データの要約

演習

課題

(3)

これらの 10 年で最もセクシーな職業

Hal Varian, the chief economist at Googl e, is known to have said, “The sexy job in the next 10 years will be

statistician

s

Thomas H. Davenport and D.J. Patil. Harvard Business Review, Oct., 2012.

(4)

数学と統計学の違い

数学とは

例えば, x+2=3 の場合 x= ?

両辺に -2 を足して x=1

なぜこれが正しいの?

答え:「 a=b なら a+c=b+c 」が成り立つから

なぜこれが正しいの?

答え:これが正しいと決めているから

正しいと決めた出発点=公理

公理から導かれた結論=定理

(5)

数学とは

公理から定理を導く学問

例えば,ユークリッド幾何学では 5 つの公理か ら無数の定理を導き出す

公理公理

定理

定理 定理

定理

公理公理

公理を言い換えて定理をつくるだけ 公理を言い換えて定理をつくるだけ

演繹

(6)

統計学とは

現実(データ)から法則を導く学問

例えば,日本人 5000 人のデータから 「背の高い 人ほど体重が重い」という法則を見つけた

法則

デー

法則 法則

デー デー

現実から新しい情報を発見 現実から新しい情報を発見

帰納

(7)

数学は新たな知識を増やさない

数学:言い換え

統計学:現実から新たな知識を取り出す

サイエンスでは統計学が基盤となる

医学,物理学,生物学,化学,…

演繹

帰納

(8)

統計学の習得法

紙とエンピツを使った学習とソフトウェアを使った学 習は車輪の両輪

テキストや講習会については,統計インフラの作り方のサ イトを参照 https://sites.google.com/site/statinfr a  または, Google で「統計インフラ」で検索.

(9)

どの統計ソフトを使うべきか?

広く流通するソフトを使うべき

テキスト・セミナーが入手しやすい

詳しい人に教えてもらえる

継続して使い続けられるソフトを選ぶ

途中で他のソフトに切り替えるのは大変

ずっと大学にいるか

自腹か

フリーソフトウェア

(10)

  製品名 販売会社 OS 価格 日本語化

SAS SAS Win, UNIX ( Linux, \620,000 り \200,000/ 年次年度よ あり

JMP SAS Win, Mac ¥78,000 あり

SPSS IBM Win, Mac, Linux \14,300 ( graduate pack )

, \350,000 あり

Stata ライトストーン Win, Mac, Linux, UNIX

\22,050 (grad

plan) , \84,000 なし

S-PLUS 数理システム Win, UNIX( Linux, ¥19,950 あり

R Win, Max, Linux ¥0 あり

STATISTIC

A スタットソフト Win ¥159,600 あり

SYSTAT HULINKS Win ¥61,845 あり

MINITAB 構造計画研究所 Win ¥39,800 あり

Prism エムデーエフ Win, Mac ¥107,163 あり

SigmaStat HULINKS Win 販売終了

STATVIEW HULINKS Win, Mac 販売終了

(11)

市場シェア① :調査会社による調査結果

Percent of KDnuggets for 12 months prior to May 2012

(12)

市場シェア②  論文中の記載数

• R が 2 位に!

• Google Scholar の検索の不正確さあり

(13)

結論

13

メジャーな5大ソフトを選ぶべき

SAS, SPSS, JMP, STATA, R (S-PLUS)

価格

SAS >> SPSS >> STATA≒JMP > S-PLUS >> R

機能

臨床研究に必要な統計解析なら,どれでも同じ

論文中のシェア

SPSS > R > SAS > STATA> JMP これから使うなら R を これから使うなら R

(14)

R の概要

フリーの統計ソフト

世界中の専門家が開発に携わる

グラフィックスが美しい

そのまま論文に使える

スクリプト(プログラム)で操作する

GUI 版もあり

歴史

AT&T ベル研究所で S 言語誕生

ニュージーランドの Robert Gentleman と Ross Ih aka が S 言語クローンとして統計ソフト R を開発

筑波大学の岡田昌史先生を中心に日本語化

(15)

R の概要(続)

GUI で操作するためのパッケージである EZR が 自治医大の神田善伸先生により開発

ボタンを押すだけで医学統計に必要なほぼす べての解析を行える

「 EZR 」で Google 検索して自治医大のページ からダウンロードできます

ぜひ自分の PC にインストールしてください

(16)

ダブルクリック するだけで自動 的にインストー ルされる

(17)

1 変量データの要約

変数の種類によって,データの要約法は異なる

変数の種類:

大きく量的変数と質的変数に分かれる

量的変数=数値として測れる変数

身長( cm ) , 体重( kg ),年齢(才),入 試得点

質的変数=数値として測れず,どのカテゴリー          に属するかを表す変数

性別:男女,学歴:中卒・高卒・大卒・その 他

(18)

量的変数には

原点 0 がある量(比がとれる)

身長( cm ),体重( kg ),年齢(才)

原点 0 がない量(比がとれず,差だけ意味あり) 体温(℃),カレンダーの日付け(日)

の2つに分かれる.前者を比尺度,後者を間隔尺 度と呼びわける人がいるが,統計学上あまり区別 する必要はない.

数字で測れる量はすべて量的変数

数字で測れる量はすべて量的変数

(19)

質的変数には

性別:男・女,人種:黒人・白人・黄色人種

単なるカテゴリへの分類

便宜的に男 =1, 女 =0 とする場合,この 1/0 には数値としての意味はない(男 =1 は女 =0 より 1 大きいという意味はない!).

学歴:中卒・高卒・大卒

カテゴリへの分類だが,順序はある(中卒< 高卒<大卒)

順序変数と呼び,上の名義変数と区別するこ とがある

(20)

変数の種類まとめ

数字で測れる→量的変数

数字で測れない→質的変

数字で測れる→量的変数

数字で測れない→質的変

(21)

サンプルのデータを要約する方法

質的変数はカテゴリごとの数(度数)を数えて 表をつくる

性別:男 10 人,女 6 人など←カウントデータ

量的変数は要約統計量を求める

身長:平均 162.1cm ,標準偏差 5.0cm など

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

(22)

要約統計量とは

サンプル全体を一言で言い表す量を要約統計量 とか記述統計量という

サンプル数が少なければすべてのデータを示 せば済む

サンプルデータの中心を表す量(中心傾向)と

,バラツキを表す量(散布度)に大別できる

(23)

中心を表す量

例えば, 10 点満点の小テストデータ

2 点, 2 点, 3 点, 4 点, 5 点, 8 点

平均値=( 2+2+3+4+5+8)÷6=4 点

中央値 =3.5 点

       ← 3 番・ 4 番目の成分を足して 2 で割る

2 点, 3 点, 4 点の中央値は 3 点

2 点, 3 点, 4 点, 5 点の中央値は 3.5 点

最頻値 =2 点

(24)

平均値は

もし 8 点の代わりに,100点が入れば,

平均値=( 2+2+3+4+5+100)÷6≒19.3 点

一方,中央値と最頻値は不変

平均値は外れ値の影響を受けやすい

平均値は外れ値の影響を受けやすい

(25)

最頻値は

最頻値(モード)はそもそも離散変数でないと存 在しない

身長 171.232cm, 162.311cm,… のような連続変 数では同順位(タイ)がないので,最頻値が存 在しない

離散変数とは,年齢のようにとびとびの値をとる もの⇔連続変数

質的変数はすべて離散

量的変数には離散と連続の両方あり

(26)

最頻値は

例えば,身長 168, 170, 172, 178, 180cm のデータ

身長 170cm 未満・ 170cm 以上 175cm 未満・ 175cm 以上 にわけて表をつくると

モード =170cm 以上 175cm 未満

身長 173cm 未満・ 173cm 以上 178cm 未満・ 178cm 以上 にわけて表を作ると

モード =173cm 未満

連続変数を離散化した場合,

      モードは一意に決まらない

連続変数を離散化した場合,

      モードは一意に決まらない

(27)

どれが一番良いの?

左右対称な山形の分布では,

平均値=中央値=最頻値

最頻値はほとんど使わない

外れ値があれば平均値は使えない  ⇒中央値はいつでも使える

(28)

バラツキを表す量

例えば, 10 点満点の小テストデータ

2 点, 2 点, 3 点, 4 点, 5 点, 8 点

中心を表す平均値 m = 4 点からのズレ(偏差)は,

-2 点, -2 点, -1 点, 0 点, 1 点, 4 点

足し合わせるとゼロになる

(X1-m)+(X2-m)+…+(X6-m)

    = ( X1+X2+…+X6) - m×6

= ( X1+X2+…+X6) -( X1+X2+…+X6)/6×6 = 0

(29)

平均偏差とは

絶対値を足してデータ数で割る

( 2+2+1+0+1+4 ) /6≒1.67 :平均偏差

各データの平均値からの平均的なズレ

絶対値があるので,計算しにくい!

 

(30)

標準偏差とは

計算しやすいように,平均偏差の 2 乗を足し合わせて 6 で割る

( 22+22+12+02+12+42) /6≒3.67 :分散

これだと,単位が点 2となるので,もとの単位(点)にそ ろえるために平方根を付けたものが標準偏差 Standard   D eviation (SD)  

(31)

標準偏差も平均値の呪いがかかる

標準偏差も,平均値を使う以上,外れ値の影響を 受けやすいという平均値の欠点を受け継ぐ

もっとよい,バラツキの指標はないのか?

IQR ( InterQuartile Range)

Quartile 四分位点

大きさの順に並べて,前から 1/4 番目のデータが 第 1 四分位点( Q1 ),前から 2/4 番目のデータ が第 2 四分位点( Q2 = 中央値),前から 1/4 番 目のデータが第 3 四分位点( Q 3)

(32)

IQR の具体例

小テストデータ: 2 点, 2 点, 3 点, 4 点, 8 点

IQR = Q3-Q1= 4 – 2 = 2

小テストデータ: 2 点, 2 点, 3 点, 4 点, 100 点

IQR = Q3-Q1= 4 – 2 = 2

IQR は外れ値の影響を受けない

IQR は外れ値の影響を受けない

(33)

要約統計量のまとめ

中心を表す量:平均値,中央値, ( 最頻値 )

バラツキを表す量:標準偏差,四分位範囲

外れ値の影響を受けにくいのは,

中央値と四分位範囲のペア

外れ値がない場合に使えるのは,

平均値と標準偏差のペア

このペアは様々な確率分布を扱うときに便利 なので,よく使われる

(34)

1 変量データの要約法のまとめ

質的変数はカテゴリごとの数(度数)を数えて 表をつくる

性別:男 10 人,女 6 人など

量的変数は要約統計量を求める

中央値&四分位範囲

平均値&標準偏差

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

量的変数→要約統計量を求める

(35)

2 変量データの要約

2つの変数の種類の組み合わせでまとめ方が異 なる

質的 × 質的

質的 × 量的

量的 × 量的

質的 × 質的:

 2重分割表( 2×3 分割表,2重クロス表,   2×3 表)を作る

質的変数 × 質的変数⇒ 2 重クロス表

質的変数 × 質的変数⇒ 2 重クロス表

(36)

質的変数 × 量的変数のまとめ方

質的 × 量的:

質的変数のカテゴリーごとに量的変数の要約統計量 を求める

例えば,性別(質) × 身長(量)をまとめるには,

男性:平均 =172.1cm, 標準偏差 =5.6cm

女性:平均 =164.6cm, 標準偏差 =4.6cm

質的 × 量的をまとめるときの質的変数のカテゴリー を層と呼ぶ.層別解析.

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を

要約

質的変数 × 量的変数

⇒ 質的変数のカテゴリーごとに量的変数を

要約

(37)

量的変数 × 量的変数のまとめ方

2つの量的変数の関係は相関係数で表す

 ⇒ 2 つの量的変数の間の直線性を示す指

傾き正の直線の周りに集まっていれば 1 に近 く,

傾き負の直線の周りに集まっていれば -1 に近 い

(注)直線の傾きも切片も関係ない!

-4 -2 0 2 4

-4-2024

x

y2

r=1

-4 -2 0 2 4

-4-2024

x

y1

r=1

-4 -2 0 2 4

-4-2024

x

y3

r=1

(38)

相関係数とは

直線に近いほど 1 ( -1 )に近づく

2 次関数でも 1 ( -1 )に近くない

-4 -2 0 2 4

-4-2024

x

y4

r=0.7

-4 -2 0 2 4

-4-2024

x

y4

r=0.9

-4 -2 0 2 4

-4-2024

x

y4

r=0.5

-4 -2 0 2 4

-4-2024

x

z

r = 0.2

直線に近いかどうかだけを表す

(39)

0→1 と 0→ - 1 は「直線への近さ」の点で

は対称.直線の傾きが正か負の違い

直線に近い

-4 -2 0 2 4

-4-2024

x

y4

0.7

-4 -2 0 2 4

-4-2024

x

y4

-4 -2 0 2 4

-4-2024

x

y4

0.5

0.9

-0.7 -0.5

-4 -2 0 2 4

-4-2024

x

z4

-4 -2 0 2 4

-4-2024

x

z4

-4 -2 0 2 4

-4-2024

x

z4

-0.9

(40)

2 変量データの要約法のまとめ

質的変数 × 質的変数⇒ 2 重クロス表を作る

質的変数 × 量的変数

       ⇒質的変数の水準(層)ごと

        要約統計量を求める

量的変数 × 量的変数⇒相関係数を求める

(41)

??? Questions ???

(42)

デモ

demo.csv を読み込み以下の問いに答えなさい.

性別と学歴をそれぞれ変数ごとに要約しな さい

性別と学歴を両方いっしょに要約しなさい

身長と体重をそれぞれ変数ごとに要約しな さい

身長と体重を両方いっしょに要約しなさい

身長と性別を両方いっしょに要約しなさい

(43)

課題

自分の番号のデータ”番号 .csv” を読み込み以下の問 いに答えなさい.

変数 Depression と Sleep , Sex をそれぞれ要約しな さい(量的変数は平均値と標準偏差,四分位範囲を 求め,質的変数はそれぞれの数を数えなさい).

変数 Depression と Sleep を両方いっしょに要約し なさい.

変数 Depression と Sex を両方いっしょに要約しな さい

平均値と標準偏差,四分位範囲は小数点以下 1 ケタま で,相関係数は小数点以下 2 ケタまで求めよ

(44)

提出

4 月 24 日(月) 1 限に提出

データ番号と学生番号の対応表

学生番号の下 3 ケタ

例) 115054→54

留年した人は以下

114026→114

114110→115

114115→116

113007→117

113094→118

参照

関連したドキュメント

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Kilbas; Conditions of the existence of a classical solution of a Cauchy type problem for the diffusion equation with the Riemann-Liouville partial derivative, Differential Equations,

By the algorithm in [1] for drawing framed link descriptions of branched covers of Seifert surfaces, a half circle should be drawn in each 1–handle, and then these eight half

Next, we will examine the notion of generalization of Ramsey type theorems in the sense of a given zero sum theorem in view of the new

In this paper we show how to obtain a result closely analogous to the McAlister theorem for a certain class of inverse semigroups with zero, based on the idea of a Brandt

The variational constant formula plays an important role in the study of the stability, existence of bounded solutions and the asymptotic behavior of non linear ordinary

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.