情報・統計処理
統計パート 第
4
回
臨床試験管理センター西山毅(たけし)
SELECT
試験とは
男性 3 万 5533 人に,
ビタミン E or セレニウム or ビタミン
E +セレニウム or プラセボをランダム に投与
前立腺がんの発生を調査
結果:ビタミン E 投与群で統計学的に有
サンプルデータを要約する方法
変数の種類によって,データの要約法は異なる
変数の種類:
大きく量的変数と質的変数に分かれる
量的変数=数値として測れる変数
身長( cm ) , 体重( kg ),年齢(才),入試得点
質的変数=数値として測れず,どのカテゴリー
に属するかを表す変数
量的変数には
原点 0 がある量(比がとれる)
身長( cm ),体重( kg ),年齢(才)
原点 0 がない量(比がとれず,差だけ意味あり)
体温(℃),カレンダーの日付け(日)
の2つに分かれる.前者を比尺度,後者を間隔尺 度と呼びわける人がいるが,統計学上はほとんど 区別する意味がないので,この演習では,すべて
量的変数と呼ぶことにする.
数字で測れる量はすべて量的変数
質的変数には
性別:男・女,人種:黒人・白人・黄色人種
単なるカテゴリへの分類
便宜的に男 =1, 女 =0 とする場合,この 1/0 に
は数値としての意味はない(男 =1 は女 =0 より
1 大きいという意味はない!).
学歴:中卒・高卒・大卒
カテゴリへの分類だが,順序はある(中卒
<高卒<大卒)
順序変数と呼び,上の名義変数と区別する
変数の種類まとめ
数字で測れる→量的変数
数字で測れない→質的変数
単なる分類→名義変数 順序付き分類→順序変数
身の回りの数値(データ)がどれに分類
サンプルのデータを要約する方法
質的変数はカテゴリごとの数(度数)を数えて表をつくる
性別:男 10 人,女 6 人など
量的変数は要約統計量を求める
身長:平均 162.1cm ,標準偏差 5.0cm など
質的変数→表を作る
量的変数→要約統計量を求める
質的変数→表を作る
要約統計量とは
サンプル全体を一言で言い表す量を要約
統計量とか記述統計量という
サンプル数が少なければすべてのデータ
を示せば済む
サンプルデータの中心を表す量(中心傾
中心
を表す量
例えば, 10 点満点の小テストデータ
2 点, 2 点, 3 点, 4 点, 5 点, 8 点
平均値=( 2+2+3+4+5+8)÷6=4 点 中央値 =3.5 点
← 3 番・ 4 番目の成分を足して 2 で 割る
2 点, 3 点, 4 点の中央値は 3 点
2 点, 3 点, 4 点, 5 点の中央値は 3.5 点
平均値は
もし 8 点の代わりに,100点が入れば, 平均値=( 2+2+3+4+5+100)÷6≒19.3 点
一方,中央値と最頻値は不変
最頻値は
最頻値(モード)はそもそも離散変数でない と存在しない
身長 171.232cm, 162.311cm,… のような連続変数 では同順位(タイ)がないので,最頻値も存在し ない
離散変数とは,年齢のようにとびとびの値を とるもの⇔連続変数
質的変数はすべて離散
最頻値は
例えば,身長 168, 170, 172, 178, 180cm
のデータ
身長 170cm 未満・ 170cm 以上 175cm 未満・ 175c
m 以上にわけて表をつくると
モード =170cm 以上 175cm 未満
身長 173cm 未満・ 173cm 以上 178cm 未満・ 178c
m 以上にわけて表を作ると
モード =173cm 未満
連続変数を離散化した場合,
モードは一意に決まらない
連続変数を離散化した場合,
どれが一番
良
いの
?
左右対称な山形の分布では,
平均値=中央値=最頻値
最頻値はほとんど使わない
外れ値があれば平均値は使えない
バラツキ
を表す量
例えば, 10 点満点の小テストデータ 2 点, 2 点, 3 点, 4 点, 5 点, 8 点
中心を表す平均値 =4 点からのズレは,
-2 点, -2 点, -1 点, 0 点, 1 点, 4 点
もちろん,足し合わせるとゼロになる
平均偏差とは
絶対値を足してデータ数で割る( 2+2+1+
0+1+4 ) /6≒1.67 :平均偏差
各データの平均値からの平均的なズレ
絶対値があるので,計算しにくい!
標準偏差とは
計算しやすいように,平均偏差の 2 乗を足し合わ
せて 6 で割る
( 22+22+12+02+12+42 ) /6≒3.67 :分散
これだと,単位が点 2 となるので,もとの
単位(点)にそろえるために平方根を付け
標準偏差も平均値の
呪
いがかかる
標準偏差も,平均値を使う以上,外れ値の
影響を受けやすいという平均値の欠点を受 け継ぐ
もっとよい,バラツキの指標はないのか?
IQR ( InterQuartile Range)
Quartile 四分位点
大きさの順に並べて,前から 1/4 番目の
データが第 1 四分位点( Q1 ),前から 2/ 4 番目のデータが第 2 四分位点( Q2 = 中 央値),前から 1/4 番目のデータが第 3 四
もう1つのバラツキの
指
標は
四分位範囲 IQR=Q3-Q1
四分位範囲は外れ値の影響を受けにくい
0
2
4
6
8
要約統計量のまとめ
中心を表す量:平均値,中央値,最頻値 バラツキを表す量:標準偏差,四分位範囲
外れ値の影響を受けにくいのは,
中央値と四分位範囲のペア
外れ値がない場合に使えるのは,
平均値と標準偏差のペア
このペアは様々な確率分布を扱うときに便利
サンプルデータを要約法のまとめ
質的変数はカテゴリごとの数(度数)を
数えて表をつくる
性別:男 10 人,女 6 人など
量的変数は要約統計量を求める
中央値&四分位範囲
平均値&標準偏差
質的変数→表を作る
量的変数→要約統計量を求める
質的変数→表を作る
さあ R でやってみましょう
https://
sites.google.com/site/courseofr