Aさんの得点の場合
英語の方が得意と言える。
0 0.5 1 1.5 2 2.5 3 3.5 4
-10 -5 0 5 10
75 − 65
8 = 1.25
注意
ここまでの議論は、
データが正規分布に従うことを仮定している。
平均、分散のみで形を指定できる、左右対称な分布
(午後の講義で詳しく扱います。)
データが厳密に正規分布に従わなくても、
正規分布に近い、左右対称な分布をしている場合は 標準化によるデータの比較は有効である。
また標準化はデータの大きさを揃える効果があるため、
回帰分析において重要。
標準化の実用例
偏差値
点数 を標準化したものを
)
得点と呼ぶ:◦
)
得点の平均は0、標準偏差は1.偏差値=
10 × ) + 50
◦ 偏差値の平均は50、標準偏差は10。
) = −
!
0 0.5 1 1.5 2 2.5 3 3.5 4
0 20 40 60 80 100
正規分布を仮定した場合の 偏差値の分布
偏差値 割合(%)
変動係数
「
1人当たり県民所得」の推移 (内閣府 県民経済計算より)
最も格差が大きい年は?
標準偏差が最も大きいのは2013年。
そもそも平均値が大きく異なる(貨幣価値が異なる)が、
標準偏差を単純に比較してよいのか?
年 平均値(万円) 標準偏差(万円)
1955 7.4 1.4
1975 101.6 14
2013 282.7 39.3
変動係数
平均値の大きさを考慮したうえで、ばらつきを評価する
相対的な地域格差は1955年が最も大きい。
年 平均値(万円) 標準偏差(万円) 変動係数
1955 7.4 1.4 0.189
1975 101.6 14 0.138
2013 282.7 39.3 0.139
変動係数
=
標準偏差 平均値1日目の内容
【午前】 記述統計
1. データの表現
図表によるデータの可視化
2. データ分布の特徴づけ
代表値:平均,中央値,最頻値
散布度:分散,標準偏差,四分位偏差
3. データの比較
標準化・基準化
2変数の関係:散布図,共分散,相関係数,クロス表
2変数間の関係
統計データの解析では、複数の変数間の関係性に 関心があることが多い。
(
例) BMI
が大きい人ほど血圧が高いか?雨が降るほど渋滞が発生しやすいか?
ネットでの人気と視聴率の関係は?
ここでは2変数の関係性を表すための 記述統計学の方法をまとめる。
ここで扱うデータ
平成26年 死傷事故件数
(国道交通省より)
都道府県 自動車専 用道路
一般国道 一般都道 府県道等
市町村道 その他
北海道 8.3 56.1 48.6 120.7
宮城県 7.9 109.7 83.9 191.2
新潟県 5.0 77.9 65.8 124.4
東京都 8.4 29.3 105.3 134.7
愛知県 11.9 111.1 183.6 312.2
大阪府 12.3 101.5 147.6 222.1
広島県 12.1 123.3 94.3 210.8
福岡県 11.4 200.7 192.7 379.0
沖縄県 3.8 132.9 134.2 168.3
(人口10万人当たり)
散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0
0.0 5.0 10.0 15.0 20.0 25.0
一般国道での事故数
佐賀県
兵庫県
自動車専用道路での事故数
散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0
0.0 100.0 200.0 300.0 400.0
市町村道その他での事故数
一般都道府県道等での事故数
香川県 静岡県
散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0
0.0 100.0 200.0 300.0 400.0 500.0
一般国道での事故数
市町村道その他での事故数
佐賀県 静岡県
散布図から読み取れること
+ ,
+ ,
+ ,
Xが大きいほどYも大きい Yが大きいほどXも大きい
Xが大きいほどYは小さい Yが大きいほどXは小さい XとYの大きさに
関連はない
X
とY
の間には 正の相関があるX
とY
は無相関である
XとYの間には
負の相関がある共分散
2変数の関係を表す統計量
+
と,
の間に正の相関があるとき、正の値をとる。
相関関係が強いほど、共分散は大きくなる。
負の相関があるとき、負の値をとる。
相関関係が強いほど、共分散の絶対値は大きくなる。
無相関のとき、
0
に近い値をとる。!
-.= 1
− / − /
共分散
/
1/
(1)
(2) (4)
(3)
共分散が正のとき
(1), (3)にデータが多い
共分散が負のとき(2), (4)にデータが多い
共分散が0に近いとき 全ての領域にデータが まんべんなく存在共分散
平成26年 死傷事故件数の共分散
自動車 専用道路
一般国道 一般都道府 県道等
市町村道 その他 自動車専用
道路
95.12 83.00 168.45
一般 国道
2520.11 3933.28
一般都道府 県道等
4405.79
市町村道 その他
(人口10万人当たり)
X
Y
共分散
平成26年 死傷事故件数の共分散
自動車 専用道路
一般国道 一般都道府 県道等
市町村道 その他 自動車専用
道路
9512 8300 16845
一般 国道
252011 393328
一般都道府 県道等
440579
市町村道 その他
(人口100万人当たり)
データのスケールが10倍になると 共分散は100倍になる。
X
Y
相関係数
共分散を標準偏差の積で割ったものを相関係数と呼ぶ
!
-: の標準偏差,!
.:/
の標準偏差データのスケールを表す標準偏差で割ることで、
相関係数は
−1
から1
の間に収まる。正の相関があるとき、
0
-.は正の値をとる。無相関のとき、
0
-.は0に近い。負の相関があるとき、
0
-.は負の値をとる。-. - .
-.
- .
相関係数と散布図
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = 0
-4-3-2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = 0.2
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = 0.6
0 = 0.4
-4 -3 -2 -1 0 1 2 3 4
0 = 0.8
-4 -3 -2 -1 0 1 2 3 4
0 = 1.0
相関係数と散布図
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = 0
-4-30 = −0.4
-2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = −0.2
-4-3-2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = −0.6
-4-3-2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = −0.8
-4-3-2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
0 = −1.0
平成26年 死傷事故件数の相関係数
自動車 専用道路
一般国道 一般都道府 県道等
市町村道 その他 自動車専用
道路
1.0 0.34 0.30 0.41
一般 国道
1.0 0.67 0.70
一般都道府 県道等
1.0 0.79
市町村道 その他
1.0
X Y
0 0.3 0.5 0.7 1
非常に強い相関 強い相関
中程度の相関 弱い相関
一般に
相関係数の解釈の注意
(1)
外れ値があるとき外れ値は相関係数の値を大きく変えてしまう
(2) 曲線関係があるとき
変数変換を行う必要がある
(3) 異質な集団が含まれる場合
集団ごとに相関係数を求める必要がある
相関係数だけで判断せず、散布図を描くことが大事。
(1) 外れ値が相関係数に与える影響
-4 -2 0 2 4 6 8 10
-4 -2 0 2 4 6 8 10
0
-.= 0.4606 0
-.= −0.0222 /
データ点A
データ点Aを含めた場合の 相関係数
データ点
A
を含めない場合の 相関係数大きく外れたデータは
相関係数の値を変えてしまう。
データ点Aを「外れ値」として 除外してよいのか?
外れ値の見つけ方
箱ひげ図を用いる
+ ,
データ点A
データが正規分布に従うと 仮定すると、ひげの外に
値をとる確率は0.7%しかない。
箱ひげ図を描いて
ひげの外にあるデータは
外れ値である可能性が高い。
ただし、データが正規分布に 従うとは限らないので、
実際に除外するかどうかは よく検討する必要がある。
外れ値が発生する理由
確認すべきこと
他データとの測定環境の違い 被観測個体の特殊性
データの入力ミス
よほど小規模なデータでない限り、
ヒューマンエラーは避けられない
これらの原因による外れ値であると確信できる場合は、
データから外れ値を除いてもよい。
(2) U字型相関
0 = 0.04 0 = 0.05
U字型相関を示す散布図 逆U字型相関を示す散布図
無相関と考えるのは誤り
-8 -6 -4 -2 0 2 4
-3 -2 -1 0 1 2 3
-4 -2 0 2 4 6 8 10
-3 -2 -1 0 1 2 3
/ /
変数変換
U字型相関を示す散布図 逆U字型相関を示す散布図
と
/
の相関は強い。/ /
-4 -2 0 2 4 6 8 10
0 1 2 3 4 5 6 7 -8
-6 -4 -2 0 2 4
0 1 2 3 4 5 6 7 8
0 = 0.78 0 = −0.80
全体の相関係数
0 = 0.47
層別相関係数
□の集団:
0 = 0.89
○の集団:
0 = 0.67
(3) 異質な集団が含まれる場合
-6 -4 -2 0 2 4 6 8 10
-3 -2 -1 0 1 2 3
散布図を描き、
データの構造を把握する ことが重要。
相関関係と因果関係
相関関係があるとき因果関係もあるとは限らない。
(
例)
「T
市の人口」と「T
市の税収」に正の相関がある場合、次の5通りの可能性が考えられる。
「人口が増えたので税収が増えた。」
「税収が増えたので人口が増えた。」
「人口が増えたので税収が増えたし、
税収が増えたので人口が増えた。」
「T市に大規模工場が出来たので、
人口が増えたし税収も増えた。」
「偶然、人口増と税収増が同時に起きた。」
因果関係がある
擬似相関がある 無関係
擬似相関
変数
1
が変数+
と変数,
の間の相関をもたらすとき、その相関を擬似相関と呼ぶ。
例:都市の大気汚染の程度
+
と都市人口に占める若者の割合,
の間には 擬似相関がある。変数1
は都市の人口である。豊田秀樹,『原因を探る統計学』より 変数
1
(原因)
変数
, (結果2)
変数
+ (結果1)
擬似相関
相関係数と偏相関係数
相関係数
0
-.:変数+
と変数,
の間の関連性の指標偏相関係数
0
-.⋅3:変数
1
の影響を変数+
と変数,
から排除した上での 変数+
と変数,
の間の関連性の指標-.⋅3 -. -3 .3
-3 .3
-. - .
-.
- .
偏相関係数の例
0
-.= −0.71 → ノロウイルスが減ると台風が増える??
+ : ノロウイルス食中毒発生件数
(平成23年~27年平均、厚生労働省)
, : 台風の発生個数
(平成23年~27年、気象庁)
0 1 2 3 4 5 6
1 2 3 4 5 6 7 8 9 10 11 12 0
10 20 30 40 50 60 70 80 90
1 2 3 4 5 6 7 8 9 10 11 12月 月
偏相関係数の例
0 5 10 15 20 25 30
1 2 3 4 5 6 7 8 9 10 11 12 月
1 : 平均気温
0
-.⋅3= 0.25
ノロウイルス食中毒の減少と台風の増加は
気温という原因により引き起こされていると考えられる。
(1990年~2013年の平均、気象庁)
偏相関係数の例
気温
ノロウイルス
台風
0
-3= −0.92
0
.3= 0.83
0
-.⋅3= 0.25
(0
-.= −0.71)
偏相関係数の例
ちなみに
1 カ月前の 気温
ノロウイルス
台風
0
-3= −0.80
0
.3= 0.90
0
-.⋅3= 0.05
(0
-.= −0.71)
クロス表
2つの変数のデータを、表に集計してまとめたもの
居住年数 思う どちらかとい えば思う
どちらかといえ ば思わない
思わない 無回答 合計
生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124
6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91
3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91
2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82
無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24
合計 690 378 65 34 15 1182
平成27年度 立川市市民満足度調査より
「立川市に住み続けたいと思いますか?」
クロス表
2つの変数のデータを、表に集計してまとめたもの
居住年数 思う どちらかとい えば思う
どちらかといえ ば思わない
思わない 無回答 合計
生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124
6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91
3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91
2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82
無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24
合計 690 378 65 34 15 1182
平成27年度 立川市市民満足度調査より
「立川市に住み続けたいと思いますか?」
関連性の指標①:割合の差
(絶対的指標)
(
例)
生まれてからずっと立川市に住んでいる人のうち、住み続けたいと思う人は、思わない人より 70.3ポイント多い。
クロス表
2つの変数のデータを、表に集計してまとめたもの
居住年数 思う どちらかとい えば思う
どちらかといえ ば思わない
思わない 無回答 合計
生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124
6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91
3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91
2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82
無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24
合計 690 378 65 34 15 1182
平成27年度 立川市市民満足度調査より
「立川市に住み続けたいと思いますか?」
関連性の指標②:割合の比
(相対的指標)
(
例)
生まれてからずっと立川市に住んでいる人のうち、住み続けたいと思う人の割合は、思わない人の割合より 55倍大きい。
クロス表の落とし穴
1980-90年代:
乳がん外科手術後のタモキシフェンの使用と がん再発の関係について
[佐藤 (2008)]
再発割合の差:0.2ポイント
タモキシフェン 再発あり 再発なし 合計
使用
464 (18.2%) 2085 (81.8%) 2549
未使用
424 (18.0%) 1928 (82.0%) 2352
合計 888 4013 4901
タモキシフェンには がん再発の予防効果がほとんどない?
クロス表の落とし穴
リンパ節転移の有無で層に分けてみる
リンパ節転移あり リンパ節転移なし タモキシ
フェン
再発あり 再発なし 合計 再発あり 再発なし 合計
使用