情報ヷ統計処理
統計パヸト
第
4
回
臨床試験管理センタヸ西山毅 たけし
SELECT
試験
男性3万5533人 *
ビ ンE or ニウ or ビ ンE) ニ
ウ or プ ボ ン 投
前立腺 発生 調査
結果:ビ ンE投 群 統計学的 有意 前
立腺 発生 増え *途中 試験中
サンプルデヸタを要約す
方法
変数 種類 * 要約法 異 変数 種類:
大 量的変数 質的変数 分
量的変数;数値 し 測 変数
身長&cm', 体重&kg'* 齢&才'*入試得点
質的変数;数値 し 測 * カ
属 表 変数
量的変数に
原点0 あ 量&比 '
身長&cm'*体重&kg'* 齢&才'
原点0 い量&比 *差 意味あ '
体温&℃'*カ ン 日付 &日'
0 分 ,前者 比尺度*後者 間隔
尺度 呼びわ 人 い *統計学 ほ
区別 意味 い * 演習 *
量的変数 呼ぶ ,
質的変数に
性別:男 女*人種:黒人 白人 黄色人種
単 カ 分類
便宜的 男=1, 女=0 場合* 1/0 数
値 し 意味 い&男=1 女=0 1大 い
いう意味 い!',
学歴:中卒 高卒 大卒
カ 分類 *順序 あ &中卒: 高卒:大卒'
変数
種類
数 測 →量的変数
数 測 い→質的変数
単 分類→ 義変数
順序付 分類→順序変数
身 回 数値& ' 分類
サンプル
デヸタを要約す
方法
質的変数 カ 数&度数' 数え
表
性別:男10人*女6人
量的変数 要約統計量 求
身長: 均162.1cm*標準偏差5.0cm
質的変数
→
表
作
要約統計量
ンプ 全体 一言 言い表 量 要約統 計量 記述統計量 いう
ンプ 数 少 ば
示 ば済
ンプ 中心 表 量&中心傾向' *
中心
を表す量
例えば*10点満点 小
2点*2点*3点*4点*5点*8点
均値;&2+2+3+4+5+8)÷6=4点 中央値=3.5点
←3番 4番目 成分 足し 2 割
2点*3点*4点 中央値 3点
2点*3点*4点*5点 中央値 3.5点
平均値
し8点 代わ */..点 入 ば*
均値;&2+2+3+4+5+100)÷6≒19.3点
一方*中央値 最頻値 変
1
2
3
4
5
6
7
8
9
10
最頻値
最頻値&モ ' そ そ 離散変数 い
在し い
身長171.232cm, 162.311cm,… う 連 変数
順位& イ' い *最頻値 在し い
離散変数 * 齢 う び び 値
⇔連 変数
質的変数 離散
最頻値
例えば*身長168, 170, 172, 178, 180cm
身長170cm未満 170cm以 175cm未満 175cm以
わ 表
モ =170cm以 175cm未満
身長173cm未満 173cm以 178cm未満 178cm以
わ 表 作
モ =173cm未満
連 変数 離散化し 場合*
一番良い
?
左右対称 山形 分布 *
均値;中央値;最頻値
最頻値 ほ 使わ い
外 値 あ ば 均値 使え い
バラツキ
を表す量
例えば*10点満点 小
2点*2点*3点*4点*5点*8点
中心 表 均値=4点 *
-2点*-2点*-1点*0点*1点*4点
*足し合わ
平均偏差
絶対値 足し 数 割
&2+2+1+0+1+4'/6≒1.67: 均偏差
各 均値 均的
絶対値 あ *計算し い!
1 2 3 4 5 6 7 8 9 10
均偏差 =
� − � + � − � + ⋯ + �6 − � 6
= 6 �� − �6
標準偏差
計算しや い う * 均偏差 2乗 足し合わ 6 割
&22+22+12+02+12+42'/6≒3.67:分散
*単位 点2 * 単位
&点' そ え 方根 付
標準偏差Standard Deviation (SD)
1 2 3 4 5 6 7 8 9 10
標準偏差 =
� − � + � − � + ⋯ + �6 − � 6
= 6 �� − �6
標準偏差
平均値
呪い
標準偏差 * 均値 使う以 *外 値 影響
受 や い いう 均値 欠点 受
い*バ ツキ 指標 い ? IQR&InterQuartile Range)
Quartile 四分位点
大 順 並 *前 1/4番目
第1四分位点&Q1'*前 2/4番目
第2四分位点&Q2 =中央値'*前 1/4
う1
バラツキ
指標
四分位範囲IQR=Q3-Q1
四分位範囲 外 値 影響 受 い
0
2
4
6
8
要約統計量
中心 表 量: 均値*中央値*最頻値
バ ツキ 表 量:標準偏差*四分位範囲
外 値 影響 受 い *
中央値 四分位範囲 ペ
外 値 い場合 使え *
均値 標準偏差 ペ
ペ 様々 確率分布 扱う 便利
* 使わ ンプ 要約
サンプルデヸタを要約法
質的変数 カ 数&度数' 数え
表
性別:男10人*女6人
量的変数 要約統計量 求
中央値&四分位範囲
均値&標準偏差
質的変数
→
表
作
さあR や しょう
https://sites.google.com/site/courseofr