6 章 . 1 変量 ータ 要約
ータ 入手 最初 ータ全体 見渡 ータ ュー いい
ータ あ く 把握 必要 あ .本格的 統計解析 ータ ュー後
行い .
ータ 性別や 齢 様々 変数 あ 変数 大 く量的変数 質的変数 カ
ゴ ー変数 け .量的変数 数値 表 変数 あ 例
えば身長や体重や 区町村別 死亡数 .質的変数 カ ゴ ー変数 あ
カ ゴ ー 属 否 表 け 変数 あ 例えば性別や血液型 あ
.
注 細 く 類 最初 2 類 十 .
身長 178cm 170cm 差8cm 意味 あ 学歴 大卒 高卒 差 両者
く い離 い 表 大卒 高卒 差 高卒 中卒 差 2倍 い .
う 量的変数 差 意味 あ 変数 あ 質的変数 カ ゴ ー変数 差 意味
い変数 言う .
ータ 全体像 質的変数 カ ゴ ー変数 表 く .量的変数
均や 散 ータ 全体像 把握 便利 要約統計量 記述統計
量 計算 .
質的変数 → 表 く 量的変数 → 要約統計量 計算
注 例えば 被検者数 5人 測定 目 3 程度 小 ータ わ わ ータ
要約 全 ータ 表 示 ば十 .
ータ 列 タ 1 列 出
ータ 読 込 そ ータ 表 カタチ い .ふ う 表 列 タ 1列
出 計算 使い .例えば 被験者 齢 均や 散 調 い
ば 齢 い 列 出 .
ータ 齢age 1列 出 通常 data$age ータ $変数 使い
.
data = read.csv(“demodata.csv”) data$age
質的変数 カ ゴ ー変数 要約
例えばdemodata.csv イ 読 込 変数data 使い そ 中 変数sex い 関数table( ) 使えば
table(data$sex) f m
1038 602
性別 度数 人数 集計 表 表示 .
量的変数 要約
要約統計量 求 .例えば 身長 要約統計量 均 中央値 散 標準偏差 最
小値 最大値 求 以下 う .
mean(data$ht) [1] 155.49
median(data$ht) [1] 154.8
var(data$ht) # 散 単位 cm2 [1] 67.49744
sd(data$ht) # 標準偏差 2= 散 .単位 cm [1] 8.215683
min(data$ht) [1] 131.8
max(data$ht) [1] 181.6
要約統計量 ータ 情報 一部 表 要約統計量 使えば
ータ う く表 考え 必要 あ .
要約統計量 外 値 影響 うけや い け くい .例えば
ータ 中心傾向 表 要約統計量 均値 中央値 あ 均値 外
値 影響 うけや く 中央値 け くい . 示 以下 う .
普通 要約統計量 ータ 中心 表 ータ バ キ 表 2
求 ば良い う.要 均 標準偏差 中央値 四 位範
求 う.両方求 ば万全 .
外 値 影 響 け や い け く い
中心 均値 中央値
バ キ 標準偏差 四 位範
第 四 位点
第3四 位点
要約統計量 均 標準偏差 中央値 四 位範 求
ータ 要約 一発 行 う方法
実 ータ 中 質的変数 カ ゴ ー変数 作表 量的変数 代表的 要約統計 量 直接計算 く あ い関数summary( ) あ .
summary(data)
質的 カ ゴ ー変数 あ 性別sex い 表 作成 そ 以外 量的変数 い 最小値 第1 位点 中央値 均値 第3 位点 最大値 一気 求 . 注1 第1四 位数 1
st quartile
中央値 第2四 位数2
nd quartile
第3四 位数 3
rd
quartile ータ 小 い 大 い 小 いほう 1/4 値
2/4 値 3/4 値 .
ータ 要約 あえ summary( ) 使う
新 い変数 く 方
具体的 BMI (Body Mass Index) 身長ht 体重wt 作
> bmi=(data$wt*10000)/(data$ht*data$ht)
体重 ÷ 身長 ÷ 身長 計算 け 子 ×10000 身長 単位 cm→m
変え . 計算結果 新 い変数bmi 収納 . 変数bmi 要約
統計量 う 求 .
> summary(bmi)
Min. 1st Qu. Median Mean 3rd Qu. Max. 15.12 19.84 21.60 22.03 23.83 34.95
> sd(bmi) [1] 2.985551
プ 法
何 あ 身長 う.
> hist(data$ht)
キ イ 釣鐘型 い . 感 量的 ータ けば終わ
いうわけ い .
→ 関数hist( )
例えば 中性脂肪tg い う.実 関数hist( ) 柱 数 breaks= 柱 数 指定 柱 数 10本 20本 増や .
> hist(data$tg)
> hist(data$tg,breaks=10)
> hist(data$tg,breaks=20)
Histogram of data$ht
data$ht
Frequency
140 150 160 170 180 190
0100200300400
あ ォ 右方向 裾 引く短調減少 見え 柱 数 増や
ー あ 山型 . う 区
見え方 大 く影響 ータ ュー け 全面的 頼
危 い .
ういう イマイ 一 く 外 値 強い ボ プ .要約統計量 う
外 値 影響 け くい 勢揃い く . 身長 ボ プ
> boxplot(data$ht)
フ ォ ル
data$tg
Frequency
0 200 400 600 800 1000
04001000
10本
data$tg
Frequency
0 200 400 600 800 1000
04001000
20本
data$tg
Frequency
0 200 400 600 800 1000
0400800
ボックスプロット→関数boxplot( )
1Q 3Q 外側 IQR=3Q-1Q 1.5倍以内 正常範 . ボ
プ 関係 以下 う 箱 中 太線 ン 大体
形 わ .
左右対称 ン 真 中 く
右 左 偏 ば 箱 ゲ 偏
x
Frequency
0.4 0.5 0.6 0.7 0.8 0.9 1.0
01000200030004000
0.6 0.7 0.8 0.9 1.0
-3 -2 -1 0 1 2
Histogram of x
x
Frequency
-4 -2 0 2
0500100015002000
x
Frequency
0 5 10 15 20
01000200030004000
0 2 4 6 8 10
課題1
demodata.csvのなかの ータの体重:wt, 収縮期血圧:sbp, 拡張期血圧:dbp, 空腹時血 糖:fbs, モ ロ ンA1c:ha1c,GOT:got, GPT:gpt,γ-GTP:ggtの ス ラムとボッ
ス ロッ を描いてください.
課題2
動脈硬化指数 AI 以下 う 定義 . 指数 要約統計量 求
ボ プ い.
動脈硬化指数