9
章
. 2
変量
タ
要約
タ 質的変数 量的変数 2種類 あ . ,2 変数 組 合わ
方 , 質的変数×質的変数 , 質的変数×量的変数 , 量的変数×量的変数 3種
類 .2 変数 う ば良い 順 明 .
質的変数×質的変数
方
,demo.csv 込 .
>data=read.csv("demo.csv")
> head(data) #変数data 頭 部 け表示
場合,質的変数 data$Sex data$School .質的変数 1 場合 table( )
関数 使 表 作 .質的変数 2 増え う ,table( )関数 使 表
作 う.
> table(data$Sex)
f m
1038 602
> table(data$School)
High junior univ
583 170 887
> table(data$Sex, data$School)
High junior univ
f 392 113 533
例 変数 順序 逆 ,表 向 逆 .
> table(data$School, data$Sex)
f m
high 392 191
junior 113 57
univ 533 354
2
質的変数
X, Y
方→
table( X, Y)
2
重クロス表
く
質的変数×量的変数
方
例えば,質的変数 Sex 量的変数 Ht 身長 2 う 要約 ば良い う
?身長 け 平均 要約統計量 求 ば良い ,身長以外 性別 情報
あ ,性別 身長 要約統計量 求 ば良い う. ,質的変数 カ ゴ
平均や標準偏差 求 . 層別解析 言いい 層=質的変数
カ ゴ .
質的変数
量的変数
方
demo.csv 使 場合 , 男性 女性 タ く m, f 付
け ,
> m=data[data$Sex=="m", ]
> f=data[data$Sex=="f", ]
性別 タ い ,身長 各種要約統計量 求 .要約統計
量 ,中心 キ 指標 平均 標準偏差 ペア , 中央値 四 範
ペア 求 以 う .
> mean(m$Ht);sd(m$Ht);median(m$Ht);IQR(m$Ht)
[1] 170.2369
[1] 5.942523
[1] 170.4
[1] 8.575
> mean(f$Ht);sd(f$Ht);median(f$Ht);IQR(f$Ht)
[1] 157.1628
男性
平均
or
中央値
標準偏差
or
四分位範囲
女性
平均
or
中央値
標準偏差
or
[1] 5.223774
[1] 157.4
[1] 6.7
注 実 ,イ 性別 平均 計算 方法 あ tapply(data$Ht,
data$Sex, mean) ふ .
質的変数 カ ゴ 性別 身長 ボ クスプロ 描く ,
> boxplot(data$Ht ~ data$Sex)
.わ わ ,男 タ m 女 タ f け 必要 い ,便利 .
層別ボ
クスプロ
→
boxplot(
量的変数
~
質的変数
)
f m
140
150
160
170
量的変数×量的変数
方
例えば,身長 Ht 体重 Wt 2 量的変数 う 要約 ば良い う
?参考 , 2 変数 散布 以 う 描け .
> plot(data$Ht,data$Wt)
散布
→
plot(X
軸
タ,
Y
軸
タ
)
plot(Y
軸
タ~
X
軸
タ
)
OK
2 量的変数X,Y 関係 表 相関係数 使い .相関係数 ,X Y 間
く い 直線性 あ 表 指標 .
2 変数 タ 一直線 ば相関係数 1 傾 負 場合 -1 .
直線 傾 片 関係あ .
140 150 160 170 180
40
60
80
100
data$Ht
d
a
ta
$
W
散布 点 直線 近いほ 1 -1 .
あく , く い直線 近い 示 あ ,例えば点 完全 曲線 い
い相関係数 出 .
相関係数 0→1 0→-1 直線へ 近 点 対称 あ ,直線 傾 正 負
違い け .
-4 -2 0 2 4
-4 -2 0 2 4 x y2 r=1
-4 -2 0 2 4
-4 -2 0 2 4 x y1 r=1
-4 -2 0 2 4
-4 -2 0 2 4 x y3 r=1
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.7
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.9
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r=0.5
-4 -2 0 2 4
-4 -2 0 2 4 x z
相関係数
2
量的変数
く
い直線
近い
表
指標
2
量的変数
要約
相関係数
使う
例えば,身長Ht 体重Wt 相関係数 ,
> cor(data$Ht, data$Wt)
[1] 0.6812133
求 . ,身長 体重 順序 入 替え cor(data$Wt, data$Ht) 結
果 .
相関係数→
cor(X, Y)
-4 -2 0 2 4
-4 -2 0 2 4 x z4 r=-0.7
-4 -2 0 2 4
-4 -2 0 2 4 x z4 r=-0.9
-4 -2 0 2 4
-4 -2 0 2 4 x z4 r=-0.5
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r
-4 -2 0 2 4
-4 -2 0 2 4 x y4 r
-4 -2 0 2 4
-4 -2 0 2 4 x y4