外国語教育研究 け 数値シミュレーション 基礎
― ま ま 布 下 乱数生成 データ 復元―
草薙 邦広
広島大学
概要
本稿 目的 ,外国語教育 応用分 念頭 置い ュ ョン研究 基礎 概観 あ 。特 ,あ 分布 数 推定値 所 あ 状況
い , 分布 確率密度関数 う乱数 生 ,元 タ 遜色 い タ 復 元 手 い 紹 。 本 稿 ,連 確率 分布 視 留 ,
a 正規分布, b ン 分布, c ワ 分布, d 指数正規合 分布, e 多変 正規分布, 非常 有益 手法 あ f 密度推定, g ソン
分布 , h ョンソン分布 乱数生 扱う。
Keywords: ュ ョン,乱数 生 ,最尤推定,再現可能性,確率分布
1.
背景外国語教育研究 い ,従来 記述統計 報告を徹底 こ 重要 あ
た。こ ,外国語教育研究 限 ,いうま くそ 重要性 明 指針 あ ,実 際 こ ,記述統計 報告 問題 あった過去 研究例 多い。
記述統計 報告を欠くこ 根本的 問題点 ,単純 そ 研究 再現可能性を大幅 低 下 こ あ 。逆 ,記述統計 適 報告 い 場合,記述統計 値 解析的 析結果を再現 こ 場合 あ 。また ,あ 検定 統計量や有意確率 い 場合 い ,シミュレーション っ 元データ自体を復元 data recovery こ ば, そ 研究 あ 点 い ,再現可能 う 。
再現可能性 問題 ,統計科学 応用 う 分 共通 あ , 昨 ,特 心理学分 い 注目 浴 題 。 合わ ,研究 果
,研究過程 ン化 ,再現可能性 向 う 動
急 広 見 い 。 , う 動 外国語教育研究 い 例
外 う 理由 い。再現可能性 問題 後 要 いえ
う。
的 問題 孕 , 本稿 限界 超え 。 ,再現可能性 中 最 基本的 , 研究報告 遜色 い タ 復元 可能 いう ,現在 外国 語教育研究, 当 分 将来的発展 中 , 要 観 う 。 う いう
,現状 外国語教育研究 ,確率分布 関 研究者 理解 十分 あ いえ , タ復元 い 数値 ュ ョン 関 技術 及 ,やや後 進的 あ いわ 得 い。
本稿 , う 現在 状況 ,既存 分布,確率密度関数, 任意
数 タ復元 い , 技術的概論 述 。 手 ,
数値 ュ ョン 一種 あ 。 本稿 , 大風呂敷 う 題目 反 , ュ ョン研究全体 概論 述 わ い。 , 体的 扱 う分布 , a 正規分布, b ン 分布, c ワ 分布, d 指数正規合 分 布 , e 多 変 正 規 分 布 , 関 連 統 計 手 法 あ , f 密 度 推 定 , g ソン分布 , h ョンソン分布 い 連 確率分布 関連 あ 。 極 限定的 内容 あ ,著者 ,本稿 ュ ョン研究 い 入, 研究対象 対 確率論的 見方 始 助
密 望 い 。
本稿 ,外国語教育研究 入門者 対象 い 。 ,数学的原理 明,
得 嫌わ 数式 い 示 避 。 記 う い
, 優 統計学 入門書 参照 い。 ,全編 渡 ,実用性 考慮
,R R Core Team, 2016 解析コ 付記 。
2.
分布 乱数生2.1
基本的用語本 稿 内 容 入 前 , 本 稿 使用 基 本的 統 計 用語 明 行 い い 。
, 明 簡易的 あ , 正確 定義 い ,各用語 統計 学 入門書 参照 い。
1. 確率変数 random variable :あ 確率 確率分布 ,
値 変数。サ コ 目 。
2. 確率分布 probability distribution :確率変数 あ 値 い 起 や
え 。公正 コ ン 表 裏 目 出 値 1/2 あ , 。
関 数 表 。 統 計 学 , 正 規 分 布 , 関 数 種 類 知 い 。 3. 確率密度関数 probability density function, PDF :連 的 値 確率 変数
連 続 確 率 分 布 い 確 率 分 布 え 関 数 。 関 数 内 密 度 積 分
関 訓 練 経 験 い 研 究 者 , 大 概 解 能 式 え 。 離 散型 確率変数 場合,確率質量関数 いう。
4. 累積分布関数 cumulative distribution function,CDF :確率変数 あ 任意 値以 確率 表 関数。
5. 母 数 parameter : あ 確 率 分 布 特 徴 。 確 率 密 度 関 数 項
使用 。 え ,正規分布 確率密度関数 ,平均 μ ,標準偏差 σ いう 数 , 数 確率密度関数 項 入 。
6. 最尤推定 maximum likelihood estimation,ML,MLE :あ 所 タ , 任 意 分 布 数 推 定 方 法 。 一 般 , 大 タ い 正確 推定 い場合 多い。
7. ン 法 method of moments :あ 所 タ ,あ 分布
数 推 定 方 法 。 ン 計 算 い 。 場 合 タ 対 行う あ 。
8. ン 積率 :統計 一種。一次 ン 均,二次 ン
分 散 variance , 次 ン 歪 度 skewness , 四 次 ン
尖度 kurtosis いう。
9. 乱 数 生 成 : あ 確 率 密 度 関 数 , 確 率 質 関 数 う 確 率 変 数 人 工 的 生 。 近 計 算 機 器 発 展 , ル ン イ タ 法
, 高 精 度 乱 数 生 容 易 う い 。 , 本 稿 い う 乱 数 擬 似 乱 数 , あ 意 味 , 一 種 確 率 変 数 あ 。
10. ン カルロ法 monte carlo method :乱数 生 い 数値解析手法
。 現 在 , 統 計 手 法 ラ 法 や マ ル コ 連 鎖 ン カルロ法 実装 ,統計手法 主要 一部 い 。
11. 情報量基準 information criterion :赤池情報量基準 AIC ,ベイ 情報量基準
BIC 知 。 タ 適合 , 複雑
い 程 度 , ン あ わ 考 え 問 題 い。
2.2
正規分布基本的 用語 確認 , 正規分布 題材 乱数生 基礎 い 見 。あ 研究論文 い ,確率変数x 均 M 標準偏差 SD 報告 い 。 , 確率変数x 遜色 い タ 得 い 考え 。
正規分布 確率密度関数 , 均 標準偏差 数 。一般 ,確率変数 算術 均 標本 推定 偏 標準偏差推定値 , 数 推定値 望
い性質 。 , 値 数 ,正規分布 確率密度関数 所
度関数 う乱数 生 , え ,R , 搭載 い
stats R Core Team, 2016 内 rnorm関数 使う 乱数 生 。
rnorm(100, 50, 10)
rnorm 関数 ,最初 項 生 乱数 数,二項目 均, 項目 標準
偏差 あ 。 得 変数 度数分布 確認 ,
dat<-rnorm(100, 50, 10) hist(dat,col="lightblue")
い。
,確率変数 先行 観測 所 , 均 標準偏差
関数 使い 数 推定値 得 , 数 ,正規分布 う乱数 再度
生 。 当初 確率変数 遜色 い乱数 再現 ,
タ 復元 いえ 。
mdat<-mean(dat) sdat<-sd(dat)
dat2<-rnorm(100,mdat,sdat)
,stats ,dnorm pnorm いう関数 あ 。前者 正
規分布 確率密度関数 ,後者 累積分布関数 返 。 え ,
x<-seq(0,100,.01) p<-dnorm(x,50,10)
plot(x,p,xlab="x",ylab="p",type="l")
, 1 う 確率密度関数 。
1. 正規分布 確率密度関数
,
x<-seq(0,100,.01) p<-pnorm(x,50,10)
plot(x,p,xlab="x",ylab="p",type="l")
, 2 う 累積分布関数 。
2. 正規分布 累積分布関数
, 手 任意 数 う確率変数 生 い あ ,
乱数 標本 均 や 標本標準偏差 設定 数 必 一 わ
い。 , 手 異 乱数 得 。R 乱数
生 ,set.seed関数 い い。 え ,
set.seed(100) rnorm(100,50,10)
0 20 40 60 80 100
0.000.020.04
で
た
0 20 40 60 80 100
0.00.40.8
で
た
, 乱数 得 。
正規分布 ,中心極限定理 , 統計分析 中 主要 役割
果 。 , 々,外国語教育 携わ 得 観測 , 正規分
布 う確率変数 あ 限 い。あ 教材 学習時間,心理学実験 反 応時間 タ, 解時間 タ ,正規分布 わ い確率変数 代表 あ 。
2.3
ン 分布外国語教育 関わ 時間 タ , ン 分布 扱う う 賢明 場合 あ 。 ン 分布 ,正規分布 異 , ,裾 い分布 表現 あ 。
, ン 分布 時間 ,社会学や経済学 い 所得 分布 化 使用 。 ン 分布 確率密度関数 ,形状 数 k,尺度 数θ いう
2 数 。 ,主 ベ 統計 分析 行う場合 ,形状 数 ,尺
度 数 代わ 比率 数, い 逆尺度 数 定義 あ 。実質的 扱い 大 差 , 1 式 う 関係 あ 。
= 1.a
=1 1.b
ン 分布 ,統計 ,便利 性質 あ ,形状 数 1 あ 場合 指数分布 ,
整数 あ 場合 ン分布 帰着 。 , 数 正
い。
え 形 状 数 3, 尺 度 数 0.1 ン 分 布 乱 数 生 ,
rgamma関数 い い。 stats 実装 い 。
dat<-rgamma(100,3,1/10) hist(dat)
様 ,確率密度関数,累積分布関数 以 う 方法 得 。
3 う 。
#確率密度関数
x<-seq(0,1500,1/10) p<-dgamma(x,3,.1/10)
#累積分布関数
x2<-seq(0,1500,1/10) p2<-pgamma(x,3,1/10)
#描画
par(mfrow=c(1,2))
plot(x,p,xlab="x",ylab="p",type="l",main="PDF") plot(x2,p2,xlab="x",ylab="p",type="l",main="CDF")
3. ン 分布 確率密度関数 累積分布関数 例
所 タ , ン 分布 数 得 ,最尤推定 最 一般的 方法
あ 。最尤推定 , ン 分布 タ , 数 推定 ,
MASS Venables & Ripley, 2002 汎用確率分布 関数,fitdistr
関数 い い。
,rgamma 関数 生 乱数 ,最尤推定 数 推定
手 。
0 500 1000 1500
0.00000.0015
P ) F
で
た
0 500 1000 1500
0.00.40.8
( ) F
で
た
# ロ library(MASS)
#乱数 生成
dat<-rgamma(100,3,1/10)
#最尤推定
model<-fitdistr(dat,densfun="gamma") model
, 遜色 い値 得 あ 。最尤推定 行 ,当
分布 程度望 い ,情報 基準 報告 い。
AIC(model) BIC(model)
, 赤池情報 基準,ベ 情報 基準 値 返 。 ,誤差 大
,
model$sd
知 。
2.4
ワ 分布ワ 分布 工学研究 い 繁 使用 分布 あ ,反応時間 解析 援用 あ 。ワ 分布 ,尺度 数λ,形状 数k 。R い
,ワ 分布 , ン 分布 ,以 う 手 分析 。
#乱数 生成
dat<-rweibull(100,1,10)
#確率密度関数
x<-seq(0,100,1/10) p<-dweibull(x,1,10)
#累積分布関数
x2<-seq(0,100,1/10) p2<-pweibull(x,1,10)
#最尤推定
model<-fitdistr(dat,densfun="weibull") model
AIC(model) BIC(model) model$sd
他 ,本稿 い ,fitdistr 関数 分布 扱 い 。対数正規分布や ソン分布 う あ 。
2.5
指数正規合 分布指数正規合 分布 い ,ex-Gaussian 分布 ,近 ,国内 外国語教育研
究 繁 使用 う 。 ,反応時間 ン
,心理学 い 知 い 。指数正規合 分布 , 示
う ,指 数分 布 正 規分 布 両方 特 性 引 い い 。 数 , 正規 分布 均 μ ,標準偏差 σ , 指数分布由来 τ 。
R い 指 数 正 規 合 分 布 扱 う , 反 応 時 間 解 析 専 用 あ
retimes Massidda, 2013 い い。反応時間 分布 関 ,莫
大 研究数 あ ,一般 ,指数正規合 分布 反応時間 ,解析
必須 い 。指数正規合 分布 い R コ
以 あ 。
# ロ library(retimes)
#乱数 生成
dat<-rexgauss(100,500,100,400)
#確率密度関数
x<-seq(0,3000,1/10)
p<-dexgauss(x,500,100,400)
#最尤推定
model<-timefit(dat) model
AIC(model) BIC(model)
#誤差 に ラ い がここ 省略
# ン 法 mexgauss(dat)
#標本サイ が小さい場合, ン 法 方が好ま
2.6
多変 正規分布,単変 乱数生 数 推定 い 述 。 ,外国語教 育研究 ,本質的 潜在変数 対象 あ ,実際 多変 タ 扱う場合
多い。 多変 タ 対象 乱数 生 い 見 い 。
多変 正規分布 ,因子分析や構造方程式 ン い 条件 分布 あ , 数 , 変数 数 等 い長 均ベ μ , 変数 数
大 分散共分散行列 ∑ 。
均ベ ,n個 変数 ,
= ( , , … , ) 2
分散共分散行列 対角要素 分散 あ , 以外 要素 共分散 あ 。分散共分 散行列 必 対称行列 。 , 3 2変 分散共分散行列 例 あ 。
∑ = 1000 1000 3
例 , 変数 分散 100, 共分散 0 あ 。 対角行列 あ 。
一方, 4 ,変数間 共分散行列 50 あ 示 い 。 例 相 関係数r .50 。
∑ = 100 5050 100 4
多変 正規分布 う乱数 生 ,MASS mvrnorm
関数 使う い。 え , 均ベ ,
= (50, 60,70) 5
あ ,分散共分散行列 ,
∑ = 100 8080 120 6030 30 60 140
6
あ う 多変 正規分布 場合 ,以 う コ 使う。
#平均ベ ル 分散共分散行列 作成 m<-c(50,60,70)
s<-matrix(c(100,80,30,80,120,60,30,60,140),3,3)
#乱数 生成
dat<-mvrnorm(100,m,s)
所 タ , 均ベ 分散共分散行列 ,以 う い。
#平均ベ ル colMeans(dat)
#分散共分散行列 cov(dat)
,多変 正規分布 確率密度関数 ,mvtnorm Genz et al., 2016 実装 い ,やや複雑 本稿 省略 。
,通常 正規分布 様,外国語教育 関 タ 多変 正規分布 う 限 い 注意 必要 あ 。
,多変 正規分布 各値 中心 距離 , 距離
適用 。 距離 R ,以 う い。
#マ ラ 距離
mahalanobis(dat,m,s)
3.
実践的 乱数 生3.1
密度推定節 , 柔軟 実践的 方法 い 紹 い 。 , 密度 推定 あ 。 手法 ,所 タ ,確率密度関数 推定 , 悪
, ン 手法 あ 。 密度推定 得 確率密度関数 ,
単純 数 持 い , 代わ ン 幅 band width 指定 必要 ,
分析者 設定 あ 。 , 密度推定 関数 。
ン 幅 設定 ,推定 結果得 確率密度関数 ,大 異 あ 。 ン 幅 設定方法 , ン 経験則
あ , い限 ,最近 , 設定
問題 い あ 。
R 状態 density 関数 いう 密度推定 関数 あ ,著
指定 , 直接的 確率密度関数 得 kde 関数 あ 。 関数 得
確率密度関数 , ,乱数生 使え 。
密度推定 手法 見 , 4 う 表
う 奇妙 確率変数 あ 。 ,以 う コ 作 。
4. 奇妙 確率変数 例
dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3)) hist(dat,xlab="x",main="",col="lightblue")
タ 密度推定 行 得 確率密度関数 , 5 う
。
5. 密度推定 例
コ 以 通 あ 。 , う 得 確率密度関数 ,乱
数 生 。 乱数 度数分布 6 う , 分布 特徴
で
Fちeだuencと
5 10 15 20 25
01030
0 5 10 15 20 25 30
0.000.040.08
で
)ensitとfunction
# タ 作成
dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3))
#カ ル密度推定 ン 幅に注意す こ k<-kde(dat)
plot(k)
#乱数 生成 ラ によ 可視化
dat2<-rkde(fhat=k,150)
hist(dat2,xlab="x",main="",col="lightblue",breaks=10)
6. 密度推定 再現 乱数 度数分布
密度推定 ,多変 応用可能 あ ,非常 有益 あ , い 省略 。
密度推定 う 非常 ワ 道 ,最初 述 う ,
悪 ン 手法 あ いう 忘 い。 う
推定 確率密度関数 , 実質科学的 知見 必 直接的 示 わ い あ 。あ 現象 表 確率変数 う 分布 ,
う 因果 ニ 明 ,統計科学 応用 研究分 ,最
要 , 忘 い あ 。 う 面 い ,
密度推定 常 優 手法 いい い。
, 手法 ,い 数 値 乱数 生 ,
で
Fちeだuencと
5 10 15 20 25 30
01030
い あ 。
3.2
ソン分布 ョンソン分布統計学 中 , 非常 的 あ ,近 注目
浴 い 手法 あ 。前者 , ソン Karl Pearson
分布族 知 業績 あ ,後者 , ン ョンソン Norman Johnson
手法 あ 。 , ソン分布 概要 い 明 ,数学的 高
度 あ ,実用的 要 述 留 容赦願い い。
ソン分布 ,あ 微分方程式 基盤 , 満 係数 制約 7 い 12種類 分布 分類 。 微分方程式 係数 4 あ a, b, c, d, 位置 数,尺度 数,第一形状 数,第二形状 数 , 積率 関数 あ 。
,任意 均,標準偏差, 度,尖度 組 込 確率密度関数
。R , ソン分布 扱う ,PearsonDS Becker & Klosner, 2016
使う い。コ 以 参照 い。
# ロ
library(PearsonDS)
#歪 タ 作成
dat<-log(rnorm(100,50,10))
#最尤推定によ ラ タ 取得 para<-pearsonFitML(dat)
#乱数 生成 ラ によ 可視化
dat2<-rpearson(100,para)
#確率密度関数
x<-seq(0,5,.01);p<-dpearson(x,para)
#累積分布関数
x<-seq(0,5,.01);p<-ppearson(x,para)
一方, ョンソン分布 様 使う , 設計思想 やや異
。 ョンソン分布 ,4 数 持 。
1. γ 2. ξ 3. δ 4. λ
R SuppDists Wheeler, 2016 , ョンソン分布 扱
い 。コ い , ソン分布 様 コ 分析 。以
参照 い。
# ロ
library(SuppDists)
#歪 タ 作成
dat<-log(rnorm(100,50,10))
#分位点法によ ラ タ 取得 para<-JohnsonFit(dat)
#乱数 生成
dat2<-rJohnson(100,para)
#確率密度関数
x<-seq(0,5,.01);p<-dJohnson(x,para)
#累積分布関数
x<-seq(0,5,.01);p<-pJohnson(x,para)
ソン分布 ョンソン分布 手法 利 ,通常
え ,あ 研究論文 い ,以 う 表 記述統計 示 い 。
表1.
記述統計 例
標本サ 均 標準偏差 度 尖度
統制群 123 12.31 4.33 0.93 3.41
実験群 118 11.88 2.99 1.23 7.34
推定値 妥当 あ , 記述統計 実際 当 研究 タ 再現
。通常 正規分布 乱数 生 あ , 度や尖度 情報 再現 い , 表1 う 度 尖度 報告 あ ,
control<-rpearson(123,moments=c(12.31,4.33,0.93,3.41)) experiment<-rpearson(118,moments=c(11.88,2.99,1.23,7.34))
いう う 分布 含 再現 。
3.3
ュ ョン研究 ,本来, う 乱数 生 十分 回数反復 ,解析
的 求 い統計 経験分布 。
いわ 手法 あ 。
え ,表1 示 い タ 均差 分布 経験分布 得 , ンタ 法 95%信 区間 構 。以 う コ 簡単
。 , 回数 B 1,000 。
均差 95% 信 区間 , [-0.03, 0.90] 程度
あ 。 , 例 あ 手 例示 あ , 手
統計 望 い ,優 い , いう 含意 い 理解い い。
m.c<-numeric(1000) m.e<-numeric(1000) md<-numeric(1000)
for(i in 1:1000){
m.c[i]<-mean(rpearson(123,moments=c(12.31,4.33,0.93,3.41))) m.e[i]<-mean(rpearson(118,moments=c(11.88,2.99,1.23,7.34))) md[i]<-m.c[i]-m.e[i]
}
quantile(md,c(0.025,.975))
4.
総括本稿 ,あ 特定 分布 任意 数 い 乱数 生 手 い 概 。一般的 ュ ョン研究 利 あ 数 誤差 検討や, 複雑
統計 い 数 経験分布 得 い , 触
。 別 機会 い。
結語 , , や予定調和的 展開 あ , う
統計手法 , 新 い手法 学ぶ 期待 果 出 ,元来あ い あ 。本稿 , ュ ョン研究 後 研究 突破 あ , 後
ュ ョン研究 積極的 行う あ , い 類 論 触
い。 本稿 本当 目的 ,分布や関数, 確率変数 い ,統計学 基礎知識 い 理解 深 機会 増や あ 。
外国語教育研究 い ,統計改革や, 関連 近 い動
中, 統計手法 発展 追い 急務 あ う , 風潮
見 う 。 時 質的研究 関心 高 顕著 見 。
,昨 統計手法 高度化 い , 内実 ,確率論的 世界観 移 行 いう大 流 一部 あ 。確率論的 世界観 , 々 学術対象 ,誤差 許 い う 決定論的 因果法則 , ,教育 いう営 ,言語 習得 いう現象 ,柔軟 確率 え , 現実的 理解 目指 態度 あ 。 ,背 節 触 再現可能性 問題 強 関連 。あ 統計
, い 分布 タ 再現 , いう手 い 知識 ,件 態度 強 表 相違 い ,実務的 研究 再現可能性 高 第一 。
慣 親 題材 ,本稿 少 外国語教育研究者, い 関連諸分 研究者 助 幸い あ 。
参考文献
Becker, M., & Klosner, S. (2016). PearsonDS: Pearson Distribution System. R package version 0.98. https://CRAN.R-project.org/package=PearsonDS
Duong, T. (2016). ks: Kernel Smoothing. R package version 1.10.4. https://CRAN.R-project.org/package=ks
Genz, A., Bretz, F., Miwa, T., Mi, X., Leisch, F., Scheipl, F., Hothorn, T. (2016). mvtnorm: Multivariate Normal and t Distributions. R package version 1.0-5.
http://CRAN.R-project.org/package=mvtnorm
Massidda, D. (2013). retimes: Reaction Time Analysis. R package version 0.1-2. https://CRAN.R-project.org/package=retimes
R Core Team. (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
Wheeler, B. (2016). SuppDists: Supplementary Distributions. R package version 1.1-9.4. https://CRAN.R-project.org/package=SuppDists