[本文リンク：研究部会のサイト] CV 草薙邦広のページ

(1)

外国語教育研究け数値シミュレーション基礎

― まま布下乱数生成データ復元―

草薙邦広

広島大学

概要

本稿目的，外国語教育応用分念頭置いュョン研究基礎概観あ。特，あ分布数推定値所あ状況

い，分布確率密度関数う乱数生，元タ遜色いタ復元手い紹。本稿，連確率分布視留，

a ^{正規分布，} b ^ン ^分布， c ^ワ ^分布， d ^{指数正規合} ^分布， e 多変正規分布，非常有益手法あ _f 密度推定， _g ソン

分布， _h ョンソン分布乱数生扱う。

Keywords: ^ュ ^{ョン，乱数} ^生，最尤推定，再現可能性，確率分布

1.

^背景

外国語教育研究い，従来記述統計報告を徹底こ重要あ

た。こ，外国語教育研究限，いうまくそ重要性明指針あ，実際こ，記述統計報告問題あった過去研究例多い。

記述統計報告を欠くこ根本的問題点，単純そ研究再現可能性を大幅低下こあ。逆，記述統計適報告い場合，記述統計値解析的析結果を再現こ場合あ。また，あ検定統計量や有意確率い場合い，シミュレーションっ元データ自体を復元 data recovery ^こ ^ば，そ研究あ点い，再現可能う。

再現可能性問題，統計科学応用う分共通あ，昨，特心理学分い注目浴題。合わ，研究果

，研究過程ン化，再現可能性向う動

急広見い。，う動外国語教育研究い例

外う理由い。再現可能性問題後要いえ

う。

(2)

的問題孕，本稿限界超え。，再現可能性中最基本的，研究報告遜色いタ復元可能いう，現在外国語教育研究，当分将来的発展中，要観う。ういう

，現状外国語教育研究，確率分布関研究者理解十分あいえ，タ復元い数値ュョン関技術及，やや後進的あいわ得い。

本稿，う現在状況，既存分布，確率密度関数，任意

数タ復元い，技術的概論述。手，

数値ュョン一種あ。本稿，大風呂敷う題目反，ュョン研究全体概論述わい。，体的扱う分布， _a 正規分布， _b ン分布， _c ワ分布， _d 指数正規合分布， _e 多変正規分布，関連統計手法あ， _f 密度推定， g ^ソン分布 ^， h ^{ョンソン分布} ^い ^連 ^確率分布 ^関連あ。極限定的内容あ，著者，本稿ュョン研究い入，研究対象対確率論的見方始助

密望い。

本稿，外国語教育研究入門者対象い。，数学的原理明，

得嫌わ数式い示避。記うい

，優統計学入門書参照い。，全編渡，実用性考慮

，_R R Core Team, 2016 ^解析コ ^付記 ^。

2.

^分布 ^乱数生

2.1

^{基本的用語}

本稿内容入前，本稿使用基本的統計用語明行いい。

，明簡易的あ，正確定義い，各用語統計学入門書参照い。

1. ^確率変数 random variable ^：あ ^確率 ^確率分布 ^，

値変数。サコ目。

2. ^確率分布 probability distribution ^{：確率変数} ^あ ^値 ^い ^起 ^や

え。公正コン表裏目出値 _1/2 あ，。

関数表。統計学，正規分布，関数種類知い。 3. ^{確率密度関数} probability density function, PDF ^：連 ^的 ^値 ^{確率変数}

連続確率分布い確率分布え関数。関数内密度積分

(3)

関訓練経験い研究者，大概解能式え。離散型確率変数場合，確率質量関数いう。

4. ^{累積分布関数} cumulative distribution function^，CDF ^{：確率変数} ^あ ^任意値以確率表関数。

5. ^{母数} parameter ^{：あ} ^{確率分布} ^{特徴} 。確率密度関数項

使用。え，正規分布確率密度関数，平均 _{μ ，標準偏差} _σ いう数，数確率密度関数項入。

6. ^最尤推定 maximum likelihood estimation^，ML^，MLE ^：あ ^所 ^タ ^，任意分布数推定方法。一般，大タい正確推定い場合多い。

7. ^ン ^法 method of moments ^：あ ^所 ^タ ^，あ ^分布

数推定方法。ン計算い。場合タ対行うあ。

8. ^ン ^積率 ^：統計 ^{一種。一次} ^ン ^均，二次 ^ン

分散 _variance ，次ン歪度 _skewness ，四次ン

尖度 _kurtosis いう。

9. ^{乱数} ^{生成：あ} 確率密度関数，確率質関数う確率変数人工的生。近計算機器発展，ルンイタ法

，高精度乱数生容易うい。，本稿いう乱数擬似乱数，あ意味，一種確率変数あ。

10. ^ン ^カルロ法 monte carlo method ^：乱数 ^生 ^い ^{数値解析手法}

。現在，統計手法ラ法やマルコ連鎖ンカルロ法実装，統計手法主要一部い。

11. ^{情報量基準} information criterion ^{：赤池情報量基準} AIC ^，ベイ ^{情報量基準}

BIC ^知 ^。 ^タ ^適合 ^， ^複雑

い程度，ンあわ考え問題い。

2.2

^正規分布

基本的用語確認，正規分布題材乱数生基礎い見。あ研究論文い，確率変数_x 均 _M 標準偏差 _SD 報告い。，確率変数_x 遜色いタ得い考え。

正規分布確率密度関数，均標準偏差数。一般，確率変数算術均標本推定偏標準偏差推定値，数推定値望

い性質。，値数，正規分布確率密度関数所

(4)

度関数う乱数生，え，_R ，搭載い

stats R Core Team, 2016 ^内 ^rnorm^関数 ^使う ^乱数 ^生 ^。

rnorm(100, 50, 10)

rnorm ^関数 ^，最初 ^項 ^生 ^乱数 ^{数，二項目} ^均， ^項目 ^標準

偏差あ。得変数度数分布確認，

dat<-rnorm(100, 50, 10) hist(dat,col="lightblue")

い。

，確率変数先行観測所，均標準偏差

関数使い数推定値得，数，正規分布う乱数再度

生。当初確率変数遜色い乱数再現，

タ復元いえ。

mdat<-mean(dat) sdat<-sd(dat)

dat2<-rnorm(100,mdat,sdat)

，_stats ，_dnorm _pnorm いう関数あ。前者正

規分布確率密度関数，後者累積分布関数返。え，

x<-seq(0,100,.01) p<-dnorm(x,50,10)

plot(x,p,xlab="x",ylab="p",type="l")

， ₁ う確率密度関数。

(5)

1. ^正規分布 ^{確率密度関数}

，

x<-seq(0,100,.01) p<-pnorm(x,50,10)

plot(x,p,xlab="x",ylab="p",type="l")

， ₂ う累積分布関数。

2. ^正規分布 ^{累積分布関数}

，手任意数う確率変数生いあ，

乱数標本均や標本標準偏差設定数必一わ

い。，手異乱数得。_R 乱数

生，set.seed関数いい。え，

set.seed(100) rnorm(100,50,10)

0 20 40 60 80 100

0.000.020.04

で

た

0 20 40 60 80 100

0.00.40.8

で

た

(6)

，乱数得。

正規分布，中心極限定理，統計分析中主要役割

果。，々，外国語教育携わ得観測，正規分

布う確率変数あ限い。あ教材学習時間，心理学実験反応時間タ，解時間タ，正規分布わい確率変数代表あ。

2.3

^ン ^分布

外国語教育関わ時間タ，ン分布扱うう賢明場合あ。ン分布，正規分布異，，裾い分布表現あ。

，ン分布時間，社会学や経済学い所得分布化使用。ン分布確率密度関数，形状数 _k，尺度数θ いう

2 ^数 ^。 ^，主 ^ベ ^統計 ^分析 ^行う場合 ^，形状 ^数 ^，尺

度数代わ比率数，い逆尺度数定義あ。実質的扱い大差， ₁ 式う関係あ。

= ^1.a

=¹ ^1.b

ン分布，統計，便利性質あ，形状数 ₁ あ場合指数分布，

整数あ場合ン分布帰着。，数正

い。

え形状数 ₃，尺度数 _0.1 ン分布乱数生，

rgamma関数いい。 _stats 実装い。

dat<-rgamma(100,3,1/10) hist(dat)

様，確率密度関数，累積分布関数以う方法得。

3 ^う ^。

(7)

#確率密度関数

x<-seq(0,1500,1/10) p<-dgamma(x,3,.1/10)

#累積分布関数

x2<-seq(0,1500,1/10) p2<-pgamma(x,3,1/10)

#描画

par(mfrow=c(1,2))

plot(x,p,xlab="x",ylab="p",type="l",main="PDF") plot(x2,p2,xlab="x",ylab="p",type="l",main="CDF")

3. ^ン ^分布 ^{確率密度関数} ^{累積分布関数} ^例

所タ，ン分布数得，最尤推定最一般的方法

あ。最尤推定，ン分布タ，数推定，

MASS Venables & Ripley, 2002 ^{汎用確率分布} ^関数，fitdistr

関数いい。

，rgamma 関数生乱数，最尤推定数推定

手。

0 500 1000 1500

0.00000.0015

P ） F

で

た

0 500 1000 1500

0.00.40.8

（） F

で

た

(8)

# ロ library(MASS)

#乱数生成

dat<-rgamma(100,3,1/10)

#最尤推定

model<-fitdistr(dat,densfun="gamma") model

，遜色い値得あ。最尤推定行，当

分布程度望い，情報基準報告い。

AIC(model) BIC(model)

，赤池情報基準，ベ情報基準値返。，誤差大

，

model$sd

知。

2.4

^ワ ^分布

ワ分布工学研究い繁使用分布あ，反応時間解析援用あ。ワ分布，尺度数_λ，形状数_k 。_R い

，ワ分布，ン分布，以う手分析。

(9)

#乱数生成

dat<-rweibull(100,1,10)

#確率密度関数

x<-seq(0,100,1/10) p<-dweibull(x,1,10)

#累積分布関数

x2<-seq(0,100,1/10) p2<-pweibull(x,1,10)

#最尤推定

model<-fitdistr(dat,densfun="weibull") model

AIC(model) BIC(model) model$sd

他，本稿い，fitdistr 関数分布扱い。対数正規分布やソン分布うあ。

2.5

^{指数正規合} ^分布

指数正規合分布い，ex-Gaussian ^分布 ^，近 ^，国内 ^{外国語教育研}

究繁使用う。，反応時間ン

，心理学い知い。指数正規合分布，示

う，指数分布正規分布両方特性引いい。数，正規分布均 μ ^{，標準偏差} σ ^， ^{指数分布由来} τ ^。

R ^い ^{指数正規合} ^{分布} ^{扱う} ，反応時間解析専用あ

retimes Massidda, 2013 ^い ^{い。反応時間} ^分布 ^関 ^，莫

大研究数あ，一般，指数正規合分布反応時間，解析

必須い。指数正規合分布い _R コ

以あ。

(10)

# ロ library(retimes)

#乱数生成

dat<-rexgauss(100,500,100,400)

#確率密度関数

x<-seq(0,3000,1/10)

p<-dexgauss(x,500,100,400)

#最尤推定

model<-timefit(dat) model

AIC(model) BIC(model)

#誤差にラいがここ省略

# ン法 mexgauss(dat)

#標本サイが小さい場合，ン法方が好ま

2.6

^多変 ^正規分布

，単変乱数生数推定い述。，外国語教育研究，本質的潜在変数対象あ，実際多変タ扱う場合

多い。多変タ対象乱数生い見い。

多変正規分布，因子分析や構造方程式ンい条件分布あ，数，変数数等い長均ベ _μ ，変数数

大分散共分散行列 _∑ 。

均ベ，_n個変数，

= ( , , … , ) ²

(11)

分散共分散行列対角要素分散あ，以外要素共分散あ。分散共分散行列必対称行列。， ₃ ₂変分散共分散行列例あ。

∑ = 100₀ ₁₀₀⁰ ³

例，変数分散 ₁₀₀，共分散 ₀ あ。対角行列あ。

一方， ₄ ，変数間共分散行列 ₅₀ あ示い。例相関係数_r _.50 。

∑ = 100 50_{50 100} ⁴

多変正規分布う乱数生，_MASS _mvrnorm

関数使うい。え，均ベ，

= (50, 60,70) ⁵

あ，分散共分散行列，

∑ = ^{100 80}80 120 60³⁰ 30 60 140

6

あう多変正規分布場合，以うコ使う。

#平均ベル分散共分散行列作成 m<-c(50,60,70)

s<-matrix(c(100,80,30,80,120,60,30,60,140),3,3)

#乱数生成

dat<-mvrnorm(100,m,s)

(12)

所タ，均ベ分散共分散行列，以うい。

#平均ベル colMeans(dat)

#分散共分散行列 cov(dat)

，多変正規分布確率密度関数，_mvtnorm Genz et al., 2016 実装い，やや複雑本稿省略。

，通常正規分布様，外国語教育関タ多変正規分布う限い注意必要あ。

，多変正規分布各値中心距離，距離

適用。距離 _R ，以うい。

#マラ距離

mahalanobis(dat,m,s)

3.

^実践的 ^乱数 ^生

3.1

^密度推定

節，柔軟実践的方法い紹い。，密度推定あ。手法，所タ，確率密度関数推定，悪

，ン手法あ。密度推定得確率密度関数，

単純数持い，代わン幅 band width ^指定 ^必要 ^，

分析者設定あ。，密度推定関数。

ン幅設定，推定結果得確率密度関数，大異あ。ン幅設定方法，ン経験則

あ，い限，最近，設定

問題いあ。

R ^状態 density ^関数 ^いう ^密度推定 ^関数 ^あ ^，著

(13)

指定，直接的確率密度関数得 _kde 関数あ。関数得

確率密度関数，，乱数生使え。

密度推定手法見， ₄ う表

う奇妙確率変数あ。，以うコ作。

4. ^奇妙 ^確率変数 ^例

dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3)) hist(dat,xlab="x",main="",col="lightblue")

タ密度推定行得確率密度関数， ₅ う

。

5. ^密度推定 ^例

コ以通あ。，う得確率密度関数，乱

数生。乱数度数分布 ₆ う，分布特徴

で

Fちeだuencと

5 10 15 20 25

01030

0 5 10 15 20 25 30

0.000.040.08

で

）ensitとfunction

(14)

# タ作成

dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3))

#^カ ^{ル密度推定} ^ン ^{幅に注意す} ^こ k<-kde(dat)

plot(k)

#乱数生成ラによ可視化

dat2<-rkde(fhat=k,150)

hist(dat2,xlab="x",main="",col="lightblue",breaks=10)

6. ^密度推定 ^再現 ^乱数 ^度数分布

密度推定，多変応用可能あ，非常有益あ，い省略。

密度推定う非常ワ道，最初述う，

悪ン手法あいう忘い。う

推定確率密度関数，実質科学的知見必直接的示わいあ。あ現象表確率変数う分布，

う因果ニ明，統計科学応用研究分，最

要，忘いあ。う面い，

密度推定常優手法いいい。

，手法，い数値乱数生，

で

Fちeだuencと

5 10 15 20 25 30

01030

(15)

いあ。

3.2

^ソン分布 ^{ョンソン分布}

統計学中，非常的あ，近注目

浴い手法あ。前者，ソン Karl Pearson

分布族知業績あ，後者，ンョンソン Norman Johnson

手法あ。，ソン分布概要い明，数学的高

度あ，実用的要述留容赦願いい。

ソン分布，あ微分方程式基盤，満係数制約 7 ^い 12^種類 ^分布 ^分類 ^。 ^{微分方程式} ^係数 4 ^あ a, b, c, d^，位置数，尺度数，第一形状数，第二形状数，積率関数あ。

，任意均，標準偏差，度，尖度組込確率密度関数

。_R ，ソン分布扱う，_PearsonDS Becker & Klosner, 2016

使うい。コ以参照い。

# ^ロ

library(PearsonDS)

#^歪 ^タ ^作成

dat<-log(rnorm(100,50,10))

#^{最尤推定によ} ^ラ ^タ ^取得 para<-pearsonFitML(dat)

#^乱数 ^生成 ^ラ ^によ ^可視化

dat2<-rpearson(100,para)

#^{確率密度関数}

x<-seq(0,5,.01);p<-dpearson(x,para)

#累積分布関数

x<-seq(0,5,.01);p<-ppearson(x,para)

(16)

一方，ョンソン分布様使う，設計思想やや異

。ョンソン分布，₄ 数持。

1. γ 2. ξ 3. δ 4. λ

R SuppDists Wheeler, 2016 ^， ^{ョンソン分布} ^扱

い。コい，ソン分布様コ分析。以

参照い。

# ロ

library(SuppDists)

#^歪 ^タ ^作成

dat<-log(rnorm(100,50,10))

#^{分位点法によ} ^ラ ^タ ^取得 para<-JohnsonFit(dat)

#^乱数 ^生成

dat2<-rJohnson(100,para)

#確率密度関数

x<-seq(0,5,.01);p<-dJohnson(x,para)

#累積分布関数

x<-seq(0,5,.01);p<-pJohnson(x,para)

ソン分布ョンソン分布手法利，通常

(17)

え，あ研究論文い，以う表記述統計示い。

表_1.

記述統計例

標本サ均標準偏差度尖度

統制群 ₁₂₃ _12.31 _4.33 _0.93 _3.41

実験群 ₁₁₈ _11.88 _2.99 _1.23 _7.34

推定値妥当あ，記述統計実際当研究タ再現

。通常正規分布乱数生あ，度や尖度情報再現い，表₁ う度尖度報告あ，

control<-rpearson(123,moments=c(12.31,4.33,0.93,3.41)) experiment<-rpearson(118,moments=c(11.88,2.99,1.23,7.34))

いうう分布含再現。

3.3

ュョン研究，本来，う乱数生十分回数反復，解析

的求い統計経験分布。

いわ手法あ。

え，表₁ 示いタ均差分布経験分布得，ンタ法 _95%信区間構。以うコ簡単

。，回数 _B _1,000 。

均差 _95% 信区間， [-0.03, 0.90] ^程度

あ。，例あ手例示あ，手

統計望い，優い，いう含意い理解いい。

(18)

m.c<-numeric(1000) m.e<-numeric(1000) md<-numeric(1000)

for(i in 1:1000){

m.c[i]<-mean(rpearson(123,moments=c(12.31,4.33,0.93,3.41))) m.e[i]<-mean(rpearson(118,moments=c(11.88,2.99,1.23,7.34))) md[i]<-m.c[i]-m.e[i]

}

quantile(md,c(0.025,.975))

4.

^総括

本稿，あ特定分布任意数い乱数生手い概。一般的ュョン研究利あ数誤差検討や，複雑

統計い数経験分布得い，触

。別機会い。

結語，，や予定調和的展開あ，う

統計手法，新い手法学ぶ期待果出，元来あいあ。本稿，ュョン研究後研究突破あ，後

ュョン研究積極的行うあ，い類論触

い。本稿本当目的，分布や関数，確率変数い，統計学基礎知識い理解深機会増やあ。

外国語教育研究い，統計改革や，関連近い動

中，統計手法発展追い急務あう，風潮

見う。時質的研究関心高顕著見。

，昨統計手法高度化い，内実，確率論的世界観移行いう大流一部あ。確率論的世界観，々学術対象，誤差許いう決定論的因果法則，，教育いう営，言語習得いう現象，柔軟確率え，現実的理解目指態度あ。，背節触再現可能性問題強関連。あ統計

，い分布タ再現，いう手い知識，件態度強表相違い，実務的研究再現可能性高第一。

(19)

慣親題材，本稿少外国語教育研究者，い関連諸分研究者助幸いあ。

参考文献

Becker, M., & Klosner, S. (2016). PearsonDS: Pearson Distribution System. R package version 0.98. https://CRAN.R-project.org/package=PearsonDS

Duong, T. (2016). ks: Kernel Smoothing. R package version 1.10.4. https://CRAN.R-project.org/package=ks

Genz, A., Bretz, F., Miwa, T., Mi, X., Leisch, F., Scheipl, F., Hothorn, T. (2016). mvtnorm: Multivariate Normal and t Distributions. R package version 1.0-5.

http://CRAN.R-project.org/package=mvtnorm

Massidda, D. (2013). retimes: Reaction Time Analysis. R package version 0.1-2. https://CRAN.R-project.org/package=retimes

R Core Team. (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0

Wheeler, B. (2016). SuppDists: Supplementary Distributions. R package version 1.1-9.4. https://CRAN.R-project.org/package=SuppDists

[本文リンク：研究部会のサイト] CV 草薙邦広のページ

外国語教育研究 け 数値シミュレーション 基礎

― ま ま 布 下 乱数生成 データ 復元―

草薙 邦広

広島大学

Keywords: ュ ョン，乱数 生 ，最尤推定，再現可能性，確率分布

1.

2.

2.1

2.2

2.3

2.4

2.5

2.6

3.

3.1

3.2

3.3

4.

外国語教育研究け数値シミュレーション基礎

― まま布下乱数生成データ復元―

草薙邦広

Keywords: ^ュ ^{ョン，乱数} ^生，最尤推定，再現可能性，確率分布