[本文リンク:研究部会のサイト] CV 草薙邦広のページ

19 

Loading....

Loading....

Loading....

Loading....

Loading....

全文

(1)

外国語教育研究

数値シミュレーション

基礎

乱数生成

データ

復元―

草薙 邦広

広島大学

概要

本稿 目的 ,外国語教育 応用分 念頭 置い ュ ョン研究 基礎 概観 あ 。特 ,あ 分布 数 推定値 所 あ 状況

い , 分布 確率密度関数 う乱数 生 ,元 タ 遜色 い タ 復 元 手 い 紹 。 本 稿 ,連 確率 分布 視 留 ,

a 正規分布, b ン 分布, c ワ 分布, d 指数正規合 分布, e 多変 正規分布, 非常 有益 手法 あ f 密度推定, g ソン

分布 , h ョンソン分布 乱数生 扱う。

Keywords:

ョン,乱数

,最尤推定,再現可能性,確率分布

1.

背景

外国語教育研究 い ,従来 記述統計 報告を徹底 こ 重要 あ

た。こ ,外国語教育研究 限 ,いうま くそ 重要性 明 指針 あ ,実 際 こ ,記述統計 報告 問題 あった過去 研究例 多い。

記述統計 報告を欠くこ 根本的 問題点 ,単純 そ 研究 再現可能性を大幅 低 下 こ あ 。逆 ,記述統計 適 報告 い 場合,記述統計 値 解析的 析結果を再現 こ 場合 あ 。また ,あ 検定 統計量や有意確率 い 場合 い ,シミュレーション っ 元データ自体を復元 data recovery こ ば, そ 研究 あ 点 い ,再現可能 う 。

再現可能性 問題 ,統計科学 応用 う 分 共通 あ , 昨 ,特 心理学分 い 注目 浴 題 。 合わ ,研究 果

,研究過程 ン化 ,再現可能性 向 う 動

急 広 見 い 。 , う 動 外国語教育研究 い 例

外 う 理由 い。再現可能性 問題 後 要 いえ

(2)

的 問題 孕 , 本稿 限界 超え 。 ,再現可能性 中 最 基本的 , 研究報告 遜色 い タ 復元 可能 いう ,現在 外国 語教育研究, 当 分 将来的発展 中 , 要 観 う 。 う いう

,現状 外国語教育研究 ,確率分布 関 研究者 理解 十分 あ いえ , タ復元 い 数値 ュ ョン 関 技術 及 ,やや後 進的 あ いわ 得 い。

本稿 , う 現在 状況 ,既存 分布,確率密度関数, 任意

数 タ復元 い , 技術的概論 述 。 手 ,

数値 ュ ョン 一種 あ 。 本稿 , 大風呂敷 う 題目 反 , ュ ョン研究全体 概論 述 わ い。 , 体的 扱 う分布 , a 正規分布, b ン 分布, c ワ 分布, d 指数正規合 分 布 , e 多 変 正 規 分 布 , 関 連 統 計 手 法 あ , f 密 度 推 定 , g ソン分布 , h ョンソン分布 い 連 確率分布 関連 あ 。 極 限定的 内容 あ ,著者 ,本稿 ュ ョン研究 い 入, 研究対象 対 確率論的 見方 始 助

密 望 い 。

本稿 ,外国語教育研究 入門者 対象 い 。 ,数学的原理 明,

得 嫌わ 数式 い 示 避 。 記 う い

, 優 統計学 入門書 参照 い。 ,全編 渡 ,実用性 考慮 ,R R Core Team, 2016 解析コ 付記 。

2.

分布 乱数生

2.1

基本的用語

本 稿 内 容 入 前 , 本 稿 使用 基 本的 統 計 用語 明 行 い い 。 , 明 簡易的 あ , 正確 定義 い ,各用語 統計 学 入門書 参照 い。

1. 確率変数 random variable :あ 確率 確率分布 ,

値 変数。サ コ 目 。

2. 確率分布 probability distribution :確率変数 あ 値 い 起 や

え 。公正 コ ン 表 裏 目 出 値 1/2 あ , 。

関 数 表 。 統 計 学 , 正 規 分 布 , 関 数 種 類 知 い 。

3. 確率密度関数 probability density function, PDF :連 的 値 確率 変数

(3)

関 訓 練 経 験 い 研 究 者 , 大 概 解 能 式 え 。 離

散型 確率変数 場合,確率質量関数 いう。

4. 累積分布関数 cumulative distribution function,CDF :確率変数 あ 任意

値以 確率 表 関数。

5. 母 数 parameter : あ 確 率 分 布 特 徴 。 確 率 密 度 関 数 項

使用 。 え ,正規分布 確率密度関数 ,平均 μ ,標準偏差 σ

いう 数 , 数 確率密度関数 項 入 。

6. 最尤推定 maximum likelihood estimation,ML,MLE :あ 所 タ ,

任 意 分 布 数 推 定 方 法 。 一 般 , 大 タ い 正確 推定 い場合 多い。

7. ン 法 method of moments :あ 所 タ ,あ 分布

数 推 定 方 法 。 ン 計 算 い 。 場 合 タ 対 行う あ 。

8. ン 積率 :統計 一種。一次 ン 均,二次 ン

分 散 variance , 次 ン 歪 度 skewness , 四 次 ン

尖度 kurtosis いう。

9. 乱 数 生 成: あ 確 率 密 度 関 数 , 確 率 質 関 数 う 確 率 変 数 人 工 的 生 。 近 計 算 機 器 発 展 , ル ン イ タ 法

, 高 精 度 乱 数 生 容 易 う い 。 , 本 稿 い う 乱 数 擬 似 乱 数 , あ 意 味 , 一 種 確 率 変 数 あ 。

10. ン カルロ法 monte carlo method :乱数 生 い 数値解析手法

。 現 在 , 統 計 手 法 ラ 法やマ ル コ 連 鎖 ン カルロ法 実装 ,統計手法 主要 一部 い 。

11. 情報量基準 information criterion :赤池情報量基準 AIC ,ベイ 情報量基準

BIC 知 。 タ 適合 , 複雑

い 程 度 , ン あ わ 考 え 問 題 い。

2.2

正規分布

基本的 用語 確認 , 正規分布 題材 乱数生 基礎 い 見 。あ 研究論文 い ,確率変数xM 標準偏差 SD 報告 い 。 , 確率変数x 遜色 い タ 得 い 考え 。

正規分布 確率密度関数 , 均 標準偏差 数 。一般 ,確率変数 算術 均 標本 推定 偏 標準偏差推定値 , 数 推定値 望

(4)

度関数 う乱数 生 , え ,R , 搭載 い

stats R Core Team, 2016 内 rnorm関数 使う 乱数 生 。

rnorm(100, 50, 10)

rnorm 関数 ,最初 項 生 乱数 数,二項目 均, 項目 標準

偏差 あ 。 得 変数 度数分布 確認 ,

dat<-rnorm(100, 50, 10)

hist(dat,col="lightblue")

い。

,確率変数 先行 観測 所 , 均 標準偏差

関数 使い 数 推定値 得 , 数 ,正規分布 う乱数 再度

生 。 当初 確率変数 遜色 い乱数 再現 ,

タ 復元 いえ 。

mdat<-mean(dat)

sdat<-sd(dat)

dat2<-rnorm(100,mdat,sdat)

,stats ,dnorm pnorm いう関数 あ 。前者 正

規分布 確率密度関数 ,後者 累積分布関数 返 。 え ,

x<-seq(0,100,.01)

p<-dnorm(x,50,10)

plot(x,p,xlab="x",ylab="p",type="l")

(5)

1. 正規分布 確率密度関数

x<-seq(0,100,.01)

p<-pnorm(x,50,10)

plot(x,p,xlab="x",ylab="p",type="l")

, 2 う 累積分布関数 。

2. 正規分布 累積分布関数

, 手 任意 数 う確率変数 生 い あ ,

乱数 標本 均 や 標本標準偏差 設定 数 必 一 わ

い。 , 手 異 乱数 得 。R 乱数

生 ,set.seed関数 い い。 え ,

set.seed(100)

rnorm(100,50,10)

0 20 40 60 80 100

0

.

0

0

0

.

0

2

0

.

0

4

0 20 40 60 80 100

0

.

0

0

.

4

0

.

8

(6)

, 乱数 得 。

正規分布 ,中心極限定理 , 統計分析 中 主要 役割

果 。 , 々,外国語教育 携わ 得 観測 , 正規分

布 う確率変数 あ 限 い。あ 教材 学習時間,心理学実験 反 応時間 タ, 解時間 タ ,正規分布 わ い確率変数 代表 あ 。

2.3

ン 分布

外国語教育 関わ 時間 タ , ン 分布 扱う う 賢明 場合 あ 。 ン 分布 ,正規分布 異 , ,裾 い分布 表現 あ 。

, ン 分布 時間 ,社会学や経済学 い 所得 分布 化 使用 。 ン 分布 確率密度関数 ,形状 数 k,尺度 数θ いう

2 数 。 ,主 ベ 統計 分析 行う場合 ,形状 数 ,尺

度 数 代わ 比率 数, い 逆尺度 数 定義 あ 。実質的 扱い 大 差 , 1 式 う 関係 あ 。

= 1.a

=1 1.b

ン 分布 ,統計 ,便利 性質 あ ,形状 数 1 あ 場合 指数分布 , 整数 あ 場合 ン分布 帰着 。 , 数 正

い。

え 形 状 数 3, 尺 度 数 0.1 ン 分 布 乱 数 生 ,

rgamma関数 い い。 stats 実装 い 。

dat<-rgamma(100,3,1/10)

hist(dat)

様 ,確率密度関数,累積分布関数 以 う 方法 得 。

(7)

#確率密度関数

x<-seq(0,1500,1/10)

p<-dgamma(x,3,.1/10)

#累積分布関数

x2<-seq(0,1500,1/10)

p2<-pgamma(x,3,1/10)

#描画

par(mfrow=c(1,2))

plot(x,p,xlab="x",ylab="p",type="l",main="PDF")

plot(x2,p2,xlab="x",ylab="p",type="l",main="CDF")

3. ン 分布 確率密度関数 累積分布関数 例

所 タ , ン 分布 数 得 ,最尤推定 最 一般的 方法

あ 。最尤推定 , ン 分布 タ , 数 推定 ,

MASS Venables & Ripley, 2002 汎用確率分布 関数,fitdistr

関数 い い。

,rgamma 関数 生 乱数 ,最尤推定 数 推定

手 。

0 500 1000 1500

0 . 0 0 0 0 0 . 0 0 1 5

P ) F

0 500 1000 1500

0 . 0 0 . 4 0 . 8

( ) F

(8)

# ロ

library(MASS)

#乱数 生成

dat<-rgamma(100,3,1/10)

#最尤推定

model<-fitdistr(dat,densfun="gamma")

model

, 遜色 い値 得 あ 。最尤推定 行 ,当

分布 程度望 い ,情報 基準 報告 い。

AIC(model)

BIC(model)

, 赤池情報 基準,ベ 情報 基準 値 返 。 ,誤差 大 ,

model$sd

知 。

2.4

ワ 分布

ワ 分布 工学研究 い 繁 使用 分布 あ ,反応時間 解析 援用 あ 。ワ 分布 ,尺度 数λ,形状 数k 。R い

(9)

#乱数 生成

dat<-rweibull(100,1,10)

#確率密度関数

x<-seq(0,100,1/10)

p<-dweibull(x,1,10)

#累積分布関数

x2<-seq(0,100,1/10)

p2<-pweibull(x,1,10)

#最尤推定

model<-fitdistr(dat,densfun="weibull")

model

AIC(model)

BIC(model)

model$sd

他 ,本稿 い ,fitdistr 関数 分布 扱 い 。対数正規分布や ソン分布 う あ 。

2.5

指数正規合 分布

指数正規合 分布 い ,ex-Gaussian 分布 ,近 ,国内 外国語教育研

究 繁 使用 う 。 ,反応時間 ン

,心理学 い 知 い 。指数正規合 分布 , 示 う ,指 数分 布 正 規分 布 両方 特 性 引 い い 。 数 , 正規 分布 均

μ ,標準偏差 σ , 指数分布由来 τ 。

R い 指 数 正 規 合 分 布 扱 う , 反 応 時 間 解 析 専 用 あ

retimes Massidda, 2013 い い。反応時間 分布 関 ,莫

大 研究数 あ ,一般 ,指数正規合 分布 反応時間 ,解析

必須 い 。指数正規合 分布 い R コ

(10)

# ロ

library(retimes)

#乱数 生成

dat<-rexgauss(100,500,100,400)

#確率密度関数

x<-seq(0,3000,1/10)

p<-dexgauss(x,500,100,400)

#最尤推定

model<-timefit(dat)

model

AIC(model)

BIC(model)

#誤差 に ラ い がここ 省略

# ン 法

mexgauss(dat)

#標本サイ が小さい場合, ン 法 方が好ま

2.6

多変 正規分布

,単変 乱数生 数 推定 い 述 。 ,外国語教 育研究 ,本質的 潜在変数 対象 あ ,実際 多変 タ 扱う場合

多い。 多変 タ 対象 乱数 生 い 見 い 。

多変 正規分布 ,因子分析や構造方程式 ン い 条件 分布 あ , 数 , 変数 数 等 い長 均ベ μ , 変数 数 大 分散共分散行列 ∑ 。

均ベ ,n個 変数 ,

(11)

分散共分散行列 対角要素 分散 あ , 以外 要素 共分散 あ 。分散共分 散行列 必 対称行列 。 , 3 2変 分散共分散行列 例 あ 。

∑ = 1000 1000 3

例 , 変数 分散 100, 共分散 0 あ 。 対角行列 あ 。

一方, 4 ,変数間 共分散行列 50 あ 示 い 。 例 相 関係数r .50 。

∑ = 100 5050 100 4

多変 正規分布 う乱数 生 ,MASS mvrnorm 関数 使う い。 え , 均ベ ,

= (50, 60,70) 5

あ ,分散共分散行列 ,

∑ = 100 8080 120 6030

30 60 140

6

あ う 多変 正規分布 場合 ,以 う コ 使う。

#平均ベ ル 分散共分散行列 作成

m<-c(50,60,70)

s<-matrix(c(100,80,30,80,120,60,30,60,140),3,3)

#乱数 生成

(12)

所 タ , 均ベ 分散共分散行列 ,以 う い。

#平均ベ ル

colMeans(dat)

#分散共分散行列

cov(dat)

,多変 正規分布 確率密度関数 ,mvtnorm Genz et al., 2016 実装 い ,やや複雑 本稿 省略 。

,通常 正規分布 様,外国語教育 関 タ 多変 正規分布 う 限 い 注意 必要 あ 。

,多変 正規分布 各値 中心 距離 , 距離

適用 。 距離 R ,以 う い。

#マ ラ 距離

mahalanobis(dat,m,s)

3.

実践的 乱数 生

3.1

密度推定

節 , 柔軟 実践的 方法 い 紹 い 。 , 密度 推定 あ 。 手法 ,所 タ ,確率密度関数 推定 , 悪 , ン 手法 あ 。 密度推定 得 確率密度関数 ,

単純 数 持 い , 代わ ン 幅 band width 指定 必要 ,

分析者 設定 あ 。 , 密度推定 関数 。

ン 幅 設定 ,推定 結果得 確率密度関数 ,大 異 あ 。 ン 幅 設定方法 , ン 経験則

あ , い限 ,最近 , 設定

問題 い あ 。

(13)

指定 , 直接的 確率密度関数 得 kde 関数 あ 。 関数 得

確率密度関数 , ,乱数生 使え 。

密度推定 手法 見 , 4 う 表

う 奇妙 確率変数 あ 。 ,以 う コ 作 。

4. 奇妙 確率変数 例

dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3))

hist(dat,xlab="x",main="",col="lightblue")

タ 密度推定 行 得 確率密度関数 , 5 う 。

5. 密度推定 例

コ 以 通 あ 。 , う 得 確率密度関数 ,乱

数 生 。 乱数 度数分布 6 う , 分布 特徴

F

e

u

e

n

c

5

10

15

20

25

0

1

0

3

0

0

5

10

15

20

25

30

0

.

0

0

0

.

0

4

0

.

0

8

e

n

s

i

t

(14)

# タ 作成

dat<-c(rexp(50,1)+2,10-rexp(30,1),rnorm(70,20,3))

#カ ル密度推定 ン 幅に注意す こ

k<-kde(dat)

plot(k)

#乱数 生成 ラ によ 可視化

dat2<-rkde(fhat=k,150)

hist(dat2,xlab="x",main="",col="lightblue",breaks=10)

6. 密度推定 再現 乱数 度数分布

密度推定 ,多変 応用可能 あ ,非常 有益 あ , い 省略 。

密度推定 う 非常 ワ 道 ,最初 述 う ,

悪 ン 手法 あ いう 忘 い。 う

推定 確率密度関数 , 実質科学的 知見 必 直接的 示 わ い あ 。あ 現象 表 確率変数 う 分布 ,

う 因果 ニ 明 ,統計科学 応用 研究分 ,最

要 , 忘 い あ 。 う 面 い ,

密度推定 常 優 手法 いい い。

, 手法 ,い 数 値 乱数 生 ,

F

e

u

e

n

c

5 10 15 20 25 30

0

1

0

3

(15)

い あ 。

3.2

ソン分布 ョンソン分布

統計学 中 , 非常 的 あ ,近 注目

浴 い 手法 あ 。前者 , ソン Karl Pearson

分布族 知 業績 あ ,後者 , ン ョンソン Norman Johnson

手法 あ 。 , ソン分布 概要 い 明 ,数学的 高

度 あ ,実用的 要 述 留 容赦願い い。

ソン分布 ,あ 微分方程式 基盤 , 満 係数 制約 7 い 12種類 分布 分類 。 微分方程式 係数 4 あ a, b, c, d, 位置 数,尺度 数,第一形状 数,第二形状 数 , 積率 関数 あ 。

,任意 均,標準偏差, 度,尖度 組 込 確率密度関数

。R , ソン分布 扱う ,PearsonDS Becker & Klosner, 2016 使う い。コ 以 参照 い。

# ロ

library(PearsonDS)

#歪 タ 作成

dat<-log(rnorm(100,50,10))

#最尤推定によ ラ タ 取得

para<-pearsonFitML(dat)

#乱数 生成 ラ によ 可視化

dat2<-rpearson(100,para)

#確率密度関数

x<-seq(0,5,.01);p<-dpearson(x,para)

#累積分布関数

(16)

一方, ョンソン分布 様 使う , 設計思想 やや異 。 ョンソン分布 ,4 数 持 。

1. γ

2. ξ

3. δ

4. λ

R SuppDists Wheeler, 2016 , ョンソン分布 扱

い 。コ い , ソン分布 様 コ 分析 。以

参照 い。

# ロ

library(SuppDists)

#歪 タ 作成

dat<-log(rnorm(100,50,10))

#分位点法によ ラ タ 取得

para<-JohnsonFit(dat)

#乱数 生成

dat2<-rJohnson(100,para)

#確率密度関数

x<-seq(0,5,.01);p<-dJohnson(x,para)

#累積分布関数

x<-seq(0,5,.01);p<-pJohnson(x,para)

(17)

え ,あ 研究論文 い ,以 う 表 記述統計 示 い 。

表1.

記述統計 例

標本サ 均 標準偏差 度 尖度

統制群 123 12.31 4.33 0.93 3.41

実験群 118 11.88 2.99 1.23 7.34

推定値 妥当 あ , 記述統計 実際 当 研究 タ 再現 。通常 正規分布 乱数 生 あ , 度や尖度 情報 再現 い , 表1 う 度 尖度 報告 あ ,

control<-rpearson(123,moments=c(12.31,4.33,0.93,3.41))

experiment<-rpearson(118,moments=c(11.88,2.99,1.23,7.34))

いう う 分布 含 再現 。

3.3

ュ ョン研究 ,本来, う 乱数 生 十分 回数反復 ,解析

的 求 い統計 経験分布 。

いわ 手法 あ 。

え ,表1 示 い タ 均差 分布 経験分布 得 , ンタ 法 95%信 区間 構 。以 う コ 簡単

。 , 回数 B 1,000 。

均差 95% 信 区間 , [-0.03, 0.90] 程度

あ 。 , 例 あ 手 例示 あ , 手

(18)

m.c<-numeric(1000)

m.e<-numeric(1000)

md<-numeric(1000)

for(i in 1:1000){

m.c[i]<-mean(rpearson(123,moments=c(12.31,4.33,0.93,3.41)))

m.e[i]<-mean(rpearson(118,moments=c(11.88,2.99,1.23,7.34)))

md[i]<-m.c[i]-m.e[i]

}

quantile(md,c(0.025,.975))

4.

総括

本稿 ,あ 特定 分布 任意 数 い 乱数 生 手 い 概 。一般的 ュ ョン研究 利 あ 数 誤差 検討や, 複雑

統計 い 数 経験分布 得 い , 触

。 別 機会 い。

結語 , , や予定調和的 展開 あ , う

統計手法 , 新 い手法 学ぶ 期待 果 出 ,元来あ い あ 。本稿 , ュ ョン研究 後 研究 突破 あ , 後

ュ ョン研究 積極的 行う あ , い 類 論 触

い。 本稿 本当 目的 ,分布や関数, 確率変数 い ,統計学 基礎知識 い 理解 深 機会 増や あ 。

外国語教育研究 い ,統計改革や, 関連 近 い動

中, 統計手法 発展 追い 急務 あ う , 風潮

見 う 。 時 質的研究 関心 高 顕著 見 。

(19)

慣 親 題材 ,本稿 少 外国語教育研究者, い 関連諸分 研究者 助 幸い あ 。

参考文献

Becker, M., & Klosner, S. (2016). PearsonDS: Pearson Distribution System. R package version 0.98. https://CRAN.R-project.org/package=PearsonDS

Duong, T. (2016). ks: Kernel Smoothing. R package version 1.10.4. https://CRAN.R-project.org/package=ks

Genz, A., Bretz, F., Miwa, T., Mi, X., Leisch, F., Scheipl, F., Hothorn, T. (2016). mvtnorm: Multivariate Normal and t Distributions. R package version 1.0-5.

http://CRAN.R-project.org/package=mvtnorm

Massidda, D. (2013). retimes: Reaction Time Analysis. R package version 0.1-2. https://CRAN.R-project.org/package=retimes

R Core Team. (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0

Updating...

参照

Updating...

関連した話題 :