1
外国語教育研究者のためのベイ 統計入門
草薙邦広
広島大学外国語教育研究 ンター kusanagi@hiroshima-u.ac.jp
. ベ 統計 聞く …
2. 私 ベ
■2010 年代 統計改革
・効果量,検定力,信頼区間,標本 設定
・統計的帰無仮説検定 NHST へ 疑念
- QRP,え-hackぁng,事後分析,HARKぁng,心理学 再現可能性 問題…
- 頑張 勉強 検定 一気 悪者 !
- 圧倒的 検定力不足 標本 いう外国語教育研究 問題
- 研究 … 統計難 い 結局 う いい 募 不安
- 帰無仮説 支持 生 理論へ 疑念
・交絡変数 因果推論へ 関心 高
■定数 あ こ 母数 理解
・私 教育的指導法 施 集団 ⺟集団 ?
- い 子 !何 推測 ?
・ 指導法 効果量 , , 真 値?
- 発音指導 効果量 0.81! 神様 決 ! - ⾝⻑ ⺟平均 永遠 変わ 続 う
- 真値 定数 ⺟数 話 途端 ン
- 名探偵 K 年齢詐称疑惑 真実 常 ひ 必 真実 明白 予定調和 中
・⺟数 いう , い い 得 観測 対し 確率的 整合的 値 ?
・頻度主義 信 区間 解釈 わ
- 実 今 わ い, 同 状況 観測 ?
■従来 統計解析 解析困 出 わ
2
・最小二乗法 最尤法 解 い
- e.g.,変量効果 多い一般化線形混合効果 ,複雑 混合分布
図1. うわ 複雑 観測 得 し
・ 色々考 方程式 う!←7 ⺟数 い,精度 怪 い(解析限界)
| , , , , , ,
= 2 erfc +2 − + 1 −2 erfc +2 −
1
■ 私 度主義 く理解し い わけ
・ 統計 難 わ い 頻度主義 簡単 わ ?
■2017 年現在,従来 統計 統計 手間 変わ い
■就職 職場 変 同僚 い
・深夜延々 ビー 片手 く ,ベ し ♡ 満面 笑 投 鬼田崇作先生
■ ,頻度主義も素晴 い, う 統計 …
・統計的帰無仮説検定 一部 問題 無縁
- 帰無仮説 含意 主張
- え値 由来 問題 独立 e.g.,え = .049 え = .050 変わ い
・自然,柔軟, し 人間 しい意思決定
- 主観 タ 組 合わ ,母数 布 考
- い い ,信頼区間 誤差 解釈 100 回同条件 実験 繰 返 … いわ い
・ 解析困 あ グ 可能
・ 統計 高 い ,埋没費用 少 い
3. ベ 定理
■ 定理 前 い
・確率 P 書 えおobabぁlぁがけ P
・事象 eぎenが A 起 確率 P(A) 書 ,事象 A 確率 読
value
Density
160 165 170 175 180 185 190
0.000.050.100.150.200.25
3 - 6 面 6 出 いう事象 事象 A
# $ =16 2
・ 二回降 ,1 回目 6,2 回目 6 確率 ? - 確率 積
# $ # $ =361 3
・ 事象 起 いう条件下 ,別 事象 起 確率 条件付 確率 いう
・P(A|B) ,事象 B 起 条件下 事象 A 起 確率
- 数学 ず ー ,右 下 いう意味
・P(A) P(B) 同時 起 確率 合同確率 いう: P(A∧B) P(A,B)
・合同確率 以下 う 求
# $ ∧ ( = # $|( # ( 4
- 事象 B 起 ,事象 B 条件下 事象 A 起 確率 - ,条件 持 い確率P(B) 周辺確率 いう
- 条件付 確率 合同確率 混同 う 注意
合同確率=周辺確率×条件付 確率 5
P $|( =# $ ∧ ( # ( 6
P B =P A ∧ B# $|( 7
■ 定理 導出
・ , 4 式 着目
・ 4 式 う書い 同
# $ ∧ ( = # (|$ # $ 8
# $ ∧ ( = # $|( # ( 4 = (9)
・ ,
# (|$ # $ = # $|( # ( 10
・ 整理
4
# (|$ =# $|( # (# $ 11
・ ベ 定理 超簡単
?こ 美味しい ?→統計的推論 応用
■ 定理 統計
# (|$ =# $|( # (# $ 11 = 12
・A タ D 考
・B 仮説 H 考 , ⺟数 θ
# -|. =# .|- # -# . 13
・P(HずD) ー 下 仮説 正 い確率 事後確率 いう 分布 事後 布 いう
・P(DずH) 仮説 下 ー 得 確率 尤度 いう
・P H 仮説 正 い確率 事前確率,事前 布 いう 主観的確率
・P(D) ー 得 確率 無視 ,正規化定数 いう
・ 事後確率∝尤度×事前確率 考
- ∝ 比例 , 読
■ ,事後分布 ?
・ ー 既 得 , う変わ い 定数 見
・ タ いう条件下 ,仮説 正 い確率, 母数 布 い
・有意 う , ⺟数 誤差 平均的 ⼤ , ,⺟数 分布 直接考
・⺟平均 50 ⼤ い確率 50% う!⺟平均 95% ,10 70 !
タ 母数
度主義 布 定数
ベ 統計 定数 布
・頻度主義 ひ 母数→確率的 タ発生
・ 統計 ひ タ→確率的 母数 推測
5
・こ54,58,45,34,46,57,67,45,76さ いう ー 下 ⺟平均 事後分布 得 ン 分布
図 . 観測 下 母数 事後 布
■ うい ,尤度 ?
・ 仮説 下 ー 得 確率
・ 観測 図 3 ,平均 20 いう仮説 ー 生 確率 低い う
- 平均 50 , ー 生 確率 高 う
- ー ⺟数 下 得 確率 総積 対数 和=対数尤度
図 . あ 観測
・尤度関数
図 .尤度関数
■ 事前確率 ?
・ ー 得 前 仮説へ 信念 主観的確率 考
・ 分布 ⺟数 分布 い う ←背景知識 重要
20 30 40 50 60 70 80
0.000.020.040.060.08
N = 10000 Bandwidth = 0.6389
Density
Value
Density
20 30 40 50 60 70 80
0.000.010.020.030.04
9.8 10.0 10.2 10.4
-3733.5-3733.0-3732.5-3732.0
SD
sd
loglikelihood
49.0 49.2 49.4 49.6 49.8 50.0 50.2
-3733.5-3733.0-3732.5-3732.0
Mean
mean
loglikelihood
49.0 49.2 49.4 49.6 49.8 50.0 50.2
9.810.010.210.4
mean
sd
-373
5 -3735
-37 34.5
-373 4.5
-3734
-3734 -3733.5
-3733 -3732.5 -3732
6
・背景知識 い場合 ,無情報事前 布 弱情報事前分布 使用
・主観的 い ,取 う 符号 最小値,最大値 与 客観的 いわ い
4. エ 男性遍歴
■ ン わ う わ い う 例 話 好
高校生 , ン カ 首 。高校生 い 幸 帰結 生
わ い 知 好奇心 , カ 男性遍歴 知 い 思
。 いい ,給食 最中 カ 含 女子 ー 会話
聞 耳 立 い 。
カ うい ,私 3 人目 彼 …
ういう ! ン!心臓 鼓動 止 い。 , 冷静 取 戻 ,心
中 う ぶ い 。 こ 観測 下 ,エ 元 数 布し い …
・ ,事前分布 考 う
- 彼氏 数 カ ン ー !離散分布 考 う
- カ 知 い ,今 情報 い 知 い
- 女子高生 男性遍歴 い ,彼氏 10 人以上い いう い う - 以上 情報 い → 最小値 0,最⼤値 10 散一様 布 考 う
図 .エ 元 数 関 事前 布 散一様
・次 ,尤度 考 う
- 全彼氏数 , ン 均等確率 三番目 彼氏 得 考 筈 い
- 三番目 い いう ,0 人,1 人,2 人,3 人 いう確率 0 最低 4 人 い
- 4 人い ,3 人目 話題 確率 1/3,5 人い ,4 人目 話題 確率 1/4…
0 2 4 6 8 10
0.060.080.100.12
彼彼彼
確確
7 / =0 0 > 21
14
/ = 0 0 < 2
図 .エ 元 数 関 尤度
・事後確率 考 う!
- 前分布 尤度 積 正則化定数 揃
図 .エ 元 数 関 事後 布
・ 三番目 彼氏 いう観測 下 , カ 元カ 数 分布 い !
・期待値 求 統計 推定値
- 6.34 人 !エ . 人く い元 い - 一方 度主義 人 最尤推定 ?
■事前分布 変 !?
・事前分布 設定 最⼤値 期待値 規定 い
・仮 100 人 ,事後分布 …
・期待値 20 人台!
0 2 4 6 8 10
0.000.050.100.150.200.25
彼彼彼
確確
0 2 4 6 8 10
0.000.050.100.150.20
彼彼彼
確確
8
図 .エ 元 数 関 事後 布 ばい
・ , い事前分布 設定 女子高生 平均的 元カ 数 分布? …
図 .エ 元 数 関 事前 布
・ 事後分布 ,
図 .エ 元 数 関 事後 布 しい
・元カ 4 人 今彼 5 人目 確率 90% い
・95% 確率 4 人 5 人 い ベ 信用区間
■ ー 増
・計算 終 耳 4 人目 … いう可愛 い カ 声
・ ー ,ベ 更新 4 死 5 確率 上 !
- 事前分布 図 10 昨日 事後 布 今日 事前 布!
- ー 増 事前分布 影響 小 い
0 10 20 30 40 50
0.000.020.040.060.08
彼彼彼
確確
0 2 4 6 8 10
0.00.20.40.60.8
彼彼彼
確確
0 2 4 6 8 10
0.000.100.20
彼彼彼
確確
9
図 .更新さ エ 元 数 事後 布
5. マ コフ連鎖 法 MCMC 基本
■数値解析的 推定方法
・何回 何回 乱数 発生 , ⺟数 事後分布 計算
■ 後分布 比例す 分布 乱数 ン ⼤量 作
・得 事後分布 い
■ 経験分布 扱う ,⺟数 い 豊 推測
■最近 ,三種類 知 い
ポ グ法
ギ サ グ
ニ 法
■数値解析 初期値 必要
■研究者 決
・ 区間 焼却区間
- ュ ー ョン ,初期 安定 い。 程度 量 ュ ー ョン 捨
・間引 区間 thinning interval
- 途中 間引 行う ,安定 結果 得 う
・MCMCサ 数
- 行 う ュ ー ョン 数,多い う 安定 い
・ 前分布
・チ 数
- 初期値 ュ ー ョン 行 う一連
■ 束診断
・ ュ ー ョン ,毎回結果 違う
・ 程度,事前分布 安定 い 示 必要 定常分布
・Gelman 収束診断,Geくke 収束診断 使 ,収束 示
■ M(M( ン 示
■⺟数 推定値 信用区間 報告
・MCMC ン 平均 中央値 ,母数 推定値 け 代表値
・MCMC ン 2.5%点 97.5%点 95% 信用区間
- タ 法
0 2 4 6 8 10
0.00.20.40.60.8
彼彼彼
確確
10 - 最高確率密度区間 τP) いう考
6. 事例 1 :反応時間 布 け 母数 ベ 推定
■反応時間分布 正規分布 い
・実験操作 個人差 反応時間 分布 及 影響 ,正規分布 下 わ い
図 . 反応時間 布 例
・ 感 分布
・ 対 ,指数正規合成分布 考
| , , = 2 erfc + 2 −
15
・ ,⺟数 μ,σ,τ 事後分布 い 考
■MCMC 推定
・ ⺟数 い 無情報事前分布
・MCMC ン 数 = 20,000,間引 , ーン ン区間 = 0〜500, ン数 = 1
・ ・ ン 法
図 . 図 MCMC サ プ 布 例
0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0
3.73.9
T r a c e o さ μ
I っ e r a っ i o n s
Valつe
3 . 7 3 . 8 3 . 9 4 . 0
02468
) e n s i っ と o さ μ
N = 2 0 0 0 0 B a n d て i d っ し = 0 . 0 0 5 9 8 1
)ensiっと
0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0
1.601.75
T r a c e o さ
I っ e r a っ i o n s
Valつe
1 . 5 5 1 . 6 0 1 . 6 5 1 . 7 0 1 . 7 5 1 . 8 0 1 . 8 5
048
) e n s i っ と o さ
N = 2 0 0 0 0 B a n d て i d っ し = 0 . 0 0 4 5 9 9
)ensiっと
0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0
4.34.54.7
T r a c e o さ
I っ e r a っ i o n s
Valつe
4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4 . 8
0246
) e n s i っ と o さ
N = 2 0 0 0 0 B a n d て i d っ し = 0 . 0 0 8 0 8 4
)ensiっと
11 表1.
各母数 い MCMCサ け 平均 標準偏差 分位点
平均 標準偏差 2.5% 25% 50% 75% 97.5%
μ 3.84 0.05 3.74 3.80 3.84 3.87 3.93
σ 1.72 0.04 1.64 1.69 1.72 1.74 1.80
τ 4.56 0.07 4.43 4.52 4.56 4.60 4.64
図 . 推定さ 母数 フ ッ し い
・ 応用 ,条件間 応時間分布 ⺟数 分布 比較
図 . 複数 母数 事後 布 比較 ァ プ ッ 例
7. 事例 2 :従来 重回帰
■読解 成績 応答変数,説明変数 文法 成績 語彙 成績 重回帰
・
5 67809:= ;<+ ; =>6??6>:+ ; @AB6CDE6>F: 16
・β 事後分布 考
図 . 観測
Second
)ensiっと
0 20 40 60 80
0.000.050.100.15
2 3 4 5
(a)(b)(c)(d)(e)(さ)
12
図 . 片 回帰係数 け MCMC サ プ 布
8. 事例 3 :ベ 因子
■母語話者 顕著 効果 学習者 見 い いう証拠
■帰無仮説 寄 経 理論 多 !?本当 ⼤丈夫 !?
・形態統語的鈍感性 moおえhologぁcal ぁnかenかぁがぁぎぁがけ
■ 統計 , 因子 BF いう方法 使う
・ 従来 統計 いう 帰無仮説 対立仮説 も も 比 考
(G =# .|-# .|- 17
・ ,二群 平均値 比較 い ,標準化平均差d
7 = −
HIIJKL
18
い ,
- : 7 = 0 19
- : ∞ < 7 < 0 20 -O: −∞ > 7 > 0 21
い 仮説 値域 表 立 ,
(G =# .|- 7 ≠ 0
# .|- 7 = 0
22
# .|- 7 = 0
# .|- 7 ≠ 0 = Q R|S LT<1 Q R|S LU<
23
・ 帰無仮説 も も を示す証拠
0 2 4 6
0.00.10.20.30.4
B e っ a 0
N = 1 0 0 0 0 B a n d て i d っ し = 0 . 1 3 8 9
)ensiっと
0 . 5 5 0 . 6 0 0 . 6 5
051015
B e っ a 1
N = 1 0 0 0 0 B a n d て i d っ し = 0 . 0 0 2 9 8 2
)ensiっと
0 . 2 5 0 . 3 0 0 . 3 5 0 . 4 0
051015
B e っ a 2
N = 1 0 0 0 0 B a n d て i d っ し = 0 . 0 0 3 0 3 6
)ensiっと
13
・ , 場合 帰無仮説 ,事前分布 い 0 を中心 分布 い , いう 過 い
→厳密 意味 帰無仮説 う い
■帰無仮説 含意 主張!
図 . 題材 関 観測
3.13 … =# .|- 7 ≠ 0
# .|- 7 = 0
24
・帰無仮説 正 い方 3.13 倍 い い… こ 証拠 弱い
・ 因子 値 適用 情報仮説
- 情報仮説:条件間 平均差 値 大小関係 仮説 置
9. 事例 4 :階層ベ
■応答変数 正規分布 い いう 外国語教育研究
・ カ カ
・歪 分布
■ タ 複雑 階層構造を成 い
・個人, ,学校…
・時系列
■ 統計
一般線形 従来
一般化線形 正規分布以外をサポ 線形混合効果 変量効果をサポ 一般化線形混合効果
■ 全 ⺟数 分布 い !
・階層
- 一般化線形混合効果 化
■草薙 執筆中
・200 人 48 試行 文法性判断課題 従事
・判断結果,反応時間, 主観的測度 規則反応,直観反応 記録
・判断結果 反応時間 主観的測度 選択 及 影響 知 い
・各施行 生 3 変数 200 人 個人 ネ い 実 項目
( o n っ r o l
S c o r e
Freqつencと
0 2 0 4 0 6 0 8 0 1 0 0
05101520
T r e a っ m e n っ
S c o r e
Freqつencと
0 2 0 4 0 6 0 8 0 1 0 0
05101520 (onっrolTreaっmenっ
3 0 4 0 5 0 6 0 7 0
( o m p a r i s o n
14
・個人 , a 主観的測度 反応 選 , b 判断結果 影響, c 反応時間
影響 異 考
■ 略式図
E0 X1 − //:
:Y = ;<+ ; ,:+ ; log ,: + >]
25
・主観的測度 二値 , 項分布 発生 → 回帰
・固定効果 切片,判断結果,反応時間
- 事前分布 多変量正規分布 事実上 無情報
・変数効果 ,切片 分散,判断結果 傾 分散,反応時間 分散
- 変量効果 分散共分散行列 逆 シ 分布 従う 事実上,無情報
図 . 母数 け MCMC サ プ 布 固定効果
図 . 母数 け MCMC サ プ 布 変量効果
10. ベ 統計 行 う環境
■ ま ま 環境 実行
・R MCMCえack, BaけeかFacがoお, coda, BEST... 莫⼤ ー
0 2 4 6 8 10
Beっa0Beっa1Beっa2
4 0 6 0 8 0 1 0 0 1 2 0
0.0000.0150.030
N = 2 0 0 0 B a n d て i d っ し = 2 . 3 4 5
)ensiっと
1 2 3 4
0.00.20.4
N = 2 0 0 0 B a n d て i d っ し = 0 . 1 1 8
)ensiっと
- 1 2 - 1 0 - 8 - 6 - 4
0.000.150.30
N = 2 0 0 0 B a n d て i d っ し = 0 . 2 4 6 1
)ensiっと
1 2 3 4
0.00.20.4
N = 2 0 0 0 B a n d て i d っ し = 0 . 1 1 8
)ensiっと
0 . 0 0 0 . 0 5 0 . 1 0 0 . 1 5 0 . 2 0
02468
N = 2 0 0 0 B a n d て i d っ し = 0 . 0 0 5 9 7 1
)ensiっと
- 0 . 5 - 0 . 4 - 0 . 3 - 0 . 2 - 0 . 1
012345
N = 2 0 0 0 B a n d て i d っ し = 0 . 0 1 2 4
)ensiっと
- 1 2 - 1 0 - 8 - 6 - 4
0.000.150.30
N = 2 0 0 0 B a n d て i d っ し = 0 . 2 4 6 1
)ensiっと
- 0 . 5 - 0 . 4 - 0 . 3 - 0 . 2 - 0 . 1
012345
N = 2 0 0 0 B a n d て i d っ し = 0 . 0 1 2 4
)ensiっと
0 . 4 0 . 6 0 . 8 1 . 0 1 . 2 1 . 4
0.01.02.03.0
N = 2 0 0 0 B a n d て i d っ し = 0 . 0 2 5 8 2
)ensiっと
β0 β1 β2
β0
β1
β2
15
・Pけがhon NきmPけ, PけMC...
■MCMC ン ー 仲間
・WぁnBUGS ・ ン ン
・JAGS ・ ン ン
・Sがan ン・ ン カ 法
■R MCMC ン ー 連携
・おあagか, おかがan...
■Web 上 因子 計算
・Dぁeneか 方法 hががえ://くくく.lぁfeかcぁ.かきかかeぐ.ac.きk/home/Zolがan_Dぁeneか/ぁnfeおence/Baけeか.hがm
・Roきdeお 方法 hががえ://えcl.mぁかかoきおぁ.edき/baけeかfacがoお
■高度 UI ソ
・JASP hががえか://あaかえ-かがaがか.oおg/
11. 総括:外国語教育研究 け ベ 統計 こ
■統計改革後 大本命,今後 研究 け 突破口 ひ
■ 前途多難
・ 外国語教育研究 い 確率分布 いう概念へ 理解 浅い
・統計 いう概念 未 根付い い い
・ ー 合理主義 素朴実在論
・ 意思決定 ,真実 判定機 い
・ 意思決定 いう視点 重要
・ 流行 い! 関係 ワー ョ 2 件 !
→草薙 ワー ョ 行 ! !
■ を起こす 今 い
*関連図書,参考文献, ー 問い合わ 応