新しい統計学とのつきあい方

(1)

DOI: http://doi.org/10.14947/psychono.37.25

新しい統計学とのつきあい方

小杉考司

専修大学

Bayesian statistics as a new manner on research practice

Koji Kosugi

Senshu University

In this paper, I clarify the problem of null hypothesis significance testing along with Kruschke （2014） and point out five advantages of Bayesian statistics. First, it is not necessary to convert data for NHST. Second, additional assumptions or corrections are not required. Third, there is no need for any preliminary design of the verification plan. Fourth, the Bayesian approach allows an intuitive interpretation of results. Fifth, the sample size does not cause critical problems. Beyond these advantages, Bayesian statistics can be used alongside frequentism and likelihoodism methods. Finally, I argue it is necessary in science communication to clearly express the researcher’s premise as a prior distribution or likelihood function.

Keywords: Bayesian statistics, frequentism, likelihoodism, null hypothesis significance testing

1. はじめに 三浦・岡田・清水（2018）にあるように，今まさに心理学においてはデータ解析の潮流が変わろうとしており，その勢いはさながら「革命」と呼べるほどのものらしい。そこでは革命の骨子を「ベイズ統計モデリング」「モデル評価」「オープンサイエンス」の三つに分けて論じられており，特に清水（2018）や竹澤（2018）は「モデリング」を強調しているが，議論全体の中心にベイズ統計学の隆盛があることは間違いないだろう。心理学は心という目に見えないものを扱う学問であるから，測定における誤差に確率分布を仮定して真値に近づくという論拠が必要だった。心理学はまた，身近なところで研究課題を見つけて自前ですぐさま検証することができるものも多いが，知見を一般化して議論するためにも推測統計学が必要だった。一方，ベイズ統計学の礎であるベイズの定理は古く18世紀に明らかになったものであるが計算機の圧倒的な発展と確率的プログラミング言語の拡充によって，様々な学問分野においての応用が期待されるようになったのは，この数年の話である。これまでの利用方法は頻度主義的統計学とも呼ばれ，我々にとっての新しい統計学，ベイズ統計学はそもそも考え方を異にするとされる。我々はこれをどう受け止め，どのように付き合っていけばよいのか。本論文では，まず2章でこれまでの心理統計の問題点を指摘し，これに対してベイジアンのアプローチが有利な特徴を持っていることを示す。ただし，頻度主義を貶めてベイズ主義の利点を過度に強調することを目的とするものではない。どのような手法であっても長所と短所が存在するし，どのような手法であっても「生兵法は大怪我の元」となる可能性はあるからである。そこで3章では，技術的利点以上にベイズ的であることの意義を解説し，最後に4章で新しい統計学との付き合い方について，展望を交えて議論する。なお，本稿では「ベイジアン」という言葉をベイズ統計学の，ベイズ流の，ベイズ的観点から見たところの，という意味で用いる。これをベイズ主義者の，ベイズ信者の，という思想信条の意味で読み取らないようお願いしておきたい。 2. これまでの問題点とベイジアンの利点 2.1 従来の統計法の短所 心理学において再現性の問題が取りざたされる以前か Copyright 2019. The Japanese Psychonomic Society. All rights reserved. Corresponding address: Department of Psychology, School

of Human Sciences, Senshu University, 2–1–1 Higashimita, Tama-ku, Kawasaki-shi, Kanagawa 214–8580, Japan. E-mail: [email protected]

(2)

ら，帰無仮説検定の利用の仕方に問題点があることは指摘されて来た。差が「ある」のか「ない」のかという1 ビットにまで削ぎ落とした情報だけを根拠に議論を展開することがいかに危険であるかということから，効果の大きさを表現する効果量にも言及しようという動きも以前から指摘されて来たことである（吉田，1998; 豊田， 2009; 大久保・岡田，2012; 南風原，2014）。 Kruschke （2014）はこれとは異なる観点から問題点を指摘する。帰無仮説検定による推論は，帰無仮説のもとで起こりうるすべての結果についての確率を計算したうえで，実際に観察された結果と同程度（またはそれ以 上）に極端な結果を得る確率を p値として採択するロ ジックである。p値は帰無仮説という条件下での条件付 き確率であるから，前提となる条件が変われば，実際に観察された結果が同じであっても結論は変わる。帰無仮説検定のロジックはデータに対して無心に対峙しており，公平かつ客観的な良いツールであるとされてきた。しかし事前になんの想定もしないことがすなわち，データ生成過程（尤度）をも想定しないことにつながっており，このことが結果に大きな差異を生む。以下Kruschke （2014）に沿って説明しよう。コイントスをして，表が出るか裏が出るかを記録し，このコインがいずれの結果も公平で偏らないものであるかどうかを検証する例を考えてみよう。ここで，24回コイントスをして7回表が出たとする。この場合，コインは公平と言えるだろうか？ここで，試行数N＝24と表が出た回数k＝7について，「帰無仮説が想定するすべての世界」を考える。 Kruschke （2014）は実験者の意図によって，その意味するところが変わると指摘する。ここでは，24回の試行をすることを初めから決めていた場合と，表が7回出るまで試行し続けようとしていた場合，最後に5分間コイントスをしようとしていたら，結果的に24回だった場合を考える。初めから24回の試行をすると決めていたのであれば， 帰無仮説のもとで得られる結果Xは，N回中k回の成功 を表す分布，つまり二項分布に従うことになる。両側検定で考えると「一方の面が7回以下しかでない」極端な 確率pはp＝0.06391466 であるから，5％水準では有意に 偏っていると判断できない。表が7回出るまでコイントスをし，結果的に24回目でそれが確認できた場合は，k回の成功を必要とするN試行数の分布，つまり負の二項分布に従うことになる。両側検定で考えると，「24回以上の試行を必要とする」確 率は p＝0.001663446であり，二倍しても5％に満たない ので帰無仮説は棄却される。 Kruschke （2014）はさらに，実験者が5分間試行するつもりで，結果的に24回のコイントスをすることになった場合の確率を算出する。その結果は2.4％付近になることから，この場合は「有意傾向」と判断されることを示している1_。このように，同じデータからでも結論が異なることに注意が必要である。この三つの状況は，それぞれ想定する確率空間が異なるため，同じ事象であっても，それが生じる確率が異なる。ベイジアンは確率分布が異なるのだから結果が異なるのは当然と考えることができるが，帰無仮説検定の枠組みではデータ生成過程を取り込めない。これまでは実験計画の中にその過程を統制する仕掛けを埋め込み，方法や手続きを詳述することで実験者の考えを推察するしかなかった。ここでデータの生成過程である確率分布を明示すれば，実験者がどのような背景でデータを得ているかをも明示することができる。しかしそれを明示する必要がない状況では，方法で「このような前提のもとで行われた」という主張があればそれを受け入れるしかない。科学の領域は善意の道で舗装されているのである。研究者の悪意を疑うわけではないが，頻度主義的なやり方では，意図的でない場合でも誤った結果に陥る可能性が高いと言わざるを得ない。この点が帰無仮説検定の最大の欠点である，と筆者は考えている。 2.2 ベイジアンの利点 ベイジアンの本質を短い言葉で表現すると，わからないことを確率で積極的に表現すること，といえるだろう。群間の差，効果の大きさなど，実験者にとって知りたい実質的な違いを確率分布として表現するのであって，仮想的な確率空間の議論をするのではないため，その解釈はより単純である。確率分布で表現するということは，確率分布のパラメータで表現することであり，どういった分布がどのようなパラメータをもつのか，という基礎的な知識は必要であるが，一度それを把握してしまえば，あとは実質的な値の検証になる。 最も単純な例で，対応のない二群のt検定を考えてみ よう。帰無仮説検定の仮定と同じように，データが正規分布に従うとしよう。あとは正規分布が平均パラメータ μと分散パラメータσ2_{という二つのパラメータ値によっ} て形が決まる分布である，という知識があればよい。これらを数式で表すなら，群 A, Bそれぞれの平均値をμA, 1_{以上の数値計算をするRコードをhttps://osf.io/k7xd8/} に示しているので参照してほしい。

(3)

μBとし，群AのデータA1, A2, , An, 群BのデータB1, B2, , Bmとすると，Ai∼N （μA, σ2）, Bj∼N （μB, σ2）となる。ここで∼は「次の確率分布に従う」の意味であり，Nは正 規分布の略記である。ここでわからないものはμA, μB, σ の三つであるから，これらに事前分布を置いてデータと 組み合わせると，μA, μB, σの事後分布が得られる。この 事後分布は，データを踏まえて考えた各群の平均値・分散の取りうる値の確率を表しており，実質的な大きさそのものである。もし…なら確率pで云々，という回りくどい表現ではないため，初学者にもわかりやすいし誤解が生まれにくい。ベイジアンの考え方は，データを得ることで事前情報をアップデートしていくという営みであるから，研究の累積や再現性の問題にも貢献する。事前分布が問題になるのであれば，最初は一様分布をおくことでデータの特徴をそのまま反映させることができる。後でも示すように，ベイジアンアプローチは頻度主義的アプローチを包含しているのである。この他にもベイジアンたる利点はいくつもあげることができる。以下代表的な五つの例を挙げよう。第一に，例えば変数変換など，データを検定モデルに合わせる必要がない。対数変換や角変換など，検定分布に合わせるためのテクニックがあったが，一般化線形モデルが登場したことで，最近は目にすることは少なくなっている。しかしそうした習わしは，そもそも分布を自由に選ぶベイジアンにとっては不自然な振る舞いでしかない。データ生成メカニズムを自然にデザインすればよいのである。第二に，検定論ででてくる仮定や補正から無縁でいられることが挙げられる。t検定の手続きは，データの正規性の検定を行い，分散の等質性の検定を行い，Welch の補正をかけるという段階を踏まねばならない。ベイジアンはどの事前分布と尤度，データの組み合わせで事後分布が得られるかについて，一つの定理を適用するだけでよい。ある場合は5％より大きければ喜び，続いてある場合は5％より小さければ喜ぶといった仮定の組み合わせや，補正という手続きに悩むことがない。例えば先の例で，分散が等しいかどうかわからないのであれば， Ai∼N （μA, σ2A）, Bi∼N （μB, σ2B）とすればよいのである。σA, σBの事後分布を見て，どの程度異なるのか，等質とみなしてよいかどうかは，その研究領域の共通見解で判断すればよい。あるいは，モデル適合度の観点で，異なる分散を推定したモデルと分散を同じとしたモデルの，どちらがデータに適合していたかを持って考えのヒントとすることもできるだろう。第三の利点として，下位検定を事前に設計しておく必要が生じないことが挙げられる。分析方法の中に研究者の意図を埋め込み，特定の組み合わせに有意差が見られるかどうかで結論を導けるように凝らされた技巧は，実験心理学の論文を読む中で感動すら覚える箇所である。しかし注意すべきは，そのような計画の隅々は，実験実施前に組み立てられておく必要があるという点である。すでに述べた通り，下位検定の細部に至るまで事前に設計されていなければ，想定する確率空間が異なることから，結論が変わりうるからである。パーソナリティ研究は心理系和文雑誌の先陣を切って，事前登録制の論文投稿枠を設けた（加藤，2018）。これは再現性問題（池田・平石，2016）というより大きな枠組みの中での取り組みであるが，統計的観点からも必要な措置なのである。これに対してベイジアンでは，検証する対象である事後分布は常に一つである。得られた事後分布，事後予測分布の，どの箇所をどのように切り分けて（周辺化して）比較しても，そのことで結論が変わることにはならない。もしどこかに交互作用が出るのではないかというような，探索的な仮定で実験を行うのであれば，ベイジアンでなければならないのである。第四の利点として，第三の点と関わるところもあるが，例数設計の問題が挙げられる。「頑張って取れるだけデータを取ってみよう」という心理学教育に悪意があるとはいわないが，分析に際して帰無仮説検定を行うのであれば，結論を意図的に作り出したとの誹りから免れ得ないことになる。ベイジアンにとっては得られたデータから作られる事後分布は常に一つであり，それが確率的に変わるものではない。たくさんデータを取ればより確信度が高く，あまりデータが取れなければより確信度が低くなるだけであるから，実験者の努力は反映されるし，そのことが結果に影響を与えるものではない。ベイジアンでは例数設計をしないというのではなく，例えばどの程度の確信度でどの程度の差を検出したいか，という計画に基づいて数値計算を繰り返し，例数設計する方法がある（Kruschke, 2014, 13章を参照）。しかし例数設計を報告し，認可を受けてから実施するという作法に則るのが難しい実践場面は少なくないだろう。もしなんらかの事情で，事前の例数設計をすることが困難な状況にあるのならば，帰無仮説検定で結論を出すのではなく，ベイジアンでなければならない。 第五に，ベイジアンはp値の解釈のように仮想世界の 非現実的な値について一喜一憂するのではなく，事後分布から自分の仮説が正しい確率を読み取ることができる点である。解釈が直観的であり，誤解を生じにくい点は，

(4)

教育的効果が非常に大きいだろう。さらに，パラメータのどちらがどの程度大きい（小さい）かという情報仮説（岡田，2014）や，パラメータやモデルから予測されるデータの大小関係についての確率についての仮説（豊田， 2016）も検証することができる。直観的な発想に沿った解釈ができるということは，誤解を生みにくいことにもつながり，誤用や悪用を防ぐことにもつながる。ここで述べた利点のうち，特に第三，第四の利点は再現性問題の観点から，第四，第五の利点は教育実践の観点から評価される点だろう。 3 統計的観点と科学的態度 3.1 三つの立場 ここまで，従来の頻度主義的手法，特に帰無仮説検定と対比するような形で，ベイジアンの利点について論じてきた。しかし冒頭で述べたように，本稿でいうベイジアンとは「ベイズ主義者」といった人の思想信条に帰属されるものではなく，考え方の違い，あえて言えば考え方の作法についての話なのである。このような強調をする意図は，従来の手法と新しい手法を並べた時に，信念の対立，見解の相違としてコミュニケーションを断絶させるような着地を避けたいからである。 Sober （2008）は統計学における三つの立場を，異なる問いに立脚したものとして分けて考える。頻度主義的統計学，特に帰無仮説検定の考え方は，差があるといってよいかどうか，効果があると認めてよいかどうかという「どちらの道を進むべきか」についての意思決定の問題である。ベイズ主義の考え方はうえで見たように，「どの程度信じられるか」という信ぴょう性の問題である。第三に尤度主義という考え方があり，これは手元のデータにもとづいて「採択するべき仮説はどれか」という選択の問題である。それぞれ問いの形が違い，必要とする答えが異なるのだから，そもそも直接比較できるものではないともいえる。ここで後の説明のために，モデルとデータの関係を次のように表そう。 p y M p M p y M( | , )θ ＝ ( | , ) ( | )θ_{p y M}_{( | )}θ （1）ここでy はデータ，M はモデル，θは興味のあるパラ メータのセットであり，左辺が表すのはデータとモデルが得られたうえでのθの確率を表している。右辺の分子は，モデルMの想定するパラメータθ, すなわち事前分 布（p（θ|M））と，その事前分布のもとでデータが得られ る確率，すなわち尤度（p（y|θ, M））の積である。分母はそのモデルのもとでデータが得られる確率（p（y|M））, すなわち周辺尤度と呼ばれるものである。これはもちろんベイズの公式であるが，モデル，データ，パラメータが全て含まれており，データを取ってモデルやパラメータを考えるという意味で，一般的な科学的営みを表現していると言えるのではないだろうか。さて，2群間の平均の差を考える例をもう一度取り上げよう。群間の差δに興味がある場合，先ほどの表現を 少し改めて， Ai∼N（μ, σ2） Bj∼N（μ＋δ, σ2）（2）のように表記することもできる。これが意思決定の問題であれ程度問題であれ，δの大きさを考えていることに 違いはない。効果量 d はδ/σ で表されるから，Cohen （1988）の基準とともに報告してもよいし，δの事後分布 の確信区間や最高密度区間（Kruschke, 2014）が0を含むかどうかで判断するのもよいだろう。この表現は一般線型モデル，すなわち平均の差の検定を線型モデルという形で統合している。また式1について，事前分布を置かない（あるいは（pθ|M）＝1とする）ことが頻度主義的アプローチであると考えることができる。その意味で，ベイズ主義的モデル式は頻度主義の考え方を包括的に含んでいると言える。さて尤度主義の考え方はどうであろうか。尤度主義は，差がないとするモデル（M1）と差があるとするモデル（M2）のどちらがデータに対して当てはまりが良いかを考えるものである。これは式（1）でいうところの分 母，すなわちp（y|M1）とp（y|M2）の比較を意味し，この両者の比のことを一般にベイズファクターという。より具体的で詳しい説明は，岡田（2018）を参照してもらいたいが，ここではこれらの項が先の式（1）に含まれていること，つまりモデル表現の中に尤度主義に必要な情報が包含されていることを確認してもらえば十分である。このように，ベイズの公式は頻度主義，尤度主義の考え方が含まれている，より一般的な表現なのである。ただし，特にベイズ「主義」として強調する場合，その特徴はどこにあるかといえば，モデルを尤度と事前分布の積で表現していること，またデータ生成過程をモデリングすることから，まだ見ぬデータの予測についてまで言及できるところにある。データを取ってその差があるかないかを判断するということは，顕現化した目の前のデータに対する「説明」に止まっており，それ以上に言及するのはこれまで「考察」とされていたものである。

(5)

頻度主義を超えて尤度主義に進んでも，それはあくまでも手に入れたデータ（y）についての比較であり，それ以上は言及するものではない。ベイズ主義的であるというのは，このモデルから言える次のデータについての「予測」にまで責任をもつことができる。真にベイズ統計学的であるということは，ただ推定方法の革新や，分布などの概念の導入にとどまるものではない。モデルによる現象の説明はもちろん，現象の予測にまでその判断基準が設けられ，その上でモデルの母体となる理論の妥当性を求めることになるだろう2_。少なくとも技術上は可能なのだから，後は我々心理学者が予測をしたかったのかどうかをしっかり問い直し，決意しなければならない。 3.2 ベイジアンは研究的思考のマナーである 竹田（2004）は「現象学が思考の原理である」という。何らかの唯一の真実があるという前提からは，真か偽かのどちらかという結論しか生まれないため，信念対立が必然的に生まれてくる。それを超えて建設的な議論をするためには，いったん目の前に事象がどのように立ち現れてきているかに神経を研ぎ澄ませ，他者と共通の了解が得られる領域を共有するところから始めなければならない（竹田，2004）。科学は議論の蓄積，すなわちコミュニケーションであるから，互いの共有領域をより広げていけるように，我々は現象学的態度で挑まねばならず，一般に共通するルールなので「原理」なのだという。心理学者は統計のユーザーであってメーカーや専門家ではないのだから，ツールのマニュアルさえあれば良い，という考えもあるだろう。しかし科学者として自らを位置づける者は，竹田（2004）の意見に異論は持たないのではないだろうか。さて，心理学はもちろん統計学においても，人間の営みである以上は絶対的な真のモデルというのは知り得ない。ベイズファクターやWAIC （渡辺，2012）など，モデルの正しさを表現する指標はあるが，いずれも相対比較しかできない。我々が心の機構について想いを馳せるとき，どのような前提（事前分布）のもとで，どのような仕組み（尤度）を考えたのかを，誤解なく伝わるように自然言語でなく数式を使って表現すること（竹澤， 2018）は，もはや（筆者は原理とまでは言わないが）研究的思考のマナーとして受け止められるべきであり，それを表しているのが式（1）のベイズの公式なのである。ベイジアンと頻度主義を対比して語るのは，実験計画法や分散分析を創始したR. A. Fisherがベイズ統計の考え方に批判的であったために，ベイズ統計学に関する論文が掲載されなかったという歴史的背景によるところもある（McGrayne, 2012）。なかでもその批判点は，事前分布に対してなされることが多い。こうした批判に対して，Kruschke （2014）は上述の「24 回投げて7回は表が出た」という例が釘の話だったらどうか，という。釘が頭の部分を底にしてピンと立ち上がったら表，そうでなかったら裏だと設定し，24施行中7回ピンと立ち上がったとしても，帰無仮説検定のアプローチではこの釘が公平な（立ち上がるかどうかが 50％であるという）帰無仮説を棄却できない。常識的にはなんらかの仕掛けを疑うところだが，事前になんら思い込みを持たないというのであれば，そしてデータ生成過程に言及しないのであれば，公平な釘と結論するしかない。このとき物理的な法則を加味して，そもそも表が 出にくいだろうという事前分布を置けば（例えばBeta （θ | 2, 20）などの事前分布を置けば），正しい判断に寄与 することができるにも関わらず。それでも前分布を恣意的に置くことに関しては，批判が残るかもしれない。その場合は事前分布のパラメータを様々に変化させたり，違う確率分布を事前分布とすることで，結果がどの程度変化するかを検証の対象にすることができる（感度分析という）。もし異なる確率分布を事前分布にした時でも，結果として注目するパラメータの推定値に大きな違いがないのであれば，事前分布に対して頑健な結果として受け取ることができる。結果が大きく変わるようであれば，改めてその事前分布の妥当性が問われることになるだろう。特に科学論文の評価にあたっては事前分布をどのように置くのが妥当なのか，何をもって自然な仮定とするのかといった問題が生じうる。しかし少なくとも，自らの仮定が何であるかを明示しておくべきである，という意見に異論はないだろう。帰無仮説検定のアプローチの利点は，対象がコインであれ，釘であれ，なんらかの心理学的事象であれ，厳格な手続きに沿って検証を行えば誰にでも結論が出せることである。だからこそ我々心理学者は，統計学の専門家になるまえに，いちユーザーとして機械的手続きの習得に努めれば良いのであった。ただこのことが，手続きマニュアルを精読せず，意図せず間違った使い方をしたり意図的に悪用したりするという悪習慣を招いてしまっている。自戒を込めていうが，心理学者のこれまでの統計 2_{AIC など最尤法の枠組みの中でも予測という観点は} あるが，ベイジアンモデリングの方が事後予測分布などを示すことでより具体的な予測にも重点を置いていると言えるだろう。

(6)

に対する態度は，マニュアルを熟読せず，わかったつもりで，あるいはどこかで理解を諦めつつ，使えればよいという不真面目なものではなかったか。もっとも，この気軽な関係は心理学という学問の発展には大きく寄与したはずであり，その意味でも従来の統計法を一概に批判できないという弱みを我々は有しているのかもしれない。 4. 心理統計学の展望 4.1 前提条件を共有するために 心理学者にとって統計はたかがツール，されどツールという位置づけであったかもしれない。とはいえ，いちユーザーとしての立場以上に，科学コミュニティに関わる人間のより一般的なマナーとして，前提と自らのアイデアを明示するという振る舞いは身につけておくべきであろう。帰無仮説検定を行うのが良い悪いということ以上に，どういった前提条件にたって，どのような分析手法をとるのかを明らかにする，マナーを身につけなければならないのである。 2.2節で述べたように，ベイジアンのアプローチにはいくつかの利点がある。探索的な研究の場合は，「どの程度効果が見積もれるのか」という程度問題から始めるのが妥当であり，いきなり真偽の決着をつける頻度主義的意思決定問題にするべきではない。ベイジアンは厳格な例数設計がなくとも，モデルとデータの関係で見積もりを立てることができる。モデル（尤度 × 事前分布）は自由に立案でき，数式で表現されることで一般性を保って議論することができる。また「今日の事後分布は明日の事前分布」（Lindley, 1972）と言われるように，知識を積み重ねていくことがベイジアンの利点の一つでもあるから，まずやってみるというのであれば，ベイジアンとの相性は特に良いと言えるだろう。このとき，結果はどのようなものであれ，程度で表現される。すぐに効果が「ある/ない」という結論ではなく，大きくある，小さくある，という結果の示され方は，努力が無駄になったという誤解を避けることができ，ひいては file drawer問題の解決に貢献することになるだろう。議論が深まり，複数のモデルを比較して雌雄を決する必要になった段階まで進むと，帰無仮説検定の真価が発揮される。効果の有無やモデルの優劣など，一定の結論を出すことができるため，より客観的で公共性の高い情報を提供できるだろう。もちろんその際には，例数はもちろん実験デザインの事前登録やチェックの必要性があり，個別の研究室内での努力を超えて科学コミュニティとして運用するべきかもしれない。理想的には，実験者・被験者・分析者というそれぞれが，しっかりと分業されており，論文執筆者も含めてそれぞれがメリットを享受できるような，評価システムの設計も必要かもしれない。 4.2 新しい統計学と心理学教育 再現性の問題も含めて，これらのマナーを身につけるためには，心理学教育のカリキュラム全体が関わる必要がある。ベイズ統計学は，初学者に対する教育的側面についても利点が多い。2.2節で述べた例数設計や解釈の容易さに加え，データ生成メカニズムを考える自発性と創造性を育むことができる。また「なぜそのような確率分布を用い，その検定統計量に変換しなければならないのか」といった疑問を封殺し，計算手続きだけを教え込むことによって，嫌悪感を増幅させるようなこともない。帰無仮説検定の緻密なロジックの組み立ては，針の穴一つ開いた途端に瓦解するような危険性を持っており，初学者にとってはより間違いにくい利用法としてのベイズ統計の方が適していると考えられる。もっとも，ベイズ統計教育を広めるためには，教える側にも結果を読み取ったり方針を示したりできるような，技量や能力が求められる。どのような問題であっても平均値の比較に帰着させれば良い，という画一的な教育はできず，ケースバイケースの指導が必要になるようであれば，その教育コストは膨大なものになるかもしれない。またベイズ統計学の初学者からよく聞くこととして，独創的なモデルを作るためにはどのように学べばよいのか，というものがある。想像力豊かにモデリングを楽しんでいる例（豊田，2018）を見ても，そもそもどうしてそのようなアイデアを得るのか，それをどう伝えればよいのかについては，まだ標準的な学習コースが整備されているとは言いがたい。これについては，先行研究を見て学ぶ，その領域での基本的な学習コースを辿るという必要があり，ベイズに限らずモデリングという観点からテキストを探す必要があるのが現状である。もっとも，心理学領域特有の典型的なモデルについては，分析パッケージとして提供されているもの（例えばBürkner, 2017; JASP Team, 2018）を使うなどして始めて行くこともできるだろう。 4.3 意味に向き合う 最後に，今後の心理統計学の展望に言及しておきたい。アメリカ心理学会では既にp値のみで議論するのではなく，効果量も併記するようマニュアル化している

（American Psychological Association, 2010）。本邦においてもそれに追従する動きはあるが，これをただの数値基

(7)

準の加筆修正に止めてはならない。確かに標準化された差は，各種の実験報告を超えて（単位に依存せずに）効果の大小関係を比較することができる。しかし標準化された差がどれぐらいだったら「実質的に意味があるか」ということについてまで検討がいたらず，p値の0.05という基準と同じように，Cohen （1988）の指標を鵜呑みにして使ってしまっていては同じことなのである。今こそ実質的な差（豊田，2009）について，各領域で議論を進めなければならない。これは統計学の主流が何主義になっても変わらない問題，心理学における妥当性の問題である。行動指標に密着した数字，データを生成するメカニズムを直接モデリングできるようになると，数字の意味が具体的であるが故に，直接的にその意味を考えざるを得なくなる。 Kruschke （2018）はp値の代わりに事後分布の最高密度区 間と，実質的に等価とみなせる範囲（Region Of Practical Equivalence; ROPE）を設定することで，帰無仮説検定の問題点を克服できると論じているが，このROPEの幅をどれぐらいに置くのかについては，各研究領域で議論して定めねばならない問題である。ベイジアンとて，アプリオリにこの大きさであればよいと決めてかかるわけにはいかないのである。もちろん実質的な差，実質的に等価とみなせる範囲について，各研究領域で「この大きさにしよう」というコンセンサスを作るのは大変なコストであり，即座に対応できるというものではない。しかしそれでも，この方向に向けての議論を始めなければならない。尺度の妥当性，構造方程式モデルの妥当性が問題になってきたように，データの意味をより深く理解し共有しなければ，心理学の未来はない。広く知見を積み重ね，現象を説明するモデルや，モデルを説明する理論を作り，予測にも責任を持てるような心理学を作るためには，マナーとしての新しい統計法を受け入れていかなければならないのではないだろうか。引用文献

American Psychological Association (2010). Publication

man-ual of the American Psychological Association (6th ed.).

Washington, D.C.: American Psychological Association. （前田樹海・江藤裕之・田中建彦（訳）（2011）. APA論

文作成マニュアル第2版医学書院）

Bürkner, P.-C. (2017). brms: An R Package for Bayesian Multi-level Models Using Stan. Journal of Statistical Software, 80, 1–28, DOI: http://dx.doi.org/10.18637/jss.v080.i01

Cohen, J. (1988). Statistical power analysis for the behavioral

sciences (2nd ed.)．Hillsdale, NJ: Lawrence Erlbaum.

南風原朝和（2014）．続・心理統計学の基礎――統合的理解を広げ深める――心理統計学の基礎（第2巻）有斐閣池田功毅・平石界（2016）．心理学における再現可能性危機――問題の構造と解決策―― 心理学評論， 59, 3–14.

JASP Team (2018). JASP (Version 0.9)［Computer software］． URL: https://jasp-stats.org/

加藤司（2018）．『パーソナリティ研究』の新たな挑戦 ――追試研究と事前登録研究の掲載について―― パーソナリティ研究，27, 99–124. DOI: http://dx.doi.org/ http://doi.org/10.2132/personality.27.2.11

Kruschke, J. （2014）. Doing Bayesian data analysis (2nd ed.). New York: Elsevier.

（前田和寛・小杉考司（監訳）（2017）．ベイズ統計モ

デリング――R, JAGS, Stanによるチュートリアル――

原著第2版共立出版）

Kruschke, J. K. (2018). Rejecting or accepting parameter val-ues in Bayesian estimation. Advances in Methods and

Prac-tices in Psychological Science, 1, 270–280, URL: https://doi.

org/10.1177/2515245918771304

Lindley, D. V. (1972). Bayesian statistics, a review. Philadel-phia, PA: SIAM.

McGrayne, S. B. （2012）. The theory that would not die: How

Bayes rule cracked the enigma code, hunted down Russian submarines, and emerged triumphant from two centuries of controversy. New Haven & London: Yale University Press.

（星冨永（監訳）（2013）．異端の統計学ベイズ草 思社）

三浦麻子・岡田謙介・清水裕士（2018）．統計革命― Make statistics great again― 心理学評論，61, 1–2. 岡田健介（2014）．ベイズ統計による情報仮説の評価は 分散分析にとって代わるのか基礎心理学研究，32, 223–231. 岡田謙介（2018）．ベイズファクターによる心理学的仮 説・モデルの評価心理学評論，61, 101–115. 大久保街亜・岡田謙介（2012）．伝えるための心理統計 ―効果量・信頼区間・検定力― 勁草書房清水裕士（2018）．心理学におけるベイズ統計モデリング心理学評論，61, 22–41.

Sober, E. （2008）. Evidence and evolution: The logic behind the

science. Cambridge, UK: Cambridge University Press.

（松王政浩（訳）（2012）．科学と証拠――統計の哲学入門―― 名古屋大学出版会）竹田青嗣（2004）．現象学は思考の原理である筑摩書房竹澤正哲（2018）．心理学におけるモデリングの必要性 心理学評論，61, 42–54. 豊田秀樹（2009）．検定力分析入門東京図書豊田秀樹（2016）．はじめての統計データ分析――ベイズ的〈ポストp値時代〉の統計学―― 朝倉書店豊田秀樹（2018）．たのしいベイズモデリング――事例で拓く研究のフロンティア―― 北大路書房渡辺澄夫（2012）．ベイズ統計の理論と方法コロナ社吉田寿夫（1998）．本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本北大路書房

新しい統計学とのつきあい方