帰納論理とベイズ統計
髙橋 和孝
1,a) 概要:帰納推論の本性に関する議論には 2 つの異なるアプローチの仕方がある.一つは論理学的なもので あり,もう一つは統計学的なものである.これまでこの 2 つのアプローチは全く異なる研究伝統に属して きたが,近年その数理的関連性に注目し,そこからより実り豊かな応用を引き出そうとする試みが現れて いる.本論では,こうした試みの一端を紹介し,論理と統計を結ぶアプローチがどこまで有望なものであ るのかを議論する. キーワード:帰納論理、ベイズ統計1. はじめに
1.1 論理と統計 本論は論理と統計の関係に焦点を当てる.論理的推論と 統計的推論という二つの推論様式には,少なくとも形式的 には明確な違いがあるように見える.論理的推論とは,前 提となるいくつかの文の集まりから,結論となる文を一定 の規則に基づいて導出する試みである.一方,統計的推論, すなわち推測統計学の目標とするのは,ある統計モデル(確 率分布族)を仮定した上で,データを生成している母集団 の性質(モデルのパラメータ)を推定/検定することにあ る.しかし近年,特にベイズ統計学において,論理と統計 という異なる推論様式に横たわる数理的関連性に注目する 研究が現れ始めている(Skyrms1996, Festa1993, 2011).本論 ではこうした試みの一端を紹介し,それがどの程度有用な もので,また,さらなる展開にとってどのような問題があ るのかを論じる. 1.2 確率の主観説と論理説 本論が着目するのは統計的推論の中でも特にベイズ流の もの,すなわち今日ベイズ統計学と呼ばれているものであ る.これは歴史的には,デフィネッティやラムジーなどの 確率の主観的解釈に由来し,サヴェッジによってその方法 論的基盤が固められた統計手法である.フィッシャーらに よって完成された,パラメータの値を固定的に捉える「正 統な」統計手法と異なり,それを確率的に変動するもの(確 率変数)として捉えるのがベイズ統計の大きな特徴である. つづいて論理学の歴史に目を転じてみると,妥当な論理 的推論(演繹的推論)の形式についての研究はフレーゲ(よ り古くはアリストテレス)まで遡ることができる.カルナ ップはこれを帰納的推論にまで拡張しようと試みた.彼は ―――――――――――――――1. School of Science, Hokkaido University, Japan a). [email protected] 確率を文と文との論理的関係とする,確率の論理的解釈に 基づいて帰納論理の体系を構築した. このように両者は確率についての異なる解釈から出発し た,ともに「正統」から見れば「異端」の体系として発展 してきたが,近年その数理的関連性に注目が集まっている. 論理と統計を結ぶこうした関連性は一体何を意味しており, 我々はそこから何を引き出すべきなのか.以下では,これ ら二つの方法の基礎をできるだけ詳しく紹介しながら,こ うした問いに対する答えを順を追って論じていきたい.
2. ベイズ統計学の基礎
本節ではまずベイズ統計学の方法について,特に後の議 論で重要になる予測分布の導入を目標として紹介する. すでに述べたようにベイズ統計学の最も特徴的な事項は, 統計モデルのパラメータを確率変数として考え,パラメー タの確率分布とその変化を考察の対象とすることにある. いまある変数 の値がパラメータ で特徴付けられるある確 率分布 に従って生成されていると仮定しよう.すな わち我々は という統計モデルを立てるのである.もしある実現値 を得 たとすると, は の関数と見做すことができる.そこ でこの関数を と書き,これを のもとでの の尤 度関数と呼ぶことにしよう.このとき を確率変数と見做し, その確率分布 (事前分布)というものを考えると,そ れは次のベイズの定理に従って別の確率分布 (事後分 布)へと変化する. こうして得られた事後分布を用いることによって,我々はパラメータ の推定/検定を行うのである.例えば,事後分 布で評価した の期待値 は に対するひとつの点推定量を与える. 次にベイズ統計学における予測の方法を見てみよう.一 般に予測とは,変数 について既知の実現値 に基づいて, 未知の実現値 を推測する試みである.ベイズ統計学ではこ れを, のもとでの の条件付き確率分布 を用いて行 う.これを予測分布と呼ぶ.予測分布 は,既知のデー タと未知のデータが,互いに独立で同一の確率分布に従う 確率変数の実現値であるという仮定のもとで,以下のよう にパラメータ の事後分布を用いて展開できる. このように推定/検定そして予測の多くに積分計算が現れ るのもベイズ統計学の大きな特徴である. ベイズ的予測の最も簡単なケースは,試行がベルヌーイ 的である場合である.すなわち,実現値として 1(成功)か 0(失敗)という 2 値をとる離散確率変数列 があり, そ れ ぞ れ の 確 率 変 数 が 互 い に 独 立 に 同 一 の 確 率 分 布 に従うという状況である.この とき,変数の和 は二項分布 に従うことがわかる.この二項分布を尤度関数 とし,事前分布 を一様分布とすると,事後分布 と してベータ分布が得られる(一様分布はベータ分布の特別 な場合である).さらにここから予測分布を導くと,解析的 な手段によって次のようなシンプルな表式が得られる. 例えば,10 回の試行中 8 回成功というデータ( ) を得たとき,11 回目の試行の結果として成功というデータ ( )を得る予測確率は 3/4 となる. 以上の例では,必要な積分計算が解析的に実行できるよ うなケースを紹介してきた.しかしながら,現在のベイズ 統計学は,計算機の改良によってモンテカルロ法による数 値計算が次第に浸透するに従って,その適用範囲を大きく 広げている.
3. 帰納論理
素朴な意味での帰納的推論は,統計学という一つの学問 分野の成立以前からなされてきたに違いない.その典型的 なものは次のような形式の推論である. 2 日前,東から太陽が昇った. 昨日,東から太陽が昇った. 今日,東から太陽が昇った. 明日,東から太陽が昇る. この結論自体に面白味があるかどうかは別にして,こうし た帰納的推論すべてに共通する,何か普遍的な特徴が存在 するのかどうかという問題は検討する意義がある.カルナ ップは文の形成規則が明確に規定された人工言語を用いて この問題を体系的に分析した最初の人物である.本節では カ ル ナ ッ プ の 帰 納 論 理 の 体 系 ( 連 続 体 ) を 主 に マ ー (Maher2004)に従いながら紹介する. 3.1 基本的枠組み 帰納論理の基本的枠組みは,確率の論理的解釈を推し進 めることによって得られる.すなわち,ある帰納的推論に おいて,その前提となっている文の連言と,その結論とな っている文との論理的関係を 0 から 1 までの実数によって 表現する.そしてその割当てられた実数をその帰納的推論 の確率と解釈するのである.このことをもう少し形式的に 展開してみよう.いま, 個の個体 と 個の排他 包括的な述語 ,そして などの論理結合子を 含む人工言語 を導入し, から形成されるすべての文(論 理 式 ) か ら な る 集 合 を と す る . 例 え ば , や は の要素である.帰納論理において特に重要 となるのは,状態記述 state description と呼ばれる形式の文 である. 個体の状態記述とは,個体 の各々に対 して述語 のいずれかが付与され,これらの連言 をとった文のことをいう.例えば,文 は 3 個体の状態記述である.ある状態記述 に対して,そこに現 れる個体を任意に置換することで別の状態記述 が得られ るとき,2 つの状態記述 は互いに同型 isomorphism であ るという.以下はすべて互いに同型な状態記述である. 以上の基本概念を踏まれた上で,次の公理(A1)-(A9)を満 たすような写像 を帰納的確率 inductive probability と呼ぶことにする.(これはマーの表現である. カルナップの表現は確証度 degree of confirmation) を任意の文, を任意の互いに同型な状態記述とするとき, (A1) (A2) (A3) (A4) (A5) (A6) (A7) (A8) (A9) は に含まれる の個数にのみ依存する. において が前提, が結論に対応付けられる.公理 から, , という関係が得られ るが,これは帰納論理の体系が演繹論理の特殊な場合とし て理解できることを示している.これにより,本節の冒頭 で挙げた帰納的推論の確率(帰納的確率)は,形式的に の値を評価することで得られる. この値が 1 に近いほどその帰納的推論はより信頼できると いうことになる.すなわち, が最も信頼できる場合で あり,それは演繹的推論(論理的に妥当な推論)に限られ る.また が最も信頼できない場合であり,それは論理 的に矛盾している(前提を真としたとき結論が必ず偽にな る)ときに限られる. ここで が「帰納的」な「確率」である所以を説明しよう. 前者は(A8)に,後者は(A1)-(A5)に関わる.まず が確率であ る理由は,測度論的確率論の公理と(A1)-(A5)の同値性にあ る.すなわち,標準的な確率論の公理によって得られるも のと同様な関係が(A1)-(A5)によっても得られる.例えば, 標準的な確率論の公理から という関 係が得られるが,これと同様の内容を持つ関係として(A3) から直接に が得られる. が帰納的である理由は,それが(A8)を満たすということ に関わる.そこでこの公理の持つ意味を詳しく説明しよう. (A8)において とは, から までの個体と述語 を含む任 意の文とする.例えば, とすると, が の一つの候補となる.よってこの場合には(A8)は次のこと を表している. つまり,前提において述語 によって指示される性質を有 する個体の数が多ければ多いほど,結論において別のある 個体がその性質を有するという推論はより信頼できるもの になる.これを本節冒頭の例に即して言うと,明日も東か ら太陽が昇るという結論は,昨日までのデータよりも 2 日 前まで,2 日前までのデータよりも 3 日前まで遡る方がより 信頼できる,すなわち強い帰納的推論の結論であるという ことである.このようにデータが増大ごとに結論の信頼性 が増大するという想定は,我々が帰納的推論を行う上で最 も根底に置いているものではないだろうか.この意味で を 特徴付ける(A8)はカルナップの帰納論理の体系を「帰納」論 理たらしめる最も重要な公理であると言えるだろう. 3.2 連続体 帰納的推論のなかで最も典型的であるものは,上述の のような 個の個体の性質を前提 として 番目の個体の性質を導出する型のもの,すなわ ち枚挙的帰納法であろう.この特別な場合に関しては, (A1)-(A9)を満たすものとして は次のようなシンプルな関 数型になることがわかっている. 左辺において とは, が肯定を, が否定を表す記号であ り,各々の項でそのいずれかをとるものとする.右辺の は の前提に肯定( )が何個含まれているのかを表し, は ごとに決まるパラメータ, は単一のパラメータを表す.帰 納論理のなかでもこの簡単な場合(枚挙的帰納推論の帰納 確率)を特に 連続体 continuum という. 連続体に現れる 2 つのパラメータ と には それぞれ固有の意味がある.まず の意味について説明しよ う.いま仮に前提が何もない場合,すなわち我々が利用可 能な情報を何も持たない場合を考える.これを と 解釈すると, が成立することがわかる.よって とは, 無前提(無情報)において,ある個体が述語 によって指 示される性質を有する帰納的確率を表していると解釈でき る.ではその値を具体的に決めるにはどのようにすればよ いであろうか.カルナップはここで述語の論理的空間と呼 ばれるものを導入する.色を例にこれを説明しよう.色を 表現する述語として「赤」「黄」「緑」「青」という 4 つのも のを導入し,それぞれを によって表すとしよう.こ のとき問題は各 が占める論理的空間の大きさをど のように与えたらよいのかということである.ここで注目 したいのは,色,すなわち可視光は電磁波のある特定の波 長領域(約 400nm-700nm)に対応しているという物理学的 知見である.これを認めるとすると, (赤)という述語 の論理的空間の大きさとは,可視光の全領域に占める「赤」 という語が支持する領域として解釈される.他の述語につ いても同様である.このとき各述語の論理的空間の境界を どこにとるかについては多少の恣意性を免れないが,その 境界が我々の言語的規約といて事前に共有されていれば問 題はない.要するに, とは我々の言語的規約として設定さ れる の論理的空間の大きさであるという意味付けがなさ れるのである. 次に の意味について説明する.いま仮に とすると
となり,これは全個体のなかで述語 によって指示 される性質を有する個体の数,すなわち相対度数(頻度) を表す.また とすると, は に収束する.このこと から の意味を次のように述べることができる. の値が小 さければ小さいほど(0 に近いほど) は経験的要因(アポ ステリオリ性)が重視され, の値が多きければ大きいほど は言語的要因(アプリオリ性)が重視される.すなわち と いうパラメータの導入によって,体系の経験依存性の度合 いを連続的に調整することができるのである. 以上で,カルナップによって展開された帰納論理の体系, 特に 連続体の枠組みの説明を終える. 連続体は主に枚挙 的帰納法に適用される論理であったが,カルナップ自身や それ以降の人物,例えばヒンティッカ,ニイニルオトなど によって,アナロジー(類比)などのより広い意味での帰 納的推論に対しても適用可能な帰納論理の開発が試みられ た.また近年では,多項述語を含む言語への一般化を図る 試みもある.しかし,本論に述べるテーマのエッセンスは すべて 連続体のなかに含まれているので,こうした試みの 紹介は省かせていただく.
4. 2 つの体系の数理的関連性
前節までは,異なる確率解釈(主観説と論理説)から出 発して,一方では「統計学的」手法であるベイズ統計学の 枠組みを,他方では「論理学的」手法である帰納論理の枠 組みを概説してきた.この 2 領域は今日では全く異なった 学問領域に属しているが,どちらも確率の概念を用いて展 開される体系であること以上の類似性を備えている.ベイ ズ統計学の興隆に伴って,こうした類似性に着目する議論 (Skyrms1996),さらにはこれを利用してベイズ統計学の内 在 的 問 題 に 積 極 的 に 解 法 を 与 え よ う と す る 議 論 (Festa1993,2011)が提出されている.本節では,ベイズ統 計と帰納論理に存す数理的関連性からその類似性について 論じたい. いま,あるフェアでないコインを投じて表が出るか裏が 出るかを,そのコインを 回投じたときの結果(表が出た回 数)に基づいて予測,ないし,推論するという状況を考え る.まずは,この問題をベイズ統計学に基づいて分析して みよう.コインを 1 回投じたときに可能な結果は,表か裏 かの 2 通りしかないので,表が出る確率を とし,この確率 が試行を通して不変であると仮定する.すると, 回のコイ ントスで表が出る回数は二項分布に従うことがわかる. 我々の目標は,実際に表が何回出たかに基づいて, 回 目のトスで表が出ることを予測確率によって予測すること にある.2 節での議論により,尤度関数が二項分布で,さら に事前分布として一様分布をとった場合に,表が出ること の予測確率は, で として次のようになる. これに従うと,例えば 10 回のコイントスで 8 回表が出たと き に , 11 回 目 の ト ス で 表 が 出 る と い う 予 測 確 率 は , より と求めることができる.表が出た頻度が同じであっても, コインを投じた総回数が異なれば予測確率は異なった値と なる.例えば,100 回のコイントスで 80 回表が出たとき, より,頻度は先の例と同一であるが,予測確 率は となり,より頻度に近い値となる.これはデータが増大す ることによって事前情報のウェイトが相対的に減少するこ とによって生じる. 次に同じ問題を帰納論理に基づいて分析してみよう.ま ず 回のコイントスの結果を前提, 回目のコイントス の結果を結論とする推論を立ててみると次のようになる. 1 回目のコイントスの結果は表/裏であった. 2 回目のコイントスの結果は表/裏であった. … n 回目のコイントスの結果は表/裏であった. n+1 回目のコイントスの結果は表/裏である. この推論を人工言語 に翻訳する. 回目のコイントスを個体 によって,表,裏という述語をそれぞれ によって 表現しよう.すると上の推論は枚挙的帰納法であるから, 帰納的確率は 連続体 によって与えられる.いま,表,裏という述語の論理的空 間は互いに等しいとしてよいであろうから が成り 立つ.すると 10 回目のコイントスで 8 回表が出たという前 提から 11 回目のコイントスで表が出ると結論付けるような 推論の帰納的確率は, より, だけの関数とな る. の場合,帰納的確率は予測確率に一致することが わかる. 一般にベイズ的方法における予測確率は事前分布の取り 方に応じて異なった値になる.試行がベルヌーイ的であれば,事前分布をベータ分布に取る限り, 連続体との間に常 に対応関係が存在することが示されている(Skyrms1996, Festa1993, 2011).ベイズ統計の予測分布と帰納論理の 連続 体の間に横たわるこうした数理的関連性を応用して,フェ スタらはベイズ統計の事前分布を最適化する方法を提案し ている.
5. 論理と統計の類似と相違
これまでは論理と統計の関係を,確率の論理説に起源を 置く帰納論理と主観説に起源を置くベイズ統計の数理的関 連性に注目して論じてきた.では両者の間に数理的関連性 を超えた概念的関連性というべきものは存在するのであろ うか.本節ではまず,論理と統計に横たわる相違に注目し, そのギャップを徐々に埋めていくという形で,両者の可能 な限りの歩み寄りを論じてみたい. まず注目したい相違は,統計学は実際の統計的推論の方 法を提供している一方で,帰納論理は実際の帰納的推論の 方法を何ら与えていないように思われる点である.これは ベイズ統計が現実に実用化され始めているのに対して,帰 納論理がそれに程遠いという事実に現れている.では帰納 論理を実際の帰納的推論に応用することはいかにして達成 できるのであろうか. 帰納論理の目標は文と文の論理的関係を確率によって与 えることにあった.確率を計算することによって推論の信 頼性を評価することができる.しかし実際の場面で我々が 知りたいのは,ある結論を既知とした推論がどれほど信頼 できるかではなく,結論そのものが何であるのかという点 であろう.これを可能にするため,著者はカルナップ以来 の帰納論理の体系に,次のような原則を付与したい. 帰納的確率最大の原則 前提となる任意の文 に対して,結論 は以下で与えられる. この原則をコイントスの例に適用してみよう.例えば,5 回 のコイントスについての前提 1 回目のコイントスの結果は表であった. 2 回目のコイントスの結果は表であった. 3 回目のコイントスの結果は表であった. 4 回目のコイントスの結果は裏であった. 5 回目のコイントスの結果は表であった. から 6 回目のコイントスの結果についてどのような結論が 得られるかという問題を考えよう.人工言語 に翻訳すると, この前提は と表現できる. 次にこれに対する帰納的確率 をいろいろな文に対して計 算したい.そこで として 連続体(2)を用いると, 帰納的確率最大の原則により,結論は ,すなわち「6 回目のコイントスの結果は表である」という結論が得られ た.この原則は 連続体に限らず,アナロジーを含む一般の 帰納的推論や多項述語を含む文に対してもそのまま適用で きる.帰納的確率最大の原則は,前提から結論を導く方法 論としての帰納論理の解釈を可能にする. 統計的推論において,帰納的推論と最も結び付きが深い と思われるのは統計的予測である.すでに述べたように, 予測とは既知のデータに基づいて未知のデータを推測する 手法である.これはオーソドックスには次のような流れで 行われる.まず,既知のデータに対して,統計モデル(確 率分布族)を立て,パラメータの推定/検定を行い,その データを生成しているところの確率分布を推測する.そし てこの確率分布を用いて,未知のデータについてその値の 発生確率を得る.ベイズ統計においてはパラメータそのも のが確率変数と見做されるので,各パラメータに対応する 確率分布もまたそれ自体確率的に変動する.よって,未知 のデータの予測は,ある確率分布の下でのデータの発生確 率をその確率分布の確率で重み付けることによって得られ る.こうしてなされたベイズ的な予測において,我々はあ る一定の条件の下で 連続体と数学的に同一な結果が得ら れることを見てきた.今や我々は 連続体(枚挙的帰納法) とベイズ的予測の間に,一方では文から文の導出,他方で はデータからデータの予測という平行関係を読み取ること ができるであろう. 論理: 文 文 統計:データ データ しかしこれは同時に論理と統計の決定的な違いを浮き彫 りにしている。なぜなら,論理に関わるものとしての文と 統計に関わるものとしてのデータとは互いに交換可能な概 念であるとは思われないからである.論理においては,前 提となる文は所与とされ,結論の信頼性は専ら推論の信頼 性に存する.しかし,統計においてデータとは真なる確率 分布によって生成されるもの,すなわち確率変数である. 予測の信頼性はデータの背後にある確率分布としてどのよ うな関数型を想定するか,つまり統計モデルの選択の妥当 性に存する.論理は「推論形式」に焦点を当てるのに対し て,統計は「モデル」に焦点を当てる.論理は文の背後に 何らかの実体を想定しないが,統計はデータの背後にそれを生成している実体の存在を想定する.論理と比較した統 計の有用性は,その手法がこのような強い仮定の上に成り 立っていることにあるのである. 以上のように,論理と統計の間にはある種の平行関係が ある一方で,両者を完全に同一視することはできないこと がわかった.我々は両者の相違を正しく見極めたうえで, 論理と統計の相補的な関係を構築していかなければならな い.
6. 結び
本論では帰納論理とベイズ統計の関係に焦点を当ててき た.枚挙的帰納法とベイズ的予測の間に数理的関連がある ことを確認し,さらに概念的にどこまで接近できるかとい う問題を検討した.帰納論理では,前提となる文から結論 となる文の導出を帰納的確率の評価によって行う.一方, ベイズ統計では,既知のデータに基づいた未知のデータの 予測を予測確率の評価によって行う.さらに帰納確的率と 予測確率はある一定の条件の下では数学的に同一の値を取 ることがわかる.しかし論理と統計には,文やデータの背 後にある種の実体の存在を想定するのかどうかという点に 決定的な違いがある.論理において重要なのは文の真偽と は独立な「推論形式」であるが,統計において重要なのは データ生成に関わる「モデル」である.我々は論理と統計 のこうした違いを十分に理解した上で,両者の相補的関係 を目指さねばならない.参考文献
Carnap, R. (1971). ‘A Basic System of Inductive Logic, Part I,’ In Carnap, R. and Jeffrey, R. C. (eds.) Studies in Inductive Logic and Probability, Volume I. University of California Press. Carnap, R. (1980). ‘A Basic System of Inductive Logic, Part II,’
In Carnap, R. and Jeffrey, R. C. (eds.) Studies in Inductive Logic and Probability, Volume II. University of California Press. Festa, R. (1993). Optimum Inductive Methods. Kluwer Academic
Publishers.
Festa, R. (2011). ‘Bayesian Inductive Logic, Verisimilitude, and Statistics,’ In Bandyopadhyay, P. S. and Forster, M. R. (eds.) Handbook of the Philosophy of Science. Volume 7: Philosophy of Statistics. Elsevier B. V.
Maher, P. (2004). ‘Probability captures the logic of scientific confirmation,’ In Hitchcock, C. (ed.) Contemporary Debates in Philosophy of Science. Blackwell.
Skyrms, B. (1996). ‘Carnapian inductive logic and Bayesian statistics,’ Statistics, Probability and Theory 30: 321-336.