• 検索結果がありません。

特集:統計モデル選択 特集にあたって

N/A
N/A
Protected

Academic year: 2021

シェア "特集:統計モデル選択 特集にあたって"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

特集

統計モデル選択

特集にあたって

桧嶋 敏泰

=‖‖州l‖‖l‖lll‖‖=川=ll=l川Ill川Ill‖‖川‖川‖=‖=‖=‖=lll=lll=llll=川=ll=川州Il州Il‖l=‖=ll‖川‖l‖‖l川=lll川l‖=ll川Ill=llll川‖=lll川川‖仙l川川l 象が起る物理的メカニズム等,固有技術や経験的知識 からモデルが主観的に決定されることが多い. それに対して,データのみによって客観的にモデル を決定しようとする場合もある.この間題が本特集の テーマとなっているモデル選択問題である. らのみモデルを決定するといっても,まったく何も無 いところからモデルをつくり出すわけではなく,考慮 に入れるモデルのクラスはあらかじめ決定されてお り,その中からモデルを選択することになる. 例えば,この例題では諾とyの関係を表すモデルの クラスとして,多項式回帰モデルのクラスを仮定して いるとしよう.この多項式回帰モデルクラスの中から あるJ次の回帰モデルを選択(同時にパラメータも推 定)することは,一つの典型的なモデル選択問題であ る. J次の回帰モデルを用いることが決まってしまえば, そのパラメータα0,α1,…,αJは次式で示す誤差βを最 小化する最小2乗法によって推定され■,回帰式はパラ メータを含めて完全に決定される. g=∑(机−α0+α1れ+α2∬ヲ+…+α′頼2・ l この誤差5は,∬よが与えられたもとでのyのモデル上 での平均値と実現値の2乗誤差を表している.これは モデルのデータに対する適合度の一つの基準と考え られる. 最小2乗法によって決定された∼次の回帰式は∼次 の回帰モデルの中では,誤差5の評価基準のもとで最 適なモデルとなっている.またこれは,以下の(対数 )尤度を最大化するという基準においても最適なモデ ルとなっている. エ=logj⊃((ご,y)れlαJ,J,〝り). 多項式回帰モデルのクラスの中の各モデル間の比 較にも・,この道合皮の基準をそのまま用い,誤差∫を 最小化するモデルを選択すればれば,モデル選択の問 題は解決しそうに思える.しかし問題はそれほど簡単 オペレーションズ・リサ岬チ 本特集のテーマである統計モデル選択についてあ まり親しみのない読者の方も多いと伺ったので,モデ ル選択とはどんな問題か簡単な例題で説明してみた い. その日の最高気温ズを用いて,あるビアガーデンの 来店者数yを予測したいというようなニーズがあった としよう.このように思いついたのは,過去の経厳か ら∬とyとの間には何らかの関係があるのではと考え たからであろう.そして,予測を行うための第1歩と して,過去の几対のデータ(ごi,机),査=1,2,…,几を用 いて,ごとyの関係を説明する数式が導き出せないか 考えてみたい. ∬とyの関係を説明する式としてすぐ思い浮かぶの は,以下のような線形回帰式で、両者の関係を記述す ることではなかろうか. y=α0+α1∬+e・ ここで、eは平均0,分散J2(未知)の正規分布に従う 確率変数である. 最小2乗法で,この式の3つのパラメータα0,α1,J2 をデータから推定することによって,未知の係数がな くなり∬とyの関係式は一意に定まることになる.こ の求まった関係式を用いて,来店者数の予測などの様 々な意思決定を行うことが可能となる. この関係式はごとyが線形関係にあることを前程と したモデル上で求められたものである.ところが,両 者の関係は次のような∼次の多項式(J次の多項式回帰 モデル)でしか表すことができないかもしれない. y=α0+α1ご+α2∬2+…+αJ∬J+e・ さらに,この多項式でも託とyの関係はうまく表現で きず,指数関数やその他のもっと複雑な関数でしか表 すことができないかもしれない. 以上のようにどのモデルを用いて解析を行うかは, この間題に限らず統計解析において最初に決めてお かなければならない問題である.一般的には,その現 366(6) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

ではない. なぜなら,ある回帰モデルはそれより低次のモデル を含んでいるので,次数Jが高くなればモデルの自由 度は増し,与えられたデータに対する誤差gは必ず小 さくなる.1次の回帰モデルが直線,2次のモデルが 2次曲線とモデルの次数が高くなるにつれて次数の高 い曲線を表現できることとなり,データに対する適合 度が良くなることは直感的にも明らかであろう.極端 な場合を考えると,m−1次の回帰モデルを使えばg= 0の回帰式をつくれることになるので,和一1次の回帰 モデルが最適なモデルとして選択されることとなる. 本当にこの最高次のモデルがいいモデルなのであ ろうか.与えられたデータだけに過度に適合したモデ ルは,未知のデータの予測に利用できるのだろうか. 和一1次の回帰モデルの回帰モデルはm個の係数パラ メータを用いて表される.これでは与えられたれ個 のデータをそのまま記録しておくのと◆記憶容量的に 何ら変わらず,本来,データの特徴を抽象化して表す ためにあるモデルやミ,データそのものを残しておくの と全く変わらないことになってしまう. もう一度,モデルの良さの評価基準とは何かという ことを考え直さなければならな■くなってしまったよう だ.そこで少し視点を変えて,もう少し一般的なモデ ルの選択問題を考えてみたい. ここまで考えてきたモデルは,統計モデルであった が,工学,社会科学など様々な分野では様々なモデル が用いられている.数億データから統計モデルを推論 する統計モデル選択問題を一般化すると,事例からそ の事例全体の特徴を表す法則を導き出す問題ととら えられ,このような問題は帰納推論(学習)問題と呼 ばれている. 例えば,ある言語の文章の例からその言語の文法を 導き出す問題は代表的な帰納推論の問題であり,デー タは例文l;対応し,モデルは文法によって表現されて いることになる.また,ニュートンはリンゴの落ちる 事例を観察することで,万有引力の法則(ニュートン 力学モデル)を帰納推論したわけである. 宇宙の力学モデルとして,その後相対性理論をはじ め様々なモデルが提案されているわけであるが,アイ ンシュタイン,ホーキング等多くの天才物理学着たち は,宇宙のモデルはシンプルであるはずだという信念 のもとにモデルを構築している.シンプルなモデルほ どいいモデルであるという考え方は,古くから哲学者 の間で述べられていたことで,14世紀のスコラ学者 の名にちなんでオッカムの剃刀あるいはケチの原理な どとして知られている. 先ほどまでの回帰モデルの選択では,モデルの良さ をデータに対する適合度のみで評価していた.この 基準のみでなくモデルの単純さという基準も加えて モデルの良さを測ることも必要なのではあるまいか. しかし,この2つの評価基準は一般に両立しないこと は,回帰モデルの選択問題を考えれれば明らかであろ う.次数の低いモデルはモデルは単純であるが適合度 は低くなる.逆に次数の高いモデルは複雑であるが適 合度は高くなる. 一般にこの2つの基準はトレードオフの関係にあ り,どちらの基準に対しても最適なモデルは存在しな い.そこで,両基準を合わせた総合的な基準を用いる ことが考えられる.例えば,ある程度適合度があり, それほど複雑でない中庸なモデルを良いモデルと考 えるわけである. この2つの評価基準を総合したモデル選択の基準 を明瞭な式で初めて表したものが,赤池により1970 年代tこ提案されたAIC(AkaikeInformationCriterion)

である.AICは次式で定義され,この基準を最小化す

るモデルを選択することが提唱されている. AJC=(対数尤度)+(モデルのパラメータ数). 右辺第1項はデータに対する適合度,第2項はモデル の単純さを表していると解釈できる.例えば,多項式 回帰モデルの場合のAICは以下のように表される.

A∫C=logf)((ヱ,y)nlαJ,J,m′)+(∼+2).

AIC は真の分布とモデルとの距離を Kullback_ Leibler情報量で測った場合,最も近いモデルを良い モデルとするという仮定の下に漸近不偏推定量とし て導き出されたものであるが,得られた式はモデルの 適合度と単純性という2つの視点からの総合的基準 と解釈することが可能である. 2つの視点からのトレードオフ関係を見事に表現 したAIC基準は,その後提案された多くのモデル選 択基準に強い影響を与えた.モデル選択基準として

BIC(BayesInformationCriterion)やMDL(Minimun

DiscriptionLength)等様々な視点から数多くの提案が なされているが,どれもモデルの適合度と単純性とい う2つの視点からの解釈が可能である. これらのモデル選択基準の応用範囲は非常に広い. (7)36丁 1996年 7 月号 © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(3)

例であげた多項式回帰モデルの選択と類似の問題と しては,自己回帰モデルの次数を決定する問題や,重 回帰モデルにおいてどの説明変数を回帰式の中に取 り入れるかという変数選択問題がある. またヒストグラムのセルの区間の決定問題も典型 的なモデル選択問題といえよう.セルの区間を細かく して,各セルに1つか2つぐらいのデータしか出現し ないのでは,ヒストグラムの意味をなさないし,逆に 区間を広くしすぎてセルの数が少なくなってしまって も分布の特徴を表せなくなってしまう.このように考 えていくと,統計モデルを利用する現場で頻繁に直面 する問題に対し,モデル選択基準が有効であることが ご理解いただけるであろう. また,最近は純統計的問題ばかりではなく,例えば ニューラルネットワークの分野でもモデル選択基準が 中間ノード数決定などに用いられている.ニューラル ネットの中間ノードの数が多ければ,自由度が増し多 様な関数を表現できるが,逆に学習データに過度に適 合した重みパラメータになり,誤差分散をを多く含ん でしまう.そこで,適切なノード数決定のためにいく つかのモデル選択基準を用いた方法が提案されてい る.さらには,もっと一般的な帰納推論の分野におい てもモデル選択基準と関連した様々な研究が盛んにな ってきている. モデル選択基準が広汎な分野において利用されて いることが以上でご理解いただけたと思う.モデル選 択の研究は上記の問題を解決するのみにとどまらず, 良いモデルとは何かという,統計学の,あるいは工学 の本質的問題の考察を含んでいる奥の深いテーマと いえる. 本特集は,統計モデル選択に関する4編の解説論文 からなっている. 最初の松嶋による解説は,モデルの適切さの評価 を,モデルの利用目的からとらえた統計モデル選択の 概要となっている. 2番目の論文は,この分野の創始者である赤池氏御 自身にAICの解説をしていただいた.AICの基本的 考え方,導出の過程,そしてAICの影響を受けてそ の後に提案されたMDL,BICのモデル選択基準との 対比を通じて,AICの本来の意味について論じていた だいた.読者の方々にはAICの理解とともに,古典的 検定論,推定論の枠組みを超えてモデルの比較を行う ことを初めて可能にしたAICの意義を,歴史的視点 からも再確認していただけると思われる. 3番目の論文は,確率的コンプレキシティと学習理 論について山西氏に解説をしていただいた.データの 記述長を最小にするモデルが良いモデルであるとい うMDL基準は,Rissanenによって2段階符号化を 用いて提案された.その後MDLは様々な形に発展し, 近年は確率的コンプレキシティと呼ばれる概念にまと められるようになってきた.また,計算論的学習理論 にモデル選択基準を適用することで,従来検討されな かった視点からモデル選択基準に関する新しい知見が 得られてきている.今回の解説論文では,このような 情報理論,学習理論の両分野の視点からモデル選択の 解説をお願いした. 4番目の論文は,経営工学におけるモデル選択につ いて関氏に解説をしていただいた.モデル群の中から 1つのモデルを選択する場合に,1対のモデルに対し 検定を繰り返すことで最後に1つの仮説を選択するこ とも可能であるが,その比較回数は莫大であり,与え られた危険率のもとでの判定基準の設計は非常に困 難であろう.このような多重検定の問題に対してのモ デル選択の有用性や,逆にモデル選択を検定的に見た 場合の誤り率などについて,応用例を交えて解説して いただいた. 以上のように,この特集で執筆いただいた論文は一 編一編が個性的で,いままでのモデル選択の解説論文 とは一味違った内容となった.また,それぞれが異な った立場から独創的視点でモデル選択について論じて いただいたため,モデル選択問題の根底に流れる興味 深いテーマが,より一層浮き彫りになったのではと思 われる. 最後になりましたが,お忙しいなか原稿の執筆を快 諾していただいた執筆者の方々に心より感謝いたしま す.

368(8) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず. オペレーションズ・リサーチ

参照

関連したドキュメント

式目おいて「清十即ついぜん」は伝統的な流れの中にあり、その ㈲

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(( .  entrenchment のであって、それ自体は質的な手段( )ではない。 カナダ憲法では憲法上の人権を といい、

委 員:重症心身障害児の実数は、なかなか統計が取れないという特徴があり ます。理由として、出生後

ぼすことになった︒ これらいわゆる新自由主義理論は︑

賠償請求が認められている︒ 強姦罪の改正をめぐる状況について顕著な変化はない︒

単に,南北を指す磁石くらいはあったのではないかと思

神はこのように隠れておられるので、神は隠 れていると言わない宗教はどれも正しくな