The Google Way of Science ペタバイトレベル以上のきわめて大規模なデータベースができると、
人間の学習方法が変わってしまいそうな予感がある。今までの科学の方 法では、仮説を構築して観察したデータに合致させる、あるいは新しい データを集めるということをしていた。そこには数多くの観察がある。
どのような理論であれば、今までのデータをうまく説明することができ て、そこから次の観察結果を予想できるのか?
きわめて大量のデータがあれば、理論の部分は省略して、いきなり観 察結果を予想できるかもしれない。グーグルは早くからそのことに気づ いていた。たとえば、グーグルのスペルチェッカーを考えてみよう。グ グっているときに単語のつづりを間違えると、グーグルは正しいつづり を示してくれる。どのようにして正しいつづりの単語を予測するのだろ うか? 正しいつづりの理論を知っているわけではなく、またつづりの規 則を習得しているわけでもない。実際にはグーグルはつづりの規則など まったく知らない。
そのかわりに、グーグルは非常に大規模な観察結果のデータを持って いる。あるつづりについて、"X"という単語を書いたつもりなのかと質問 すると、Y 人の人が「はい」と答えることがわかる。グーグルのスペル エンジンはこのようなデータでできている。正しい英語のつづりがどん
第 16 章 グーグル方式の科学
なものであるかはまったく知らない。だから、同じシステムでどの言語 のつづりでも修正することができる。
実は、グーグルはその翻訳プログラムについても、大量のデータによ る同じ学習方法を使っている。そのプログラムは、人間が翻訳した文書 の大量のデータを比較照合することで、英語からフランス語へ、あるい はドイツ語から中国語へ翻訳する。たとえば、グーグルはその仏英翻訳 エンジンを訓練するのにカナダの文書を使っている。カナダの文書は英 語版とフランス語版の両方が発行されることが多い。グーグルには、言 語についての理論、たとえばフランス語の理論があるわけではないし、
また、人工知能翻訳機があるわけでもない。その代わりに超大量のデー タがあって、それが全体として「これからあれへ」、すなわち、ある言語 から他の言語への関連を決定する。
そのように翻訳システムを調整してしまえば、どの言語からどの言語 へでも翻訳できる。そしてその翻訳はかなり出来が良い。専門家のレベ ルではないが、要点を知るには十分である。中国語のウェブページを選 ぶと、少なくともそれが英語でどんな意味なのかという感じはわかるよ うになる。でも、グーグルの研究所長ピーター・ノーヴィグは以前、私に 自慢したことがある。「あの中国語翻訳プログラムを作っている連中は、
誰も中国語ができないんだ。」中国語の理論も理解もない。あるのはただ データだけだ。(サールの「中国語の部屋」という問題に対する反証が欲 しければ、ここにそれがある。)
つづりの法則について何も知らずに、正しい書き方を覚えることがで きるならば、また、翻訳しようとする言語の文法についての理論や概念 を知らずに、翻訳ができるようになるとすれば、そのほかに理論を知ら なくてもできることとしては何があるだろう?
第 16 章 グーグル方式の科学
今月の「ワイアード」の巻頭記事でクリス・アンダーソンは、もしかし たら理論を使わずに科学ができるのではないかという発想について論じ ている。
それは大量のデータと応用数学が他のあらゆる道具に取って代わ る世界である。言語学から社会学に至るまで、すべての人間行動 の理論は不要になる。生物分類学、存在論、心理学などは忘れよ う。人間がある行動をする理由など誰にもわからない。問題はそ の行動であって、私たちはそれを今までにない忠実さで追跡し測 定することができる。十分なデータがあれば、数が物を言う。
ペタバイトのおかげで「十分な相関がある」と言えるようになる。
モデルをさがす必要はない。データが何を意味するかという仮説 を立てなくても分析ができる。史上最大のコンピュータ・クラス タに数値を放り込めば、科学が見つけられないパターンを統計ア ルゴリズムが見つけてくれる。
この見解には一理あるかもしれない。多くの科学、たとえば天文学、
物理学、遺伝学、言語学、地質学などでは、きわめて大規模なデータセッ トを生成しつつあり、現時点でもペタバイトレベルに及ぶデータが流通 している。あと 10年のうちに、それはエクサバイトのレベルになるだろ う。昔ながらの「機械学習」によって、計算機はこの大量のデータから、
人間にはたぶん見つけられないパターンを抽出することができる。その パターンとは、相関である。そこに因果関係があるかないかわからない が、とにかく新しいことを発見できる。したがって、従来のやり方とは 異なっていても、科学がしているのと同じことを達成できるのだ。
第 16 章 グーグル方式の科学
アンダーソンが示しているのは、十分な相関があればそれでよい場合 があるということである。健康についてその良い例がある。多くの医療 行為は相関的方法に基づいている。医者は病気の真の原因を見つけてい るとは限らない。あるいはもし見つけたとしても、それを理解するので はない。それでも、経過を正確に予測して症状を治療することができる。
しかしこれが本当に科学だろうか? それで仕事はできたとしても、モデ ルがないのであれば、他人がそれを元にして何かを築き上げることがで きるものなのか?
まだその答えはわからない。科学におけるこの方法は専門用語では、
データインテンシブ・スケーラブル・コンピューティング(Data Intensive Scalable Computation : DISC) という。他の用語としては、グリッド・
データファーム・アーキテクチャ(Grid Datafarm Architecture)、ペタ スケール・データインテンシブ・コンピューティング (Petascale Data Intensive Computing) などがある。これらの方法で重要な点は、大量の データによる計算の性質であって、計算クラスターそのものではない。
オンライン産業では、この調査方法を「アナリティクス(分析論)」の一種 だと言っている。クラウド・コンピューティングの会社、たとえばグー
グル、IBM、ヤフー (pdf)、およびいくつかの大学では、この問題につい
ての研究会を実施している。要するに、これらの先駆者たちは、大規模 科学のためにクラウド・コンピューティングを、すなわち「一つのマシ ン」(訳注:地球上のネットや通信システム全体)を利用しようとしてい る。現在のツールとしては、たとえば MapReduce(マップリデュース)
や Hadoop(ハドゥープ)などのような超並列ソフトウェア・プラット
フォーム(以前の私の投稿(第 18 章)を参照されたい)、そして安い記 憶装置とデータセンターの巨大なクラスターが使われている。今のとこ
第 16 章 グーグル方式の科学
ろ、ゲノム研究以外の分野の科学者は、この新しいツールをあまり使っ ていない。NSF(米国科学財団)のクラスター調査プログラムは、大規模 データベースに適した実験観察結果を持っている科学者と、クラスター やクラウド・コンピューティングの利用権および専門知識のある計算機 科学者を引き合わせることを目的としている。
私の推測では、この新しい手法は、科学的方法の進化に役立つ道具に なると思う。既存の方法に取って代わるのではなく(残念ながら科学に 終わりはない!)、すでに確立した理論に基づく科学を補完するだろう。
このデータ中心の手法による問題解決を「相関分析法」と呼ぶことにし よう。クリスは彼の論文に「理論の終焉」("The End of Theory") という 題をつけたために、またとない機会を逃したと思う。その題名は否定的 な表現であり、何かがなくなるということだ。そうではなくて、これは 何かの始まりであり、肯定的な名前をつけることでその誕生を後押しす る良い機会なのだ。また、否定的でない名前をつければ、その主題がわ かりやすくなる。「理論がなくなる」というかわりに「相関分析法」とい う名前を私は提案する。この相関的なシステムにモデルがないとは思え ない。創発的、無意識的、潜在的なモデルがシステムに埋め込まれてい て、それが答えを生成すると私は考えている。英語を話す人たちがグー グルの「中国語の部屋」で働いていて、誰も中国語の理論を知らないと しても、それでもやはり、その「部屋」に理論があると考えることができ る。そのモデルは、システム製作者の認識や理解を超えているのかもし れない。そのモデルがうまくいっているから、それを発見しようとする 価値がないのだ。それでもやはりモデルは存在する。私たちから見える 必要のないレベルで機能しているだけなのである。