グーグル方式の科学 - ケヴィン・ケリー著作選集　２

The Google Way of Science ペタバイトレベル以上のきわめて大規模なデータベースができると、

人間の学習方法が変わってしまいそうな予感がある。今までの科学の方法では、仮説を構築して観察したデータに合致させる、あるいは新しいデータを集めるということをしていた。そこには数多くの観察がある。

どのような理論であれば、今までのデータをうまく説明することができて、そこから次の観察結果を予想できるのか？

きわめて大量のデータがあれば、理論の部分は省略して、いきなり観察結果を予想できるかもしれない。グーグルは早くからそのことに気づいていた。たとえば、グーグルのスペルチェッカーを考えてみよう。ググっているときに単語のつづりを間違えると、グーグルは正しいつづりを示してくれる。どのようにして正しいつづりの単語を予測するのだろうか？正しいつづりの理論を知っているわけではなく、またつづりの規則を習得しているわけでもない。実際にはグーグルはつづりの規則などまったく知らない。

そのかわりに、グーグルは非常に大規模な観察結果のデータを持っている。あるつづりについて、"X"という単語を書いたつもりなのかと質問すると、Y 人の人が「はい」と答えることがわかる。グーグルのスペルエンジンはこのようなデータでできている。正しい英語のつづりがどん

第 16 章グーグル方式の科学

なものであるかはまったく知らない。だから、同じシステムでどの言語のつづりでも修正することができる。

実は、グーグルはその翻訳プログラムについても、大量のデータによる同じ学習方法を使っている。そのプログラムは、人間が翻訳した文書の大量のデータを比較照合することで、英語からフランス語へ、あるいはドイツ語から中国語へ翻訳する。たとえば、グーグルはその仏英翻訳エンジンを訓練するのにカナダの文書を使っている。カナダの文書は英語版とフランス語版の両方が発行されることが多い。グーグルには、言語についての理論、たとえばフランス語の理論があるわけではないし、

また、人工知能翻訳機があるわけでもない。その代わりに超大量のデータがあって、それが全体として「これからあれへ」、すなわち、ある言語から他の言語への関連を決定する。

そのように翻訳システムを調整してしまえば、どの言語からどの言語へでも翻訳できる。そしてその翻訳はかなり出来が良い。専門家のレベルではないが、要点を知るには十分である。中国語のウェブページを選ぶと、少なくともそれが英語でどんな意味なのかという感じはわかるようになる。でも、グーグルの研究所長ピーター・ノーヴィグは以前、私に自慢したことがある。「あの中国語翻訳プログラムを作っている連中は、

誰も中国語ができないんだ。」中国語の理論も理解もない。あるのはただデータだけだ。（サールの「中国語の部屋」という問題に対する反証が欲しければ、ここにそれがある。）

つづりの法則について何も知らずに、正しい書き方を覚えることができるならば、また、翻訳しようとする言語の文法についての理論や概念を知らずに、翻訳ができるようになるとすれば、そのほかに理論を知らなくてもできることとしては何があるだろう？

第 16 章グーグル方式の科学

今月の「ワイアード」の巻頭記事でクリス・アンダーソンは、もしかしたら理論を使わずに科学ができるのではないかという発想について論じている。

それは大量のデータと応用数学が他のあらゆる道具に取って代わる世界である。言語学から社会学に至るまで、すべての人間行動の理論は不要になる。生物分類学、存在論、心理学などは忘れよう。人間がある行動をする理由など誰にもわからない。問題はその行動であって、私たちはそれを今までにない忠実さで追跡し測定することができる。十分なデータがあれば、数が物を言う。

ペタバイトのおかげで「十分な相関がある」と言えるようになる。

モデルをさがす必要はない。データが何を意味するかという仮説を立てなくても分析ができる。史上最大のコンピュータ・クラスタに数値を放り込めば、科学が見つけられないパターンを統計アルゴリズムが見つけてくれる。

この見解には一理あるかもしれない。多くの科学、たとえば天文学、

物理学、遺伝学、言語学、地質学などでは、きわめて大規模なデータセットを生成しつつあり、現時点でもペタバイトレベルに及ぶデータが流通している。あと 10年のうちに、それはエクサバイトのレベルになるだろう。昔ながらの「機械学習」によって、計算機はこの大量のデータから、

人間にはたぶん見つけられないパターンを抽出することができる。そのパターンとは、相関である。そこに因果関係があるかないかわからないが、とにかく新しいことを発見できる。したがって、従来のやり方とは異なっていても、科学がしているのと同じことを達成できるのだ。

第 16 章グーグル方式の科学

アンダーソンが示しているのは、十分な相関があればそれでよい場合があるということである。健康についてその良い例がある。多くの医療行為は相関的方法に基づいている。医者は病気の真の原因を見つけているとは限らない。あるいはもし見つけたとしても、それを理解するのではない。それでも、経過を正確に予測して症状を治療することができる。

しかしこれが本当に科学だろうか？それで仕事はできたとしても、モデルがないのであれば、他人がそれを元にして何かを築き上げることができるものなのか？

まだその答えはわからない。科学におけるこの方法は専門用語では、

データインテンシブ・スケーラブル・コンピューティング(Data Intensive Scalable Computation : DISC) という。他の用語としては、グリッド・

データファーム・アーキテクチャ（Grid Datafarm Architecture^）、ペタスケール・データインテンシブ・コンピューティング (Petascale Data Intensive Computing) などがある。これらの方法で重要な点は、大量のデータによる計算の性質であって、計算クラスターそのものではない。

オンライン産業では、この調査方法を「アナリティクス(^分析論)^」の一種だと言っている。クラウド・コンピューティングの会社、たとえばグー

グル、IBM^、ヤフー (pdf)、およびいくつかの大学では、この問題につい

ての研究会を実施している。要するに、これらの先駆者たちは、大規模科学のためにクラウド・コンピューティングを、すなわち「一つのマシン」（訳注：地球上のネットや通信システム全体）を利用しようとしている。現在のツールとしては、たとえば MapReduce^{（マップリデュース）}

や Hadoop（ハドゥープ）などのような超並列ソフトウェア・プラット

フォーム（以前の私の投稿（第 18 章）を参照されたい）、そして安い記憶装置とデータセンターの巨大なクラスターが使われている。今のとこ

第 16 章グーグル方式の科学

ろ、ゲノム研究以外の分野の科学者は、この新しいツールをあまり使っていない。NSF（米国科学財団）のクラスター調査プログラムは、大規模データベースに適した実験観察結果を持っている科学者と、クラスターやクラウド・コンピューティングの利用権および専門知識のある計算機科学者を引き合わせることを目的としている。

私の推測では、この新しい手法は、科学的方法の進化に役立つ道具になると思う。既存の方法に取って代わるのではなく（残念ながら科学に終わりはない！）、すでに確立した理論に基づく科学を補完するだろう。

このデータ中心の手法による問題解決を「相関分析法」と呼ぶことにしよう。クリスは彼の論文に「理論の終焉」("The End of Theory") ^という題をつけたために、またとない機会を逃したと思う。その題名は否定的な表現であり、何かがなくなるということだ。そうではなくて、これは何かの始まりであり、肯定的な名前をつけることでその誕生を後押しする良い機会なのだ。また、否定的でない名前をつければ、その主題がわかりやすくなる。「理論がなくなる」というかわりに「相関分析法」という名前を私は提案する。この相関的なシステムにモデルがないとは思えない。創発的、無意識的、潜在的なモデルがシステムに埋め込まれていて、それが答えを生成すると私は考えている。英語を話す人たちがグーグルの「中国語の部屋」で働いていて、誰も中国語の理論を知らないとしても、それでもやはり、その「部屋」に理論があると考えることができる。そのモデルは、システム製作者の認識や理解を超えているのかもしれない。そのモデルがうまくいっているから、それを発見しようとする価値がないのだ。それでもやはりモデルは存在する。私たちから見える必要のないレベルで機能しているだけなのである。

ドキュメント内ケヴィン・ケリー著作選集　２ (ページ 107-115)