本文／講演２

(1)

概要

ビッグデータの登場は，モノ，ヒト，コトの動き，つまり私たちの生活がまるごとデジタル化されクラウド上で再現できる時代が到来したことを意味する。ビジネスにおけるビッグデータの価値は，あらゆるビジネス機能やサービスのスマート化と，イノベーションの発掘による未来への効果的投資の二点に集約できる。この観点を公共部門において考えると，あらゆるサービス受益者の満足度の向上と，レアではあるが重要な社会的要因を発見することと対応づけられる。ビッグデータの利用技術上の多くの困難は，この相反する目的を同時に達成する要請からもたらされる。例えば，どんなにデータ量が多くても，ある程度の精度で全体像が知りたければ，統計学の王道芸であるサンプリングで十分であるが，それではほぼ確実にレアな事象を見逃す。つまり，ビッグデータの利用には，木も森も両方見る技術が不可欠なのである。ビッグデータの利用技術は，大別すれば，データ可視化，データ解析，データ工学の三要素からなる。データ可視化は探索的データ解析の一技法と類別可能だが，ビッグデータの登場により，ナウキャスティング（今を把握する）に欠かせない重要な役割を担うことになった。データ工学は，主としてデータ量および通信量の増大と直結した問題解決に必須の技術である。知りたい情報がデータからは完全には得ることができない状況，つまりデータの不完全性を乗り越えるためには，先進的なデータ解析技術が必要になる。データの不完全性の例は，データの欠損や異常値の混入などのありふれた問題から，逆解析不安定性のような推論構造上不可避の問題など，多種多様かつ多数存在する。本講演では，ビッグデータの解析において陥りやすいポイントを解説するとともに，インピュテーション，リンケージなどのデータ解析に関する研究トレンドを紹介する。

ABSTRACT

The advent of big data has ushered in a new era. The whole range of our lifeevery activity, movement and event that is taking placecan be digitized and recreated in the cloud now. Big data can create value for businesses in two main ways；it makes every business function and service smarter, and it helps discover innovations and thereby promotes effective investment toward the future. Similarly, big data can benefit the public sector by improving each service recipient s satisfaction on the one hand, and by helping discover rare, yet important, social factors on the other. Many technical challenges we face in using big data come from the demand that we achieve both of these contrasting goals. For example, no matter how huge the amounts of data might be, sampling would allow us to capture the general picture with some degree of accuracy. Yet, this common statistical procedure would most likely lead us to miss rare phenomena. This means that in order to make use of big data, we need techniques that let us see both the forest and the trees. Big data techniques and technologies can be divided roughly into three elements. They are visualization, techniques for analyzing big data, and big data technologies. Visualization can be categorized as a technique of exploratory data analysis, but with the advent of big data, it has come to play a crucial role in Nowcasting（capturing the present）. Big data technologies hold the key to resolving problems resulting from increases in data amounts and communications traffic. Advanced techniques for data analysis are essential when we deal with data incompleteness, which is a state where data cannot give complete information we aim to get. There are many, diverse examples of data incompleteness. Among them are such common problems as missing data and the presence of outliers. Some others, including unstable problem of inverse analysis, are inevitable results of the way inferences are made. In this lecture, I would like to describe issues that frequently emerge in big data analysis, and introduce current trends in studies on data analysis, including imputation and linkage.

木を見て森も見る

ビッグデータ解析技術

情報・システム研究機構理事統計数理研究所長

樋口知之

Seeing Both the Forest and the

Trees：Techniques for Analyzing

Big Data

Tomoyuki HIGUCHI

Executive Director of Research Organization of Information and Systems

DirectorGeneral of the Institute of Statistical Mathematics

(2)

Sequencing Progress vs Compute and Storage

Moore s and Kryder s laws fall far behind

Year Data processing Data Storage Data generation 107_倍 103_倍 103_倍 100Gb/day /sequencer Science誌（2011）を参考に作成 100,000,000 10,000,000 1,000,000 100,000 10,000 1,000 100 10 10 1 Microprocessor（MIPS） Sequencing（kbases/day）

Compact HDD storage capacity（MB）

19961997 19981999 20022003 20042005 20062007 200820092010

１．はじめに

本講演では，ビッグデータの解析技術について紹介する。前半は「木を見て森も見るビッグデータ解析技術」の話をし，後半は，理解に役立つ数学の話もしたいと思う。２章ではビッグデータ利用の狙いについて述べ，３章ではビッグデータ利用の難しさについてのお話をする。４章ではビッグデータ解析の急所を解説する。５章では利用例と要素技術を紹介し，６章ではビッグデータ利用のあり方について考察する。

２．ビッグデータ利用の狙いと温故知新

2.1 ビッグデータとは １図は，2011年の「サイエンス」誌から引用した図である。ビッグデータに関わる情報技 術を大別すると，データジェネレーション（情報の生成），データプロセッシング（情報の処理），データストレージ（情報の蓄積）の３つが重要である。データプロセッシングは，スーパーコンピューターの処理能力の向上に代表されるように，１図に示すようなカーブで上昇している。また，データストレージとは，例えば，ある値段のハードディスクが，どのくらいの容量のデータを格納できるかを示す。データジェネレーションには，いろいろな尺度があるが，例えば，次世代シーケンサー（遺伝子の塩基配列を読む装置）が，単位時間にどのくらいの遺伝子配列を読めるのか，が１つの目安になる。１図を見ると，データストレージとデータプロセッシングのカーブがほぼ並行していることが分かる。この２つの技術は，いわゆる総合電機メーカーが提供する技術であり，似たような増加傾向を示していると推測される。一方，データジェネレーションの急増には，センサー，すなわち測る部分がここに関わっている。１図のカーブを見ると，現代の最先端の科学において，どこがボトルネックになっているかが分かる。ビッグデータには，いろいろな定義があるが，一言でいえば，大きいデータということで１図ビッグデータに関わる3つのデータ量の推移

(3)

ある。ビッグデータを特徴付けるものは３つのV，すなわちVolume（量），Variety（種類）， Velocity（データ発生速度）と言われているが，最近は，これにValue（価値）とVeracity （情報の正確さ）を加えた５つのVが重要であると言われている。一般の方々は，インターネットのコンテンツがビッグデータであると想像するが，現代においては，むしろセンサーが獲得するデータをどう処理していくかということの方が大きな課題となっている。 2.2 ビッグデータ利用の狙いさて，ビッグデータの話に関わることで，２つほど話題を取り上げてみたい。 2011年に「マネーボール」という映画が制作された。これは，弱小の大リーグチームが，過去のさまざまなデータを分析して，従来は全く評価されなかったが勝敗に影響する数値を基に，どういう選手を採ったらいいのか等を予測していた。こういう領域はセイバーメトリクス（Sabermetrics）と言われる。ネイト・シルバーという統計学者がセイバーメトリクスのオンライン版を開発したことが，この映画のモデルになった。実際にネイト・シルバーという人は，2008年のアメリカ大統領選挙では50州中49州で勝敗を的中させ，2012年には全州で的中させている。最近の話題では，ヤフー（株）の安宅さんらのチームが，参院選の与党議席数76をズバリ当てたことが話題になった。これはビッグデータを活用したことが話題になったものであるが，重要なことは，検索キーワード群の中から各政党や候補者の好感度を表すキーワードを抽出した点である。単純に党名で検索するのではなく，検索のキーワードがその政党にどう関係しているのか，あるいは，この検索サイトを使っている人たちはどういう政党の支持者が多いのか，といったことを加味しながら，予測を行っている。 2.3 調査対象は数よりもどう選ぶかが重要予測するためのデータ数を増加させただけで判断しては怖いことになる，という昔の話として，1936年のアメリカ大統領選挙における予測が挙げられる。この当時，リテラリー・ダイジェスト社が230万人を対象に調査を行った。調査対象者としては，この雑誌の読者や，自動車を持っている人，電話を利用している人など，1,000万人の中から230万人を選び出し，アンケート調査を行った。一方，The American Institute of Public Opinion社（今のギャラップ社）は，今でいうサンプリング調査を行った。こちらの調査対象者はたったの3,000 人であり，リテラリー・ダイジェスト社と比較すると0.1％にすぎない。しかし，リテラリー・ダイジェスト社は予想を外してしまった。これが何を物語っているかというと，調査の偏りということである。ギャラップ社は層化抽出（割り当て法），すなわち，どのくらいの所得の人からはどのくらいの調査対象者を選ぶか，ということをデザインして調査を行った。その後，RDD（Random Digit Dialing）法，いわゆるランダムに電話をかけるという方法が主流になってきた。この実例から，データはしらみつぶしに調べればいいということではなく，何らかのデザインが重要だということが分かる。 2.4 全てのデータを検証する意義それでは，最近のビッグデータで，全部のデータをなめるように使うメリットは何なのか ということを考えてみる。２図に示すように，２次元のグラフで，横軸に何らかの値を，縦 軸にその頻度をとる。頻度が非常に少ないところをロングテールと言う。統計学では，既存のデータを使って，その先を予測する極値統計あるいは極値解析と呼ばれる分野がある。例えば，河川の氾濫，最大風速，最大降雨量，金融におけるリスクなどの

(4)

異常値サンプル（実現値）で構成される分布頻度値新たに見つかった津波の痕跡極値分布河川の氾濫，最大風速，最大降雨量，金融におけるリスク等の分布に適用ロングテール最適化機械学習統計学マイニング（超高速文字検索処理）データマイニング予測に用いられる。このように，データとか経験に基づいて未来を予測する方法を帰納法と言う。この方法の最大の弱点として，最近の例では，２図の赤点のような異常値（過去の津波の痕跡）が見つかったときには，２図の極値分布は赤線のように伸ばさないといけない。このように，異常値を読み誤った場合に予測値の誤差が大きくなる点が，帰納法の最大の弱点である。これに対して，データをしらみつぶしに調べると，こういう痕跡が見つかる可能性がある。ビッグデータの利用においては，全体を捉えると同時に，全部を調べることによって，今まで見逃してきたような，サンプリングで見つからないものを見つけることができる。「テイルがビッグデータの醍醐味」とも言われるゆえんである。以上で述べたように，ビッグデータを利用する際には，大局を見ると同時に小さいものも見つけていくことが重要となってくる。

３．ビッグデータ利用の難しさ

ビッグデータに関わる技術は，大別すると３つに分けられる。すなわち，ビッグデータの解析技術，可視化技術，ビッグデータの取り扱いに関するハードウエアに近い技術である。 ビッグデータの解析技術は，３図に示すように，統計学，最適化，機械学習（マシンラー ニング），マイニング（超高速文字検索処理）等の４つの要素技術から成る。ビッグデータの利用において一番難しいことは，一言でいうと，価値密度がかなり低いと いうことである。価値密度とは，４図に示すように，価値の総量をデータの総量で割った値 ２図全てのデータを取り扱う意味（帰納法の弱点）３図ビッグデータ解析の要素技術

(5)

価値密度（目的）＝価値総量（目的）データ総量である。昔に比べて価値の総量は増えているのだが，データの総量も非常に大きくなったため，価値密度としては薄くなってしまう。価値の総量は大きいので，その中から何か取ってくるということを人手でやっていたのでは，諸外国に勝てないということになる。「ビッグデータはいろいろと社内にあるので，それを使って何かできないだろうか。いつももったいないと思っているのだが」という話をよく耳にする。この種の発言をされるお客さんの案件はお断りするようにしていると，あるビッグデータのコンサルティング担当マネージャーは言っている。ビッグデータの解析は，こういうイメージではなくて，どちらかと言えば，水を濾過器で何段にもきれいにしていく，というイメージである。これは，そう簡単ではない。例えば，ものは分解できる。分解した結果，いろいろなモジュールでどのようにつながっているのかということが分かる。ところが，ビッグデータというのは最初から見えないものなので，どうやって分解したらよいのかが分からない。ビッグデータの解析は，水を濾過するように，多段のステップ，たくさんの処理をしなければならないので，さまざまなステップが介在する。最近話題のデータサイエンティストは，価値を見ながら，ビッグデータの解析をどのようなステップに分けて，どのような技術が必要となるのか，役に立ちそうなのかということを見極めている。

４．ビッグデータ解析の３つの急所と予測モデル

次に，身近なところでいろいろな落とし穴，急所みたいなものがあるというお話をしたい。ビッグデータというと，最先端のいろいろなソフトウエア技術が必要だという印象があるが，そもそもスモールデータの取り扱いに十分な理解なくしては，ビッグデータによる成功はあり得ない。 4.1 ビッグデータ解析における３つの急所ビッグデータ解析における３つの身近な注意点を挙げる。１つ目は「新NP問題」，すなわち計算量の問題である。例えば，私たちは健康診断に行くと，身長，体重，血液検査など，たくさんのものを測る。統計では，それを変数と言う。１つのサンプルにたくさん変数があると，例えば，０∼９までの10個の値のいずれかをとる変数が２個あったときには10×10＝100通りの計算をすればよい。変数の数が10個になったら，計算の回数は10の10乗になる。変数が少し増えただけで，しらみつぶしに計算しないといけない数が圧倒的に増える。これを統計やコンピューターの分野では「次元の呪い」と言う。サンプルをいくら増やしても，次元の呪いに打ち勝つことは絶対にできない。したがって，安易にサンプル数の増大に期待するのは間違いであることが分かる。２つ目の注意点は，「相関と因果の見極め」である。相関とは，両方がお互いに関係して４図価値密度の定義

(6)

データデータ無しの領域内挿外挿計測手法のイノベーションと直結 Nowcasting ２つの異なる推論法 Forecasting フォワード（前向き）計算モデルの記述力対象の現状態（現況）を捉える認識力＋＝予測能力いるということである。データマイニング等のテクニックには，この相関を高速に取り上げるのに非常に優れたものがたくさんある。一方，どちらか１つが原因で，もう１つが結果であるというもの，これが因果である。ビジネスで，例えば，広告費を上げると売り上げが増えるという図を書いてくる人がいる。なるほど，これは広告効果があるのだなと思ってしまうが，ビジネスにおいては，前期の利益の５％を広告費に充てることがよくある。そうすると，この関係は相関になるのは明らかである。あまりにも明らかな例を挙げたが，実際にビッグデータを扱う場合には，いろいろな相関を取ってくるときに，相関を因果と勘違いして，間違えた施策や製品開発に進んでしまう可能性がある。相関と因果は違うということをしっかり見極めないといけない。３つ目は，いろいろな予測をするときには，「内挿と外挿」をうまく組み合わせることが キーポイントになるという点である。例えば，５図のような２次元のデータがあったときに， 外挿とは，今までデータがないところを，一番端のデータから予測するということであり，内挿とは，近傍のデータから予測するということである。内挿と外挿をうまく組み合わせることが重要であり，これによって，例えばウェザーニュース社のような天気予報のサービスが可能となる。 4.2 予測モデル ６図に示すように，予測能力とは２つの性能の組み合わせである。６図のフォワード（前 向き）計算モデルとは，いわゆる演繹的なものである。また，対象の現状態を捉える認識力とは，今どうなっているかを捉える認識技術力である。予測というのは，大雑把に言えば，大抵の場合はこの２つの組み合わせである。この組み合わせ方をどう適切に，アダプティブにやっていくのかが鍵になる。予測は英語でForecastingあるいはPredictionと言われるが，５図内挿と外挿６図予測能力は2つの性能の合成

(7)

＝

＋

＝

＋

＝

＋

＝

＋

時間依存の時間依存のベースラインベースライン曜日効果曜日効果周辺の周辺のイベント効果イベント効果地域性地域性（立地）（立地）規模規模レイアウトレイアウト小売りの売り上げ予測周辺化しては本質を見逃す！周辺化しては本質を見逃す！Ａ店の売り上げ B店の売り上げ C店の売り上げ D店の売り上げビッグデータクラウド対象の現状態を捉える認識力はNowcastingと言われる。このNowcastingは，計測手法やセンサーのイノベーションと直結するものである。ポイントは，Nowcastingと計算モデルの２つを組み合わせることにある。リクルートテクノロジー社では，計算モデルなしに予測することを「手なり予測」と呼んでいる。手なりとは，麻雀で手役などを考慮せずに牌効率のみでアガリに向かうことであり，いわゆる出たとこ勝負のことである。予測モデルが重要となる例として，物流では，急な人の動員への対応，小売りでは，廃棄リスクや商品ごとの売り上げの予測，飲食業では，アルバイトをどのくらい確保できるか，製造業では，故障の前のお知らせなどが挙げられる。

５．利用例と要素技術

数理や大規模並列計算の発展によって，いろいろなビッグデータ解析の手法が考案されている。本章では，その例をいくつか紹介する。 5.1 要因分解モデル：バラバラを癖で束ねる １つの例として，小売りの売り上げ予測を考える（７図）。これはコンビニのローソン等がやっているものであるが，例えば，A店の売り上げが，今の季節にどのくらいになるのかを予測する。これは，曜日や，周辺のイベント，地域性，店内のレイアウトなど，いろいろなものに依存している。従来のように１つ１つの店をばらばらに見ても，どれがどのくらい効果があるかは分からない。７図のように分解することが必要になる。それでは，７図で縦に平均を取ったらよいかというと，それではうまくいかない。例えば，イベント効果は一部の店だけに現れている，あるいは，地域性はある店には影響があるが，ほかの店に関しては違う，というように，単純に縦だけ平均化しても何も得られないことが分かる。どうするかというと，ばらばらだったものから，似たもの，癖といっていいようなものをクラウド上に集めてくるというようなことが大切になる。それができれば，店ごとの予測ができる。別の例として，最近，インフラを維持するために，例えば，橋にいろいろなセンサーを付７図要因分解モデル：バラバラを癖で束ねる

(8)

2 1 3 4 5 6 7 8 1 2 3 4 5 6 ・・・・・・・・・ 1 2 ・・・ 1 2 3 4 5 6 3 4 5 6 7 8 1 2 4 5 6 3 2 1 3 4 5 6 7 8 経度緯度患者番号特徴量（体重，血糖値，中性脂肪値など） ○ ○ ○ ○ ○ × × 薬が効く，効かない似た属性確率的に情報を埋める（推測する）・・・・・・・・・・・・・・・・・・・・・・・・・・・けている。そのセンサーから橋がどのくらい老朽化しているかを検知するためには，車の通行量，風量，橋の動き等，いろいろな効果を全部分解しないといけない。ビッグデータをクラウド上に集めて，経年変化，天候，風，車の通過，設置場所などについて，似たものを束ねて癖を読み解くことが重要になる。アメリカのGeneral Electric社など，ものづくりをしている会社においても，自社の製品にたくさんのセンサーを付け，そのデータをリアルタイムでクラウド上に集めてモニタリングをしている。GE社は，これをIndustrial Internet，あるいは第３の波と呼んでいる。この手法は，第１次産業の農業や漁業にも適用できる。例えば，農業は，土壌整備，温度，湿度，肥料の投与量，設置場所等々，いろいろなものに依存しているが，似たものを，癖を読み取って集めて処理することがポイントになる。 5.2 インピュテーション：情報の欠損を埋める技術ビッグデータ解析の背後にある数理技術の１つとして，インピュテーション（Imputation）という技術がある。例えば病院に行くと，患者ごとにさまざまな特徴量を測るが，健康な人が測られる特徴量と，何らかの疾患が疑われるような人が測られる特徴量は全く違う。これ を８図に示すようなエクセルの表にして，縦軸を患者番号，横軸を特徴量とすると，巨大な エクセル表になるが，実際はすかすかの表になる。これをそのまま束ねると，ある特徴のあるケースの患者さんの数は１つしかないということになる。変数が増えると，サンプル数をいくら増やしてもその空間を埋めることはできない次元の呪いというお話をしたが，それと全く同じことになる。では，何かヒントはないのか。例えば，地球上の場所に関係したデータであれば，緯度と８図インピュテーション：情報の欠損を埋める技術

(9)

変数群Ａ（視覚データ） ECサイト：服飾イメージ調査店舗：試食変数群Ｂ（味覚データ）共通変数群（性別，年齢，色）ビデオ映像からメニューを推薦新サービス経度によって並べてみると，ある場所の近くのデータはだいたい似ているだろうという知識を積極的に活用できる。これと同じようにして，自分たちが持っている知識から，ここは計測していないけれど，こうではないか，とエクセル表を埋めていくことができる。これがインピュテーションという技術である。 5.3 リンケージ 次に，リンケージ（Linkage）という技術を紹介する。例えば９図に示すように，店舗で 試食を行ってアンケートを取ると，そのときに得られる変数群は味覚データである。さらに， EC（Electronic Commerce）サイト上で服飾のイメージ調査をすると，得られる変数群は視覚データである。そうすると，９図の網掛け部分のデータは，そもそも無いことになる。これを関連付けるのがリンケージという技術である。例えば，変数群Aも変数群Bも共通に，性別や年齢などの変数を含んでいるが，この場合，鍵となる変数は色である。なぜなら，色は服飾イメージ調査と試食の両方に関わっているからである。そのようなデータから，ECサイトの上の部分と下の部分の関係，あるいは，店舗の下の部分と上の部分の関係が分かれば，結果として，網掛け部分を全部埋めることができる。埋められれば，縦にも足し算，横にも足し算など，いろいろなことができる。すると，新しいサービスとしては，お客さんが店に入って，その姿をビデオで撮って，メニューを推薦するということができる。こういう技術をECサイト上ではうまく使っている。これがリンケージという技術である。 5.4 行列の分解例えば，ID（Identification）付きPOS（Point of Sale）データを考えると，ある時刻に誰 がどういう商品を買ったのかというデータが１個，２個と得られる（10図）。行列で考えると，10図右上に示すような顧客ID，日付，来店データから構成される行列が得られる。この行列を，より簡単な行列に分解する。すると，ここで出てきた小さい行列は，意味的には，職業で束ねたようなもの，年齢で束ねたようなもの，そういうものが自然と浮き彫りになってくる。この顧客は，週末型なのか，月末によく来るパターンなのかというような，いわゆる癖がここで浮き彫りになってくる。

６．ビッグデータ利用のあり方

6.1 ビッグデータ利活用の４つのステージ ビッグデータの利活用を，４つのステージに分けて説明する（11図）。１つ目のステージ９図リンケージ

(10)

j 軸：商品 k 軸：日時 i 軸：顧客ID 大体似かよるように代数演算のみで分解顧客 ID 日付来店データ ID付きPOSデータ yijk＝0, 1, 2 … 週末的，月末的職業的，年齢的『バラバラを癖で束ねる』を実現解析予測モデルの構築介入制御ビジネスへの展開可視化現況の注目度予測モデル（アルゴリズム）なき予測は存在しない Nowcastingの世界 Forecastingの世界

Fast Data Processing：ビジネス機会の捕捉

リアルタイムにデータを捕捉し，ビジネス価値の高い機会を捕捉する

Big Data Management：ビジネス価値の発掘過去のデータから，ビジネス価値の高い規則性，関連性を見出すはビッグデータの可視化，２つ目はさまざまなデータの分析・解析，３つ目は予測モデルの構築，４つ目は，そのモデルを使って，どのように人に関与し，制御するのかというステージである。可視化と解析はNowcastingの世界であり，予測モデルの構築と介入・制御がForecasting の世界である。現況においてはNowcasting止まりのビッグデータの利活用が多いのではないかと思うが，ビジネス等々の点から考えるとForecastingが重要であることが分かる。 6.2 Forecastingの重要性自動車を，データを採取するセンサーと考えるプローブデータという取り組みが行われている。このプローブデータで収集した渋滞情報を見たときに，人間というのは残念ながら，全員ではないが，同様の考えに至って似たような行動を取る人がいる。データを見て，一定の時間差で，ある程度の人たちが同じ行動を取ったとすると，これは制御においては位相差（時間差）のある系となり，揺らぎを増大させる。したがって，せっかく渋滞情報を出したとしても，先読みの機能がない限り，かえって悪化させるケースがある。これは，私たちもよく体験することである。 10図行列の分解 11図ビッグデータ利活用の４つのステージ

(11)

理論と仮定から結果を導く vs. 結果から原因を探る技術客観的，絶対的価値主観的，相対的 ■研究開発上，重要な視点とは？大震災の後，2012年12月７日に石巻で起こったことであるが，車で逃げないでください，徒歩で逃げてくださいとアナウンスしたにもかかわらず，さらに渋滞情報があったにもかかわらず，石巻ではまた大震災のときと同じように，全く車が動けないほどの渋滞になってしまったということで，地方自治体の方々は大きなショックを受けたという実例もある。このように，非常時においては先読みの機能が重要になってくる。 6.3 公共サービスとビッグデータ NowcastingとForecastingの区別を，公共サービスの文脈で考えてみる。通常時は， Nowcastingは非常にパワフルであり，オープンデータやクラウドを利用して自然とデータが集まる仕組みを作ることは，Nowcastingの力を強くする。このようなアプローチには，民間の方々が率先して取り組んでいる。しかし非常時には，前節の例のように，Forecastingが重要となるので，ITインフラのダメージやバックアップシナリオ等を事前に想定してForecastingをすることになる。この場合，先読み情報サービスが外れた場合のリスクもあるので，トリアージ（特定の基準に従って優先順位を決めること）をすることになるが，誰がどのような責任で行うのかという難しい問題がある。

７．まとめ ∼帰納と演繹∼

ビッグデータの利活用を考える上で重要な視点は，12図のようなことであると考えてい る。技術と価値を考えたときに，技術は客観的で絶対的なものであるが，価値は主観的で相対的なものである。Aさんにとっての価値とBさんにとっての価値，あるいは，Aさんが朝起きたときの価値と夕方の価値は異なる。そうすると，ユニバーサルな技術がいつでも役に立つとは限らない。そこで，ビッグデータを使って価値から技術を逆読みすることが，研究開発上非常に大切になってきている。理論と仮定から結果を導くのではなくて，お客様がどう考えているのか，その結果から原因を探るような技術開発が，今，ビッグデータ自体に求められている。ひぐちともゆき樋口知之情報・システム研究機構理事統計数理研究所長。1989年，東京大学理学系研究科博士課程修了後，文部省統計数理研究所に入所。 2011年より現職。専門はベイジアンモデリング。最近は，数値シミュレーションと大規模データをつなぐ計算手法であるデータ同化の研究に注力。日本統計学会，応用統計学会，電子情報通信学会，人工知能学会，日本応用数理学会，日本バイオインフォマティクス学会，日本マーケティング・サイエンス学会， International Statistical Institute，American Geophysical Union等の各学会の会員。日本学術会議・情報学分野の連携会員。 12図帰納と演繹