概要
ビッグデータの登場は,モノ,ヒト,コトの動き,つまり私たちの生活がまるごとデジタル化されクラウド上で 再現できる時代が到来したことを意味する。ビジネスにおけるビッグデータの価値は,あらゆるビジネス機能や サービスのスマート化と,イノベーションの発掘による未来への効果的投資の二点に集約できる。この観点を公 共部門において考えると,あらゆるサービス受益者の満足度の向上と,レアではあるが重要な社会的要因を発見 することと対応づけられる。ビッグデータの利用技術上の多くの困難は,この相反する目的を同時に達成する要 請からもたらされる。例えば,どんなにデータ量が多くても,ある程度の精度で全体像が知りたければ,統計学 の王道芸であるサンプリングで十分であるが,それではほぼ確実にレアな事象を見逃す。つまり,ビッグデータ の利用には,木も森も両方見る技術が不可欠なのである。ビッグデータの利用技術は,大別すれば,データ可視 化,データ解析,データ工学の三要素からなる。データ可視化は探索的データ解析の一技法と類別可能だが,ビッ グデータの登場により,ナウキャスティング(今を把握する)に欠かせない重要な役割を担うことになった。デー タ工学は,主としてデータ量および通信量の増大と直結した問題解決に必須の技術である。知りたい情報がデー タからは完全には得ることができない状況,つまりデータの不完全性を乗り越えるためには,先進的なデータ解 析技術が必要になる。データの不完全性の例は,データの欠損や異常値の混入などのありふれた問題から,逆解 析不安定性のような推論構造上不可避の問題など,多種多様かつ多数存在する。本講演では,ビッグデータの解 析において陥りやすいポイントを解説するとともに,インピュテーション,リンケージなどのデータ解析に関す る研究トレンドを紹介する。ABSTRACT
The advent of big data has ushered in a new era. The whole range of our lifeevery activity, movement and event that is taking placecan be digitized and recreated in the cloud now. Big data can create value for businesses in two main ways;it makes every business function and service smarter, and it helps discover innovations and thereby promotes effective investment toward the future. Similarly, big data can benefit the public sector by improving each service recipient s satisfaction on the one hand, and by helping discover rare, yet important, social factors on the other. Many technical challenges we face in using big data come from the demand that we achieve both of these contrasting goals. For example, no matter how huge the amounts of data might be, sampling would allow us to capture the general picture with some degree of accuracy. Yet, this common statistical procedure would most likely lead us to miss rare phenomena. This means that in order to make use of big data, we need techniques that let us see both the forest and the trees. Big data techniques and technologies can be divided roughly into three elements. They are visualization, techniques for analyzing big data, and big data technologies. Visualization can be categorized as a technique of exploratory data analysis, but with the advent of big data, it has come to play a crucial role in Nowcasting(capturing the present). Big data technologies hold the key to resolving problems resulting from increases in data amounts and communications traffic. Advanced techniques for data analysis are essential when we deal with data incompleteness, which is a state where data cannot give complete information we aim to get. There are many, diverse examples of data incompleteness. Among them are such common problems as missing data and the presence of outliers. Some others, including unstable problem of inverse analysis, are inevitable results of the way inferences are made. In this lecture, I would like to describe issues that frequently emerge in big data analysis, and introduce current trends in studies on data analysis, including imputation and linkage.
木を見て森も見る
ビッグデータ解析技術
情報・システム研究機構理事 統計数理研究所長
樋口知之
Seeing Both the Forest and the
Trees:Techniques for Analyzing
Big Data
Tomoyuki HIGUCHI
Executive Director of Research Organization of Information and Systems
DirectorGeneral of the Institute of Statistical Mathematics
Sequencing Progress vs Compute and Storage
Moore s and Kryder s laws fall far behind
Year Data processing Data Storage Data generation 107倍 103倍 103倍 100Gb/day /sequencer Science誌(2011)を参考に作成 100,000,000 10,000,000 1,000,000 100,000 10,000 1,000 100 10 10 1 Microprocessor(MIPS) Sequencing(kbases/day)
Compact HDD storage capacity(MB)
19961997 19981999 20022003 20042005 20062007 200820092010
1.はじめに
本講演では,ビッグデータの解析技術について紹介する。前半は「木を見て森も見るビッ グデータ解析技術」の話をし,後半は,理解に役立つ数学の話もしたいと思う。2章ではビッ グデータ利用の狙いについて述べ,3章ではビッグデータ利用の難しさについてのお話をす る。4章ではビッグデータ解析の急所を解説する。5章では利用例と要素技術を紹介し,6 章ではビッグデータ利用のあり方について考察する。2.ビッグデータ利用の狙いと温故知新
2.1 ビッグデータとは 1図は,2011年の「サイエンス」誌から引用した図である。ビッグデータに関わる情報技 術を大別すると,データジェネレーション(情報の生成),データプロセッシング(情報の 処理),データストレージ(情報の蓄積)の3つが重要である。データプロセッシングは, スーパーコンピューターの処理能力の向上に代表されるように,1図に示すようなカーブで 上昇している。また,データストレージとは,例えば,ある値段のハードディスクが,どの くらいの容量のデータを格納できるかを示す。データジェネレーションには,いろいろな尺 度があるが,例えば,次世代シーケンサー(遺伝子の塩基配列を読む装置)が,単位時間に どのくらいの遺伝子配列を読めるのか,が1つの目安になる。 1図を見ると,データストレージとデータプロセッシングのカーブがほぼ並行しているこ とが分かる。この2つの技術は,いわゆる総合電機メーカーが提供する技術であり,似たよ うな増加傾向を示していると推測される。一方,データジェネレーションの急増には,セン サー,すなわち測る部分がここに関わっている。1図のカーブを見ると,現代の最先端の科 学において,どこがボトルネックになっているかが分かる。 ビッグデータには,いろいろな定義があるが,一言でいえば,大きいデータということで 1図 ビッグデータに関わる3つのデータ量の推移ある。ビッグデータを特徴付けるものは3つのV,すなわちVolume(量),Variety(種類), Velocity(データ発生速度)と言われているが,最近は,これにValue(価値)とVeracity (情報の正確さ)を加えた5つのVが重要であると言われている。一般の方々は,インター ネットのコンテンツがビッグデータであると想像するが,現代においては,むしろセンサー が獲得するデータをどう処理していくかということの方が大きな課題となっている。 2.2 ビッグデータ利用の狙い さて,ビッグデータの話に関わることで,2つほど話題を取り上げてみたい。 2011年に「マネーボール」という映画が制作された。これは,弱小の大リーグチームが, 過去のさまざまなデータを分析して,従来は全く評価されなかったが勝敗に影響する数値を 基に,どういう選手を採ったらいいのか等を予測していた。こういう領域はセイバーメトリ クス(Sabermetrics)と言われる。ネイト・シルバーという統計学者がセイバーメトリクス のオンライン版を開発したことが,この映画のモデルになった。実際にネイト・シルバーと いう人は,2008年のアメリカ大統領選挙では50州中49州で勝敗を的中させ,2012年には全州 で的中させている。 最近の話題では,ヤフー(株)の安宅さんらのチームが,参院選の与党議席数76をズバリ 当てたことが話題になった。これはビッグデータを活用したことが話題になったものである が,重要なことは,検索キーワード群の中から各政党や候補者の好感度を表すキーワードを 抽出した点である。単純に党名で検索するのではなく,検索のキーワードがその政党にどう 関係しているのか,あるいは,この検索サイトを使っている人たちはどういう政党の支持者 が多いのか,といったことを加味しながら,予測を行っている。 2.3 調査対象は数よりもどう選ぶかが重要 予測するためのデータ数を増加させただけで判断しては怖いことになる,という昔の話と して,1936年のアメリカ大統領選挙における予測が挙げられる。この当時,リテラリー・ダ イジェスト社が230万人を対象に調査を行った。調査対象者としては,この雑誌の読者や, 自動車を持っている人,電話を利用している人など,1,000万人の中から230万人を選び出し, アンケート調査を行った。一方,The American Institute of Public Opinion社(今のギャ ラップ社)は,今でいうサンプリング調査を行った。こちらの調査対象者はたったの3,000 人であり,リテラリー・ダイジェスト社と比較すると0.1%にすぎない。しかし,リテラリー・ ダイジェスト社は予想を外してしまった。これが何を物語っているかというと,調査の偏り ということである。ギャラップ社は層化抽出(割り当て法),すなわち,どのくらいの所得 の人からはどのくらいの調査対象者を選ぶか,ということをデザインして調査を行った。そ の後,RDD(Random Digit Dialing)法,いわゆるランダムに電話をかけるという方法が 主流になってきた。この実例から,データはしらみつぶしに調べればいいということではな く,何らかのデザインが重要だということが分かる。 2.4 全てのデータを検証する意義 それでは,最近のビッグデータで,全部のデータをなめるように使うメリットは何なのか ということを考えてみる。2図に示すように,2次元のグラフで,横軸に何らかの値を,縦 軸にその頻度をとる。頻度が非常に少ないところをロングテールと言う。 統計学では,既存のデータを使って,その先を予測する極値統計あるいは極値解析と呼ば れる分野がある。例えば,河川の氾濫,最大風速,最大降雨量,金融におけるリスクなどの
異常値 サンプル(実現値)で 構成される分布 頻度 値 新たに見つかった 津波の痕跡 極値分布 河川の氾濫,最大風速,最大降雨量, 金融におけるリスク等の分布に適用 ロングテール 最適化 機械学習 統計学 マイニング (超高速文字検索処理) データマイニング 予測に用いられる。このように,データとか経験に基づいて未来を予測する方法を帰納法と 言う。この方法の最大の弱点として,最近の例では,2図の赤点のような異常値(過去の津 波の痕跡)が見つかったときには,2図の極値分布は赤線のように伸ばさないといけない。 このように,異常値を読み誤った場合に予測値の誤差が大きくなる点が,帰納法の最大の弱 点である。 これに対して,データをしらみつぶしに調べると,こういう痕跡が見つかる可能性がある。 ビッグデータの利用においては,全体を捉えると同時に,全部を調べることによって,今ま で見逃してきたような,サンプリングで見つからないものを見つけることができる。「テイ ルがビッグデータの醍醐味」とも言われるゆえんである。 以上で述べたように,ビッグデータを利用する際には,大局を見ると同時に小さいものも 見つけていくことが重要となってくる。
3.ビッグデータ利用の難しさ
ビッグデータに関わる技術は,大別すると3つに分けられる。すなわち,ビッグデータの 解析技術,可視化技術,ビッグデータの取り扱いに関するハードウエアに近い技術である。 ビッグデータの解析技術は,3図に示すように,統計学,最適化,機械学習(マシンラー ニング),マイニング(超高速文字検索処理)等の4つの要素技術から成る。 ビッグデータの利用において一番難しいことは,一言でいうと,価値密度がかなり低いと いうことである。価値密度とは,4図に示すように,価値の総量をデータの総量で割った値 2図 全てのデータを取り扱う意味(帰納法の弱点) 3図 ビッグデータ解析の要素技術価値密度(目的)= 価値総量(目的) データ総量 である。昔に比べて価値の総量は増えているのだが,データの総量も非常に大きくなったた め,価値密度としては薄くなってしまう。価値の総量は大きいので,その中から何か取って くるということを人手でやっていたのでは,諸外国に勝てないということになる。 「ビッグデータはいろいろと社内にあるので,それを使って何かできないだろうか。いつも もったいないと思っているのだが」という話をよく耳にする。この種の発言をされるお客さん の案件はお断りするようにしていると,あるビッグデータのコンサルティング担当マネージャー は言っている。ビッグデータの解析は,こういうイメージではなくて,どちらかと言えば,水を 濾過器で何段にもきれいにしていく,というイメージである。これは,そう簡単ではない。 例えば,ものは分解できる。分解した結果,いろいろなモジュールでどのようにつながっ ているのかということが分かる。ところが,ビッグデータというのは最初から見えないもの なので,どうやって分解したらよいのかが分からない。 ビッグデータの解析は,水を濾過するように,多段のステップ,たくさんの処理をしなけ ればならないので,さまざまなステップが介在する。最近話題のデータサイエンティストは, 価値を見ながら,ビッグデータの解析をどのようなステップに分けて,どのような技術が必 要となるのか,役に立ちそうなのかということを見極めている。
4.ビッグデータ解析の3つの急所と予測モデル
次に,身近なところでいろいろな落とし穴,急所みたいなものがあるというお話をしたい。 ビッグデータというと,最先端のいろいろなソフトウエア技術が必要だという印象があるが, そもそもスモールデータの取り扱いに十分な理解なくしては,ビッグデータによる成功はあ り得ない。 4.1 ビッグデータ解析における3つの急所 ビッグデータ解析における3つの身近な注意点を挙げる。 1つ目は「新NP問題」,すなわち計算量の問題である。例えば,私たちは健康診断に行く と,身長,体重,血液検査など,たくさんのものを測る。統計では,それを変数と言う。1 つのサンプルにたくさん変数があると,例えば,0∼9までの10個の値のいずれかをとる変 数が2個あったときには10×10=100通りの計算をすればよい。変数の数が10個になったら, 計算の回数は10の10乗になる。変数が少し増えただけで,しらみつぶしに計算しないといけ ない数が圧倒的に増える。これを統計やコンピューターの分野では「次元の呪い」と言う。 サンプルをいくら増やしても,次元の呪いに打ち勝つことは絶対にできない。したがって, 安易にサンプル数の増大に期待するのは間違いであることが分かる。 2つ目の注意点は,「相関と因果の見極め」である。相関とは,両方がお互いに関係して 4図 価値密度の定義データ データ無しの領域 内挿 外挿 計測手法のイノベーションと直結 Nowcasting 2つの異なる推論法 Forecasting フォワード(前向き)計算モデルの記述力 対象の現状態(現況)を捉える認識力 + =予測能力 いるということである。データマイニング等のテクニックには,この相関を高速に取り上げ るのに非常に優れたものがたくさんある。一方,どちらか1つが原因で,もう1つが結果で あるというもの,これが因果である。 ビジネスで,例えば,広告費を上げると売り上げが増えるという図を書いてくる人がいる。 なるほど,これは広告効果があるのだなと思ってしまうが,ビジネスにおいては,前期の利 益の5%を広告費に充てることがよくある。そうすると,この関係は相関になるのは明らか である。あまりにも明らかな例を挙げたが,実際にビッグデータを扱う場合には,いろいろ な相関を取ってくるときに,相関を因果と勘違いして,間違えた施策や製品開発に進んでし まう可能性がある。相関と因果は違うということをしっかり見極めないといけない。 3つ目は,いろいろな予測をするときには,「内挿と外挿」をうまく組み合わせることが キーポイントになるという点である。例えば,5図のような2次元のデータがあったときに, 外挿とは,今までデータがないところを,一番端のデータから予測するということであり, 内挿とは,近傍のデータから予測するということである。内挿と外挿をうまく組み合わせる ことが重要であり,これによって,例えばウェザーニュース社のような天気予報のサービス が可能となる。 4.2 予測モデル 6図に示すように,予測能力とは2つの性能の組み合わせである。6図のフォワード(前 向き)計算モデルとは,いわゆる演繹的なものである。また,対象の現状態を捉える認識力 とは,今どうなっているかを捉える認識技術力である。予測というのは,大雑把に言えば, 大抵の場合はこの2つの組み合わせである。この組み合わせ方をどう適切に,アダプティブ にやっていくのかが鍵になる。予測は英語でForecastingあるいはPredictionと言われるが, 5図 内挿と外挿 6図 予測能力は2つの性能の合成
=
+
+
+
+
+
=
+
+
+
+
+
=
+
+
+
+
+
=
+
+
+
+
+
時間依存の 時間依存の ベースライン ベースライン 曜日効果曜日効果 周辺の 周辺の イベント効果 イベント効果 地域性 地域性 (立地) (立地) 規模 規模 レイアウト レイアウト 小売りの売り上げ予測 周辺化しては本質を見逃す! 周辺化しては本質を見逃す! A店の売り上げ B店の売り上げ C店の売り上げ D店の売り上げ ビッグデータクラウド 対象の現状態を捉える認識力はNowcastingと言われる。このNowcastingは,計測手法やセ ンサーのイノベーションと直結するものである。ポイントは,Nowcastingと計算モデルの 2つを組み合わせることにある。 リクルートテクノロジー社では,計算モデルなしに予測することを「手なり予測」と呼ん でいる。手なりとは,麻雀で手役などを考慮せずに牌効率のみでアガリに向かうことであり, いわゆる出たとこ勝負のことである。予測モデルが重要となる例として,物流では,急な人 の動員への対応,小売りでは,廃棄リスクや商品ごとの売り上げの予測,飲食業では,アル バイトをどのくらい確保できるか,製造業では,故障の前のお知らせなどが挙げられる。5.利用例と要素技術
数理や大規模並列計算の発展によって,いろいろなビッグデータ解析の手法が考案されて いる。本章では,その例をいくつか紹介する。 5.1 要因分解モデル:バラバラを癖で束ねる 1つの例として,小売りの売り上げ予測を考える(7図)。これはコンビニのローソン等 がやっているものであるが,例えば,A店の売り上げが,今の季節にどのくらいになるのか を予測する。これは,曜日や,周辺のイベント,地域性,店内のレイアウトなど,いろいろ なものに依存している。従来のように1つ1つの店をばらばらに見ても,どれがどのくらい 効果があるかは分からない。7図のように分解することが必要になる。それでは,7図で縦 に平均を取ったらよいかというと,それではうまくいかない。例えば,イベント効果は一部 の店だけに現れている,あるいは,地域性はある店には影響があるが,ほかの店に関しては 違う,というように,単純に縦だけ平均化しても何も得られないことが分かる。どうするか というと,ばらばらだったものから,似たもの,癖といっていいようなものをクラウド上に 集めてくるというようなことが大切になる。それができれば,店ごとの予測ができる。 別の例として,最近,インフラを維持するために,例えば,橋にいろいろなセンサーを付 7図 要因分解モデル:バラバラを癖で束ねる2 1 3 4 5 6 7 8 1 2 3 4 5 6 ・・・ ・・・・・・ 1 2 ・・・ 1 2 3 4 5 6 3 4 5 6 7 8 1 2 4 5 6 3 2 1 3 4 5 6 7 8 経度 緯度 患者番号 特徴量(体重,血糖値,中性脂肪値など) ○ ○ ○ ○ ○ × × 薬が効く, 効かない 似た属性 確率的に情報を埋める(推測する) ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・・・ ・・・・・・ ・ ・ ・ ・ ・ ・ けている。そのセンサーから橋がどのくらい老朽化しているかを検知するためには,車の通 行量,風量,橋の動き等,いろいろな効果を全部分解しないといけない。ビッグデータをク ラウド上に集めて,経年変化,天候,風,車の通過,設置場所などについて,似たものを束 ねて癖を読み解くことが重要になる。アメリカのGeneral Electric社など,ものづくりをし ている会社においても,自社の製品にたくさんのセンサーを付け,そのデータをリアルタイ ムでクラウド上に集めてモニタリングをしている。GE社は,これをIndustrial Internet,あ るいは第3の波と呼んでいる。 この手法は,第1次産業の農業や漁業にも適用できる。例えば,農業は,土壌整備,温度, 湿度,肥料の投与量,設置場所等々,いろいろなものに依存しているが,似たものを,癖を 読み取って集めて処理することがポイントになる。 5.2 インピュテーション:情報の欠損を埋める技術 ビッグデータ解析の背後にある数理技術の1つとして,インピュテーション(Imputation) という技術がある。例えば病院に行くと,患者ごとにさまざまな特徴量を測るが,健康な人 が測られる特徴量と,何らかの疾患が疑われるような人が測られる特徴量は全く違う。これ を8図に示すようなエクセルの表にして,縦軸を患者番号,横軸を特徴量とすると,巨大な エクセル表になるが,実際はすかすかの表になる。これをそのまま束ねると,ある特徴のあ るケースの患者さんの数は1つしかないということになる。変数が増えると,サンプル数を いくら増やしてもその空間を埋めることはできない次元の呪いというお話をしたが,それと 全く同じことになる。 では,何かヒントはないのか。例えば,地球上の場所に関係したデータであれば,緯度と 8図 インピュテーション:情報の欠損を埋める技術
変数群A (視覚データ) ECサイト: 服飾イメージ調査 店舗:試食 変数群B (味覚データ) 共通変数群 (性別,年齢,色) ビデオ映像から メニューを推薦 新サービス 経度によって並べてみると,ある場所の近くのデータはだいたい似ているだろうという知識 を積極的に活用できる。これと同じようにして,自分たちが持っている知識から,ここは計 測していないけれど,こうではないか,とエクセル表を埋めていくことができる。これがイ ンピュテーションという技術である。 5.3 リンケージ 次に,リンケージ(Linkage)という技術を紹介する。例えば9図に示すように,店舗で 試食を行ってアンケートを取ると,そのときに得られる変数群は味覚データである。さらに, EC(Electronic Commerce)サイト上で服飾のイメージ調査をすると,得られる変数群は 視覚データである。そうすると,9図の網掛け部分のデータは,そもそも無いことになる。 これを関連付けるのがリンケージという技術である。 例えば,変数群Aも変数群Bも共通に,性別や年齢などの変数を含んでいるが,この場合, 鍵となる変数は色である。なぜなら,色は服飾イメージ調査と試食の両方に関わっているか らである。そのようなデータから,ECサイトの上の部分と下の部分の関係,あるいは,店 舗の下の部分と上の部分の関係が分かれば,結果として,網掛け部分を全部埋めることがで きる。埋められれば,縦にも足し算,横にも足し算など,いろいろなことができる。すると, 新しいサービスとしては,お客さんが店に入って,その姿をビデオで撮って,メニューを推 薦するということができる。こういう技術をECサイト上ではうまく使っている。これがリ ンケージという技術である。 5.4 行列の分解 例えば,ID(Identification)付きPOS(Point of Sale)データを考えると,ある時刻に誰 がどういう商品を買ったのかというデータが1個,2個と得られる(10図)。行列で考える と,10図右上に示すような顧客ID,日付,来店データから構成される行列が得られる。こ の行列を,より簡単な行列に分解する。すると,ここで出てきた小さい行列は,意味的には, 職業で束ねたようなもの,年齢で束ねたようなもの,そういうものが自然と浮き彫りになっ てくる。この顧客は,週末型なのか,月末によく来るパターンなのかというような,いわゆ る癖がここで浮き彫りになってくる。
6.ビッグデータ利用のあり方
6.1 ビッグデータ利活用の4つのステージ ビッグデータの利活用を,4つのステージに分けて説明する(11図)。1つ目のステージ 9図 リンケージj 軸:商品 k 軸:日時 i 軸:顧客ID 大体似かよるように 代数演算のみで分解 顧客 ID 日付 来店データ ID付きPOSデータ yijk=0, 1, 2 … 週末的,月末的 職業的,年齢的 『バラバラを癖で束ねる』を実現 解析 予測モデルの構築 介入 制御 ビジネスへの展開 可視化 現況の注目度 予測モデル(アルゴリズム) なき予測は存在しない Nowcastingの世界 Forecastingの世界
Fast Data Processing:ビジネス機会の捕捉
リアルタイムにデータを捕捉し,ビジネス価値 の高い機会を捕捉する
Big Data Management:ビジネス価値の発掘 過去のデータから,ビジネス価値の高い規則 性,関連性を見出す はビッグデータの可視化,2つ目はさまざまなデータの分析・解析,3つ目は予測モデルの 構築,4つ目は,そのモデルを使って,どのように人に関与し,制御するのかというステー ジである。 可視化と解析はNowcastingの世界であり,予測モデルの構築と介入・制御がForecasting の世界である。現況においてはNowcasting止まりのビッグデータの利活用が多いのではな いかと思うが,ビジネス等々の点から考えるとForecastingが重要であることが分かる。 6.2 Forecastingの重要性 自動車を,データを採取するセンサーと考えるプローブデータという取り組みが行われて いる。このプローブデータで収集した渋滞情報を見たときに,人間というのは残念ながら, 全員ではないが,同様の考えに至って似たような行動を取る人がいる。データを見て,一定 の時間差で,ある程度の人たちが同じ行動を取ったとすると,これは制御においては位相差 (時間差)のある系となり,揺らぎを増大させる。したがって,せっかく渋滞情報を出した としても,先読みの機能がない限り,かえって悪化させるケースがある。これは,私たちも よく体験することである。 10図 行列の分解 11図 ビッグデータ利活用の4つのステージ
理論と仮定から結果を導く vs. 結果から原因を探る 技術 客観的,絶対的 価値 主観的,相対的 ■研究開発上,重要な視点とは? 大震災の後,2012年12月7日に石巻で起こったことであるが,車で逃げないでください, 徒歩で逃げてくださいとアナウンスしたにもかかわらず,さらに渋滞情報があったにもかか わらず,石巻ではまた大震災のときと同じように,全く車が動けないほどの渋滞になってし まったということで,地方自治体の方々は大きなショックを受けたという実例もある。この ように,非常時においては先読みの機能が重要になってくる。 6.3 公共サービスとビッグデータ NowcastingとForecastingの区別を,公共サービスの文脈で考えてみる。通常時は, Nowcastingは非常にパワフルであり,オープンデータやクラウドを利用して自然とデータ が集まる仕組みを作ることは,Nowcastingの力を強くする。このようなアプローチには, 民間の方々が率先して取り組んでいる。 しかし非常時には,前節の例のように,Forecastingが重要となるので,ITインフラのダ メージやバックアップシナリオ等を事前に想定してForecastingをすることになる。この場 合,先読み情報サービスが外れた場合のリスクもあるので,トリアージ(特定の基準に従っ て優先順位を決めること)をすることになるが,誰がどのような責任で行うのかという難し い問題がある。