ビッグデータの定義について
著者
石村 貞夫, 石村 友二郎
雑誌名
鶴見大学紀要. 第4部, 人文・社会・自然科学編
号
51
ページ
69-71
発行年
2014-03
URL
http://doi.org/10.24791/00000163
Creative Commons : 表示 http://creativecommons.org/licenses/by/3.0/deed.jaビッグデータの定義について
Some remarks on Definition of Big Data
石村 貞夫・石村 友二郎
Sadao ISHIMURA and Yujiro ISHIMURA
「鶴見大学紀要」第 51 号 第 4 部 人文・社会・自然科学編 (平成 26 年 3 月) 別刷
69 1.序文 「ビッグデータ」は、現在、IT産業のキーワードと なっており、新聞テレビなど、あらゆる分野で注目を 集め始めている。 リレーショナルデータベースのような構造化された データに対し、「ビッグデータ」は非構造化データと いわれている。 この構造化されていないデータとは、顧客データ、 売上高、証券取引のデータ、Eメール、インスタント メッセージ、携帯メール、写真、音楽、動画、ブロ グ、ソーシャルメディア、電子メール、センサーなど のデータを意味している。 もちろん、医療における患者のカルテや診療報酬の レセプトなども構造化されていないデータといえるだ ろう。 したがって、「ビッグデータ」とは、情報の急激な 成長、可用性、活用法についての説明に広く使われる 用語であり、「ビッグデータ」分析とは、大規模な非 構造化データをいかに分析するかということになる。 データ分析用ソフトの SAS や SPSS では、独自の 「ビッグデータ」分析方法を開発している。 「ビッグデータ」分析の目的は、社会・経済の問題 解決や、業務の付加価値向上や支援にあり、例えば、 NHKのある番組によると、医療の分野では、どういっ た治療をすれば最適な効果が上がるかという費用対効 果が「ビッグデータ」分析により可視化され、これま でブラックボックスだった医療のムダがあぶり出され たという報告もある。 さらに、医療に関する「ビッグデータ」を積極的に 活用しているスウェーデンでは、高齢社会に備えて社 会保障情報も統合し、リウマチでは高い治療法を選択 しても、患者が早期に社会復帰できれば安く済むな ど、多くの治療項目を「ビッグデータ」で解析して、 高齢化対策が進められている。 「ビッグデータ」には、今までのデータベースソフ トが分析できる能力を超えたサイズのデータを意味す る場合もあり、また、データの種類の多様性とデータ の利用目的の多様性にその特徴をみることができるの だが、まだ、「ビッグデータ」の定義は確定していな いようである。 このような「big data」は、文字通り、大きなデー タのことなのだが、インターネットで「ビッグデー タ」を検索すると、その数は2650万件にものぼる。 そこで、このようなインターネット検索の中から、 「ビッグデータ」の定義をいくつか取り上げてみよ う。 2.Yahoo 百科事典による定義 定義 「ビッグデータ」とは、コンピュータや通信 機器などの高機能なデジタル機器が仕事や暮らしに広 く利用されることにより、日々刻々と記録されている さまざまなデータの巨大な集まりのこと。 種類・大きさ 「ビッグデータ」には、種類や量な どになんらかの規定はなく、多くの種類と形式のデー タがある。 性質 「ビッグデータ」には、データベースでファ イル管理されている構造化データとファイル管理のむ ずかしい非構造的データとがある。 3.ウィキペディアフリー百科事典による定義 定義 「ビッグデータ」 (英: big data)とは、市販 されているデータベース管理ツールや従来のデータ処 理アプリケーションで処理することが困難なほど巨大 で複雑なデータ集合の集積物を表す用語である。 性質 「ビッグデータ」は、通常、収集、取捨選 択、管理、および許容される時間内にデータを処理す るために一般的に使用されるソフトウェアツールの能 力を超えたサイズのデータ集合を含んでいる。 4.知恵蔵2013 による定義 定義 「ビッグデータ」とは、インターネットの普 及や、コンピューターの処理速度の向上などに伴い生 成される、大容量のデジタルデータを指す。 例 ブログ、動画サイト、Facebook、Twitter、 ソーシャルネットワーキングサービス、パソコンやス ビッグデータの定義について
ビッグデータの定義について
Some remarks on Definition of Big Data石村 貞夫・石村 友二郎
Sadao ISHIMURA and Yujiro ISHIMURAマートフォンなどの文字、音声、写真、動画などのデ ジタルデータ。 大きさ コンピュータには、利用状況や通信記録な どのログと呼ばれるデータが日々生成されており、イ ンターネットにつながる様々なコンピュータから生み 出される「ビッグデータ」は、合計すると数百テラバ イト以上とされている。 性質 「ビッグデータ」は、単に大容量であるだけ でなく、非定型でかつリアルタイム性が高い。 比較 従来のデータベース管理システムでは、デー タを定型化して蓄積し、その後で処理分析するため、 相反する性質を持つ「ビッグデータ」を扱うことは困 難とされていた。 ソフト 近年、「ビッグデータ」を高速かつ簡単に 分析できる技術が登場し、「ビッグデータ」を活用す れば、これまで予想できなかった新たなパターンや ルールを発見できることが明らかとなった。 活用例 アマゾンや楽天などのオンラインショップ では、購買履歴やサイト内のアクセス情報などの 「ビッグデータ」を基に、商品を購入する際に、他の おすすめ商品を表示している。 活用例 ソフトバンクでは、検索サイト「ヤフー」 から得られる「ビッグデータ」を積極的に利用して、 他社から乗り換える可能性の高そうなユーザーを絞り 込み、該当するユーザーにのみ乗換案内キャンペーン のバナー広告を表示させている。 活用例 「ビッグデータ」には、健康情報や位置情 報、気象情報など、様々な分野で活用できるデータが 含まれているため、新たな市場の創出が期待される。 5.デジタル大辞泉による定義 定義 「ビッグデータ」とは、膨大かつ多様で複雑 なデータのこと。 例 スマートホンを通じて個人が発する情報、コン ビニエンスストアの購買情報、カーナビゲーションシ ステムの走行記録、医療機関の電子カルテなど。 特徴 「ビッグデータ」は、単に膨大なだけではな く、非定形でリアルタイムに増加・変化するという特 徴を持ち合わせている。 活用例 「ビッグデータ」を扱う新たな手法の開発 により、2010年前後から、産業・学術・行政・防災な どさまざまな分野で利活用が進み、意思決定や将来予 測、事象分析が行われている。 6.IT用語辞典による定義 定義 「ビッグデータ」とは、従来のデータベース 管理システムなどでは記録や保管、解析が難しいよう な巨大なデータ群のこと。 使用例 「ビッグデータ」という言葉は、企業向け 情報システムメーカーのマーケティング用語として多 用されている。 大きさ・性質 「ビッグデータ」は単に量が多いだ けでなく、様々な種類・形式が含まれる非構造化デー タ・非定型的データであり、さらに、時間を追って膨 大に生成・記録される時系列性・リアルタイム性のあ るようなものを指すことが多い。 将来性 今までは管理しきれないため見過ごされて きた「ビッグデータ」を記録・保管して即座に解析す ることにより、ビジネスや社会に有用な知見を得た り、これまでにないような新たな仕組みやシステムを 産み出す可能性が高まるとされている。 7.A社による定義 定義 「ビッグデータ」とは、インターネットの普 及とIT技術の進化によって生まれた大容量かつ多様な データのこと。 特性 「ビッグデータ」の特性は量、更新速度、 データの種類に表れる。 注意点 大きなデータがすべて「ビッグデータ」で はなく、「ビッグデータ」とこれまでのデータとの違 いは扱うデータの種類にある。 8.B社による定義 定義 「ビッグデータ」とは、今まで集められな かったデータや集めても活用しきれていなかった大量 のデータのこと。 重要性 実社会における人の活動やモノの動きから 生まれるデータの価値が重要であり、したがって、 「ビッグデータ」から新たな価値を導き出すことが最 も重要である。 違い 量の規模の違い。種類の多様性の違い。リア ルタイム処理の違い。 9.C社による定義 定義 2.5エクサバイトの大量 データを総じて 「ビッグデータ」と呼ぶ。 大きさ 「ビッグデータ」の容量は、数テラバイト から数ペタバイト。 種類 「ビッグデータ」は、構造化データだけでな く、テキスト、音声、ビデオ、クリックストリーム、 ログファイル等のさまざまな種類の非構造化データも 含まれる。 例 ICタグなどのセンサー、ソーシャルメディアの 投稿、オンライン購入の処理レコード、 携帯電話の GPS信号、インターネット上に保存されたデジタル写 真、ビデオなど。
71 ビッグデータの定義について 10.ビッグデータの分析ソフト 「ビッグデータ」の分析用ソフトとしては、IBM SPSS Modelerがよく利用されている。 IBM SPSS Modeler は、迅速かつ直感的に予測モデ ルを作成できるように考えられた、プログラミング不 要のデータ・マイニング・ワークベンチである。デー タ・マイニング手法を使えば、結果をモデル化し、結 果に影響を与える要因を理解することができる。 IBM SPSS Modeler は、IBM SPSS Modeler Premium および IBM SPSS Modeler Professional の 2 つのエディションで使用できる。 IBM SPSS Modeler の特徴 1.データ・マイニングを迅速かつ容易にし、データす べてを使用してより優れた意思決定を行うことができ る。 2.プログラミング不要の強力な予測モデルを作成でき る。 3.直感的なグラフィカル・インターフェースで作業が できる。 4.ビジネス・ユーザーが直接データ・マイニングを行 えるので、アナリストの生産性が向上する。 5.モデル作成を自動化し、問題解決のための最良の手 法を識別できる。 6.Modeler Premium は、完全に統合されたテキスト 分析ワークベンチを備えており、文書、電子メール、 ブログ、RSS フィードなどのテキスト分析ができる。 7.Modeler Premium には、ID を解決するためのエン ティティー分析と、個人およびグループの社会的行動 を表示するソーシャルネットワーク分析が含まれてい る。 8.IBM および IBM 以外のデータベースで使用でき、 モデルの配置およびスコアリングを高速かつ効率的に 実現する。 9.他の IBM SPSS ソフトウェア製品と統合して、切 れ目のない分析ができる。 10.SPSS Modeler Professionalにより、予測インテリ ジェンスを使用して、より優れた決定が可能となる。 参考文献 1.ビッグデータ Wikipedia 2.ビッグデータとは 知恵蔵2013 3.ビッグデータとは IT用語辞典 4.ビッグデータとは デジタル大辞泉 5.ビッグデータとは何か 総務省 6.ビッグデータへの道 日立 7.ビッグデータ利活用 富士通 8.ビッグデータ 伊藤忠テクノソリューションズ 9.IBM スマートなソフトウェア活用 10.NECのビッグデータソリューション 11.Yahoo!百科事典 12.リレーショナルデータベース教科書 [改訂新版] 斉藤孝 著 2008/12 ソフト・リサーチ・センター 13.リレーショナルデータベース 上向井照彦 松田稔 著 2004/06 日刊工業新聞社 14.やさしい情報検索とリレーショナル・データベース 田中 功 著 立花厚子 藤田裕 著 2004/05 培風館 15.リレーショナルデータベース入門 [新訂版] 増永良文 著 2003/01 サイエンス社 16.リレーショナルデータベースの基礎 増永良文 著 1990 オーム社 17.ビッグデータの正体 ビクター・マイヤー=ショーンベル ガー 他 著 斎藤栄一郎 訳 2013/05 講談社 18.ビッグデータの覇者たち 海部美知 著 2013/04 講談社 19.ビッグデータ時代のマーケティング 佐藤忠彦 樋口知之 著 2013/01 講談社 20.ビッグデータがビジネスを変える 稲田修一 著 2012/12 KADOKAWA 21.サービス工学の技術 本村陽一 竹中毅 石垣司 編著 2012/11 東京電機大学出版局 22.ビッグデータの衝撃 城田真琴 著 2012/07 東洋経済新報 社 23.ビッグデータ革命 野村総合研究所 著 2012/03 KADOKAWA ビッグデータの定義
Some remarks on Definition of Big Data
歯学部 准教授 石村貞夫 早稲田大学大学院 基幹理工学研究科 応用数学科