はしがき
データ分析とは
近年,身近においてビッグデータ(Big Data)という用語を見る機会が増えている。ビッグ データの定義はいろいろあるが,その一つに「事業に役立つ知見を導出するためのデータ」があ る。有象無象のデータの中から「使える情報」を見つけ出せることを意味している。「ビッグ」と いう形容詞が示す通り,そのデータの規模は,人間が一 しただけで「使える情報」を見つけられ る程度ではない。月に4800万人以上が利用するWeb店舗の購入履歴や,常時モニタリングされ ている天気情報の蓄積のように巨大であるため,情報を抽出するにはコンピュータ・プログラムの 利用が必須である。 最近の例では,2013年の参議院選挙に際して,朝日新聞が世間の人々の政治意識を分析するた めに,Twitterに投稿された膨大量のツイート群を利用した例がある*1。各ツイートの内容やフォ ロワー間の関係を分析することによって,人々が関心を持つ政策やそれに関する議論の活発さ,立 候補者同士の相関図,立候補者のソーシャル力などを明らかにした。ここでは,ユーザたちが徒 然につぶやいた膨大量のツイート群や,膨大数のユーザ間のフォロワー関係がデータである。こ のデータは,ウェブシステムやモバイルコンピュータなどICT技術の発展によって,より容易に, より大量に,より日常的に得られるようになった。 さて,先の例においてデータを「分析」し,「使える情報を見つける」ためには,具体的にどう したら良いか。「政策に対する議論の活発さ」を得るための最も素直なやり方として,「消費税増 税」といった各政策に対して,その政策を表す単語を文章中に含むツイートの総数を数えればよ い。ツイートの総数が多いほど,世間の関心が高い政策とみなせる。先の例ではこの方法にアレン ジを加えて*2,議論の俎上に載る政策トップ3は「TPP」「原発」「児童ポルノ禁止法改正案」で あることが明らかになった。 上記は比較的単純な分析方法の一例である。しかし,他のデータ,例えばWeb店舗でユーザが 購入した履歴や,最近新たなデータソースとして使われるようになったモバイルのGPSデータと いったセンサデータから,他の目的で「使える情報」を見つけ出すためには,より複雑な分析方法 が必要になる場合もある。現在では,古典的な統計的方法から,複雑な代数的・確率的計算を伴う ∗1 http://www.asahi.com/special/billiomedia/senkyo2013/(2016年2月現在) ∗2 正確には,すべてのツイートの中から「賛成」「反対」という単語を含む単語を見つけ出し,何の政策に対する 賛否なのかを取得し,最終的に各政策に対して賛否をとなえるツイートの数を数えた。iv
はしがき 表0.1 本書で学習する多変量解析法の分類 分析法 分析目的 目的変数 説明変数 学習する章 (外的基準) (内的基準) 回帰分析 目的変数の予測 量的データ 量的データ 11章 重回帰分析 判別分析 目的変数の予測 質的データ 量的データ 16章 クラスター分析 個体の分類 なし 量的データ 5章 主成分分析 個体間の関係の なし 量的データ 13章 要約・記述 因子分析 変数・個体間の関係の なし 量的データ 14章 要約・記述 数量化I類 目的変数の予測 量的データ 質的データ 17章 数量化II類 目的変数の予測 質的データ 質的データ 18章 数量化III類 変数・個体間の関係 なし 質的データ 19章 要約・記述 数量化IV類 対象間の関係の なし 質的データ 20章 要約・記述 方法まで様々な分析手法が利用されている。将来ICT分野において,データを扱うシステムはま すます盛んに開発されるであろう。よってデータの分析手法を知ることは,将来ICT分野で活躍 すべき者には必須である。本書の学習内容と構成
データの分析手法は,前述したような単純な統計から複雑な数学を用いるものまで,種々の方 法が開発されている。本書では,主要なデータ分析手法の一つとして多変量解析と総称される手 法群を中心に紹介する。多変量解析は,複数の変数からなるデータセットから,変数や個体間の 関連性を導き出す統計的技法の総称である。本書では多変量解析のうち回帰分析/重回帰分析,判 別分析,クラスター分析,主成分分析,因子分析を学ぶ。また林の数量化理論で提案された数量化 I類,数量化II類,数量化III類,数量化IV類についても学ぶ。表0.1に本書で学習する多変量 解析法の分類を示す。多変量解析の手法は,分析の目的やデータセットの変数の種類によって使い 分けられる。分析の目的は主に,予測/分類/関係の要約・記述に分類される。分析の種類は,目 的変数の有無と変数が量的データか質的データかで分類される。多変量解析の分野ではこの他にも 様々な解析法が研究されている。 さらに,近年のWWWの発展に伴い,Webデータを分析するための新たな方法が開発されて いる。そこで本書では多変量解析のほか,以下の有名なデータ分析手法についても紹介する。 • 協調フィルタリング:情報の推薦に利用。4章で学習。 • PageRankアルゴリズム:Web情報の検索に利用。15章で学習。はしがき