• 検索結果がありません。

はしがき(pdf)

N/A
N/A
Protected

Academic year: 2021

シェア "はしがき(pdf)"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

はしがき

データ分析とは

近年,身近においてビッグデータ(Big Data)という用語を見る機会が増えている。ビッグ データの定義はいろいろあるが,その一つに「事業に役立つ知見を導出するためのデータ」があ る。有象無象のデータの中から「使える情報」を見つけ出せることを意味している。「ビッグ」と いう形容詞が示す通り,そのデータの規模は,人間が一 しただけで「使える情報」を見つけられ る程度ではない。月に4800万人以上が利用するWeb店舗の購入履歴や,常時モニタリングされ ている天気情報の蓄積のように巨大であるため,情報を抽出するにはコンピュータ・プログラムの 利用が必須である。 最近の例では,2013年の参議院選挙に際して,朝日新聞が世間の人々の政治意識を分析するた めに,Twitterに投稿された膨大量のツイート群を利用した例がある*1。各ツイートの内容やフォ ロワー間の関係を分析することによって,人々が関心を持つ政策やそれに関する議論の活発さ,立 候補者同士の相関図,立候補者のソーシャル力などを明らかにした。ここでは,ユーザたちが徒 然につぶやいた膨大量のツイート群や,膨大数のユーザ間のフォロワー関係がデータである。こ のデータは,ウェブシステムやモバイルコンピュータなどICT技術の発展によって,より容易に, より大量に,より日常的に得られるようになった。 さて,先の例においてデータを「分析」し,「使える情報を見つける」ためには,具体的にどう したら良いか。「政策に対する議論の活発さ」を得るための最も素直なやり方として,「消費税増 税」といった各政策に対して,その政策を表す単語を文章中に含むツイートの総数を数えればよ い。ツイートの総数が多いほど,世間の関心が高い政策とみなせる。先の例ではこの方法にアレン ジを加えて*2,議論の俎上に載る政策トップ3は「TPP」「原発」「児童ポルノ禁止法改正案」で あることが明らかになった。 上記は比較的単純な分析方法の一例である。しかし,他のデータ,例えばWeb店舗でユーザが 購入した履歴や,最近新たなデータソースとして使われるようになったモバイルのGPSデータと いったセンサデータから,他の目的で「使える情報」を見つけ出すためには,より複雑な分析方法 が必要になる場合もある。現在では,古典的な統計的方法から,複雑な代数的・確率的計算を伴う ∗1 http://www.asahi.com/special/billiomedia/senkyo2013/20162月現在) ∗2 正確には,すべてのツイートの中から「賛成」「反対」という単語を含む単語を見つけ出し,何の政策に対する 賛否なのかを取得し,最終的に各政策に対して賛否をとなえるツイートの数を数えた。

(2)

iv

はしがき 表0.1 本書で学習する多変量解析法の分類 分析法 分析目的 目的変数 説明変数 学習する章 (外的基準) (内的基準) 回帰分析 目的変数の予測 量的データ 量的データ 11章 重回帰分析 判別分析 目的変数の予測 質的データ 量的データ 16章 クラスター分析 個体の分類 なし 量的データ 5章 主成分分析 個体間の関係の なし 量的データ 13章 要約・記述 因子分析 変数・個体間の関係の なし 量的データ 14章 要約・記述 数量化I類 目的変数の予測 量的データ 質的データ 17章 数量化II類 目的変数の予測 質的データ 質的データ 18章 数量化III類 変数・個体間の関係 なし 質的データ 19章 要約・記述 数量化IV類 対象間の関係の なし 質的データ 20章 要約・記述 方法まで様々な分析手法が利用されている。将来ICT分野において,データを扱うシステムはま すます盛んに開発されるであろう。よってデータの分析手法を知ることは,将来ICT分野で活躍 すべき者には必須である。  

本書の学習内容と構成

データの分析手法は,前述したような単純な統計から複雑な数学を用いるものまで,種々の方 法が開発されている。本書では,主要なデータ分析手法の一つとして多変量解析と総称される手 法群を中心に紹介する。多変量解析は,複数の変数からなるデータセットから,変数や個体間の 関連性を導き出す統計的技法の総称である。本書では多変量解析のうち回帰分析/重回帰分析,判 別分析,クラスター分析,主成分分析,因子分析を学ぶ。また林の数量化理論で提案された数量化 I類,数量化II類,数量化III類,数量化IV類についても学ぶ。表0.1に本書で学習する多変量 解析法の分類を示す。多変量解析の手法は,分析の目的やデータセットの変数の種類によって使い 分けられる。分析の目的は主に,予測/分類/関係の要約・記述に分類される。分析の種類は,目 的変数の有無と変数が量的データか質的データかで分類される。多変量解析の分野ではこの他にも 様々な解析法が研究されている。 さらに,近年のWWWの発展に伴い,Webデータを分析するための新たな方法が開発されて いる。そこで本書では多変量解析のほか,以下の有名なデータ分析手法についても紹介する。 協調フィルタリング:情報の推薦に利用。4章で学習。 • PageRankアルゴリズム:Web情報の検索に利用。15章で学習。

(3)

はしがき

v

非負値行列分解:非負値データセットにおける個体間の関係の要約・記述に利用。9章で学 習。 本書は,上記に挙げた多変量解析法その他のデータ分析手法の原理を線形代数学的な観点から理 解することを目的とする。各手法の原理は線形代数学のほか,数理最適化といった数学の分野,お よび統計学に基づいている。特に線形代数学は,統計学や数理最適化における問題の記述にも用い られるため重要である。そのため本書では,原理を説明するのに必要な線形代数学・数理最適化・ 統計学分野の関連知識についても同時に学習する。章構成としては,まず線形代数学・数理最適 化・統計学の必要な項目を説明し,次に当該項目をその原理に利用したデータ分析法について説明 する。それぞれの項目の説明に大きく紙面を割いているため,結果的に本書では,線形代数学・数 理最適化・統計学・個々のデータ分析手法の章が入り混じっていることを了承されたい。 2016年8月 著 者

参照

関連したドキュメント

・逆解析は,GA(遺伝的アルゴリズム)を用い,パラメータは,個体数 20,世 代数 100,交叉確率 0.75,突然変異率は

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

 そこで,今回はさらに,日本銀行の金融政策変更に合わせて期間を以下 のサブ・ピリオドに分けた分析を試みた。量的緩和政策解除 (2006年3月

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

一般法理学の分野ほどイングランドの学問的貢献がわずか

析の視角について付言しておくことが必要であろう︒各国の状況に対する比較法的視点からの分析は︑直ちに国際法

 此準備的、先駆的の目的を過 あやま りて法律は自からその貴尊を傷るに至