首都大学東京

(1)

2019 ( ^令和元 ) ^{年度修士論文}

多次元時系列データに対する評価指標構築のための視覚的分析フレームワークに関する研究

Study on Visual Analytics Framework for Formulating Evaluation Metrics of Multi-dimensional Time-series Data

2020 ( ^令和 2) ^年 2 ^月 21 ^日提出

首都大学東京

システムデザイン学部システムデザイン研究科情報科学域

18860615 ^{高見玲}

指導教員高間康史教授

(2)

要旨

本論文では , 多次元時系列データに対する評価指標構築を支援するための , 視覚的分析フレームワークを提案する .

計算機の処理能力の増大や情報技術の進展に伴い , 医療 , スポーツ , ビジネスインテリジェンスなどの多様な分野において , 多次元かつ時系列的な性質を持つデータが収集され , 経営における意思決定などに活用されている . 多次元時系列データに基づく意思決定のために , 外れ値の検出や , 類似パターンのクラスタリングなどが行われる . 収集されたデータをそれらのタスクに活用するために , 評価指標の定義が必要である . 本論文では , データの評価指標をユーザの主観的な価値 ( 基準 ) に対するデータの適合度合いを判断するための , 解釈可能かつ定量的な目安の表現方法 ” として定義する . 評価指標の具体例として , 外れ値の決定基準やクラスタリングに用いる距離関数の決定基準 , プロ野球におけるセイバーメトリクス , 企業組織における達成目標などが存在する . 分類タスクなどに用いられる教師あり学習においても , 評価指標は重要な役割を持つ . 教師あり学習における訓練データのラベル ( 目的変数 ) は人間によるアノテーションを通じて獲得されるが , 評価指標を用いない場合 , それらは個人ごとに異なる主観的基準に基づき決定されてしまう . 高品質な訓練データを獲得するためには , 解釈可能かつ定量的な評価指標に従い , アノテーションを行う必要がある . 加えて , 時系列データは季節などの時期により傾向が異なる場合があるため , 時点毎の特性の違いを考慮した評価指標を構築する必要がある .

適切な評価指標の決定には , データ分析に主体的に関与しながら分析方針を客観的・定量的に定義し , データの価値を引き出す分析者の存在が必須となる . また , 全てのデータに対して有効な評価指標は存在せず , その性質によって適切な評価指標は異なる . そのため , 評価指標は必然的に対象ドメインについて詳細な知識を持つ専門家により決定される必要がある . しかし , 多次元データを分析対象とする場合 , それらを高次元のまま分析し , 理解することは困難なため , 対象データの複雑性を解消するためのサンプリングや次元削減などの前処理が必須となる . このとき , ドメイン専門家はデータに関する知識を持つが , データに適用される前処理に関する知識を持つとは限らない点が問題となる .

分析対象データの可視化に基づき , 分析作業やデータへの理解を支援する視覚的分析が研究されている . さらに , 前処理アルゴリズムやモデルに関する知識がなくても適切なパラメータ調整を可能とするために , 可視化結果自体に対する直接操作に込められた分析者の意図をシステムが推測し , パラメータに即時反映

する semantic interaction のコンセプトが提案されている . 評価指標の構築も , 多次元データの各属性間の

関係や個々の属性の把握 , 指標の有効性検証を必要とする . そのため , 視覚的分析や semantic interaction が有効と考えるが , これらを対象とした先行研究は少ない . さらに , 多次元時系列データに適用するためには , データの時間的傾向を考慮した , 新たなインタラクションフレームワークを構築する必要がある .

本論文では , semantic interaction に基づく次元削減アルゴリズムのパラメータ調整を通じて , 多次元時系

列データの評価指標を構築する作業を支援するための視覚的分析フレームワークを提案する . 対象データ

は次元削減アルゴリズムに基づき , 時点毎に 2 次元平面に散布図として可視化され , アニメーションを用い

て時間的特性が表現される . 提案フレームワークでは , 多次元時系列データに対する評価指標を時点ごとに

各属性の重み付き線形結合として表現する . 散布図の各軸も同様に各属性の重み付き線形結合として表現

することで , 評価指標の構築と散布図上でのオブジェクトの移動を対応づける . Semantic interaction のコン

セプトに基づき , 分析者の操作を , 特定オブジェクトを強調する大局的な移動とオブジェクト間の位置関係

を調整する局所的な移動として定義する . 分析者は多次元時系列データに対する自身の知識や意図を反映

するように散布図上のオブジェクト配置を調整し , システムはその結果を各軸に対応した属性の線形結合に

還元する . 分析者はオブジェクト配置を調整する過程でどの時点について , どの属性を強調すべきか ” の

ような指標に関するアイデアを獲得すると同時に , 指標構築のたたき台となる各属性の重みを獲得できる .

(3)

提案フレームワークの有効性を検証するために , 主成分分析に対する適用結果を可視化するプロトタイプインタフェースの設計と実装を行った . 本インタフェースは散布図ビューと詳細ビューの 2 つの画面から構成される . 前者は , 散布図を用いた対象データの可視化と , パラメータ調整機能を提供する . 後者は , 線グラフや平行座標などの複数の可視化手法を組み合わせて , 散布図上のオブジェクトに関する詳細な情報を提示する . 本インタフェースでは , (1) 各時点におけるデータの空間的座標を表現するノード , (2) ノードの時間的変化を可視化する軌跡表現 , (3) ノードや軌跡の集合を表現する凸包の 3 つの可視化オブジェクトを用いて , 時系列データを可視化する . 各オブジェクトの直接操作を通して , 多次元時系列データの傾向の探索的な分析と , 分析結果に基づく評価指標の構築を支援する . ユーザ実験に基づき提案フレームワークの有効性を定量的・定性的側面から検証する .

本論文は全 7 章から構成される . 第 1 章では , 序論として本論文の研究背景と概要を示す . 第 2 章では , 評

価指標の定義を明確化し , 情報可視化や視覚的分析に関する先行研究や , その応用例を述べる . また , 時系列

データや多次元データの可視化や , 評価指標の構築支援に関する先行研究を示す . 第 3 章では , 時系列デー

タに対する指標構築支援のために解決すべき問題点や , 提案フレームワークの要件について考察する . その

結果に基づき , 提案フレークワークの詳細と主成分分析に対する適用例を示す . 第 4 章では , 提案フレーム

ワークに基づくプロトタイプインタフェースの設計と実装に関する詳細を述べる . 第 5 章では , 提案フレー

ムワークおよびインタフェースの , 指標構築プロセスにおける定性的な有効性の検証を目的として行った ,

実データを用いたケーススタディの結果を示す . 第 6 章では , 第 5 章で得られた知見より設計したユーザ実

験の結果を示し , 提案フレームワークおよびインタフェースの有効性を定量的および定性的な側面から検

証する . 第 7 章では , 本論文の内容をまとめ , 今後の展望と研究課題を示す .

(4)

Abstract

This thesis proposes a visual analytics framework for formulating evaluation metrics of multi-dimensional

time-series data. Multi-dimensional time-series data has been collected and utilized in various domains. Eval-

uation metrics are expected to play an important role in utilizing those data, such as hypothesis generation and

labeling training data used in machine learning. However, it is a di ﬃ cult task for domain experts to formulate

metrics especially for multi-dimensional time-series data because of their complexity related to dimensional-

ity and temporal tendency. To support the process of formulating metrics, the proposed framework represents

metrics as a linear combination of data attributes and provides a means for adjusting it through interactive

visual analytics. Following the proposed framework, a prototype interface is implemented, which visualizes

target data using an animated scatter plot. Through this interface, several visualized objects can be directly

manipulated: a node and a trajectory of an instance, and a convex hull as the group of nodes and trajecto-

ries. To adjust parameters for formulating evaluation metrics, linear combinations of attributes are adjusted

in accordance with the direct manipulation of visualized objects by users. The e ﬀ ectiveness of the proposed

framework is demonstrated through case studies of the prototype interface to real-world data. Also, the e ﬀ ec-

tiveness of the framework and the interface is verified by two user experiments based on hypotheses obtained

from the case studies.

(5)

1 ^序論

計算機の処理能力の増大や情報技術の進展に伴い , ^{医療やセキュリティ} , ^スポーツ , ^{ビジネスイ} ンテリジェンスなどの多様な分野で多次元かつ時系列な性質を持つデータが収集されている . ^収集されたデータは , 産業界における経営指針の決定や商品の売り上げ予測 [53] ^など , ^{多様なドメ} インで活用されている . 収集された多次元時系列データの解釈や , それに基づく意思決定を行うために , 外れ値の検出や類似パターンのクラスタリング , 将来の動向予測のような , ^{多くの計算機技} 術を活用した手法が適用される . ^その際 , 多くのタスクにおいて評価指標を定義する必要がある . 本論文では , ^{データの評価指標を} ^{ユーザの主観的な価値} ( ^基準 ) に対するデータの適合度合いを判断するための , 解釈可能かつ定量的な目安の表現方法 ” ^{として定義する} . ^{これに該当する評価指} 標の例として , 外れ値の判定基準やクラスタリング時の距離関数の種類を決定する基準などが存在する . ^加えて , プロ野球リーグにおける選手の活躍度合いを評価するための指標 ( ^{セイバーメト} リクス ) [3] ^や , ^{企業組織における} KPI (Key Performance Indicator) [10] のような定性的な意思決定に活用されるものも存在する .

分類問題のような教師あり学習に関しても , ^{評価指標は必要となる} . パターンごとの訓練データのラベル ( ^目的変数 ) ^は , 人間によるアノテーションを通じて獲得されるが , ^{評価指標を用いない} 場合 , ラベルは個人ごとに異なる主観的基準に基づき決定されてしまうため , ^{学習の精度が低下す} る問題が考えられる . 質の高い訓練データを獲得するためには , 解釈可能かつ定量的な評価指標に基づき , アノテーションを行う必要がある . ^特に , 時系列データは季節や曜日のように , ^時期ごとに異なる時間的特性を持つ . それらを適切に活用するためには , 時点毎の特性の違いを考慮した評価指標を構築する必要がある .

評価指標は任意の対象データを適切に定量化できる必要があり , 主観や特定データへの適合のみに基づき定義された評価指標は確証バイアス [88] ^{をもたらす} . ^{このようなバイアスは} , ^他の利用者にとって解釈が難しくなったり , 特定のデータへの過適合の問題を引き起こしうると考える . 適切な評価指標を定義し , データを活用するためにはデータ分析に主体的に関与しながら分析方針を客観的・定量的に定義し , データの価値を引き出す分析者の存在が必須となる [101]. ^計算機技術の利用に基づき指標構築を支援する手法として , 機械学習アルゴリズムなどにより自動的に算出されたものを活用する手法も考えられるが , モデルの予測精度の面では有効だが , ^解釈可能性に関して問題がある . ^そのため , 結果に対するドメイン専門家による分析と検証が必要となる [18].

多次元時系列データを元データのまま理解し , 指標形成のための予備的分析を行うことはドメイン専門家にとっても困難な作業である . ^一般に , 多次元時系列データの複雑性を解消するためにはサンプリングやセグメンテーション次元削減などの前処理が適用される [11]. ^{ドメイン専門家} はデータに対する詳細な知識を持つが , データの前処理手法などに関する詳細な知識を持つとは限らない .

複雑なデータの傾向に関する知識形成を支援するために , 対象データの可視化に基づく視覚的

分析 (visual analytics) ^{が研究されてきた} [43]. ^さらに , 前処理アルゴリズムやモデルに関する知

識を持たないドメイン専門家によるパラメータ調整を支援するために , 可視化されたオブジェク

ト自体への直接操作に込められたユーザの意図を推測した上で , 次元削減アルゴリズムなどの

モデルのパラメータを修正し , 結果を可視化としてユーザに即時フィードバックする semantic

(8)

interaction のコンセプトが提案されている [25]. 評価指標の構築においても , ^{多次元時系列データ} を対象とした知識形成プロセスを通じて各属性の特性や関係を把握する必要がある . ^また , ^単一の指標だけでなく , 代替案の比較検討も必要となるため , ^{視覚的分析や} semantic interaction ^のコンセプトは有効だと考えるが , これらを指標形成タスクに適用した研究は少ない . ^特に , ^{多次元時系} 列データを対象とする場合 , データが持つ周期性のような時間的傾向を考慮すべきであるため , ^新たなインタラクションフレームワークを構築する必要がある .

本論文では , semantic interaction に基づく次元削減結果アルゴリズムのパラメータ調整を通じて , 多次元時系列データに対する評価指標を構築する作業を支援するための視覚的分析フレームワークを提案する . 次元削減アルゴリズムを適用した結果に基づき , ^{対象データは} 2 ^{次元平面に} 散布図として時点ごとに可視化される . データの時間的特性はアニメーションを用いて表現される . 提案フレームワークでは , 多次元時系列データの評価指標を時点ごとにデータの各属性の重み付き線形結合として表現する . ^{多次元データの} 2 ^{次元平面への投影にも} , ^{主成分分析} (PCA:

Principal Component Analysis) ^{などを用いることで} , 各属性の寄与度の線形結合として各軸を表

現する . ^{このように} , 両者を各属性の強調度合いとして統一的に表現することで , ^{評価指標の構築} と散布図上でのオブジェクトの移動を対応づける .

提案フレームワークでは , 上述のように各属性の強調度合いとしてドメイン知識を反映する .

Semantic interaction ^{のコンセプトに基づき} , 可視化オブジェクトに対する分析者の直接操作を , ^特

定オブジェクトを暗黙的に強調する大局的な移動と , オブジェクト間の明示的な位置関係の指定による局所的な移動の 2 ^{種類として定義する} . ^両操作は , 別々のパラメータの調整としてシステム側に解釈される . 大局的な移動によって調整されるパラメータは , 各属性の強調度合いに対応する . 局所的な移動に対応するパラメータは個々のデータに対する強調を表現し , ^{分析者の意図に応} じて各属性の強調度合いに還元できる . これらのパラメータを指標の更新に活用することで , ^散布図に対するユーザ意図の柔軟な表現を実現する . ^例えば , 散布図上のオブジェクトをドメイン知識に一致するように移動すると , 局所的な移動に対応するパラメータが調整される . ^{これにより} , ^分析者は散布図上のオブジェクト配置を調整しながら , ^{どの時点について} , ^{どの属性を強調すべき} か ” ^のような , 指標の構築に必要なアイデアを漸進的に獲得できる . ^同時に , ^{ドメイン知識に適合す} る投影を獲得した時点で , 各属性の強調度合いを指標構築のためのたたき台として活用できる . ^また , データの時間的な特性を考慮した , 時点ごとのパラメータ調整によって多次元時系列データに対する指標構築を支援する .

提案フレームワークの有効性を実証するため , 主成分分析を用いた多次元時系列データの次元削減結果を可視化するプロトタイプインタフェースを設計・実装した . 本インタフェースは散布図ビューと詳細ビューの 2 つの画面から構成される . ^前者は , 時間的変化をアニメーションで表現する 2 次元散布図を用いて対象データを可視化し , 各属性の強調度合いを散布図の各軸に棒グラフとして提示する . ^{散布図ビューにおいて} , 分析者は可視化オブジェクトの直接操作を行いながら , データの分布や時間的変化 , 投影アルゴリズムに関する洞察を形成できる . ^{それに基づき} , ^指標構築を目的とした各属性の強調度合いの修正や , その結果の検証を行える . ^{詳細ビューは} , ^線グラフや平行座標のような複数の可視化手法を組み合わせ , 散布図上のオブジェクトに関する詳細情報を提示する . ^{これにより} , 散布図ビューで得られた視覚的傾向に関する仮説検証を支援する .

本インタフェースでは , (1) 特定の時点におけるデータの空間的座標を表現するノード , (2) ^ノー

(9)

ドの時間的変化を可視化する軌跡表現 , (3) ノードや軌跡の集合を表現する凸包の 3 ^{つの可視化} オブジェクトを用いて , 多次元時系列データを可視化する . ^また , 各オブジェクトに対して , ^分析作業やパラメータ調整を支援するためのインタラクションを提供する . 分析者は各オブジェクトを使い分けながら , 特定の時点についてのみ , ^{傾向を強調したい} ” ^や , データグループ全体について , それらを他のグループと区別するようにパラメータを調整したい ” ^のような , ^{多彩な要求に} 基づきデータの探索的分析と評価指標を構築できる . 指標の構築支援に関しては , ^{オブジェクトへ} のラベリング , ^検索 , ^{パラメータの入出力} , 探索履歴の可視化などの機能も提供する .

提案フレームワークおよびプロトタイプインタフェースの有効性を検証するため , ^{実データを}

用いた外部協力者による定性的なケーススタディを実施した . ^また , ケーススタディで得られた仮

説を定量的に検証するために , 20 代の工学系大学生および大学院生を中心とした 2 ^{つの評価実験}

を行った . 1 ^{つ目の実験では} , 類似データの探索効率に関するプロトタイプインタフェースの有効

性を検証する . 提案システムの機能を限定した , ^凸包 , 軌跡に関する機能のみを有するベースライ

ンインタフェースと比較し , 探索時間などの観点から有効性を検証する . 2 ^{つ目の実験では} , ^提案

フレームワークの各パラメータ調整手法の有効性を検証する . ^{比較対象として} , ^{各パラメータ調整}

手法の一部を無効化した複数のベースラインインタフェースを用意し , タスクの達成効率やパラ

メータの調整回数などを比較する . ^{実験結果に基づき} , 提案フレームワークとプロトタイプインタ

フェースの視覚的分析における有効性や , 多次元時系列データに対する指標形成プロセスにおけ

る有効性を議論する .

(10)

2 ^関連研究

本章では , 情報可視化と視覚的分析 , ^{多次元データの可視化} . 時系列データの可視化の側面から , 関連研究を述べる . ^また , 提案フレームワークが対象とする評価指標の定義を明確化し , ^指標構築の支援に関する先行研究を示す .

2.1 情報可視化と視覚的分析

センサログやテキストストリーム , ^ビジネス , ^スポーツ , 医療などの多様なドメインにおいて , データの種類 , ^容量 , 頻度が膨大なデータが蓄積されている . ^{データを解釈したり} , ^{意思決定を行} うためには , 人間がデータ分析を行う必要がある . ^しかし , 分析対象となるデータ量が大きい場合 , 表計算ツールなどを用いて , 元データを直接分析することは困難になる . ^加えて , ^{データが時間的} な特徴を持つ場合には , 分析者は時点間の傾向の違いを考慮しながら分析を行う必要がある . ^特に , 従来の表計算ソフトなどによる多次元時系列データの分析作業は , データ構造の複雑性などの要因から各データドメインの専門家にとって困難である . ^そのため , 情報可視化技術を用いた分析タスクの支援が行われる . ^可視化 (Visualization) ^は , グラフやヒストグラムなどの視覚的な表現を用いて , 分析者に情報を提示する手法である . 可視化技術の活用により , ^{人間の知覚能力} を活用した多面的なデータの観測や , 直感的な視覚的傾向の把握に基づくデータからの知識獲得が行える [52]. ^{可視化技術は} , ^{情報可視化} (Information Visualization) ^{と科学的可視化} (Scientific

Visualization) ^の 2 ^{つに大別される} . ^前者は , 株式市場の変動のような , 空間座標上に直接マッピン

グできない抽象的なデータを扱う . ^後者は , 現実世界の地理空間などに直接マッピング可能なデータを対象とする [52]. ^{本論文では} , 前者による抽象的データの可視化を通したデータ分析の支援を対象とする .

2.1.1 ^{視覚的分析}

一般に , データの分析者であるドメイン専門家は分析対象については豊富な知識を持つが , ^必ずしもデータ分析手法の専門家ではない . データの分析方針が明確に定義されている場合 , ^機械学習アルゴリズムなどの適用は意思決定などのタスクにおいて大きな効果を得られるが , ^{そうでない} 場合には , データの特性を深く理解するところから始め , 分析方針や適用するアルゴリズムの選定に関する仮説形成を行う必要がある [43]. 対象データに対する明確な分析方針に基づき行われる分析を確証的分析 (CDA: Confirmatory Data Analysis) ^{と呼ぶのに対して} , ^{未知データに対する分} 析方針などの仮説や知識の獲得を目的として行われるものを探索的分析 (EDA: Exploratory Data

Analysis) ^と呼ぶ [52] [101]. 分析者は探索的分析を通して , データを多様な観点から観測し , ^それ

らの構造や特性を理解しながら仮説形成を行う . 前述の情報可視化技術は対象データを直感的に表現できるため , 探索的分析と親和性が高い [101].

情報可視化技術を適用する際に , データが大規模な場合や , 複数の属性を持つ場合には , ^前処理に基づくデータ量・属性数の削減や , 可視化による複数オブジェクトの集約表示が必要とな

る [50]. ^この場合 , 単一のビューに表示される可視化結果のみから全体の傾向と個々のデータの

特性を同時に把握しづらくなる . ^また , 単一の可視化表現だけでは多面的なデータ探索は困難であ

る . これらの問題に対処するため , データの可視化結果の提示とズーム操作などのインタラクショ

(11)

ンを組み合わせて , 分析者がドメイン知識に基づきデータを解釈し , 洞察を獲得するプロセスを支援する視覚的分析 (visual analytics) ^{が研究されている} [43].

視覚的分析は , 特に企業における意思決定を支援するために , 蓄積されるデータに対する分析や加工操作を提供する BI (Business Intelligence) の分野で用いられてきた . ^{可視化や視覚的分析を} 利用した BI ^{ツールとして} , Tableau Software ^社の Tableau

^*1

^や , TIBCO Software ^社の Spotfire

^*2

, Microsoft ^社の Power BI

^*3

^{などが存在する} .

Shneiderman ^は , 情報可視化の対象となるデータ形式の特性として , ^{データの次元数} , ^時系列性 ,

木構造 , ネットワーク構造を挙げている [84]. ^また , 可視化された情報に対する人間の探索過程として , データの大局的な流れを傍観しながら必要な要素のみを切り出し , 具体的なデータを探索する手順を想定し , ^以下の visual information seeking mantra ^{を提唱している} [84].

Overview first, zoom and, filter, then details-on-demand.”

Keim らはこの考えをインタラクティブ情報探索や視覚的分析に拡張し , ^{以下に示す} visual

analytics mantra ^{を提唱している} . ^これは , 最初にデータベースを概観し , 興味深い箇所に着目して

可視化を適用 , ズームやフィルタリング操作を用いて表示データ数を制御し , ^{最終的に具体的な} データを探索するというプロセスを表している [43].

Analyze first, show the important, zoom, filter and analyze further details on demand.”

Yi ^らは , 視覚的分析においてデータから洞察を形成したり , 複数の可視化表現を比較する際には , 静的な可視化手法とインタラクションを組み合わせることが重要であるとしている . ^また , ^情報可視化や視覚的分析インタフェースにおいて一般的に用いられるインタラクションを , ^可視化表現を介したデータ表現への操作 , もしくはデータの調整として定義し , ユーザの分析行動に基づき以下の 7 ^{種類に分類している} [97].

• Select: 興味のあるオブジェクトの選択

• Explore: 探索対象外のオブジェクトの表示 , ^探索

• Reconfigure: ^{異なった配置の提示}

• Encode: 対象オブジェクトの視覚的表現の変更

• Abstract / Elaborate: ^{データの詳細度の変更}

• Filter: 特定の条件に従うデータの提示

• Connect: 対象オブジェクトの関連オブジェクトの提示

2.1.2 混合主導型システム

機械学習やデータマイニング技術はその進歩に伴い多様なドメインで活用されている . ^中でも , パターン認識技術は既知のデータに対する分類タスクなどにおいて質の高い結果を残している . 一方で . 人間は訓練データの付与など , 未知のデータに対する探索的な推論に関して優れた能力を持つ . 対象タスクの複雑化に伴い , 近年では機械学習などのアルゴリズムに対する人間の介在に関

*1https://www.tableau.com/ja-jp/products/

*2https://www.tibco.com/products/tibco-spotfire

*3https://docs.microsoft.com/ja-jp/power-bi/

(12)

する研究が行われている [4] [36] [73]. アルゴリズムに対して質の高い訓練データを提供し , ^適切な出力結果を獲得するためには , 機械学習の専門家とドメイン専門家が協力して前処理を行う必要がある [4]. 機械学習の専門家はアルゴリズムやパラメータを反復的に調整し , ^{パフォーマンス} を改善するためのデータを収集する . ドメイン専門家は自身の知識に基づき , ^{結果の妥当性を評価} する . 両者のタスクをより効率的に行うためには , ドメイン専門家がモデルの出力や中間結果を確認し , 直接モデルやパラメータを解釈するべきである [4].

ドメイン専門家による機械学習プロセスへの介在に関する研究領域として , ^{人間とコンピュー} タが協調して問題を解決する混合主導型システム (Mixed-initiative Systems) [36] ^や , ^{インタラク} ティブ機械学習システム (iML: Interactive Machine Learning System) [4] ^{が提唱されている} . ^混合主導型システムでは , 人間とコンピュータの媒介として GUI や可視化技術が活用されている [73].

Horvitz は混合主導型インタフェースの設計原則として , ^以下の 12 ^{項目を挙げている} [36].

1. ユーザの操作のみで達成可能なタスクに対して , 自動化による価値を提供する必要がある . 2. ユーザが行うタスクの目標が不明瞭なことを考慮し , ^{目標を推測し} , ^{明確化するために計算}

機技術を活用できるようにする .

3. ^{ユーザの注意の状態を} , システムがサービスを提供するために考慮する必要がある . 4. ユーザが行った不確かなインタラクションに対して , ^{理想の行動を推論する} . 5. ^{判断が難しい場合は} , その旨をユーザにダイアログで通知して選択を促す .

6. システムによる自動出力は誤った結果を提供する可能性があるため , ^{ユーザが誤りに気づ} いた場合にはシステムを直接制御したり , ^{終了できるようにする} .

7. ユーザが処理を取り消す際に必要な操作のコストを抑えるために , ^{システムが操作を代行} する . ^ただし , 実行すべきタスクおよび適用タイミングの推測ミスは最小限に抑える . 8. システムはユーザインタラクションの不確実性を考慮した自動化を通して , ^{人間にとって}

コストのかかる処理を最低限に抑える

9. ユーザはシステムが自動生成した出力を補完・洗練できる . 10. システムは社会的な慣習を踏まえた , 適切な応答をユーザに返す .

11. ^{システムは} , 直近のインタラクションを記録して , それらを効率的に再利用する仕組みを提供する .

12. インタラクションから推測されるユーザの目的や出力に対する要望を継続的にシステムが学習し , 両者間の連携をさらに強化する .

これらの原則に従い , 混合主導型システムを適切に実装するためには , 対象となるタスクに適したインタラクションを提供した上で , 人間の認知能力に基づき行われるタスクと , ^{システムによる} 自動化の適切なバランスをとるべきである . ^また , ユーザが与えたラベル情報などを , ^{適切にアル} ゴリズムやモデルに反映できる必要がある [36]. 混合主導型システムの一環として , ^{分析や機械} 学習アルゴリズムに人間の専門家による結果の訂正のようなインタラクションを導入して , ^結果の精度の向上を図るアプローチ [4] ^が存在し , これらのアプローチは計算機プロセスの中に人間が介入するという意味から human in the loop ^{とも呼ばれる} [25].

視覚的分析プロセス全体に上述のアプローチを適用するために , Makonin ^{らは混合主導型シス}

テムと視覚的分析を統合した MIVAS (Mixed-initiative visual analytics system) ^{の概念を提唱し} ,

(13)

MIVAS の適用先となるタスクを以下の 5 ^{つに分類している} [51].

• ^{データの前処理} (Data wrangling)

• ^{代替の発見と比較} (Alternative discovery & comparison)

• データの視覚的表現を介したパラメータ調整 (Parametric interaction)

• ^{履歴の追跡と探索} (History tracking & exploration)

• フィードバックに基づくシステムのタスクへの介入度合いの制御 (System agency & adap- tion)

このうち , 本論文では指標構築のためのパラメータ調整タスクに MIVAS ^{のアプローチを採用} する . 混合主導型システムによるパラメータ調整を支援するためのコンセプトとして , 2.1.3 ^節で紹介する semantic interaction [24] ^{が存在する} .

2.1.3 Semantic Interaction

前述のように , 視覚的分析はデータに対する探索的分析に活用される . ^しかし , ^{多次元時系列} データのように複雑な構造を持つデータは , 可視化のための前処理を要する [50]. ^{得られる結果} はデータそのものを直接表現せず , 可視化表現のみから元データの詳細を理解することは難しい . そのため , 大容量かつ複雑なデータの可視化結果に対する分析者の分析・推論プロセスを理解し , それらを支援するための研究が行われている . 視覚的分析のようなタスクを実行する際に , ^分析者が探索的分析を通じてデータから意味を獲得する過程を意味形成 (Sensemaking) ^と呼ぶ . ^意味形成はデータに対する洞察 (Insight) ^{に基づく仮説} (Hypothesis) ^{形成を通じて行われる} [67]. ^洞察は , データと分析者の既存知識に基づき獲得される情報を意味する . ^仮説は , ^{分析者の主観に基} づく対象データに対する仮定を表現する [74]. データの可視化結果などから得られる視覚的な発

見 (Finding) ^が , 時系列データの増加・減少傾向のような分析者の知識に依存しないものである

のに対して , ^洞察は , 変化の理由のような分析者の知識と関連付けて解釈できるものを指す [74].

Pirolli ^と Card は意味形成のプロセスを , データから得られる洞察に基づきデータを操作するプ

ロセス (Foraging) ^と , 収集した洞察に基づく仮説の構築と検証を行うプロセス (Synthesis) ^の 2 ^つ

に分類し , 両プロセス間の自然な移行によりデータに対する意味形成が支援されると主張してい

る [67]. ^{視覚的分析において} , 意味形成のプロセスを通じて可視化結果に基づく仮説形成を行い ,

それらの検証結果を知識として活用するためには , データを様々な側面から観測・分析する必要

がある [43]. 視覚的分析における分析者の意味形成プロセスに関して , Sacha ^らは , ^{データ探索} , ^仮

説検証 , 知識形成の三重構造のループから構成されるモデルを提案している [74]. ^分析者は , ^データ探索ループにおいて可視化から得られるデータの特徴的な傾向に着目し , ^{視覚的発見を獲得す} る . ^{仮説検証ループでは} , 自身が有する知識に基づき視覚的発見から得られたデータに対する仮説の検証を行い , 個々のデータや属性レベルの知識に対応する洞察の形成を行う . ^{知識形成ルー} プでは , 仮説検証ループで形成された洞察を組み合わせることでデータに関する体系的な知識

(Knowledge) ^を形成し , 後続の探索的分析に活用する .

既存の混合主導型システムでは , 分析者のデータに対する思考プロセスをユーザインタフェー

ス (UI: User Interface) を介してビュー上に反映する . ^このとき , 可視化の背後に存在するモデル

やそのパラメータに対するインタラクションは , ツールバーなどの間接的な UI ^{を用いて行われ}

(14)

る [23]. ^そのため , 分析者は仮説形成ループを明示的に意識しながら , 探索的分析のためのインタラクションを行う . ^しかし , 多次元時系列データに対して , ^これらの UI を用いて適切なパラメータをモデルに適用するためには , パラメータの値域のような , 計算モデルに対する知識が必要となる . ^そのため , 可視化結果を自身の意図と適合させるためのパラメータ調整は , ^{次元削減等のアル} ゴリズムにより自動的に生成された可視化結果が自身の意図したものと異なる場合には , ^ドメイン専門家にとって困難なタスクとなる [25] [73]. ^また , ^{多次元データに対し} , ^{分析内容から得られ} た仮説に基づき , それまでの分析内容とは異なる観点から探索的分析を適用したい場合にも , ^その観点を反映するパラメータを分析者自身が考え , UI 上から調整することは困難である . ^その結果 , 上述の知識形成ループが妨げられる [73].

Endert ^らは , 従来の間接的なパラメータ指定を行う human in the loop ^{的アプローチに対して} ,

可視化オブジェクト自体への , 直接操作によるフィードバックに基づく非明示的な仮説形成ループ (human is the loop) ^{を提案している} [25]. ^{このコンセプトでは} , ^{直接操作の原則} [83] ^に従い , ^インタラクション結果が分析者に即時フィードバックされるように , 分析者の操作は逐次的かつ高速に反映され , やり直し可能であるべきとしている [23]. ^{これによって} , 分析者は明示的な仮説形成ループを意識せずに , 自身の操作と分析モデル , 可視化を結合した自然な操作によりドメイン知識を可視化結果に反映できる . ^その結果 , パラメータに関する知識を持たない場合でも , ^意味形成のための探索的分析を行える .

これを踏まえて , データオブジェクト自体への直接操作を行う手法として , semantic interaction のコンセプトが提案されている [24], Semantic interaction は前処理アルゴリズムが作成した , ^類似度尺度などに基づき描画される可視化を操作対象とする . ^分析者は , それらに対してオブジェクトの再配置のような直接的なインタラクションを適用する . 分析者はパラメータに関する知識や仮説に基づきスライダやボタンなどの間接的な UI ^{を操作するのではなく} , ^{ドメイン知識に基} づき可視化空間上のオブジェクト自体を直接操作する [22]. システム側は分析者の操作内容の意図を解釈した上で , 可視化の背後に存在するデータマイニングアルゴリズムのモデル構成やパラメータの調整に対応付ける . 調整結果は可視化表現として , 即時に分析者へとフィードバックされ

る [22]. ^{これにより} , 可視化の背後に存在するアルゴリズムの複雑性から分析者を保護し , ^モデル

やパラメータに関する知識を有しない場合でも , データの探索と知識形成の間を自然に移行できる . ^そのため , 計算機の処理能力と可視化結果に対する人間の認知的能力の双方を活用しながら , 視覚的分析における意味形成プロセスの各段階を支援できる . ^{このコンセプトは} , object-centric interaction [45] ^や observation-level interaction [80] として言及される場合もあるが , ^{本論文では} semantic interaction ^{として呼称を統一する} .

Semantic interaction ^は , ForceSPIRE のようなテキスト間の類似性探索ツール [24] ^や , ^多次

元時系列データの次元削減 [80] のような前処理を必要とする視覚的分析に適用されている .

ForceSPIRE ^は , 特徴量に基づき文書集合を力学グラフのノードとして可視化する . ^{分析者は各}

ノードをドラッグ & ドロップ操作などにより直接操作して , それらの位置関係を変更できる . ^変更結果に基づきノード間の反発係数などのパラメータが調整され , 可視化結果に即時フィードバックされる . ^{これによって} , 分析者はノードの移動操作を行うだけで背後に存在する力学モデルを更新し , 文書に対するドメイン知識をレイアウト全体へ反映できる [24].

スライダなどの UI を用いた間接的なパラメータ調整と , 直接操作に基づく手法の双方を利用

(15)

するインタフェースも提案されている . Andromeda ^は , 多次元データの投影アルゴリズムに対する理解の促進を目的としたシステムである . ^{このシステムでは} , 散布図上のオブジェクトに対して , semantic interaction に基づく重み付き多次元尺度構成法 (MDS: Multidimensional Scaling) ^のパラメータ調整と , スライダによる各次元の重み調整を組み合わせている [80]. ^{評価実験の結果} , 抽象度の高い創発的なタスクに対する有効性が確認されている . ^また , 直接的・間接的なパラメータ調整手法の併用に関する有効性も示されている . 分析者はオブジェクト配置の変更が各属性へ与える影響の確認に加えて , スライダなどを用いた間接的な重みの調整を組み合わせることで , ^投影軸における各属性の重みを理解した上で , オブジェクトの分類規則を獲得できたことが報告されている [80].

Semantic interaction ^は , データやアルゴリズムに対する理解や , 意味形成を目的とした探索的分

析の支援に用いられてきた . ^しかし , 得られた知識に基づきデータに対する評価指標を構築するプ

ロセスを明示的に支援する先行研究は少ない . ^また , 多次元時系列データの時間的特性を考慮した

インタラクションフレームワークの構築に関する研究は行われていない [26].

(16)

2.2 ^{多次元データの可視化}

多次元データを可視化する際に , ^次元数が 3 次元以下の場合は空間上に直接可視化できる . ^しかし , 画面領域や人間の視覚的認知能力の制限があるため , 4 次元以上のデータを直接画面上に表示し , 認識することは困難である [50]. ^そのため , 多様な多次元時系列データの可視化手法が提案されている . ^{これらの手法は} , 元データの属性を保持して可視化する手法と , ^{元データの複数属性を} 合成した低次元の表現を作成し , それに基づき可視化を行う手法に大別される [37]. ^{前者の例と} して , データ属性値を表現する数値軸を横方向に並べることで , 各属性値の比較を支援する平行座標グラフや , データ属性に画面上のピクセルを割り当て , その値を色により表現するピクセルベースの可視化などが提案されている [50] [100] [101]. 平行座標やピクセルベースの可視化手法は元データの次元をそのまま表現する . ^しかし , 平行座標のような可視化手法は , ^{データ数が増えた場} 合に表示が困難になる . この問題点を緩和するために , フィルタリング操作などのインタラクションの導入が必要となる . ピクセルベースの可視化は , それら占める画面領域の削減や , ^{データや属} 性数に関するスケーラビリティの点でメリットがある . ^一方で , その用途がデータの概要把握に限定される傾向がある [101].

多次元データの合成された低次元表現による可視化手法の例に , 2.2.1 節で説明する次元削減アルゴリズムの適用結果を散布図により可視化する方法が挙げられる . ^{散布図は通常} 2 ^{次元データ} や , 多次元データの任意の次元を選択して可視化する場合に用いられるが , ^{次元削減手法を用いて} 低次元空間に投影されたデータの表現手法としても用いられる [76]. 分析者は散布図上のデータ点の位置関係から , データ間の類似性などの関係や , データ全体の傾向を容易に把握できる [76].

一方で , 可視化対象のデータオブジェクト数が増大した場合にデータ間の関係が把握しづらくなるなど , スケーラビリティの問題が存在する [43] [76].

多次元データが持つ属性間の相関関係を把握することに特化した可視化手法として , ^散布図行列が存在する . ^これは , ^{属性のペアごとに} 2 ^{次元散布図を表現し} , 各変数間の相関の理解を支援する手法である [50] [79]. ^一方で , ^{画面領域の制約から} , データの次元数が増えた場合には全ての属性ペアを表現できなくなる . ^そのため , 特定の基準に基づく属性ペアの抽出や , ^{インタラクション} との併用が必要となる [50]. Sedlmair ^らは 2 ^{次元散布図} , 3 ^{次元散布図} , 散布図行列の多次元データの可視化表現としての有効性を比較している . ^その結果 , ^{一部のタスクを除いて} , 2 ^{次元散布図} の適用が望ましいことが示されている [79].

2.2.1 次元削減

次元削減 (DR: Dimensionality Reduction) ^は , 多次元空間のベクトルを 2 ^{次元もしくは} 3 ^次元の

低次元空間上に投射する手法である . ^このとき , 投影先の低次元空間座標は多次元空間におけるデータ間の類似性などの特性を内包する [60]. ^{認知科学分野において} , 2 次元空間上におけるオブジェクトの近接と多次元空間における類似性の対応関係は , 認知地理学における原則 (first law of

cognitive geography) ^{として確認されている} . ^{この原則によれば} , 人間は地理的な距離が近い場所

では気候や言語などが類似していると認識する [57]. 原則は抽象的なデータの可視化結果における近接性と類似性の対応関係に拡張でき , 散布図による可視化においても成立することが評価実験により示されている [57].

分析者は , 低次元空間上のオブジェクト間の近接性に基づき , 多次元データ間の類似性などの

(17)

特性を検出できる [75]. 次元削減に基づく可視化は次元数に関するスケーラビリティに対処できる . ^一方で , 投影プロセスにおける一部のデータ特性の損失 [85] ^や , 元データ値の直接的な理解ができないといった欠点を持つ [29] [37]. ^{具体的には} , 低次元投影の空間的座標は投影プロセスで発生したエラーを含み , 多次元空間における位置関係を正確に表現するとは限らない . ^そのため , 投影時の不確実性 (Uncertainty) を次元削減結果に組み合わせて可視化する手法が研究されている [85].

多次元データの次元削減結果から適切な傾向を見出し , 後続のデータマイニングタスクに活用するためには , 低次元空間における類似性に基づいて , 元データが持つ属性間の対応関係を分析する必要がある [37]. 次元削減を利用する分析者は , 元データの特性や各属性値が持つ意味に関する知識を持つ . ^一方で , 次元削減アルゴリズム自体を直接操作するために必要な , ^{情報科学に関す} る知識を持たない場合が多い . ^そのため , 元データが持つ各次元と低次元空間における座標間の対応関係を分析するタスクは , このような分析者にとって困難である [37]. ^また , ^{次元削減手法を} 効果的に適用するためには , 分析者がデータに対する変換の過程を理解している必要がある . ^このとき , 分析者は必要に応じてそれらのパラメータを操作し , 適用結果を可視化しながら結果を評価し , それが意図と異なる場合には新たなパラメータを設計する [37]. ^そのため , 2.2.3 ^節で紹介する研究のような human-in-the-loop ^や semantic interaction ^{の適用が期待される} [75]. ^次元削減手法には , 対象となる多次元データの各属性値による線形関数として低次元空間の軸を構成する手法と , 非線形に構成する手法が存在する [70] [60]. 線形次元削減手法の例として , ^主成分分析 (PCA: Principal component analysis) ^{や線形判別法} (LDA: Linear discriminate analysis) ^などが存在する . これらの手法の利点として , 投影先の低次元軸の解釈可能性や計算時間が挙げられる . 一方で , 複雑かつ非線形なデータへの対応の難しさや , 視覚的分析における複雑なユーザ意図解釈の困難性が欠点として挙げられる [28] [50]. 非線形次元削減手法の例として , ^{多次元尺度構成} 法 (MDS: Multidimensional scaling) ^{や自己組織化写像} (SOM: Self-organizing maps) ^{などが存在} する . ^また , ^{確率的手法に基づく} SNE (Stochastic neighbor embedding) ^と , ^{その亜種である} t-SNE (t-distributed stochastic neighbor embedding) ^のような , ^{多様体学習} (Manifold learning) ^も非線形次元削減手法の一種である [48] [50] [60]. 非線形次元削減手法の利点として , ^{多次元空間におけ} る非線形な特性や , 複雑なクラスタ境界を表現可能であることが挙げられる . ^一方で , ^{計算時間や} , 投影軸の解釈困難性が欠点として挙げられる [50]. ^また , ^{次元削減手法には} , ^{ラベル情報のような} 訓練データを用いてクラスを明確に分類する手法と , データの特性のみに基づき次元削減アルゴリズムを適用する手法が存在する . 線形次元削減手法の一つである LDA ^は , ^{前者の例として} , ^クラス重心間の距離を最大にしつつ , クラスの大きさを最小化するような結果を生成する [60].

多次元時系列データの時間的特性を考慮した次元削減アルゴリズムの適用に関しても , ^先行研

究が存在する . ^{多次元時系列データに} t-SNE などの非線形次元削減手法を適用した場合は , ^各時

点における多次元データの分布に対して , 最適化計算を用いてそれぞれ独立の低次元投影が計算

される . ^しかし , 最適化計算の初期値が結果に影響するため , データ間の類似度に基づく空間的な

一貫性が各時点で保持される一方で , データ時点間の時間的な一貫性の喪失が発生する [28]. ^こ

の問題に対して , Rauber ^{らが提案した} Dynamic t-SNE ^は , t-SNE を用いた次元削減にハイパーパ

ラメータを追加して , 分析者の判断に基づく時間的な前後関係を制御する [70]. ^{実データを用い}

た評価実験の結果 , ハイパーパラメータの操作に基づき , 空間上・時間軸上における一貫性のバラ

(18)

ンスを制御できることが確認された [70]. ^一方で , これらの多次元時系列データに対する次元削減手法は , 計算量の観点から投影を獲得するために時間を要する . ^そのため , ^{投影に対する分析者} の意図を , インタラクションを通じて反映させる用途には適さないと考える .

2.2.2 ユーザインタラクションを考慮した投影変形手法

ラベル情報のような教師データによるデータオブジェクト間の類似度が定義されていない場合 , 次元削減手法は投影エラーを含む結果を出力するため , 分析者の意図と一致しない可視化結果を生成する可能性がある . ^そのため , 散布図上の一部のデータオブジェクトを移動するような操作を通して , ドメイン知識に基づき投影アルゴリズムを調整する手法に関する研究が行われている [60] [63].

次元削減アルゴリズムは , ^{投影の局所性} (locality) が保証されるか否かの観点から分類できる . 局所性は , 多次元空間における局所的な位置関係が , 投影後の低次元空間において保持されることを意味する . PCA ^や Classical MDS ^は , local modeling と呼ばれる手法に該当し , ^{最初に全体的な} データ配置から局所的な位置関係や構造を抽出し , 次にその情報を最大限保存するように単一の大局的なマッピングを計算する [60]. ^そのため , これらの手法は必ずしも局所性を保証しないが , 投影軸やクラスタ間の位置関係が解釈しやすいなどのメリットがある . ^一方で , t-SNE ^や , ^後述す

る LAMP [40] ^{のような手法は} local mapping と呼ばれる手法に分類され , ^{多次元空間における近}

傍関係のような局所的な構造を維持するように対象データを投影する . ^すなわち , ^{これらの手法は} データのサブセットごとに局所的なマッピングを構築する [60].

可視化結果に対するインタラクションに基づく投影の調整手法は , 利用するマッピング手法によって , ^{大局的な手法} (global techniques) ^{と局所的な手法} (local techniques) ^{に分類できる} [63]. ^前者は , 特定のデータが持つ特徴を強調するように , データセット全体の投影を大局的に変更する変

換を local modeling ^{により作成し} , ^{投影を調整する} . ^後者は , ^制御点 ( ^{散布図上のデータ点} ) ^の移動

に基づき , それらの局所的な位置関係の変更を反映するように , local mapping ^{に基づき投影結果} を調整する [63]. ^{調整結果は} , 制御点の近傍についてのみ反映される .

大局的な調整手法の一例として , P´erez らは投影結果におけるデータグループの分離を目的として , ^{特徴の拡張} (interactive feature extension) に基づく投影の変換手法を提案している . ^分析者が多次元データの次元削減結果として得られる一部のデータオブジェクトに対してクラスに関するラベル情報を与えると , システムはそれらのラベル情報を持つデータオブジェクト集合の多次元空間における重心ベクトルを元データのベクトル表現に結合し , 拡張されたデータ行列を作成する . ^次に , 拡張されたデータ行列に次元削減手法を再度適用して , ^{新しい投影を獲得する} . ^提案手法は重心ベクトルに対する重みを単一のハイパーパラメータとして持ち , ^{分析者はこの値を調整} しながら , 変換前後との投影の変化度合いを制御できる [64].

局所的な調整手法では , 分析者の投影に対する意図を制御点の移動によりアルゴリズムに反映する . このような手法は局所性の保証に関して利点があるが , 制御点の位置のみでなく数も調整結果に影響を与えるため , 適切な投影を獲得するためのインタラクションコストが問題点として指摘されている [63]. Joia ^らは , 局所的な調整手法の欠点を補い , 少数の点の移動でも大局的な調整のような変更を行える投影変形手法 LAMP (Local A ﬃ ne Multidimensional Projection) ^を提案し

ている [40]. ^{この手法では} , 制御点の座標を入力として , 各投影軸における直交性の保持を制約と

(19)

しながら , 低次元投影上空間の位置関係を再現するような直交アフィン変換を最適化問題の求解に基づき算出し , その結果を用いてマッピングを構築する . ^{これによって} , ^{少数のサンプル点に基} づき制御点近傍以外は元データの局所性を保持しつつ , 制御点近傍ではその移動結果を反映した投影を作成できることが報告されている . ^また , LAMP は次元削減アルゴリズムに依存せず適用できるという利点を持つ [40].

大規模データに対する探索的分析を支援するために , 多次元データの興味深い構造を低次元空間へ投影する線形射影を自動的に算出する projection pursuit と呼ばれる手法が研究されている . また , 射影を獲得するための指標に関しても多くの研究が行われている . Projection pursuit ^に関する既存研究では一般的に , ^興味深さ ” は客観的かつ定量的な指標に基づき定義されている . ^これ

に対し De Bie は可視化の背後に存在するモデルの事前知識への適合 , すなわち主観的な興味深

さ (subjective interestingness) ^{を定量化するために} , データ分布に対する分析者の信念 (brief state) をモデル化している [20]. ^{大局的な投影の変形や} projection pursuit ^{に基づく手法は} , ^{投影アルゴ} リズムの理解や多次元空間におけるデータ特性の多面的な探索の支援を目的としている . ^このような目的に基づく手法は , ユーザインタラクションに基づく投影の変形前後で投影結果におけるオブジェクト配置の幾何学的形状が大幅に変化するため , 指標構築のための漸進的なインタラクションには適さないと考える . 局所的な投影変形手法はオブジェクト配置の変化が少ない一方で , 投影アルゴリズムが出力するパラメータを , 指標形成プロセスのような後続のタスクを目的とした再利用を想定していないため , 分析者にとって解釈が難しくなることが想定される .

2.2.3 多次元データに対する直接操作に基づくパラメータ調整

Sacha ^らは , 網羅的な文献調査に基づき , 視覚的分析インタフェースにおける次元削減結果への

インタラクション適用先となるタスクを以下の 7 ^{つに分類している} [75]. ^{調査の結果} , ^分析者が散布図上のオブジェクト間の位置関係を調整し , その結果に基づき距離関数などのパラメータを調整するタスク (Feature Selection & Emphasis) に関する研究が多いと報告している [75].

1. ^{データの選択と強調} (Data Selection & Emphasis)

2. データへのアノテーションとラベル付け (Annotation & Labeling) 3. ^{データ値自体への操作} (Data Manipulation)

4. データの属性選択と強調 (Feature Selection & Emphasis)

5. 次元削減アルゴリズムのパラメータ調整 (DR Parameter Tuning) 6. アルゴリズムに対する制約の定義 (Defining Constraints)

7. 次元削減アルゴリズムの選択 (DR Type Selection)

多次元データの次元削減結果に対する , semantic interaction のようなコンセプトに基づくアル

ゴリズムのパラメータ調整は , ^{線形次元削減} [39] [44], ^{非線形次元削減} [16] [48] ^{の両方に適用さ}

れてきた . 線形次元削減手法に対するインタラクティブな可視化の適用例として , Jeong ^らが提案

した iPCA ^では , 次元削減結果の解釈を支援するために散布図を含む複数の画面から構成される

インタフェースを用いて , PCA で得られる主成分ベクトルなどのパラメータや , ^{データが持つ属}

性間の相関を可視化する . ^また , ^{平行座標や} , 相関行列を表現するヒートマップに対する直接操作

と , スライダなどによるパラメータの調整を組み合わせている . ^{調整結果は} , ^{主成分分析のアルゴ}

(20)

リズムへ反映される [39]. 商用の視覚的分析インタフェースとの比較実験の結果 , ^{仮説検証など} の高次の分析タスクやユーザビリティにおける iPCA ^{の有効性が示された} . Kim ^らは , ^線形次元削減で得られた低次元空間における , 投影軸に対する各属性の重みを直感的に変更するためのインタフェース InterAxis ^{を提案している} [44]. 散布図の投影軸の上下端へデータオブジェクトを

ドラッグ & ドロップした結果に基づき , 当該データの位置がドロップ方向へと移動するように投

影軸における各属性の重みが計算される . ^このとき , 移動されたオブジェクト集合が共通して高い値を持つ属性に対する重みが上端にドロップされた場合は大きく , 下端の場合は小さくなるように新たな線形変換ベクトルを計算する . 更新さ各属性に対する重みに基づき , ^{散布図が再描画さ} れる . 直接操作と可視化による調整結果の確認を組み合わせることで , ^間接的な UI ^{を介したパラ} メータ調整のみの場合に発生する , 暗黙知と変化量の対応付けの困難性を解消できるため , ^分析者の暗黙知を散布図に自然に組み込めるとしている .

非線形次元削減に対しても , ^{同様の目的について} semantic interaction ^{が適用されている} . Brown

らは , MDS ^により 2 次元空間に投影されたデータ間の距離関数の学習をインタラクティブに行う

ためのインタフェース Dis-Function ^{を提案している} [16]. このインタフェースでは , ^{次元削減結} 果を可視化した散布図上で , 分析者のドメイン知識に合致しない位置にオブジェクトが配置されている場合 , それらを他の場所へ直接操作により移動できる . 散布図上のオブジェクト配置の変更に基づき , システム側は最適化計算を実行し , 変更を反映するように距離関数を更新する . ^更新された距離関数に基づき , Dis-Function は新しい可視化表現を作成し , 結果は散布図へフィードバッ

クされる [16]. ^また , 更新された距離関数のパラメータは , インタフェース上の棒グラフからも確

認できる [16].

Kwon ^{らが提案した} AxiSketcher ^は , t-SNE で初期化された散布図の投影軸における各属性の重みを理解・調整するタスクを支援する視覚的分析インタフェースである [48]. ^{次元削減結果を可} 視化する散布図と , データの検索や入力手法の変更操作を提供するコントロールパネル , ^データの詳細を表示する詳細ビューから構成される . 多次元データの特性を把握するため , ^{散布図上のデー} タオブジェクトを円周形状のグリフとして表現する . 各属性を円周の等分割として割り当て , ^それぞれの扇型の半径が属性値に対応する . ^{線形次元削減と異なり} , 非線形次元削減では投影軸上の位置によって各属性に対する重みが異なるが , これらは積み上げグラフに類似した可視化手法であ

る Axis Rainbow ^{を用いて可視化される} [48]. 投影軸における属性の重みは散布図上のデータオ

ブジェクトの集合を選択し , それらの優先順位を指定した結果に基づき更新される . ^例えば , ^複数のオブジェクトを順にクリックした場合 , その順序が優先順位となる . スケッチベースの入力を行った場合には , 描画された線からの距離が近いデータに対して , 線の始点から描画方向に沿って優先順位が決定される . 優先順位に基づき多次元空間上でデータオブジェクトを接続した曲線が散布図の軸に投影され , 各データオブジェクトについて , 曲線上で最短距離にある点に基づき投影軸上の座標が求められる . ^また , 投影軸の任意の位置における各属性の重みは , Axis Rainbow ^やグリフ表現の直接操作からも調整できる [48]. ^{これらの操作によって} , 非線形次元削減のアルゴリズムや多次元空間における非線形なデータ特性の理解を促進できることが報告されている [48].

また , ^{セキュリティ} [49] ^{や犯罪捜査} [38], 複雑な機械学習モデルの理解 [17] ^のような , ^特定のドメインで収集された多次元データに対して , ドメイン専門家の分析作業を支援するために

semantic interaction を適用する研究も存在する . Legg ^は , 企業内部のセキュリティリスク発見を

首都大学東京

2019 ( 令和元 ) 年度 修士論文

多次元時系列データに対する評価指標構築のため の視覚的分析フレームワークに関する研究

Study on Visual Analytics Framework for Formulating Evaluation Metrics of Multi-dimensional Time-series Data

2020 ( 令和 2) 年 2 月 21 日提出

首都大学東京

システムデザイン学部 システムデザイン研究科 情報科学域

18860615 高見 玲

指導教員 高間 康史 教授

要旨

本論文では , 多次元時系列データに対する評価指標構築を支援するための , 視覚的分析フレームワークを 提案する .

する semantic interaction のコンセプトが提案されている . 評価指標の構築も , 多次元データの各属性間の

本論文では , semantic interaction に基づく次元削減アルゴリズムのパラメータ調整を通じて , 多次元時系

列データの評価指標を構築する作業を支援するための視覚的分析フレームワークを提案する . 対象データ

は次元削減アルゴリズムに基づき , 時点毎に 2 次元平面に散布図として可視化され , アニメーションを用い

て時間的特性が表現される . 提案フレームワークでは , 多次元時系列データに対する評価指標を時点ごとに

各属性の重み付き線形結合として表現する . 散布図の各軸も同様に各属性の重み付き線形結合として表現

することで , 評価指標の構築と散布図上でのオブジェクトの移動を対応づける . Semantic interaction のコン

セプトに基づき , 分析者の操作を , 特定オブジェクトを強調する大局的な移動とオブジェクト間の位置関係

を調整する局所的な移動として定義する . 分析者は多次元時系列データに対する自身の知識や意図を反映

するように散布図上のオブジェクト配置を調整し , システムはその結果を各軸に対応した属性の線形結合に

還元する . 分析者はオブジェクト配置を調整する過程で どの時点について , どの属性を強調すべきか ” の

ような指標に関するアイデアを獲得すると同時に , 指標構築のたたき台となる各属性の重みを獲得できる .

本論文は全 7 章から構成される . 第 1 章では , 序論として本論文の研究背景と概要を示す . 第 2 章では , 評

価指標の定義を明確化し , 情報可視化や視覚的分析に関する先行研究や , その応用例を述べる . また , 時系列

データや多次元データの可視化や , 評価指標の構築支援に関する先行研究を示す . 第 3 章では , 時系列デー

タに対する指標構築支援のために解決すべき問題点や , 提案フレームワークの要件について考察する . その

結果に基づき , 提案フレークワークの詳細と主成分分析に対する適用例を示す . 第 4 章では , 提案フレーム

ワークに基づくプロトタイプインタフェースの設計と実装に関する詳細を述べる . 第 5 章では , 提案フレー

ムワークおよびインタフェースの , 指標構築プロセスにおける定性的な有効性の検証を目的として行った ,

実データを用いたケーススタディの結果を示す . 第 6 章では , 第 5 章で得られた知見より設計したユーザ実

験の結果を示し , 提案フレームワークおよびインタフェースの有効性を定量的および定性的な側面から検

証する . 第 7 章では , 本論文の内容をまとめ , 今後の展望と研究課題を示す .

Abstract

This thesis proposes a visual analytics framework for formulating evaluation metrics of multi-dimensional

time-series data. Multi-dimensional time-series data has been collected and utilized in various domains. Eval-

uation metrics are expected to play an important role in utilizing those data, such as hypothesis generation and

labeling training data used in machine learning. However, it is a di ﬃ cult task for domain experts to formulate

metrics especially for multi-dimensional time-series data because of their complexity related to dimensional-

ity and temporal tendency. To support the process of formulating metrics, the proposed framework represents

metrics as a linear combination of data attributes and provides a means for adjusting it through interactive

visual analytics. Following the proposed framework, a prototype interface is implemented, which visualizes

target data using an animated scatter plot. Through this interface, several visualized objects can be directly

manipulated: a node and a trajectory of an instance, and a convex hull as the group of nodes and trajecto-

ries. To adjust parameters for formulating evaluation metrics, linear combinations of attributes are adjusted

in accordance with the direct manipulation of visualized objects by users. The e ﬀ ectiveness of the proposed

framework is demonstrated through case studies of the prototype interface to real-world data. Also, the e ﬀ ec-

tiveness of the framework and the interface is verified by two user experiments based on hypotheses obtained

from the case studies.

目次

1 序論 1

2 関連研究 4

2.1 情報可視化と視覚的分析 . . . . 4

2.2 多次元データの可視化 . . . . 10

2.3 時系列データの可視化 . . . . 18

2.4 ドメイン知識に基づく評価指標構築 . . . . 24

3 多次元時系列データに対する評価指標構築のための視覚的分析フレームワーク 29 3.1 時系列データに対する評価指標構築のための要件 . . . . 29

3.2 時系列データの直接操作に基づく視覚的分析における問題点 . . . . 30

3.3 提案フレームワークの要件 . . . . 33

3.4 提案フレームワークの概要 . . . . 33

3.5 対象データの表現方法 . . . . 34

3.6 分析パラメータ . . . . 36

3.7 投影に対する直接操作 . . . . 37

3.8 PCA に対する提案フレームワークの適用 . . . . 39

3.9 スケーラビリティへの対処 . . . . 41

4 プロトタイプインタフェース 43 4.1 インタフェースのシステム概要 . . . . 43

4.2 探索モード . . . . 45

4.3 インタフェースの設計原則 . . . . 45

4.4 提案インタフェースの構成 . . . . 47

4.5 散布図ビュー . . . . 48

4.6 詳細ビュー . . . . 51

4.7 操作対象 . . . . 53

4.8 パラメータに対する操作 . . . . 57

4.9 ナビゲーションボタン . . . . 61

4.10 探索履歴の可視化 . . . . 66

5 ケーススタディ 68 5.1 QS 世界大学ランキング . . . . 68

5.2 世界幸福度調査 . . . . 72

5.3 MLB データセット . . . . 76

6 評価実験 81 6.1 ケーススタディに基づく要件定義 . . . . 81

6.2 共通の実験環境 . . . . 82

2019 ( ^令和元 ) ^{年度修士論文}

多次元時系列データに対する評価指標構築のための視覚的分析フレームワークに関する研究

2020 ( ^令和 2) ^年 2 ^月 21 ^日提出

システムデザイン学部システムデザイン研究科情報科学域

18860615 ^{高見玲}

指導教員高間康史教授

本論文では , 多次元時系列データに対する評価指標構築を支援するための , 視覚的分析フレームワークを提案する .

還元する . 分析者はオブジェクト配置を調整する過程でどの時点について , どの属性を強調すべきか ” の

1 ^序論

分析 (visual analytics) ^{が研究されてきた} [43]. ^さらに , 前処理アルゴリズムやモデルに関する知

Principal Component Analysis) ^{などを用いることで} , 各属性の寄与度の線形結合として各軸を表

現する . ^{このように} , 両者を各属性の強調度合いとして統一的に表現することで , ^{評価指標の構築} と散布図上でのオブジェクトの移動を対応づける .

Semantic interaction ^{のコンセプトに基づき} , 可視化オブジェクトに対する分析者の直接操作を , ^特

本インタフェースでは , (1) 特定の時点におけるデータの空間的座標を表現するノード , (2) ^ノー

提案フレームワークおよびプロトタイプインタフェースの有効性を検証するため , ^{実データを}

用いた外部協力者による定性的なケーススタディを実施した . ^また , ケーススタディで得られた仮

説を定量的に検証するために , 20 代の工学系大学生および大学院生を中心とした 2 ^{つの評価実験}

を行った . 1 ^{つ目の実験では} , 類似データの探索効率に関するプロトタイプインタフェースの有効

性を検証する . 提案システムの機能を限定した , ^凸包 , 軌跡に関する機能のみを有するベースライ

ンインタフェースと比較し , 探索時間などの観点から有効性を検証する . 2 ^{つ目の実験では} , ^提案

フレームワークの各パラメータ調整手法の有効性を検証する . ^{比較対象として} , ^{各パラメータ調整}

メータの調整回数などを比較する . ^{実験結果に基づき} , 提案フレームワークとプロトタイプインタ

2 ^関連研究

Visualization) ^の 2 ^{つに大別される} . ^前者は , 株式市場の変動のような , 空間座標上に直接マッピン

グできない抽象的なデータを扱う . ^後者は , 現実世界の地理空間などに直接マッピング可能なデータを対象とする [52]. ^{本論文では} , 前者による抽象的データの可視化を通したデータ分析の支援を対象とする .

2.1.1 ^{視覚的分析}

Analysis) ^と呼ぶ [52] [101]. 分析者は探索的分析を通して , データを多様な観点から観測し , ^それ

らの構造や特性を理解しながら仮説形成を行う . 前述の情報可視化技術は対象データを直感的に表現できるため , 探索的分析と親和性が高い [101].

情報可視化技術を適用する際に , データが大規模な場合や , 複数の属性を持つ場合には , ^前処理に基づくデータ量・属性数の削減や , 可視化による複数オブジェクトの集約表示が必要とな

る [50]. ^この場合 , 単一のビューに表示される可視化結果のみから全体の傾向と個々のデータの

特性を同時に把握しづらくなる . ^また , 単一の可視化表現だけでは多面的なデータ探索は困難であ

ンを組み合わせて , 分析者がドメイン知識に基づきデータを解釈し , 洞察を獲得するプロセスを支援する視覚的分析 (visual analytics) ^{が研究されている} [43].

^や , TIBCO Software ^社の Spotfire

, Microsoft ^社の Power BI

^{などが存在する} .

Shneiderman ^は , 情報可視化の対象となるデータ形式の特性として , ^{データの次元数} , ^時系列性 ,

Keim らはこの考えをインタラクティブ情報探索や視覚的分析に拡張し , ^{以下に示す} visual

analytics mantra ^{を提唱している} . ^これは , 最初にデータベースを概観し , 興味深い箇所に着目して

可視化を適用 , ズームやフィルタリング操作を用いて表示データ数を制御し , ^{最終的に具体的な} データを探索するというプロセスを表している [43].