探索履歴の可視化 - 首都大学東京

メータの変更内容は破棄される

.

4.10.5

メモ機能

履歴グラフにおけるノード以外の領域にスケッチベース入力による曲線を描画すると

,

^得られた洞察や仮説を履歴グラフ上にメモとして記録できる

.

メモは探索過程のアノテーションや

,

^分析者の思考や洞察を外在化するために作成できる

.

^また

,

探索過程を他の分析者へ共有する場合にも

,

^{メモ機能は活用できる}

. [CLEAR]

ボタンをクリックすると

,

描画済みのメモをすべて削除する

.

図

26.

履歴グラフを用いた分析過程の可視化

5 ^{ケーススタディ}

本章では

,

提案フレームワーク・インタフェースの定性的な有効性を検証するために実施した

,

実データを用いたケーススタディの概要と結果を述べる

.

実応用の観点から視覚的分析ツールの有効性を評価するためには

,

対象となる探索的分析タスクの要件を満たせているかを判断する必要がある

.

^しかし

,

探索的分析は複雑なタスクであり

,

^実行に長い時間を要するため

,

研究室内の定量的な実験としての実施は難しいと判断した

.

^探索的分析を伴う分析ツールの評価では

,

対象ドメインにおける専門家の参加が望ましいが

[30],

^協力を得ることが難しい場合も多く

,

^また

,

結果の一般化も困難である

[6].

^そのため

,

^{両方の評価手法間の} トレードオフを考慮した上で

,

適切な実験方法を選択すべきである

.

2.4.1

節で示した評価指標構築プロセスは多段階かつ複雑であるため

,

単一の実験による評価は

困難である

.

^また

,

^{提案フレームワークは}

, semantic interaction

を時系列データへ拡張した新たな試みであるため

,

ベースラインに対応する既存研究が存在せず

,

定量的な有効性検証は難しい

.

知識形成のような複雑なタスクにおける分析者の探索行動を定性的に評価するための手法とし

て

, think-aloud

^{法が存在する}

.

^しかし

, think-aloud

法は実験協力者に思考内容の発話を意識させな

がらのタスク実行を強いるため

,

データに対する洞察の獲得を含む指標構築タスクでは

,

^意味形成プロセスを妨げてしまうことが指摘されている

[6].

^加えて

, 4

章で説明したプロトタイプインタフェースは多くの可視化機能を組み合わせているため

,

学習コストの影響が想定される

.

^これらの問題に対処するための

,

インタフェースの定性的評価手法として

, Pair analytics

^{が存在する}

[6].

この手法では

,

ドメイン専門家とインタフェースの専門家の

2

^{名が分析作業を行う}

.

^{分析作業中} は

,

前者が探索したいオブジェクトや行いたい操作を後者に伝え

,

後者は指示内容に基づきインタフェースを操作する

.

分析過程は音声やビデオで録画され

,

実験セッション終了後に分析パターンごとに定性的に解釈される

.

^{これによって}

,

探索中の思考の妨害や学習コストの問題を回避しながら

,

ドメイン専門家の探索プロセスを記録できる

.

^{本論文でも}

,

この手法を採用して提案フレームワークおよびインタフェースの有効性を検証する

.

以降に

,

データセットによるプロトタイプインタフェースの使用事例を示す

.

^表

3

^に

,

^ケーススタディの各節で用いた

3

種類のデータセットの概要を示す

.

5.1

^節および

5.2

節に示すケーススタディでは

, Pair analytics

を用いたインタフェースの評価を行った

.

^{データセットには}

,

^{大学のランキングと}

,

幸福度調査に関するデータを用いた

.

^前述のドメイン専門家に該当する

,

^{データへの探索を行い}

,

自身の意図を操作者に伝える分析者として

,

^高等専門学校の専攻科一年生に協力してもらい

,

インタフェースへの操作は著者が中心に行う

.

^各節における文中の分析者

”

^{は前者の人物を指す}

. Pair Analytics

^では

,

最終的な目標としてデータセットへの理解と

,

得られた洞察に基づくパラメータ調整を想定し

,

^{分析者と共有した}

. 6.3

^節では

,

指標形成プロセス全体における有効性を検証するための

,

野球データを用いた著者単独での分析・指標構築事例を示す

.

^また

,

構築された指標の有効性を検証する

.

5.1 QS 世界大学ランキング

本節では

, QS

世界大学ランキングのデータを用いた

, Pair analytics

^{の結果を述べる}

. QS

^世界大学ランキング

(QS World University Rankings)

^は

,

^{大学評価機関}

Quacquarelli Symonds

^社が作成

表

3.

ケーススタディで用いたデータセットの一覧

データセット名称説明箇所データ数属性数時点数

世界幸福度調査 5.1 96 6 9

QS世界大学ランキング 5.2 320 6 6 MLB野手成績データ 5.3 198 11 12

している世界の大学に関するランキングである

[68].

^{このランキングでは}

,

^{教育に関する評価に} 重点を置き

,

^以下の

6

つの属性の重み付き和を用いて各大学の評価値を算出し

,

^{順位付けしてい} る

[68].

•

Academic peer review (40%):

国際的な研究者に対するサーベイに基づく大学自体の評価値

•

Faculty

Student ratio (20%):

教員一人当たりの学生数に基づく

,

教育的な実行力の評価値

•

Citations per faculty (10%):

研究論文の引用回数に基づく

,

^{研究の影響力の評価値}

•

Employer reputation (10%):

卒業生の企業従業員のサーベイに基づく大学の評価値

•

International student ratio (5%):

^{留学生比率による}

,

学生コミュニティの多様性を評価する

評価値

•

International sta

ﬀ

ratio (5%):

海外出身教員の比率に基づく

,

大学教員の多様性を評価する

評価値

可視化対象には

, 2013

^年から

2019

^年までの

6

^{年分のデータ}^*12を取得した結果を用いた

(T

6).

2017

^{年のデータについては}

,

公開されていなかったためデータセットには含まなかった

.

^データセットの

6

つの評価値に対応する属性値

(M

6)

^を

[0,1]

の値域で正規化した結果に対して

,

^時点ごとに次元削減を適用している

.

^また

,

全ての取得期間でデータが存在する

320

^{大学を可視化対}

象とした

(N

320).

ランキングにおける順位を直感的に把握できるようにするため

,

^{各年度にお}

ける大学ランキングの値を

, D3.js

のカラースケールに割り当てて可視化している

.

^{プロトタイプ} インタフェースによる大学ランキングの可視化結果の例を図

27

^に示す

.

^{図において}

,

^{紫色で表示} されている大学がランキング上位の大学に対応する

.

最初に

,

分析者は年度ごとの散布図上におけるノードの分布と年度ごとの変化を確認しながら

,

元々の大学ランキングにおける各大学の順位と散布図上のノード配置間の対応関係を把握しようと試みた

.

^その結果

,

大学ランキングの上位に対応する大学を表現するノードが画面右上

(X, Y

^軸共に値が大きい方向

)

に分布していることを確認した

.

^一方で

,

時点間での分布傾向の変化は確認できなかった

.

^次に

,

^分析者は

,

データセットの中から日本の大学を発見し

,

^{それらの空間的配置} や時間的変化に基づき探索的分析を開始しようと試みた

.

分析者はスケッチベース入力で画面の各領域に存在するノード集合を選択し

,

^{凸包を作成した}

.

^その後

,

詳細ビューに表示されるデータ名称

(

^大学名

)

^から

,

自身が知っている大学の傾向を軌跡や詳細ビューを確認しながら探索した

.

また

,

日本の大学の軌跡を表示し

,

複数軌跡の選択操作により図

28(a)

のような凸包を作成した

.

その結果

,

^{東京大学や京都大学}

,

大阪大学のような日本の大学がランキングの最上位

(X, Y

^軸共に値が大きい位置

)

^{に少ないことや}

,

^{それらが散布図の左上}

(X

^{軸の値が小さく}

, Y

^{軸の値が大きい}

*12http://www.iu.qs.com/

日本・アジアの大学

• 東京大学

• 京都大学

ランキング上位の大学

• マサチューセッツ工科大学

• ハーバード大学

図

27. QS

大学ランキングデータセット

(2016

年

)

における可視化結果

領域

)

に集中していることを確認した

.

^一方で

,

この時点では日本の大学の明確な時間的傾向は確認できなかった

.

これらの得られた洞察に基づき

, X

^軸は

Academic peer review

^や

Citations per

faculty

^{に対応する}ωtmが強く重みづけられていることから

,

大学の研究力を評価していると判断

した

.

^また

, Y

^軸は

International student ratio

^や

International staﬀ ratio

のような属性が強く重みづけられていることから

,

それらが国際性や多様性に対応する属性であると考えた

.

次に

,

分析者は日本とドイツの大学が類似しているという

,

自身の知識に基づく仮説を検証するために複数軌跡を選択し

,

詳細ビューと併用しながら類似性を調査したが

,

^{データセット全体に当} てはまる明確な傾向は確認されなかった

.

^一方で

,

ドイツや欧州の大学の一部については類似点が確認された

.

^例えば

,

ミュンヘン工科大学などの欧州の工科大学と日本の大学の変化が似ていることを確認した

.

^{軌跡の形状や}

,

詳細ビューを用いて両者を比較した結果

,

^{この原因として}

,

^分析者は工科大学や日本の国公立大学は

, Faculty

Student ratio

^や

Employer reputation

^などの

,

^教育力や企業からの評価に対応する属性が共通して高いことを確認した

.

また

,

分析者はアニメーションを用いた時点間の特性の比較や

,

軌跡の形状の比較操作を用いて

,

大学ごとの時間的な変化の違いを分析した

.

^その結果

,

マサチューセッツ工科大学やハーバード大学のようなランキング上位の大学は

,

時点間の順位変動が少ないことを確認した

.

^一方で

,

^時間的変化が大きい浙江大学やセントルイス・ワシントン大学のような一部の大学は

,

^{国際性の変} 化が大きく寄与していることを確認した

.

^その後

,

分析者は軌跡のナビゲーション機能を用いて

,

時点ごとの対象大学の座標や

,

他大学との傾向の違いを分析した

.

^{結果として}

, X

^{軸方向よりも}

Y

軸方向へ移動する大学の方が多い傾向を確認した

.

これらの傾向がみられる理由として

, Y

^軸における重み付けが大きい

Citations per faculty

などの属性値がランキング順位の変化に大きく影響すると考察した

.

^一方で

,

ランキングが上昇する大学と比べて

,

下降する大学は少なかった

.

^分析者はこの理由として

,

全ての時点でランキングに掲載されている大学のみがデータセットに含ま

日本の大学など (東大, 京大 …)

(+) 大学間/雇用者の評判 (+) 教員あたり学生数

𝜔 _𝜏 ^Y

𝜔 _𝜏 ^X 𝜔 _𝜏 ^′Y

𝜔 _𝜏 ^′X α

パラメータ調整

(-) 外国人教員比率 (-) 留学生比率

(a) (b)

図

28. QS

大学ランキングデータセット

(2019

年

)

における日本の大学の選択に基づくパ

ラメータ調整結果

: (a)

^{パラメータ調整前}

(b)

^{パラメータ調整後}

れるため

,

特定の年度でランク外に下降した大学は含まれていないと考えた

.

分析者は投影軸の解釈結果や

,

大学ごとの時間的特性の分析結果に基づき

,

^{日本の大学を上位} にするようにパラメータを調整して

,

これらの大学の特性を理解しようと考えた

.

^最初に

,

^日本の大学を複数軌跡の選択機能で選択し

,

^{絶対的操作で}

X

軸の値が大きくなる方向へと移動した

.

^また

,

相対的操作によって左上方向に移動してα^を調整し

,

^それらをω^{に還元した}

.

^{これによって}

,

変化するパラメータを観測しながらそれらの特性を把握しようと試みた

.

^{パラメータ調整の結果}

を図

28(b)

^に示す

.

^図より

,

日本の大学が上位となるようなランキングを構築できたことが確認で

きる

.

各パラメータの増減を確認すると

, Academic peer review

^や

Faculty/Student ratio

^が増加し

, International student ratio

^や

International sta

ﬀ

ratio

^{の重みが低下している}

.

^また

,

^{日本の大学と同} 様に

, X

軸の値が大きくなる方向に移動する大学は

,

高麗大学校や精華大学のような非英語圏の大学が多く

,

^{それらの大学も}

Academic peer review

^や

International student ratio

^{に関して日本の大} 学と同様の傾向を持つ

.

^一方で

,

値が小さくなる方向に移動する大学にはノッティンガム大学などの

,

国際性に関するパラメータが高い大学が多く見られた

.

^また

,

マサチューセッツ工科大学のようなランキング最上位の大学は

,

全ての属性が高い値を持つためほとんど移動していない

.

^これらの調整結果の傾向に基づき

,

^分析者は

,

世界大学ランキングにおける日本国内の大学の順位には国際性が強く影響していると判断し

,

ニュース記事からも同様の傾向を確認した

[105].

^{これらの分} 析結果に基づき

,

分析者は日本がランキングにおける順位を向上させるためにはこの部分を改善すべきと判断した

.

上述の分析事例より

,

分析者は世界大学ランキングの特性や

,

ランキングを構成する各属性の詳細を理解できたと回答していた

.

^そのため

,

提案フレームワークを用いて

,

^{ドメイン知識に基づく} 指標構築のためのデータ探索を支援できたと考える

.

ドキュメント内首都大学東京 (ページ 72-78)

探索履歴の可視化

.

4.10.5

,

.

,

.

,

,

. [CLEAR]

,

.

26.

5 ケーススタディ

,

,

.

,

.

,

,

,

.

,

[30],

,

,

[6].

,

,

.

2.4.1

,

.

,

, semantic interaction

,

,

.

, think-aloud

.

, think-aloud

,

,

[6].

, 4

,

.

,

, Pair analytics

[6].

,

2

.

,

,

.

,

.

,

,

.

,

.

,

.

3

,

3

.

5.1

5.2

, Pair analytics

.

,

,

.

,

,

,

5 ^{ケーススタディ}