ドメイン知識に基づく評価指標構築

本研究が対象とする評価指標の定義と

,

指標構築プロセスに類似する研究領域

,

^{それらを支援す} るための既存研究における取組を述べる

.

2.4.1

データに対する評価指標

広辞苑

(

^第七版

)

^によれば

,

^評価

”

は次のような意味を持つ

.

善悪・美醜・優劣などの価値を判じ定めること。特に、高く価値を定めること。

また

,

^指標

”

は次のような意味を持つ

.

物事の見当をつけるためのめじるし。

これらの定義から

,

評価指標は対象の良し悪しを比較できるように

,

評価者が主観的に有している基準を意味すると考える

.

^{この定義に基づき}

,

^{意思決定に用いられる}

,

^{データに対する評価指} 標が満たすべき条件は

,

主観的な基準をデータの優先順位として反映できること

,

^{順位の決定理} 由を定量化できることの

2

^{点であると考える}

.

^そのため

,

結果の解釈可能性や入出力間の透明性が重視されると考える

.

^{以上を踏まえ}

,

本論文ではデータに対する評価指標

”

^を

,

^{分析者の主} 観的な価値

(

^基準

)

に対するデータの適合度合いを判断するための

,

解釈可能かつ定量的なデータの優先順位の表現手法

”

^{として定義する}

.

^{評価指標は}

,

分類タスクにおける教師データの正負例の決定規則や外れ値の判定基準に対応する閾値

,

多基準意思決定問題におけるランキングの決定基

準

[42] [69],

プロ野球ドメインにおけるセイバーメトリクス

[3]

^のように

,

^{多様なドメイン・表現}

形式により扱われる

.

^また

,

ビジネス分野における新規契約数やアクティブユーザ数のような

KPI (Key Performance Indicator) [10]

^や

,

従業員のパフォーマンスを評価するための指標

[99]

^も

,

^本論文で扱う評価指標に該当すると考える

.

評価指標は利用者の目的に基づき

,

データを適切に評価できる必要がある

.

^また

,

^{指標は過去} に同様のタスク・データに使用されていた経験から一意に決定されるものではなく

,

^{指標が対象} データを適切に評価できるかを分析・検証した上で適切なものを選択する必要がある

.

^一方で

,

^機械学習などにより

,

^目的変数

(

^クラス

)

を適切に予測できる分類モデルを構築した後に，データの優劣を判断し

,

順序付けすることも可能である

.

^しかし

,

学習方法によっては分類モデルをブラックボックスとして扱う

[18].

そのようなモデルは精度の観点で有効であっても

,

^{解釈可能性の問} 題がある

.

予測精度が高い場合でも

,

出力に対する根拠が解釈困難である場合には

,

^{モデルの出力} 結果に対する意思決定者の誤解を招く恐れがあると考える

.

ビジネス分野では

,

^{分析者が複数の}

KPI

に関する情報を情報システムでモニタリングしながら経営上の判断を決定する

.

^しかし

, KPI

^{が多数存在し}

,

それらを複合的に確認しなくてはならない場合

,

経営状況の把握は困難なタスクとなる

[10].

^特に

,

デファクトスタンダードとなる指標が存在しない場合には

,

^異なる

KPI

^{を比較分析し}

,

適切なものを選定する必要がある

.

^もしくは

,

^複数の

KPI

やデータ属性を組み合わせた

,

新規の指標構築が必要な場合も考えられる

.

^一方で

,

^誤った指標の選択や構築は経済的損失などを発生させる

.

指標を新規に構築したり

,

既存の指標を改善する際に

,

候補となる指標や関連するデータ属性数が多い場合

,

ドメイン専門家が網羅的にそれらを比較分析するタスクは困難になる

.

^また

, 2.2

節や

2.3

^{節で示したように}

,

多次元時系列データを元データの形式のまま可視化することは難しい

.

^そのため

,

複雑性を解消するためにサンプリングやセグメンテーション

,

^{次元削減などの前処} 理が適用される

[11].

^しかし

,

^{ドメイン専門家は}

,

それらに適用される前処理アルゴリズムに関する詳細な知識を持たない場合が多い

[37].

^そのため

,

データへの理解の促進や

,

^{視覚的分析インタ} フェースを用いた指標構築の支援は有用であると考える

.

評価指標が多様なドメインで活用される一方で

,

それらの構築支援を目的とした先行研究も存

在する

. Chen

^らは

, Web

サービスにおける新機能に関する有効性の評価指標構築を目的とした研

究において

,

^{評価指標の構築を}

3

段階のタスクに分類している

[18].

1.

評価指標に活用できる可能性のある教師情報

(

^ラベル

)

^{が付与されたデータを}

,

^{ドメイン知} 識に基づき収集する

.

^次に

,

機械学習アルゴリズムなどを収集したデータに適用し

,

^ラベル情報を適切に予測できる属性を識別する

.

^{これによって}

,

多数のデータ属性から分析者が手動で分析可能な数の属性に絞り込む

.

2. 1

の結果から得られる属性と

,

各属性を単体の指標として用いた場合の教師情報の予測精度をドメイン知識に基づき確認する

.

^また

,

分析者はそれらのデータ属性と実データを比較しながら

,

データに関する理解を探索的に深める

.

^最終的に

,

評価指標に用いる少数の属性を決定する

.

3. 2

の結果から得られた少数の属性を組み合わせて

,

^{複数の指標を作成し}

,

^{適用結果を比較し} て最終的に用いられる指標を決定する

.

^{この作業は}

,

単一のドメイン専門家による定性的な分析

,

もしくは複数の専門家間の議論を通じて行われる

.

ドメイン専門家は個々のデータに対する知識を持つが

,

前処理や機械学習パラメータに関する十分な知識があるとは限らない

.

^そのため

,

アルゴリズムに対する理解が必要となる

1

^・

2

^番目のタスクの実行が困難になる

.

これらのタスクに視覚的分析インタフェースを適用し

,

^{ドメイン知識に} 基づくパラメータ調整を

UI

^{上から支援することで}

,

認知的負荷の軽減と精度向上の両観点から

,

指標構築プロセスを支援できると考える

.

2.4.2

^{多基準意思決定法}

複数の代替案を持つ事象に対し

,

それぞれの代替案の好ましさや重要性を数値で表現して

,

^代替案が持つ属性間のトレードオフを考慮した意思決定を支援する手法として

,

^{多基準意思決定法}

(MCDA: Multiple Criteria Decision Analysis)

^{が存在する}

[103] [69]. MCDA

^は

,

^{主にビジネスや} マーケティング

,

製造業などのドメインに対して応用されている

[42] [69].

^これらは

,

^{複数の代替} 案に対するランキングを構築するための基準という用途で

,

評価指標を構築する手法としても解

釈できる

. MCDA

^において

,

代替案の好ましさや価値の大きさを定量化し

,

^{順位付けを行うために}

多くの手法が提案されている

.

^{最も単純な手法として}

,

加重総和法が挙げられる

.

^{この手法では}

,

分析者が代替案を構成する各属性に対して適切な重みを付与し

,

属性値の加重平均を用いて各代替案の重要度を比較する

.

MCDA

にはランキング決定のためのアルゴリズムが多数存在するが

,

^{一般的に用いられる手} 法として

, TOPSIS (Technique for Order of Preference by Similarity to Ideal Solution)

^{が挙げられ}

る

[42]. TOPSIS

^では

,

全ての代替案集合における各属性値の最大値で構成される最良解と

,

^最小

値で構成される最悪解を計算する

.

^次に

,

各代替案と最良・最悪解間の

L2

^{ノルムを計算し}

,

^最良解との距離が近く

,

最悪解との距離が遠い代替案が上位になるようにランキングを構築する

.

^このような手法は

,

代替案を高い精度で順位付けできるが

,

ランキングが得られた理由の解釈困難性が問題点として指摘されている

[42]. Kaliszewski

^と

Podkopaev

^は

,

他のアルゴリズムで算出された得られたランキングを近似するような線形関数を計算して

,

結果の解釈性を高める手法を提案している

[42].

TOPSIS

は自動でランク値を算出するため

,

ドメイン専門家の経験に基づき属性に重み付けで

きない問題点がある

. Rao

^と

Patel

^は

,

自動で算出される重みに基づく線形関数と

,

^{ドメイン専門} 家によって定義される重みに基づく線形関数をそれぞれ構築し

,

両者をランキングに反映する手法を提案している

.

この手法では属性ごとに両線形関数の重み付き和を算出する際の比率を変更し

,

両者のトレードオフを考慮したランキング結果を獲得できる

[69].

2.4.3

ランキング学習の支援

評価指標を構築するタスクは

,

^分析者のどのオブジェクトがより重要か

”

^{のような主観的基準} を反映したランキング基準を構築するタスクとしても解釈できる

.

視覚的分析インタフェースを用いた

,

多次元データに対するランキング構築の支援に関する研究が存在する

[29] [94]. Wall

^らは

,

相互主導型アプローチに基づく

,

分析者の主観を反映したランキング作成インタフェース

Podium

^{を提案している}

[94]. Podium

^では

,

分析者は表形式で表されるランキング結果の

,

各オブジェクトを並び替える操作に基づき

,

並び替え前後でのペアの相違を制約として定義する

.

^{制約に基づき}

, Ranking SVM

を用いて並び替えを再現するような各属性に対する重みを学習する

.

^{これによって}

,

各属性値やデータ特性に対する詳細な知識を持たない場合でも

,

オブジェクト間の相対的関係に関する知識を持っていれば

,

分析者の好みを反映したランキング基準を生成できる

[94].

Seo

^と

Shneiderman

^{が提案した}

rank-by-feature

^{フレームワーク}

[81]

^では

,

^{各属性値の分散や外} れ値の検出指標などの

,

既定の評価指標を複数利用し

,

それぞれの指標を用いた場合に得られるデータオブジェクトの順位の違いを分析しながら

,

多次元データを多面的に観測できると主張している

.

^{このフレームワークは}

,

分析者が選択した基準に基づきオブジェクトを整列するという点で指標構築と一致するが

,

分析者の知識を反映するような新たな評価指標の構築を目的としていない

.

2.2.2

^{節で述べた通り}

,

インタラクションに基づく次元削減結果の調整手法は

,

^{データ探索の面}

で有効性が確認されている

.

次元削減の結果として得られる低次元投影は

,

^{分析者の知識をオブ} ジェクト同士の位置関係として表現する

.

^しかし

,

次元削減前のデータが持つ各属性と低次元空間におけるオブジェクト配置の関係を理解しづらくなる問題点がある

.

^{この問題に対処するた}

めに

, Gleicher

^は

,

分析者の主観的な順位付けをオブジェクト配置に反映するような投影関数の

作成により

,

多次元データの特性理解を支援するシステム

Explainer

^{を提案している}

[29].

^投影関数は

,

データオブジェクトが持つ各属性による線形関数として記述される

. Explainer

^では表形式のビューに可視化されたランキングにおける

,

オブジェクトの順位を修正する操作に基づき

,

各オブジェクト順位の上昇と下降を

SVM

^{の制約として定義する}

.

^次に

,

^{制約に基づく}

SVM

^の解として得られた属性値に対する重みから投影関数の候補を構築し

,

^{分析者に提示する}

.

^このと

ドキュメント内首都大学東京 (ページ 30-36)