科学可視化のポスト処理
Post-Process for Scientific Visualization
白山 晋
1Susumu SHIRAYAMA
11
東京大学人工物工学研究センター
1
RACE, the University of Tokyo
Abstract: Owing to the volume of data generated in recent computations and experiments, it is quite
difficult to extract useful information from these data even if using scientific/information visualization techniques. Method or methodology to extract useful information from such data should be considered. Several concepts of very large scale visualization are proposed in this situation. Most of them are based on high-performance computing techniques or highly-efficient devices for computer graphics. Although such studies have succeeded in visualizing ultra-scale data, several issues remain unsolved. In this paper, a flexible visualization methodology based on “post visualization process”, which includes a human recognition process and quantitative evaluations of visualized results is introduced. Finally, a possibility that a visualization agent designed from a process model helps to reduce the difficulty of handling huge data is described.
1.背景
Varian と Lyman は,1999 年に生み出された全情報 を 1 エクサバイト,2002 年では,新たに保存された 量が 5 エクサバイト,電子チャネル(電話,テレビ・ ラジオ,インターネット)で伝送された量が 18 エク サバイトと見積もっている[1].その後の光ファイバ ー網への移行, 1 テラバイト超の記憶容量を提供す るハードディスク装置の大容量化,DVD,Blue-ray へと移行する記録媒体,さらに PC の 64bitOS への移 行と主記憶容量の急増が続き,膨大な量のデータ・ 情報の,個々人での蓄積と広域分散化を加速してい る.この状況は様々な分野・領域において情報爆発 [2][3]として取り上げられ,ゼッタバイト,さらには ヨッタバイトという総量,個々人に対してはペタバ イトという量に対応するための,データ・情報の革 新的な処理法が模索されるようになる. 科学技術計算,実験,観測においても,テキスト データ,音声や映像データよりも数値データに比重 をおいたデータ処理という違いはあるが,同様にデ ータの大規模化,広域分散化が問題になっている. 実験や観測におけるデータ取得技術は,点から面, そして空間へと進展し,技術計算においては時空間 の高解像化が進み,PC の飛躍的な性能向上によって データは個人の側に蓄えられることが増えたためで ある.例えば,図 1 上図は流体計算に用いられる格 子点のおおよその推移である(95 年以前は主として AIAA Paper や Journal から,95 年以降はウェブから のデータである).大学や企業の研究者へのヒアリン グや著者の経験からであるが,現在,日常的な計算 はパーソナルコンピューティングによる数十万から 百万点規模の計算が多い. 図 1 計算規模の推移と予測 人工知能学会研究会資料 SIG-DMSM-A903-04 (03/29)また,Butler の報告[5]にあるように,2015 年まで に 128,あるいは 256 コアのマルチコアプロセッサ の登場が予測される(さらに 512 から 1024 コアにな るという予測もある).実現すれば小規模 PC クラス タでさえ,数千の CPU を提供するようになる.現在, Super computing として行われている計算がパーソナ ルコンピューティングとして実施できるようになる だろう.図 1 下図に示すように数千万点規模の計算 が日常的に行われると考えられる. 現状の百万点であっても,座標,速度場,圧力場 を求めるなら,1つのパラメータに対して,1時刻 ステップあたり単精度で 28M(=1x106 x 7 x 4)バイ トの生データが生成する.100 ステップで約 3G バイ トとなる.解析には物理パラメータに加えて計算パ ラメータに対するものも必要になるので,この程度 の計算規模であっても膨大なデータが生成され,解 析を難しくする. この状況を打開する一つの方法は,可視化1の利用 である.事実,可視化によってデータは視覚情報に まとめられ(無意なものが棄却され),データ増加に ともなう解析の困難が克服できると期待された.し かし,直接的な可視化では,副次的に派生するデー タ(可視化パラメータやシステム情報など)や,生 み出される視覚情報自身の増加を考慮すると,解析 の難しさは変わらないとの見方が大半である[4].ま た,数百,数千の CPU が生み出すデータに対応でき る手法やシステムの確立が急がれている.本研究で は,一つの方向性として戦略的な可視化を検討し, その戦略を示すことを目的とする. なお,科学可視化の対象は,計算,実験,観測, 理論(例えば数式の表現)であるが,本稿では主と して計算データに対する可視化を考える.
2.可視化の現状と課題
繰り返し述べることになるが,現在,日常的に行 われている技術計算の規模は数十万から百万点程度 と考えられる.対象と目的が限定されると,型通り に処理が進められることも多いので,格子生成から 可視化までが一両日で終了することもあると聞く. ただし,著者の経験であるが,扱った経験が少ない 1 可視化は,”みえないものを見えるようにする”,”みえ ない関係性を顕在化する”ものとされるが,単に,データ を視覚情報に変換することを,データの視覚化,あるいは 可視化と呼ぶことも多い.実験・観測・計算からのデータ の可視化(サイエンティフィックビジュアリゼーション, Scientific Visualization)に関しては,文献[17]での定義が定 着している.なお,Scientific Visualization の訳語として科 学可視化が一般化しており,本稿でもそれを用いる. 対象に対して探索から始める場合,同規模の計算で あっても詳細な分析結果を得るためには数週間を要 する場合もある. 可視化に限定しても同様である.可視化は探索(発 見を含めて)と分析(解釈や利用を含めて)のプロ セスに分けられるが,探索型の場合,目的があって も多くの時間を要する.例えば,図 2 に示す球を過 ぎる流れの後流における渦構造[6]の抽出には可視 化のみで1ヶ月以上を要した.数千万点を超える大 規模な計算データの場合,対象と目的が決められた 定型的な処理でも必要な情報を得るための労力は大 きい.探索型の場合は更に効率が悪くなると予想さ れる. 図 2 球後流の渦構造(Re = 500,格子点数:200x100x81) Ma は,可視化が超大規模データに適応できるため には,並列化可視化(parallel visualization),知識ベ ース可視化(knowledge-based visualization),同時的 可視化(in situ visualization),可視化インタフェース (visualization interface)が重要な鍵であることを指 摘している[16]. 並列化可視化,同時的可視化は計算環境に関連す るものであり,可視化技術として扱われる.また, 高性能計算の研究者の取り組みも多い.一方,知識 ベース可視化,可視化インタフェースは人間を系に 含むものであり,可視化研究者にとっての敷居は高 いようで,取り組みは多いとはいえない[2][3][4]. しかしながら,可視化は,情報,あるいは知識の 抽出過程とされ,得られた結果は,その分野や領域 での知識を表すものとして扱われるため,知識の蓄 積と活用という点では,可視化技術以上に重要であ る.しかし課題も多い.例えば,可視化操作によっ て生データが視覚情報に変換される際にユーザーの 経験,あるいは知識が利用され,ユーザー毎に解釈 が異なる場合がある.この場合,その分野,領域の 知識になり得ないこともある.課題の多くは, (a) プロセスの記述性とプロセスの分析の問題 (b) 解釈の問題 (c) 定量性の問題に帰着される[7][8].これらの3つの問題は互いに関 連するが,本稿では,(a)と(b)について検討する.な お,(c)の定量性とは,特に非定常データの可視化に おいて問題になるものである.詳しくは文献[8]を参 照されたい. さて,(a)と(b)の問題は,可視化プロセスの(半) 自 動 化 に 向 け た 研 究 の 中 で 扱 わ れ る こ と が 多 い [3][4].可視化は,図 3 に示すように可視化対象とな るデータの選択の後,可視化操作(手法)の選択, 結果の表示,結果の解釈を,解析者(ユーザー)が 繰り返すことで進められる.可視化の意味づけや効 果は,このサイクルの中で見いだされることが多く, この中で学習が行われることもある.この一連のな がれを,改めて可視化プロセスと呼ぶことにする. そして,このプロセスを(半)自動的に行うことが 試みられている. 図 3 可視化プロセス 科学可視化における可視化操作(手法)は,グラ フ化などの統計的処理に関わる部分を除くと,格子 線表示,格子面表示,等値線抽出,等値面抽出,等 値領域抽出,ボリュームレンダリング,ベクトル表 示,粒子追跡の8種類程度(分類法によっては多少 変化する)である.数は多くないので,一見すれば 可視化プロセスの記述性は問題にならないと考えら れる.しかし,操作の履歴情報が残されることは少 ない2.また,操作の選択や表示法には任意性があり, 評価は曖昧なことも多い. このため,可視化プロセスの(半)自動化に向け た研究においては,履歴情報を蓄積し,再利用する 仕組みや,プロセスの進め方が研究対象になってい る.代表的な進め方に,操作手順のテンプレート化 [4]と,興味領域(ROI : Region(s) Of Interest(s))と詳 細度(LOD: Level(s) Of Detail(s))にもとづくもの[9] がある.後者は,特徴量にもとづき ROI を定め(あ るいは示唆し),あるいは単に ROI を定め,細部を 2 利用するソフトウエアによっては履歴情報を残すもの もあるが,そのソフトウエアでの再現性のためのものであ る. 調べるというものである.また,事前知識やクラス タリングなどを利用して情報に階層的な構造を持た せることが多い. 階層構造によって階層毎の情報の 把握は容易になる. この方法では,詳細度にもとづいて予め階層化さ れた情報(LOD)に対して,指標を定めて ROI のい くつかの候補を示し,人間の判断によって階層間を 移動する[9].階層間の移動において,詳細度の低い 階層のある起点(基点)から高い階層へ(ドリルダ ウン)とその逆(ロールアップ)が,インタラクテ ィブに行われる.このインタラクティブなプロセス に,人間が可視化結果を理解し,判断(意思決定) とともにプロセスを進めるというユーザーの解釈に 依存する部分が含まれる. これらは結果にユーザーの主観が含まれることを 意味する.このため,ユーザーの解釈に依存する部 分を明らかにするような方法や方法論が模索される ようになる.例えば,解釈の方法や,人間の理解ま で含めた可視化プロセスの検討である.また,可視 化(あるいは可視化結果)の善し悪しの評価基準が されるようになっている.科学可視化に限らないが, 可視化システムとしての評価[3][10],利得の設定に よる可視化自身の評価[11],視認性を可視化の善し 悪しに利用した方法[12],被験者実験による認知特 性の評価[13],視線移動と PageRank のような定量的 指標を評価に関連付ける方法[14]などがある. インタラクティブなプロセスの中での,履歴情報 の記述,システムの評価,解釈に関連する評価基準 が(a)と(b)の問題を解決する鍵になっている.
3.可視化プロセスの分析
本研究では,可視化プロセスの分析から可視化戦 略を検討する.可視化は技術計算という文脈では, ポスト処理に相当し,ポストと略されることも多い. このポスト処理は,解析結果を分析し,設計情報な どを抽出するものである.一方,可視化自身もプロ セスであるので,可視化プロセスの分析はポストの ポスト処理といえる. 可視化プロセスを一般的な意味での作業と考える と,目的と目的を達成するという観点が重要になる. 例えば,可視化では「何のために何を視るか」が目 的に相当し,「何がわかるか,わかったか」によって 目的の達成度が決まる. しかしながら,可視化の多くは探索(発見)型で あり,目的があいまいであることや,可視化の途中 で目的が変更になることも多く,目的を同定するこ とは難しい.一方,可視化の目的が決められ,定型 化されたものも少なくはない.定型化された可視化 プロセスの場合,可視化の目的に対して,目的を達成するための方向性(方策,方針)を与える方法の 提案はある.文献[15]では,2次元スカラー場の可 視化には可視化操作の一つである等値線表示を選択 するといった一般的な方法論が述べられている.し かし,これらは,可視化の目的を達成するという点 では不十分であることが多い.例えば,「2次元スカ ラー場の可視化」には,‘物体に加わる局所的な力を 知るために物体表面の圧力分布を調べる’や‘数値 振動の有無や生じている場所を調べる’という,可 視化プロセス全体における「何のために」に属する 目的が存在し,単なる等値線表示ではそのような目 的を達成することが難しいからである. 本研究では,「何のために」に相当する目的を上位 の目的とし,可視化操作や見方(表示)に直接関連 する目的を下位の目的と呼ぶことにする.目的を, 「目的=ねらい+機能」とした場合に,上位の目的が 「ねらい」に,下位の目的が「機能」に関連付けられる. 探索(発見)型の場合は,上位の可視化目的が一 連の可視化プロセス後に同定されることが多い.例 えば,2次元スカラー場の可視化のために,圧力場 に対して等値線表示を行った結果,‘数値振動が生じ ている場所がわかった’というようなものである. 上位の目的と下位の目的を結びつけるためには可 視化対象に依存する分野(ドメイン)固有の知識が 必要であることが多い.しかしながら,「物体表面の 圧力分布を調べるために圧力場に対して等値線表示 を行った」というように,可視化プロセスを繰り返 す中で関係性が明確になる場合もある(目的があい まいであっても行う作業の種類は多くない). ここで可視化戦略として,エージェントによる可 視化の可能性や,可視化インタフェースの改良によ る可視化の効率化を考える. 可視化の目的を同定することは難しいが, (1) 目的が階層的に表せる (2) 可視化プロセスの分析によって上位と下位の 目的間の対応付けが可能になる (3) 下位の目的に関しては可視化操作と目的が対 応付けられる ことを仮定する.可視化プロセス全体に対するエー ジェントを設計することは難しいが,どちらかの可 視化目的が与えられた場合は一連の作業手順を決定 できることが多い.本稿では,この点に着目し,可 視化作業を分析することによって,可視化目的が与 えられた場合の可視化エージェントに担わせうる作 業や可視化インタフェースの改良のための情報を抽 出する.
3.1 情報化と構造化
プロセスの分析は,機械処理に適した形式に履歴 データや情報を再構成し(構造化,さらに階層化), 再構成されたデータや情報に対して機械学習を含め たデータマイニングの方法を活用して行われること が多い.本研究においてもこの方針を採る. はじめに,データの情報化,データと情報の構造 化が必要になる.第1のポイントはデータの記述法 である.XML,RDF を利用してメタデータが追加で きればよい.標準化の問題があり,そのような形で 記述できるとは限らないが,部分的であっても機械 処理に適した形式で記述できればよい. 第2のポイントはパラメータ化と符号化である. 可視化パラメータは, ●可視化対象の選択のためのパラメータ ●可視化操作に対するパラメータ ●表示方法に対するパラメータ に分類される.例えば,圧力場に対する等値線の本 数や3次元の視点である.また,可視化操作自体も パラメータ化されていた方がよい.はじめに, A:格子線 B:格子面 C:等値線 D:等値面 E:等値領域 F:ボリュームレンダリング G:ベクトル表示 H:粒子追跡 のように操作を記号化する.これらの操作に,可視 化パラメータが付随する.可視化パラメータを以下 の3種類のカテゴリ変数群(Oi,Di,Pi)で分類する. ・ O:操作に関わるもの(等値線(次元,分布,範 囲,本数,アルゴリズム等),粒子追跡(状態, 時間刻み幅等)など) ・ D:表示属性を示すもの(色,透明属性,矢印 等) ・ P:可視化精度に関わるもの(時間精度,空間 精度等) また,変数の意味,および取り得る値を予め定義 しておく.等値線の範囲や本数,粒子追跡の時間刻 み幅など,連続変数のものも多いが,一旦カテゴリ 変数で表す.例えば,等値線に対するカテゴリ変数 として, ・次元:O1 = {2次元,3次元} ・分布:O2 = {等間隔,不等間隔} ・等値線の値の範囲:O3 = {自動,デフォルト,入力} ・等値線の本数:O4 = {自動,デフォルト,入力} ・アルゴリズム1:O5 = {分割, 直接} ・アルゴリズム2:O6 = {直接,フラグ利用, MCube} ・表示属性:D1 = {色付き,モノクロ} ・空間精度:P1 = {線形補間, 双一次補間}というようなものを考える.ここで,“自動”は,可 視化対象のデータに依存してシステム側で自動的に 設定するものである.“入力”は,数式表現されたも のの係数を入力するもの,テーブル表現されたもの からの選択などを意味する.このような変数に対し ては,カテゴリを選択後に具体的な値を決めるとい う形式にする.例えば,等値線の値の範囲:O3 = {自 動,デフォルト,入力} において,“入力”の選択後, 最小値と最大値を要求する場合, O3 = “入力”|(最小値, 最大値) のように属性値が付随する.また,表示属性や可視 化精度に関しても同様に扱う.例えば,色の算出式 やカラーテーブルといった更に詳細な情報が階層的 に加えられることになる. さらにカテゴリ変数を符号化する.例えば,等値 線の場合, C O1O2O3O4O5O6 のように符号化する. 次元は“2次元”,分布は“等 間隔”,値の範囲は“入力”,本数は“デフォルト”, アルゴリズム1は“分割”,アルゴリズム2は“フラ グ利用”であれば,C002111 となる.このように可 視化操作を,操作を表す記号と可視化パラメータに よって符号化する.
3.2 構造化(ワークフローの記述)
可視化対象となるデータの選択後,可視化は目的 に関わらず, (i) 可視化対象の場の決定(対象量,領域) (ii) 可視化操作の決定 (iii) 可視化結果の表示 (iv) 結果の解釈と判断 を繰り返しながら遂行される.可視化操作と見方(表 示)の繰り返しは,(i)→(ii)→(iii),あるいは(ii)→(iii) の中で生じる.表示を経て,結果の解釈を行い,継 続か終了かの判断を行う. そこで,表示(結果を見る)までの段階を一つの 手続きとする.この手続きをパラメータの並びで表 すことができれば,作業に対するワークフローとい った,工程の繋がりや処理順序を記述し,管理する ことができるようになる.これが第3のポイントで ある. このためには,可視化操作のパラメータ化に加え て,(i)と(iii)についてもパラメータ化が必要になる. (i)の可視化対象の場は, (i-1) 可視化対象となるデータの種類 (構造型,非構 造型,散逸型,複合型など) (i-2) 対象となる物理量(圧力,温度,速度など) (i-3) 対象領域 {面(格子面,切断面),ボリューム(格 子領域,切断領域)など} 等によって決まる.(iii)の表示は, (iii-1) 表示領域 (iii-2) 3次元の視点 によってパラメータ化できる. 一つの手続きを Skとし, Sk≡{対象の場,可視化操作(可視化パラメータ),表示} によって表し,可視化結果 Vkと対応付けて,可視化 結果がどのように生成されたかを示す.これは構造 化された要素を,順序をつけて関連づけることに相 当する.例えば,可視化操作の部分だけ示すと,等 値線,格子線,ベクトルで表示するものは, S1= {...,C A G, ...} と表される.実際には,C002111 のようにより詳細 なパラメータがともなう. パラメータによるワークフローの記述後,{対象の 場, 可視化操作(可視化パラメータ), 表示}と,対象デ ータ,および可視化結果を機械処理可能な形で結び つける.また,この際に,可能であれば,可視化結 果 Vkをパターン化しておく.パターン集合を Pmと すると,Vkは Pmのいくつかの要素に対応付けられる. このように,ある可視化結果を得るためのプロセ スをパラメータ化と符号化によって機械処理可能な 履歴情報として蓄えることが可能になる.3.3 分析手法
得られた履歴情報に対して,目的,可視化作業, 可視化結果の対応付けを行う.この際に,可能なら ば,Fekete ら[11]のように可視化に対する利得を与え る.より具体的には,X という対象に対して,目的 Yiと手続き Skの意図をヒアリング等で明らかにし, 目的の達成度,知見獲得の有無,手続きの必要度な どを4件法や5件法で調べ,利得 Fkとして与える. この繰り返しによって,対象 X,目的 Yiに対して 可視化結果 Vkが手続き Skとともに蓄えられていく (k=1,...,N).また,利得 Fkが与えられる場合もある. この履歴情報に対するデータマイニングによって 手続き(操作や見方)の類型化を行い,連関規則の ようなルール抽出を試みる. 著者の経験からであるが,可視化プロセスの分析 で得られるルールは多いと考えられる.一方,得ら れたルールよりも個々人の経験が優先されることが 多いとも考えられる.そこで,有用なルールを活用 する仕組みが必要になる.本研究では,はじめにエ ージェントによる可視化作業の可能性を検討する. これは,データの大規模性にともない,インタラク ティブな可視化が困難となり,Ma が指摘する同時的 可視化が必要になるためである. エージェントの定義は様々であるが,本研究では 可視化エージェントを,「手続き(操作や見方)の類型化から得られるルー ルにもとづいて,可視化作業を行い,可視化結果を 蓄えていくもの」 と考える. 例えば,対象 X と目的 Yiに対して,計算点数以外 を同じパラメータにした小規模な計算結果に対する 可視化の履歴情報にもとづくプロセスの分析から直 接的にルールを抽出する,あるいは手続き(操作や 見方)の類型化の後にルールを抽出する.また,可 視化結果 Vkがパターン化できれば,ルールとパター ンを関連付けておく.ある対象 X とある目的 Yiから の可視化結果は複数のパターンと対応付けられると 予想される.その場合,パターンに対応付けられた 別のルールが存在することもあるだろう.それらを エージェントに与え,エージェントを用いて大規模 データに対する可視化を行い,効率的に有用な可視 化結果を蓄えることを試みる. また,プロセス分析の結果は,可視化インタフェ ースの設計に役立つ.複数の手続きを組み合わせる ことで目的が達成されることが多いので,操作性が 重要になるためである. 次章で可視化プロセスの分析例を示す.
4.分析例と考察
いくつかの2次元物体を過ぎる非圧縮性流れの計 算データの可視化に対する履歴情報から,手続き Sk の中で,精度を調べるためのものを抽出する. この場合の目的「計算精度を検討する」は流体計 算では一般的なものなので,用意した選択肢や,自 由形式の記述等により明らかにできる.以下の,目 的の達成度は,可視化結果 Vkに対する,(4:十分に できている,3:どちらかといえばできている,2: どちらかといえばできていない,1:できていない) という4件法の主観的判断によるものである.また, いくつかの数値振動のパターンがわかっているので, Pmを形成し,関連付けることができる. はじめに,以下のようにパラメータを簡素化する. 可視化対象となるデータの種類は構造型,物理量は, q1:圧力,q2:速度,q3:渦度,q4:流線とする. 簡単のため,圧力と速度などを同時表示したものは ルール抽出の対象から除外する.可視化操作は,A: 格子線,C:等値線,G:ベクトル表示とする. 格子線のパラメータは,範囲(全体,物体面,領 域指定)のみとする.それらを a1:全体,a2:物体 面,a3:領域指定,と記号化する. 等値線に関しては,分布と値の範囲をまとめて記 号化する.分布を(等間隔,不等間隔),値の範囲を (全体の最大最小,指定領域の最大最小,0 を中心 とする入力値)とし,c1:等間隔,全体の最大最小, c2:等間隔,指定領域の最大最小,c3:等間隔,0 を中心とする入力値,c4:不等間隔,全体の最大最 小,c5:不等間隔,指定領域の最大最小,c6:不等 間隔,0 を中心とする入力値,のように記号化する. ベクトル表示は,範囲(全体,物体近傍,領域指 定)とする.それらを g1:全体,g2:物体近傍,g3: 領域指定,と記号化する. なお,利用されなかった操作は a0,c0,g0 として いる.表示に関しては,平行移動,拡大,縮小に限 定し,v0:デフォルトのまま,v1:平行移動,v2: 拡大,v3:縮小,v4:平行移動,拡大,v5:平行移 動,縮小,v6:拡大,縮小,v7:平行移動,拡大, 縮小と記号化する.表 1 に手続き Skの一部を示す(抽 出した手続きの総数は 30). はじめにバスケット分析の例を以下に示す.達成 度を除外し,表 1 の多値のカテゴリ変数を 0,1 のダ ミー変数に展開し,R[18]の arules を用いて連関規則 を求めた.カテゴリの数が増えると,arules のパラ メータを調整しても多くのルールが導出される.こ こでは,2つのルールを示す. rule1|{操作 A=a1, 操作 C=c2} => {場=q1} rule2|{操作 A=a2, 操作 C=c6} => {場=q4} これらを読み解くと,rule1 は,「圧力場の可視化 を利用して計算精度を検討する場合,指定領域に対 して等間隔で等値線を表示し,かつ格子線全体を表 示する」というもので,rule2 は,「流線の場合は,0 を中心とした入力によって不等間隔で等値線を表示 し,格子線は物体を表示する」というものである. 繰り返しになるが,得られる連関規則は多く,意味 のあるものを見つけることは難しい.結果の精査は 必須であるが,文献[15]で示されている「2次元ス カラー場の可視化には可視化操作の一つである等値 線表示を選択する」のようなルールよりも詳細なも のを見つけることはできた. 表1 可視化手続きの例 手続き# 場 操作 表示 達成度 A C G 1 q1 a0 c1 g0 v0 2 2 q1 a1 c1 g0 v0 2 3 q1 a1 c2 g0 v2 3 4 q1 a3 c2 g0 v6 4 ・・・ 29 q2 a2 c0 g1 v6 2 30 q1 a2 c3 g0 v6 2次に決定木によるプロセスの分析例を示す.決定 木は CART によって生成した(R の mvpart パッケー ジを利用した).図 4 は,達成度を基準変数に,場, 操作 A,操作 C,操作 G,表示を予測変数としたと きの決定木である.図 4(a)では,達成度が 1 と 2 を “NG”で,3 と 4 を“OK”とした分類木である. 下図(b)は量的変数とした回帰木である.図 4(a)から, 操作 C が達成度を分ける第一の要因であることがわ かる(操作 C のうち,c2,c3,c6 の場合が達成度 OK である).右側のブランチの第一の分岐は,次に操作 A が達成度を分ける要因になっていることを示して いる.上述の連関規則の rule1 を考慮し,可視化対象 の場の影響は小さいことから,計算精度を確かめる 場合,場に依らず領域を調べた方がよいとなる.ま た,ベクトル表示による分岐が存在しないことから, 「計算精度を検討する」場合,ベクトル表示の優先 順位は低いことがわかる(ただし,この履歴情報の 範疇ではある). (a) 分類木 (b) 回帰木 図 4 決定木による分析 これらの結果にもとづき,エージェントを設計す る.もっとも単純な方法は,テンプレートの利用で ある.可視化結果のパターンへの対応付けができれ ば,ルールベースで,複数の可視化結果を得ること もできるだろう.講演時にその例を示す予定である. 次に自己組織化マップを用いた分析例を示す.表 1 から達成度を除外し,要素から c4 と c5 を除いた (30 の手続きにおいて用いられていないため)もの を,0,1 のダミー変数に展開し,16 個の属性を入力 層のユニットに与える.出力層は 10 x 10 のユニット とした.R の som パッケージを利用し求める.その 結果を図 5 に示す. すべての手続きは出力層のいずれかのユニットに 含まれる(図では重畳を防ぐために表示位置をずら している).いくつかのクラスタに分類されることが わかる.おおまかには可視化対象の物理量によって 分かれ,いくつかの操作が近くに配置されている. この情報にもとづく可視化インタフェースにおける 操作ボタンの配置変更などが考えられる. 図 5 自己組織化マップによる分析
5.おわりに
データ・情報の大規模化,多様化にともない,情 報を一個人では消化できないという状況が新しい知 見の創出を妨げていることが指摘され,視覚(可視 化)情報のような人間が直感的に理解しやすいもの への変換は必須になっている.一方,同時に,可視 化作業自体の難しさや非効率性が指摘されている. このため,可視化作業を支援する,あるいは効率化 する仕組みが必要になっている. 本稿では,可視化プロセスの分析法を提案し,分 析結果を利用した可視化エージェントや可視化イン タフェースの設計をその仕組みの例として示した. 文献[2][3]や,[4]の可視化に関するトップレベルと される会議において,可視化,あるいは可視化シス テムにおいて,人間(分析者)を系に含める必要性 は強調される.また,文献[9]∼[15]を発展させた研 究例も見受けられるようになった.しかしながら, 本稿で示したデータマイニング手法を可視化プロセ スの分析に適用したものですら,ほとんど行われていないのが科学可視化の現状である. したがって,必要性が説かれる中で,研究の緒に ついた段階のものが多いことは事実である.さらに 多くの研究が望まれる.
謝辞
本研究の一部は科学研究費補助金(基盤研究(B))(課 題番号 21300031)の援助を受けた.記して謝意を表す る.参考文献
[1] Lyman,P. and Varian H.R.:How much information, http://www.sims.berkeley.edu/research/projects/how-muc h-info/
http://www2.sims.berkeley.edu/research/projects/how-mu ch-info-2003/
[2] Johnson, C., Moorhead, R., Munzner, T., Pfister, H., Rheingans, P. and Yoo, T. S. : NIH/NSF Visualization Research Challenges Report Summary, IEEE Computer Graphics and Applications, Vol.26, No.2, pp.20-24 (2006) [3] Hansen,C.D., Johnson,C.R. Pascucci,V. and Silva, C.T.:
Visualization for Data-Intensive Science, In The Fourth Paradigm of Scientific Discovery, Microsoft Research, pp.153-163 (2009)
[4] IEEE Symposium on Visual Analytics Science and Tech- nology: http://vis.computer.org/VisWeek2009/vast/ [5] Butler, D.: The petaflop challenge - Future super-
computers could leave scientists scrabbling for software, Nature Vol.448, No. 7149, pp.6-7 (2007)
[6] Shirayama, S.: Flow past a sphere: topological transitions of the vorticity fields, AIAA Journal, Vol.30, No.2, pp.349-358, (1992)
[7] 白山 晋:知的可視化,丸善 (2006)
[8] 白山 晋:非定常流れに対する定量的可視化法,日 本機械学会第 22 回計算力学講演会講演論文集, CD-ROM,OS2-211, (2009)
[9] Rauschenbach, U.: Progressive Image Transmission using Levels of Detail and Regions of Interest, Proc. of IASTED CGIM 98, pp.38-41 (1998)
[10] Plaisant, C.: The Challenge of Information Visualization Evaluation, Proc. of the working conference on Advanced Visual Interfaces 2004, pp.109-116 (2004)
[11] Fekete,J-D., van Wijk, J-J., Stasko, J.T. and North, C.: The Value of Information Visualization, Lecture Notes in Computer Science, 4950, pp.1-18 (2008)
[12] Chan,M-Y., Wu, Y., Mak, W-H., Chen, W. and Qu, H.: Perception-Based Transparency Optimization for Direct
Volume Rendering, IEEE Trans. on Visualization and Computer Graphics, 15.6, pp.1283-1290 (2009)
[13] van Ham, F. and Rogowitz, B.E.: Perceptual Organization in User-Generated Graph Layouts, IEEE Trans. on Visualization and Computer Graphics, 14.6, pp.1333- 1339 (2008)
[14] Egawa, A. and Shirayama, S.: Generation of an Impor- tance Map for Visualized Images, Lecture Notes in Computer Science, 5875, pp.135-146 (2009)
[15] Keller, P. R. and Keller, M. M.: Visual Cues: Practical Data Visualization, Institute of Electrical & Electronics Enginee, (1993)
[16] Ma, K.-L. : Visualizing Ultra-Scale Data, ACM SIGGRAPH 2008 talks, (2008)
[17] McCormick,B.H., DeFanti,T.A. and Brown, M.D.: Vis- ualization in Scientific Computing, Computer Graphics, Vol. 21, No. 6, pp.1-14 (1987)