探索的データ解析およびイメージ描画のためのヒュ
ーマン・インターフェイスの研究
著者 杉本 富利 学位授与大学 東洋大学 取得学位 博士 学位の分野 工学 報告番号 乙第114号 学位授与年月日 1999-03-15 URL http://id.nii.ac.jp/1060/00000132/5 章 探索的判別分析のためのフェース
グラフ 表現法
5。1 序 言 本章では多 次元 データ の判別分析に於いて,フェース グラフ を用いて 判別 関数 法を 支援し,より有効な 判別分析を行う方法を提案する[杉 本81a,90 ][本多81b ].判別関 数法に於いて は,事 前に判別すべきクラスター の数が解っており ,かつ 各クラスター を代表するトレーニン グデータ が得られることが前提条件であり ,そ の データ に基づ いて判別関数を求 めるが, ここに幾つかの問題 が存在する.そ の1 つ は十分な 数の データ が得られな い場合に起こる問題であり, 満足できる判別関数が求められな くて 正 しい判別結果が得られない ことである.他には解析 データ の中に既存のクラスター に 属さないような データ が有っ たとしても,そ れを発見できないという問題 があ る.し かし, これはフェース グラフ を利 用することによって 容易 に解決できる 問題で あり, ここにフェース グラフ の支援を受 けた探索的判別関数法が成立す るのであ る. 多次元 データ の変数を表情要 素に1 対1 に直接割り当てて表現する OTOD 法では, データ の変 数と表情要素と の最適な対応づけを見つけ出すのが困 難であっ た.こ れは 最適度を評価 する基準が無かったからである.そこで,本章で筆 者はフェース グラフ を判別分析に応用するために,クラスター 間の表 情ができ るだけ懸け離れた ものに成 るように表現するという評価基準を設けて, 最適な変数割当てを探索する方 法を提案 する.こ の方法は, データ のクラスター 同士の表情の非類似度 が最 も大きく 成るよ う に,つ まり グルー プ間 の表情の違いをできるだけ際立たせて表現で きるよ う に変 数割 当てを決定する ものである. 本章では,この方法を判別関数 法の支援手段として 位置づけ るために両 手法の特性 の違いを明確にし,人間の表 情に対する認知特性を活用したフェース グラフ の表現 法 によって上記の判別関数法の弱点が十分に補えることを示す. また,本方 法に於いて変 数割当て を決定するための評価関数につ いて も考察する.最適な変数割 当て を決定 するための評価関数には様々 のものが考え られるが,ここでは 上記の目的 に適し た評 価関数を見つけるために 幾つかの評価関数の比較・ 評価を行う. 5.2 節では統 計学にお ける判別関数法の概要を述べる. 5.3 節では OTOD 法にお ける判 別分析 のため の最適な変 数割 当て 探索アル ゴリ ズム の定式化 を行う. 5.4 節 で は最適変 数割 当て のための評価 関数 について 比較・ 評価 を行う. 5.5 節では 統計 的な 判別関数法とフェース グラフ による判別法の比較を行う.
5。2
統計学 における判別関数法
5.2.1 2 群 の 判 別 2 つの μ 変量母集団 び,,Go があり,母平均μ('),μ(^)は異な るが, 母分散・ 共分 散行列i: は等し い と仮 定する. ここで,両群からそ れぞ れ大きさn,, Hoの標本が得 られたとするとき,幾つかの項目の表記 法を以 下のよう に定義しておく. 夕変量の 観測 データ X ― (X^ ,Xn, ..., ろ ) k 群 の丿番目 データ のノ 変 量 Y (^) 責群 丿変 量 の平均 値 や ふ = jは / 一 X X 心( Jり ! n k Å一群 分 散・ 共 分 散 行列 要 素 (5.2.1) (5.2.2) (5.2.3) 総平均 S り ( λ) = --X 平均 値の差や
ん
(x,,r −xr)(x (丿り  ̄■/) − − − − - (ATj , ・^タ …> ・ノ・ 馬 ゜ d 。-x (')− − X '^(^) =(ch,d2, …,山) (1 ) 十 一 2 X (2) dJ =J,() 一応") (5.2.4) (5.2.5) / =1. 2, … ,p (5.2.6) 共通分散・ 共分散行列 (1) (2) ド ゜(‰)' Kパ ダサ+ で白2 (5.2.7) ・d この中で平均 値 の差 の ベクトル 冶ま明らかにμ(1)−μ(2)の不偏 推定値で あり , また共 通分散・ 共分散行列v \ま2:の不偏推定値であ る.このよ うな 条件のもとで, 2 群を 最 もよく 判別する1 次式(5.2.8)を後で 述べる基準に従って求め,こ れを線形 判別関 数(Linear Discriminate Function)と呼ぶ. z =l・(χ −--X ) =A (^1 一 馬)− +4 (^2 − 一 一・'l) ゛‥' ゛ら 仕。 −^p) (5.2.8) この判別関数を用いて. z =V(x。 −X) の値 を求 め, どちらか の群 に属す るこ とは 確かな のであ るが,どちらの群に属 するかは明らかでない新しい標本'^。( 礼l,心, …, ≒)' をそ の Zの正・ 負に従って,どちらかの群に判別することができる。 式(5.2.8)の Zの両群で の平均 の差と群内 分散は次のように表せる。ぴ,群 平 均 がi) =/'(^(i) − G 群 平 均 z('') =/'(x" 平均 の 差 j -引 (2)− T ) /') −z('') =r'(x び.群 内 平 方 和 5, = Σ a =1 一 一 Σ
-;"
Σ  ̄^ α 昂-(') −■x昂-(')) =Vd = ぶ2 = = α 臥ノ タ ゾ1)G 群内平方和(同様にして) ダ,=Σ
郡内 分散 ド= -→ 1 7'5(1)/Σy
ろ (5.2.9) (5.2.10)y
ぐ
ふ
(x 心(') 5.2.11 ) ← 倒馬 (5.2.12) 侑ノ2) =j`^(2)y (5.2.13)言で+
nク
と2 翠
年 か/丿万
゛/vi
(5.2.14)
線 形 判 別 関 数 Z の 係 数 ベクトルフ の 値は ,z の平均 値 の差 の二 乗を 郡 内 分散 で 割 っ た 値 を 最 大 に す る と い う 基 準 によ っ て 定 め ら れ る. 式(5.2.11), (5.2.14)の表 現 を 用 い る と , そ れ は式(5.2.15)のよ う に表 せ る . 0 =ぜ ヱ 旦 し( Σ 舛r
可 言荊フプ ΣΣy蕩 ‰ =・Ma χ.
(5.2.15) こ の 解 は, 周 知 の よ う に, 1 次 連 立方 程式(5.2.16)の 解 とし て 得 ら れ る . Fし/=c ヅ す な わ ち Σ ノ J 阿ノ”Q, 略 y ゛i・2, …> p (5.2.16 )ここで,係数 口} はその比だけが一意的に定まるものであるから,c は任意に選ぶ
ことができ, c=l とすると式(5.2.17)
のように書ける.
1=ド' d すなわち 八=
(5.2.17) ここで, け は行列V =(り の逆行列1/-1 の G丿 要素である・ 式(5.2.17)か ら, z につ いて の2 群 の距 離は. p 次 元 空間 にお け る2 群 の 重心x(') ,x(^) の間のマハラノ ビス 平方距離 鳶2 に当たることが解る.な ぜな ら式(5.2.18) と成るからである.心
=r 仙 注 脚/= Cx(^)-lc('^))ず(-x(1) 一・  ̄(2))=刀ノ(5.2.18) また,z の群内分散も 鳶2 に等しく 成る.すなわち式(5.2.19)と 成る,Vz = vv  ̄リ゛rd = d, ゛Dノ
そ れ ゆえ, zの 標 準 偏 差 Zの総平 均 ら は 式(5.2.20)のよ う に書 け る Sz - IV - Dノ- Iri F は 式(5.2. 2 1)と 成 る か ら 一 一 1 7 = (j(1)Jj(2)) =八 T(1) +T(2) −2y) =0 z(')> が')のとき,新し い標本 ら =/'(X。 −る> Oのとき ^。 ∈ ぴ,
る<0 のとき x。e 喘
--X こ対 し て は (5.2.19) (5.2.20) (5.2.21) (5.2.22) (5.2.23)と 判別 す れ ばよ い こ と が 解 る. z(')<z(2) の とき は , こ の反 対 に す れ ばよ い . い ま' -^1,心 …' 今 は両 群 内 で ば ぼ 正 規 分布 に 従 う と す れば・ そ の1 次 結合 で あ る Z は 正 規 分 布 に よ り 近 づ く か ら , 仙, 柘 が 十 分 大 き い と き に は , 誤 判 別 の確 率 を 正 規 分 布 表 か ら以 下 のよ う に近似 的 に求 め る こと が で き る . 万(' )。 一 万(=^)。 叱 −2 カノ -2 (5.2.24)
式(5.2.24)
であることに注意すると,LTi群の個体が誤って G 群に属すると判定され
る確率は,式(5.2.22)(5.2.23)
の判別方式によれば式(5.2.25)
と書ける.
Fv[z <0\G.]
づレ(1) 几) づレ ①
卜 齢
焉/2)
(5.2.25) こ こで, φは正規分布の下側確率を示 す.一方, Go群の個体が誤 つて ぴ,群に属する と判定さ れる 確率は式(5.2.26) となり,式(5.2.25)と一致する. Pr[z >O \ぴ^]=φし^() ら = φ(一刀 /2) (5.2.26) 上記の判別方式は,新しい 標本X。( ろl,亀, …. 馬) が らGn のどちらかの群 に 属することを前提とし て,そ の一方 に判別 する規則を与える ものである。 しかしな が ら,A^。は ぴ1, G のどち らにも属さないと考えるべき場合も有り得るので,X。 と ら 妬 群 の平均 と のマハラノ ビス 平 方距離 μ12,双22 も求めておく 方がよい。 そ れらは 式(5.2.27)(5.2.28)のように 成る。刀j °(x^ −x^(≫)ド(x^
・()) =Σ Σ ドヅx。, −X− ● 皿 θノ ・ノ-)) (5.2.27) 凡 ぷ =(A'。 −x( ≪)'^''(x。 −x( 勺 =Σ Σ ドりし 丿 一馬 かOJ 一弓(2)) j ノ (5.2.28) このDJ, μ2糾ま^1 ,心 …> ろ の 分布 に 夕 次 元 正 規分 布 を 仮 定 で き, かつV ,x() ,rx(' をΣ,μ()・ μ(')と見なせるときには・ 共 に自由度 ρ の が 分布 に従 うの で,このどちらもが,そ のO %点 が(p ; 0.05)を超えるような場合は,新し い標本 X。 は び,にも 妬 にも属さな いと判定 すべきであ る。 5.2.2 多群の判別 3 群 び^,G,, 妬 があると すると. び,と ら ぴ^と ら 妬 と 妬 の3 つの判別関数 を求めればよ い.こ のことは,3 群 の重心からのマハラノ ビス 平方距離 の最小な 群に 判別することと一致 する.この方法では,群の数が が 個ある と,g(g −l)/2 個の判 別関数が得られることになり, 大変煩雑に成る.しかし,一般 には この方 法が使川さ れている.5。3
判別分析のための変数割当て探索法
フェース グラフ の表情要素のランク 値y =(fi,y->,…, y,)とその表情 の感覚 距離空 間での座標Z =(Zi,ろ …,ろ)と の間の関係は式(5.3.1)のように定 式化でき る. Z -- ^''(y) (5.3.1) もしこの関数g が同定できるな らば,どのよ うな表情でも感覚距離空間 へ写 像す るこ とができ,そ の座標は式(5.3.1)から求められる.実際には(5.3.1)式 は式(5.3.2)のよ う な7 個の式から構成される.
Z -g・(y) , j -1.2 ‥ …7 (5.3.2) こ の7 個の式は一般的には非線 形であり, ここでは非線形の関数を同定す るのに有効 な手 法である GMDH を用いて,感覚距離空間を構成するとき に用いた88 個の表情サン プル の表情要素のランク 値と,そ れぞ れのサン プル の感覚距離 空間で の座標との 関 係から7 個の式をそ れぞ れ同定した. 2つ のフェース グラフ の表 情の非類似度( 感 覚的距 離) は, 式(5.3.2)からそ れぞ れの感覚距離空間で の座標 を求め,そ の間のユークリッ ド距離を算出することによって得られる.感覚距離空間で 計算された距 離は実 際に人間が感じ る感覚的距離 に一致して いる. フェース グラフ にお ける データ の一般的な表現法では,最初にデータ X の各変数 罵 が表情 要素に割 り当て ら れ,次 に割 り当てられた表 情要素 のランク 値 ぶ.へ変換さ れ る. この み の組合せ によって ある表情が作 られる. ここで , データ の変数 と表情要 素との割当ては Oと1 の要素を持つ 行列A を使って式(5.3.3)のように定式化でき る. y -- A ・ χ (5.3.3) こ こで, ダはランク 値(表情要素 の値y )へは まだ変 換さ れていな い データ である. 行列A の形 状を直感的に理解するために1 つの例を示すと式(5.3.4)のよ うに成 る. 1 2 3 4 5 6 7 y y y y y y y
-0
0
0
1
0
0
0
1 0 0 0 0 0 00
0
0
0
1
0
0
0 1 0 0 0 0 00
0
0
0
0
1
0
0 0 1 0 0 0 00
0
0
0
0
0
1
石 ^2 ×3 ×4 ×5 ×G ×7 ダ か ら y へ の 変 換 の 手 続 は式(5.3.5)で 定 義 さ れ る 量子 化 で あ る. (5.3.4) y -- 力 ( ダ ) 例えば , 関 数 力は式(5.3.6)のよ う に 定 義 す る こと が で き る. 1 k for y'j °0 for k −l≦y'ノ<,k ← (A- = l(ノ =i ●● ● ●●参 0 )7 ) (5.3.5) (5.3.()) 式(5.3.6)で は, ダ の変化 領 域 [0, 9 ] が9 つ の同じ 幅 の領 域 に 分割 さ れ. 1 か ら9 の 整数値 に割 り 当 て ら れて い る. こ こで 述 べ た 手続 に基づ いて 行 わ れるフェース グラフ の表現 法が 前述 し た OTOD 法で あ る. OTOD 法で は データ の 変 数 を ど の 表 情 要 素 に 割 り 当 て る か の 変 数割 当 て 問 題 が 存 在し, こ の割 当て の 結果 が データ 分析 の精度 に大 き な 影 響 を与 え る . 変 数 の割 当 て はフェース グラフ を適 用す る 目的 に応 じ て 幾つ か考 え ら れ る . 例え ば, データ の 変 数 の 重 要度 の順 位 と 表 情 要 素が 表 情 に与 え る 影 響 度 の順 位 を対 応 さ せ る方 法, データ の変 数間 の相 関 関 係 と表 情 要 素 の動 き の 相 関関 係 がで き る だ け 一致 す るよ う に 対 応 づ け る 方法な ど が そ の一 例 で あ る. 判 別 分析 の 場合 は, 判別 す る グルー プ の表 情 が グルー プ 間でで き る だけ 似 て い な いよ う に表 現し た方 が データ の判 別 が 容 易 で あ る . 判 別 分 析 で は分 析対 象 のシステム か ら, 予 めサン プル データ が得 ら れる こ と が 前提 条 件 で あ り ( こ の データ をトレーニン グデータ と呼 ぶ ), こ のトレーニン グデータ に 基 づ いて , 判別す る グルー プの 表 情 が最 も 区 別し 易 く 成 る よう な 変 数割 当て を探 索 す る こ と がで きる. こ の探 索 方 法 のアル ゴリ ズム を図5.3.1 に示し , そ の流 れ を 以 下 に 説 明 す る . (1 ) データ の変 数 鳶(iニ1, 2, …,7 )を 表 情 要 素 乃ノニ1, 2, …, 7 )`l 対1 に 割 り 当 て る た め の行 列A を 設 定 する . (2 )トレーニン グデータ を1 か ら9 ま で の整 数 値 に 量 子 化 す る . こ れ に よ っ て 表 情 要 素 のランク 値 が 決ま る. (3 ) 個 々 のトレーニン グデータ を 表 現 し て い るフェース グラフ の 表 情 を 感 覚 距離空間 へ写像し,そ の空間での座標を式(5.3.2)から算出する. (4 )感覚距 離空間で の グルー プ間の分離の程度を評価関数によっ て算出する. (5 ) 可 能な全て の変 数割 当て の中か ら,上位5 個の割 当て を総 合的 にまとめる ことによっ て最適変 数割 当てを決定する. (1 ) から (4 ) までを可能な 全て の変数割当て (それは7! =5040 通りある) につ いて繰り返し行な い,最後に(5 )で最適な変 数割当て を選択する.最適な変数割当 て は評価関数の評価 が最 も良い ものを1 つ だけ 選んで決定するので はない.な ぜな ら, 変数割当て の組合せは5040 通りもある ので,評価が上位の変 数割当ての中には評価 値が殆ど同じものがあ り,たまたま1 位になっ たものだけを選択するのは危険 だから であ る.そ こで ,ここでは上位5 個 の変 数割 当てを総合的 にまとめて最適な変数割当 て を決定した.以降でそ の方 法につ いて 説明する. 表情要 素がそ れぞ れ一定の変化をし たとき,そ れが表情全体 の変化に与え る影 響の 大きさ には違いがあり, これを表情要素の感度と呼ぶこととする.各表情要素の感度 は 表5.3.1 に示すとおりである.この感度はScheffe の1 対 比較法によって求めた. 表の中の値は感度が最も大きい要素である「 口の形」 の感度を1.000 としたときの相 対的な 値を示し てい る.この感度 の高い表情要素から順 に, 上位5 個の変 数割 当てに よって割り 当て られた変数 の多 数決を取り,その表情要素に割り当てる変 数を決定す る.し かし ,そ の表 情要素より感度 の高い表情要素に割り当て られた変数が含 まれて いる場合は,そ れを除外して多 数決を取る.また同数の場合は, 評価値が上位の変数 割当て によって 割り 当て られている変数 の方を優先的に採用することとし た. 図5.3.1 変数割当て探索アル ゴリ ズム
表5.3.1 表 情 要 素 の感 度 分 析 の 結果 表 情 要 素
乃 口の形
几 目の形
Yi 眉の形
八 鼻の形
几 眉と目の間の距離
几 両目の距離
几 両眉の距離
感 1.000 0.852 0.620 0.423 0.327 0.199 0.030 度5.4
変 数割 当て 評 価 関数 の比 較5.4.1
評価関数と評価項目
前述の変数割当て探索 に於いて,感覚距離空間におけるクラスター の分離度を評価 する関数は様々あり,そ の評価関数ごと に求まる変 数割当ては違ってく る.本節で は, 以下に示す3 つの評価関数を取り上げ,これらを変 数割 当て探索 に於 いて 重要と思わ れる幾つ かの項目 について 比較する. 関数I : グルー プ重 心間の距離の平均. 例えば3 つ の グルー プ 心b, cが有るとすると,そ の重心間の距 離を"/I h ' dbc^ dcaと表すと式(5.4.1)のよう に成る. (d.,. 十砥。 十叱.) 3 関 数 H : グルー プの重 心 間 の距 離 の 最小 値 . 上 記 の例 で 示す と, 式(5.4.2)のよ う に 成 る. mill[d,b . dbc l 4 χ (5.4.1) (5.4.2) 関数m: 群間分散/群内分散. データセット の感覚 距離空 間の 座標 の群 間 の偏 差平方 和・ 積和行 列 を β と し, 群内の備差平 方和・ 積和行列を『 とする. 凪ま群 Å・の偏差平方 和・ 積 和行列を 附A』とし たとき式(5.4.3)から計算できる. Jアニ χi 伊) (5.4.3) =1ここで,m はグルー プの個数である.この2 つの行列召と μ(D行列式の値
これらの評価関数は,そ の値が大きい程 グルー プの分離度が高く 成ることを示してい る. 評価関 数に求め られる最も重 要な特性は,そ れによって 得ら れた変 数割 当てが 最適 であるかどうかであ る.そ こで,最初に各関数によって得られた変数割当て の比較・ 評価を行う.変数割当ての良し悪しは,判別対 象の分析 データ (比較実験ではテスト データ と呼 ぶ) をフェース グラフ を 使って 判別し た結果 によって評価さ れる.判別分 析に於いて事 前に得ら れるトレーニン グデータ は,常に同質 のものが得られるとは限 らな い.トレーニン グデータ の質の違いによって左右されず,安定し た変 数割当て が 求 まること は分 析の再現性と信輸 吐の点か ら必要なことである.トレーニン グデータ の違いによって変 数割当て が大きく変わるのであ れば,必然的 に判別特性もそ の都度 変 わるた めに そ の信頼性が落ちるであろう.更にトレーニン グデータ は十分な個数 だけ得られるとは限らない.フェース グラフ によ る判別分析の1 つ の特徴は, 得られ るトレーニン グデータ の個数が 比較的少なくて も最適な変 数割当てを求めることがで き,判別 分析 が可能な点 にある.このことは判別関数法のようにトレーニン グデータ の統計的な処理によっ て判別 の規範と成る判別関数 を求める手法に於いては,最も苦 手としていると ころである.このような 観点から, 最適な変 数割当て を求 める に当だ っ てのトレーニン グデータ の質と量 に対するロ バスト 性につ いて も比較・評価 を行う. これらの比較・ 評価 は,乱数を用いて 作成さ れた擬似 データ を使用して行う. この データ の次元数は,フェース グラフ で 表現可能なデータ 変数の数と同数とするために7 次元とする . まず グルー プの重心と 成る データ の7 つの変 数 の値 を[0, 9]の範囲 の一 様乱 数によって 決める. 次に各変数ごとに,重心 データ の変数の値を中心 値とし,ラン ダム に設定された分散を持っ た正 規乱数を発生させて,そ の グルー プに属するデータ を作成する. 5。4.2 判別特性の比較(比較|) ここでは 前述した3 つ の評価関数を, 3 つ の グルー プから成る データ の判別 をフェース グラフ を用いて行っ た結果 によっ て比較する.まず3 つ の グルー プから成る7 次 元データ を各 グルー プ40 個ずつ作成し,これを20 個 ずつのトレーニン グデータ とテスト データ に分割 する.トレーニン グデータ は, 最適変数割当てを求めるた めに使 われる. ここで求 まっだ変 数割 当てによっ てテスト データ をフェース グラフ で 表現し, 被験者にこのフェース グラフ を3 つの グルー プへ判別させる. 被験者には3 つ の グルー プの重心 データ のフェース グラフ を提示しておき,テスト データ を表現したフェース グラフ を1 枚 ずつ提示し て3 つ のいずれかの グルー プに判別させる. 各被験 者の判 別結果は,式(5.4.4)によってそ の正解 率を算出して 評価する 正 解 率 ( % ) -元 のグルー プへ判別さ れたサン プル の数 テスト データ の全サン プル の数 ×100 (5.4.4) この比較実 験は2 系統の データセット (ケース1.ケース2 )につ いて 行った . 被験 者は10 名であっ た. 2 つのケース における 各関数の最適変数割当てと,そ のとき の 表5.4.1 3つの関数によって求めた最適変数割 当てと判別 の精度 ケース1 ケース2 表 情 要 素 − -関 関 関 - 一 一 数 I 数 H 数 m 12 3 4 5 6 7 -6 2 3 14 7 52 3 6 5 4 7 15 3 16 4 2 7 正解率 81.1% oU.Z %73.8% 1 - ●33 5 2 3 4 5 6 7 4 17 5 2 64 17 5 2 67 2 16 4 3 正 解 率 87.3% 87.3% 85.5%
全 被験者 の正解率の平均 値を表5.4」 バこ示す.最適変数割当ては データ の変数^A 卜l ,2, …,7)の添 字を 表情要 素yx から 八 に割り当てられた順 番に並 べて示してある.ヶ−ス2 に於いて は, 関数I と関 数Hの最適変 数割当て が同一であっ た ので 正解 率も同 じ に成っ ている.ケース2 にお ける正解率 には 大きな差は 見られな いが,ケース1 に於い ては 関数 mの正 解率 が他の2 つ の関 数に比べて良く ない ことが 解る. 全体的 な 傾向 とし て は, 関数Iあ るい は関数 H によっ て求めた変 数割 当て が判 別分析 に於 いては,よ り適 切であ ると推測できる. 5.4.3 トレーニン グ データ に 対 す るロ バスト 性 の 比 較 ( 比 較││ ) ここでは,トレーニン グデータ が変 わっても安定し た最適変数割当てが得られるか どう か,つ まりトレーニン グデータ に対するロ バスト 性について調べる. ここで も比 較I と同 様の方 法で作 成し た, 3つ の グルー プか ら成る データセット を 使用す る. し かし, 比較 I とは グルー プの重心 データ を変 えて別 の系統 の データ を作成 する. 変 数割当て探索 に使用するトレーニン グデータ は 各 グルー プ20 個 ずつ, 合計60 個 作 成する.更 に同じ データセット から乱数の種類を変 えて2 種類の異なるトレーニン グデータ を作成し, これらをトレーニン グデータ1, 2, 3 とする.そして更に 同 様の方 法で他 のもう1 つ の系統のデータセット を作成する.つまり2 つの系統の データセット に,そ れぞ れ3 種類のトレーニン グデータ が作成さ れる. こ れら のトレーニン グデータ を 使い,そ れぞ れの関数によっ て求め た最適変 数割 当ては表5.4.2 に示 すとおりである.両ケース に於いて ,関数I ではトレーニン グデータ が違って も変 数割 当ては殆ど変わらない のに対し, 他の2 つ の関数ではトレーニン グデータ が違うこと によっ て変 数割 当てが相当異なっていることが解る.つ まりトレーニン グデータ に対するロ バスト 性は ,関 数n ,in と比べて 関数I の方が 非常に 高いといえ る. 5。4.4 トレーニン グデータ 個 数 に対 するロ バスト 性 の比 較 (比 較Ill) 比較n で 用いた データセット のトレーニン グデータ の個数を 各 グルー プと も10 個 と5 個に減らし, 全く同 様の方 法によって,それぞ れの個数のトレーニン グデータ を 使って最適変数割当て を求めた.トレーニン グデータ の個数が 減った ことによって変 数割当てがど の程度変化し たかを知るために 後述するような 指標を定義し て集計を 行った.前述したよう に表情要素には感度の違い があり ,これらは感度 の高い グルー プ(yp,ルル 八) と低い グルー プ仇 ,八 几) に分けることができる . 各表情要素 に 割り当てら れる変数が,この グルー プの中だけで入れ替わる場合は, データ グルー プ の表情は変 わる が判別特性への影 響は小さい.しかし, グルー プの境を越えて 入れ替 わる場合には, 判別特性に与える影 響が大きく成る.そこで1 グルー プのトレーニン グデータ が20 個 の場合の最適変数割当てを基準として, グルー プの境を越えた変 数 の入れ替わりを第1 種の不一致,感度が高い グルー プの中で の変 数の入れ替 わり を第2 種の不一致,感度 が低い グルー プの中での変数 の入れ替 わりを第3 種の不一致 とす る.第1 種 の不一致が不一致度が一番大きく ,第3 種の不一致は 不一致度 が一 番小さ い.当然これら の不一致( 特に第1 種の不一致) が少な い程,トレーニン グデータ の 個数が変 化し て も類似した最適変数割当て が求 められることを示して いる. 表5.4.3 には3 つの各関数ごとに,トレーニン グデータ が10 個 の場合と5 個の場合 の 各不一 致度を示し た.この度 数は2 つの系統のデータセット のそ れぞ れ3 つ のトレーニン グ データ について合計し たものである.つ まり1 つ の変数割当て の中で 起こる 各不一致 の度数の平均は,この度数の6 分の1 である.この表から3 種類の不一致 のい ずれに 於いて も, 関数I が 他の2 つ の関数より も少ないこ とが解る .こ れは 関 数I ではトレーニン グデータ の個数がかなり 少なくても, 最適な変 数割 当て にほぼ近い変 数割 当 てを求 めることが可能な ことを示している.
表5.4.2 最適変 数割当て評価関数のトレーニン グデータ に対するロ バスト 既
5.5 判別関数法との比較
5。5.1 トレーニン グデータ の個数と判別特性 判別関数法 に於いてはトレーニン グデータ の統計的処理によって 判別関数 を求 める ので,十分なテスト データ が得ら れない場合は必然的に判別特性 が悪く 成ると 思われ る.一方,フェース グラフ に於いては5.4 節で示したよ うに評価関数I によっ て得ら れる最適変数割当て は, 各 グルー プから得られるトレーニン グデータ が2()(lil,10 個,5 個のいず れの場合で も,ほぼ同一 のものが得ら れる.つ まりフェース グラフ に於 い ては判別特性はトレーニン グデータ の個数に殆ど影響を受けな いといえる.ここで は, これらのことを検 証するためにトレーニン グデータ の個数の違い による判別特 性に関 して,フェー ズグラフ と判別関数法とを3 グルー プの判別(ケース1 ) と2 グルー プ の判別 (ケース2 ) の2 つ のケース について比較・ 評価する.両ケース とも,トレーニン グデータ は1 つの グルー プの個数が20 個,10 個,5 個の場合の3 通り,テスト データ は各 グルー プに20 個用意する.これらのデータ は5.4 節で用いた データ と同 様の方法で作成する.作成し たケース1 のテスト データ を表5.5.1 に示す.ケース2 で使用し たテスト データ は5.5.2 の実験で使用する データ と同じ である.そ のテスI ヽ データ は表5.5.4 の上段左側に示されている. 判別関数法に於 いては,3 通りのトレーニン グデータ そ れぞ れにつ いて 判別関 数を 求め,そ れぞ れの判別 関数によって同一のテスト データ の判別を行った. 判別 の結果 を表5.5.2 に示す.正解 率は元の グルー プに判別されたデータ の個 数を全テスト データ の個数で割った値である.一方フェース グラフ では3 通り のトレーニン グデータ そ れぞれに対 する最適変数割合て を求め,そ の変数割 合てによってテスト データ をフェース グラフ で 表現して 被験者に判別を行わせる.図5.5.1 にはケース1 で得 られた最 適変数割合てによってテスト データ を表現し たフェース グラフ を示 す.判別の方 法は, 被験者に各 グルー プの重心データ のフェース グラフ を提示し続け ,テスト データ のフ 数 I 関 数 H 表 情 要 素 関 -1 2 3 4 5 6 7 12 3 4 5 6 7 一 一 一 一 一 一 一 一 - 一 一 一 関 -1 2 3数
-4 5
Ⅲ
-6 7
- ㎝- 皿--l- 二 四-5 13 6 4 2 7 7 14 6 2 3 四-5 7 3 四-5 4 2 16四-5 3 16 4 2 7 7 14 6 3 2 5 4 3 16 5 2 75 3 16 4 2 7 7 2 4 6 13 5 7 2 3 4 15 6 ヤ トレーニン グ データ1 で ` トレーニン グ データ2 トレーニン グ データ3 表 情 要 素 - 一 一 - 一 一 一 一 一 一 で トレーニン グデータ1 12 3 4 5 6 7 12 3 4 5 6 7 12 3 4 5 一 一 一 6 7 一 一 一 − 7 4 6 12 5 3 6 5 3 14 2 7 7 6 3 12 5 47 4 6 12 5 3 6 4 7 3 2 5 1 3 6 2 7 4 5 1 トレーニン グデータ3 7 4 6 12 5 3 3 2 6 14 5 7 7 3 6 12 5 4 表5.4.3 最適変数割当て 評価関数のトレーニン グデータ の個数 に対するロ バスト 性 不一致 トレーニン グデータ 個 数 第1 種 ・ 一 一 一 一 第2 種 第3 種 一 一 一 一 10 個 5 個 10 個 5 個 10 個 5 個 関 数 I 四 2 4 関 数 H 四 7 7 − 1 1 関 数 m-5 4 1 1 2 6 9 ● 二54 1 1 4 6 − 2 4 1 1 4 − 5 6| エース グラフ をラン ダム な順序で1 枚 ずつ提示し,そ れを各 グルー プへ判別さ せると いう方 法である.被験者実験の結果 の正解率を表5.5.3 に示す.正解 率はまず被験者 ごと に求 め,次 に全被験者のそ れを平均した.カッコ の中の数値は正解率が最も悪か っ た被験者個人の値を示している. 被験者は15 名であっ た. 判別関数法 に於いて は,トレーニン グデータ が20 個 の場合は十分に満足できる判 別結果が得られるが,トレーニン グデータ が少なく 成る と判別結果 が極端 に悪く 成る か, 又は判別関数が求められなく 成る.こ れに対してフェース グラフ に於 いて は,ケース1 では最適変数割合で か全て同じであ り,ケース2 ではトレーニン グデータ が20 個 の場合と10 個の場合の間で 前節で定義した第3 種の不一致が1 対, 20 個 の場合と5 個の場合の間で第2 種の不一致が1 対あるだけでほぼ同一 の変数割合でか得られた. また判別の正解率はトレーニン グデータ が5 個 の場合に多 少悪くなっ た程度である. このことか ら,トレーニン グデータ が十 分に得られない場合の判別分析には判別関数 法よりフェース グラフ によ る判別分析の方が有利であるといえる. 表5.5.1 3 グルー プの判別分析に用いたテスト データ グルー プ1 101 102 103 104 105 106 107 108 109 no Ill 112 113 114 115 116 117 118 119 120 3 2 5 3 5 3 4 5 2 2 6 3 5 6 3 6 2 3 6 7 3 4 3 4 1 6 2 6 2 2 2 6 2 2 2 3 6 3 3 5 3 2 1 2 4 1 1 3 2 3 4 2 4 2 2 1 2 1 4 3 4 4 4 5 3 3 3 5 7 2 3 3 5 1 4 3 6 5 6 2 3 4 3 5 3 3 2 2 2 3 3 2 1 5 2 5 4 2 2 5 6 8 7 7 8 7 6 8 7 7 7 7 4 7 9 6 9 9 6 8 8 8 8 7 8 9 8 7 7 6 6 7 7 9 9 7 8 8 7 9 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 グルー プ2-2 5 4 4 7プ2-2 4 4 183 5 4 2 84 6 3 3 92 4 4 5 93 5 2 4 73 6 3 2 715 6 3 7 3 1 4 1 1 1 2 1 1 1 1 4 6 5 6 6 3 4 2 6 2 2 7 6 4 6 3 5 3 2 3 2 4 5 2 5 4 3 2 2 3 2 5 3 5 3 1 4 6 7 9 7 8 8 9 9 9 9 6 5 3 3 2 4 4 5 4 4 6 4 5 6 6 5 3 3 2 5 5 6 2 1 2 4 5 4 5 3 2 3 4 3 5 5 1 4 2 2 3 5 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 グルー プ32 5 4 8 2 14 5 3 7 2 14 5 3 8 4 35 6 2 7 4 24 4 3 9 4 24 6 2 7 4 14 6 3 8 2 14 7 3 6 4 24 6 5 8 5 116 2 7 2 15 3 3 8 5 26 7 18 3 24 4 5 5 3 13 4 7 9 3 22 3 17 3 41 7 1 8 1 1 4 2 5 7 3 22 4 4 5 2 417 4 6 6 23 4 6 6 6 1 7 o o
8
8
8
9
8
7
7
9
8
9
8
7
9
9
9
9
8
7
グル | プ1 重心 データ テスト データ
②
白②②白
②②酋②
②白酋づ②ソ
ひ/^^ C^^^
{a
> ○ ひ
づ づ づ づ ゾ づ
グル |プ2 重心 データ テスト データ白
∩ ⊃ ○ ひ
づ づ づ ⑤
ひ こ ⊇ご万
≧
づ づ づ ⑤
白酋白白酋白
に こ つ ⊇:タ≧こ
づ づ づ づ づ 回
グル |プ3 重心 データ テスト データ①
万 万 万 万
① ① ① ①
○ ○ ひ○
①①①①①白
白^cr^ r^ci>/^^zz^
ひ こ
づ づ づ づ づ づ
図5.5.1 3 グルー プ の 判 別 に 用 い たテスト データ 表5.5.2 統 計 的 判 別 関数 法によ る 判別 特 性 トレーニン グデータ 個数 (3 グルーケース1 プ)20 個1
0 個
5 個
9 0 .0 %6 Q .Q %4 6 .7 % ヶ −ス2 (2 グルー プ ) 1 0 0.0% 8 5.0% 計算不能* *オー バーフロー による 表5.5.3フェース グラフ による判別特性 トレーニン グデータ 個 数 ヶ −ス1 (3 グルー プ) ヶ −ス2 (2 グルー プ ) 20 個 1 0 個 5 個 97 参 ・ 7 1 n ぴ G J 97 e s7 1 99 G J 7 ・ 一 7 1 ︵リ ハリ ぐ * j * j * j % % % % % % 70 一 ・ O1 L O q79 ぐ 9 (9 7 5 9 3 (90 3 0 9 0 % % ) %% ) %% ) *最適変数割 当て が等しい5.5.2 異 常 データ の 検出 特 性 判別関 数法には,本来異常 データ を検出するような 機能はない.判別関数法の分析 目的は,既に分かって いる グルー プにデータ を判別することである.し かし, 分析データ には時として 異常 データ が入り込むことがあり,またそ のデータ を異常 データ と し て検出し たいときは 判別関数法では対処できない.こ のよ うな 場合にはフェース グ うフ を使用することによっ て,異常 データ の検 出が比較的 容易 にできるのではないか と思われる.そ こでフェース グラフ によ る異常 データ の検出実験を行う. 5.5.1の2 グルー プの判別 実験(ケース2 )と 同様の実験で,40 個のテスト データ ( 各 グルー プ20 個)に5 個の異常 データ を加え,被験者には データ の判別を行うと同時 に ど ちらにも判別で きな いフェースサン プル は除外するよ うに依頼し た.実験は2 つの系 統 のデータセット について行っ た.被験者は15 名であった. 実験 に用いたテスト データ と5 個 の異常 データ を表5.5.4 に そ れらを表現し たフェース グラフ を図5.5.2 に示 す. この実験は数日の間隔を開けて2 度行っ た.最初の日には, 各 グルー プの重 心 データ のフェースサン プル には一 切の説明を付けないで被験者 に提示し ,次の日の 実験で は図5.5.3 に示すように そ の表情の特徴を記述して被験者 に提示した.これ ら の実験で 異常 データ を検出できな かった 被験者の人数を表5.5.5 に示す.この結果 からフェース グラフ によ る判別 分析では異常 データ の検出が 比較的容易 にできること が解った. また データ の各 グルー プの代表的なフェース グラフ の表 情の特徴を記述す ることによって,更に異常 データ の検出力が高まることが確認できた.
表5.5.4 異常値データ 検出に用いたテスト
データ
ヶ 一ス1 ヶ-ス2 101 102 103 104 105 106 107 108 109 no Ill 112 113 114 115 116 117 118 119 120 グルー プ1-2 4 4 5 4プ1-2 5 3 5 6 5 2 4 3 3 5 2 2 5 2 4 5 3 5 1 3 6 6 4 5 3 7 3 7 3 3 3 7 3 3 3 4 7 4 4 7 2 3 5 1 1 4 3 4 4 2 5 3 2 2 3 6 7 4 4 5 7 8 3 4 4 6 2 5 4 6 4 4 4 4 3 5 4 4 6 4 5 6 5 4 6 5 4 4 8 8 8 7 8 9 8 7 7 6 6 4 4 72 2 76 4 93 7 9 4 6 3 77 5 7 8 16 3 6 85 7 3 4 73 3 6 6 9 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 グルー プ23 9 9 9 3 52 8 8 6 4 54 8 9 7 4 44 9 7 8 6 62 8 8 9 5 64 8 7 9 2 74 9 8 7 3 618 9 8 3 63 9 9 9 2 718 6 7 4 74 9 7 7 6 619 9 7 3 816 7 7 3 82 7 6 7 4 73 6 7 9 5 519 6 7 5 516 8 9 4 316 9 8 5 719 6 5 174 9 9 9 17 異 常 値 データ ー・・-・-・・ ●・・●●●●f-・・--・- ●al 6 8 8 13 15a2 6 7 8 2 3 2 5a3 7 6 9 2 2 2 4a4 5 6 8 14 3 6a5 6 9 8 2 4 2 4 2 1 2 4 5 4 5 3 2 5 4 3 5 5 1 4 2 2 3 5 101 102 103 104 105 106 107 108 109 110 Ill 112 113 114 115 116 117 118 119 120 グルー プ1-2 3 4 プ1-2 83 5 3 4 9 3 2 4 3 2 1 2 1 1 1 3 4 4 1 2 1 3 3 5 3 3 3 4 5 5 2 3 5 6 7 2 7 4 5 4 2 4 4 4 4 4 3 3 3 3 4 3 2 2 1 3 2 2 3 4 2 1 1 3 3 9 9 8 8 9 7 6 9 7 7 9 7 4 15 23 33 25 37 35 53 46 46 26 33 25 24 1 4 2 8 6 15 17 3 22 4 6 3 24 2 7 5 13 2 6 7 25 18 6 2 bl b2 b3 b4 b5 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 異 常 値 データー −・ 春香・丿春・・ ●d・・・・・ 111111 2 1 3 2 2 3 4 2 4 3 1 2 2 2 1 2 2 1 2 3 3 2 1 4 グルー プ23 4 5 8 3 215 3 8 5 25 5 3 8 3 24 5 3 7 2 44 3 4 8 2 24 5 6 7 2 215 4 6 2 34 7 3 7 3 13 4 2 5 2 312 2 8 132 2 5 8 4 32 6 2 5 124 8 2 5 2 115 2 5 3 23 5 4 5 3 32 3 4 9 3 114 5 6 5 12 4 2 5 3 54 5 2 4 144 4 4 9 2 1 I り 乙・ 1 1 1 8 8 9 9 7 9 9 9 6 7 7 9 9 6 9 9 8 5 8 9ケース1 ケース2
グル
1
プ1
ドづ白白白
白白白酋白
白白白酋白
白白づ白白
グル | プ1白 ② ① ①白
○∩ ∩ > ○
づ づ づ づ づ
① ① 昏 ② ②
匹 穴>ひ ひ
づ づ づ づ づ
グル | プ2①づ白白白
①白白①白
白①②酋ぼ
白①①白①
グル | プ2白侈白白白
侈白白白白
白白白白侈
白白白白白
異 常 値白白侈白侈
異 常 値白酋白白白
図5.5.2 異常 値 データ の検 出 に用 い たテスト データ 〃 ケ | ス 1 二 〉 乙 ―-.> rl ^) CD )., `ヽ_/ノ 悲 し み の表 情 目 を細 く 開き , 両 目 の 間 か 開い て い る . 口を 大 きく 上方 へ 開い て い る. (a )グルー プ1 の重 心 データ A> ´へ /、 jl ゛(こj11゛:1 ド こン 嬉し い驚 き の表 情 目 を 比較 的 大 き く 開 き , 口を 少し 下 方 へ開 き 気 味で あ る . 眉 が 比較的 吊 り 上っ て い る.(b) グルー プ2 の重 心 データ ケ |ス 2 二 _ニ こ)ヽ ヅ2 づ 驚 き の表 情 目 を 大 きく 見 開い て い る. 口を 少し 下 方 へ 開き 気 味で あ る.(c) グルー プ1 の重 心 データ二
図5.5.3 グルー プの重心 データ のフェース グラフ に 表情の記述を添えた 場合 表5.5.5 異常 データ を検出できなかっ た被験者数 1 2 フェースサン プル 番 号 一 一 -表情 の記 述 なし (人) 表 情 の 記述 あ り (人 ) ケ ー ス 1 2 3 4 一 一 5 一 一 一 一 一 一 一 一 一 一 0 0 0 2 6 0 2 5 一 一 3 1 ケ ー ス 1 2 3 1 4 5 3 0 1 4 3 0 0 5 35.6
ま と め
本章では多次 元 データ の判別に於いて統計的な判別関数法の弱点を 補うためにフェース グラフ を活用する方法を提案 すると同時にそ の有効性を示し た.フェース グラフ を判別分析に応 用する ために,多 次元 データ の変 数を表情要素に1 対1 で直接割り当 てて表現する oToD 法に於いて, グルー プ間の表情ができるだけ懸け離 れたものに 成るよう に表現するという 評価基準を設けて,最適な変数割当て を探索する方 法を提 案した. この方 法は, データ の グルー プ同士 の表情の非類似度が最も大きく 成るよう に つ まり グルー プ間 の表情の違いをできるだけ際立たせて表現できるように変 数割 当てを決定するものである. グルー プ間の表情の隔たりの程度は表情を感覚距離空間 へ写像し,そ の空間で の距 離によって 評価できた.この評価 のための評 価関数として 以 下の3 つ の評価関 数を取り上げ た. (1 ) 関数I : グルー プ重 心間の距離の平均 (2 ) 関数H: グルー プ重心間の距 離の最小値 (3 )関数 m:郡内 分散/群間分散 これら3 つ の評価関数を以下 の点 について 比較・ 評価し た. (1 ) 判別特性 (2 )トレーニン グデータ に対 するロ バスト 吐 (3 )トレーニン グデータ の個 数に対するロ バスト 性 そ の結果 は以 下のような ことが 解った. (1 ) データ 判別 の正 解率は 余り違い はないが, 関数mが 他の2 つ の関数 に比べ て多 少劣っている. (2 ) 関数1 はトレーニン グデータ が違って も最適な変 数割当て は殆ど変 わ らな い が, 他の2 つ の関 数で はトレーニン グデータ が違う ことによっ て 最適な 変数割当てが相当異なる. (3 )関 数I はトレーニン グデータ が少な い 場 合で も, 最適な 変 数割 当て には ぼ 等しい変 数割当て が得られる. 以上のこ とを総 合する と,判別 分析 のための 評価関数 として は 関数 Iが 適して い る といえる. 本章では, また判別関数法とフェース グラフ とを比較し て,多 次元 データ の判別 に おける判別 関数 法の弱点を幾つ か明らかにし ,そ の弱点 を補うた めにフェース グラフ の活用が有効であ ること を示し た.そ の結果を以 下に示す. (1 ) 判別 関数 法で はトレーニン グデータ の個数 が少な いと, 判別 関数 が上 手く 求 まらな いで 判別分 析ができな いこと があるが,フェース グラフ によ る 判 別分析 では,トレーニン グデータ の個 数が相当 少なく て も判 別分 析 が上 手 くできた. (2 ) 分析 データ に混 入し た異常 データ は,フェース グラフ を利 川す るこ とに よ って容易に発見でき た. (3 ) 判別 の規範と 成る グルー プの重心 データ のフェースサン プル に,そ の表 情 について の記述 を添 え ることによって , 異常 データ の検出 がよ り 容 易にか つ確実に行え た. このよう にフェース グラフ は判別関数法の弱点を十分に補う ことが可能で あり, こ れらを併用することによって,より有効な 判別分析が可能に成る.特 に逐次的 な判別 分析には有効ではな いかと思われる.逐次収集さ れる データ を判別 する際には, 過去 のデータ の統 計的な 特性に基礎を置いた客 観的な 分析を判別 関数 法によっ て行な い, 一方ではフェース グラフ によって異常データ の監視や データ 全体 のトレント の把握を 行う.そ こで 異常 データ が多く 収集されたりすると,そ れは単な る異常 データ な のか, それとも新たな 傾向 を持ったクラスター を形成するものな のかな ど の検 討がで きる. このように逐次探索的な データ 解析 にはフェース グラフ のような グラフ 表現 法の併 用 が有効な手段ではないかと思われる.6 章 探索的クラスター
分析のた めのフェース
グラフ
表現 法
6。1 序 言 統計的クラスター 分析 に於いては, 結果として多 次元 データ を幾つ かのクラスクー ペ分割できる が,そ れが適切なクラスター であるか否かは容易には判断できない.統 計的クラスター 分析では データセット 全体を概観することができな いからである.こ のような場合にフェース グラフ のよ うな グラフ 表現法を併用して 探索 的に分析 を行う と効率がよ い[Honda 87].フェース グラフ は データ の全体 像を把 握する には 非常 に 優れた 表現 法であり,おおよそ のクラスター の存在を比較的容易 に見つけ出す ことが できる .フェース グラフ をクラスター 分析 のために使用するには, データ の距 離関係 がフェース グラフ の表情の感覚的な距離関係と一致していることが望 ましい. どのよ うな仮定も設けないで データ をそ のまま表現 するわけである. 2 次元 データ を2 次元平面上に プロット し た散布 図を想 像すれば,このことは 容易 に理解できる,散布 図からはクラスター の存在,適切なクラスター の個 数, 及び 各クラスター 間の距離関係が良く解る.しかし, 2 次元以上の多 次元 データ の場合は散布 図を描くことができな いので,多 次元空間上で データ の距離関係が感覚的 に認識でき る データ 表現法 が必要である.このような目的に適う表現法とし て,筆者が作 成し たフェース グラフ を用いた データ 表現 法を本章で新たに提案する. 本章で は4 章で 行ったフェース グラフ による データ 表現の定式化 に基づいて, データ の距離関係と表情の感覚的な距離関係が同一 に成るような表現 法を提案 する .クラスター 分析に於いて は,多 次元 データ の個々の変数の量的な特性を知る 必要はな い. データ 全体 の距離関係が把握できることの方 が重要である. 前述し たよ うに,フェース グラフ の従来 の表現法(OTOD 法) の問 題を解 決する 方法には,5 章で提案し た表現法のようにある 評価基準を設けて 一 意的に最適変数割当て を求 める方 法と,もう1 つは変 数割当て に依存しない表現法を作り出すこ とであ っ た.本章で 提案 する 表現 法は後者 の場合に相当するものである. 6.2 節で 統 計的クラスター 分析 についてそ の手法の概略 を述べる. 6.3 節では データ の距離関係と表情の感覚的 距離 関係の線形性が満たさ れるため の表現法を導き出 し そ の基 本的な 特性 について検 証する. 6.4 節で は本表現法を化 石 データ に適用 し OTOD 法 によ る表現と比較してそ の有効性を確かめる.
6。2
統 計 学 にお け るクラスター
分 析
6。2.1 クラスター 分 析 の 特 性 博物 学に見 られるよう に収集し た データ を分類することは昔から行 われてきたが, ある集団 の個体を幾つか の群に分類したいという 欲求は 様々な 領域に存在する.この 欲求を満たすためにクラスター 分析が登場し た.クラスター 分析は主観を交え ず,一 定の計算アル ゴリ ズム に従って 分類することだけ を目的としている.コン ピュータ の 発展に伴い多 量のデータ が瞬時 に処理できるよう になり,クラスター 分析は多く の分 野で広く利 用さ れている.クラスター 分析 の適用に際し ては,単に似 た者同士を まと め ればよい 場合と, 何らかのクラスター の存在を仮定し てそ れを抽出する場合がある が,現在の手法で は後者の要求 には対応でき ず,潜在構造分析な どの措置が必要であ る[西田62 ]・ クラスター 分析には多く の手法があるが,そ れらは次に示 す3 つ の事柄 の違いによ って特徴づけら れる. (1 ) 個体間の類似 度あるいは距離 の定義: クラスター 分析 には,似ている程度を測る何らかの尺度が必要である.その 尺度には大別し て類似度と距離(似ていない 程度の尺度) がある. また,ク ラスター を構成する 過程では,個体間の距離(又は類似度)だけで はなく, 個体とクラスター ,2 つのクラスター 間の距 離(又は類似度) を定義するこ とも必要に成る.そ の定義の方 法によって,得ら れるクラスター も異なる か ら, データ の性格に 合っ た定義を選択・ 採川しなけ ればならない. (2 )クラスター の妥当性 の判定基準: データセット に存在するクラスター はその定 義が予め与えら れて いるという ような ものではな いので,どのよ うなクラスター 構成なら妥 当であ るかの基 準を決めておかなければな らない. (3 ) 計算アル ゴリ ズム : クラスター 分析の手 法には組合せ論的な 側面 があるので,一 般には相当な 計 算量が必要と成る.そ こで,効 率的な算 法を工夫しなけ ればな らな い.また , クラスター そ のものの定義が算 法によ って決まるという面があ るので, 結果 として 得られたクラスター の評価 から算法それ自身も評価される ことに成る. 6.2.2 類似度又 は距離の定義n 個の個体の各々について 夕種類の特性が測定されたとして,これを以下のように
表す.
{X,j) ・ i ― 1,2, …,n \ Jニ 1,2, …,μ (G.2.1) a 番目 の個体とb 番目 の個体との距離 の定義の基本としては,式(G.2.2)に示 す 各変 数 ごとの差が考えら れる. ^a i 石 j 二 1.2, …,μ (G.2.2) 式(6.2.2)に基づく 個体間の距離及び類似 度の種々 の定義がある が,そ の中で 代表的な ものを以 下に示 す[Sokal 63]・∩ )ユークリッ 円心離 谷2 II 2 い イ ( 奪 丿 .  ̄ ̄’^V /り )' (2 )マハシノ ビス の 距 離 d言 二 心2 I I ぐ 出 (a-,,,,  ̄A-;,, )W バ'(x 川 - X,,,) (6.2.3) (6.2.4) こ こで ,w'' 廿 行 列 し鴛,) の逆 行列 のi ,j 要 素で あ り, w,声よ式(6.2.5)の と お り で あ る . ly び ゜ Qnh = ち/ = Σ(A' /( =1 ● 四Ill豹)( 貼ぴ 馬) ㈲; 一馬) 2 S 一 X。 一 .J X S 礼 ろ ぐ ぶ y が −""ノ・ ら ろ ぶ V 出 )(^/,,一石,) (6.2.5) (6.2.6) (6.2.7) クラスター ら に属する個体数を 七( が=1 にし... in )とする. クシスター- c,と G の問の距離の代表的な定義 には以 下のような ものがある. (↓) 最短距 離:そ れぞれのクラスター に属ずる個体の距離の最小値である. Minimum [ 亦,! a e C, , /バ= c. ] (G.2.8) (2 )最長距離:そ れぞ れのク うスター に属する個体の距離の最大値である.
Maximum[ 臨,しe
C,, ノ
八三 弓]
(G.2剛 (3 ) 重 心 間 距 離 :そ れぞ れ のクラスター の重 心 の 間 の距 離 であ る. Distance (Cf の重 心 , ら の重 心) (G.2.10 ) (4 )平均 距離:そ れぞ れのクラスター に属する個体間の距 離の 平均で ある. 1 刀/- ■ 刀 11 y 亀 ゐ f y 畠 d n ) (G.2.11) クラスター 分析の計算アル ゴリ ズム では,クラスター 同士を 融合して 逐次大き いクラスター を構成していく.そ の過程で,新たに構成さ れたクラスター と残り のク プスター と の距離は,そ の直前の状態におけるクラスター 間の距離だけを川 いて 計算する . 6.2.3クラスター の 妥当 性 の 基 準 クラスター の妥当性 の基準として まず考えられるのは,クラスター 内で のバラツ 牛 をできるだけ小さく,クラスター 間のバラツ 牛をできるだけ 大きく しよ う というもの である.クラスター の数をm,クラスター G に属する個体数を 几( だ =1, 2,…, m ) 全変 動(偏差平方和・ 積和行列)をT ,クラスター 間の変動を 召,クラスター 内の変 1 一一n −1 ('s ) 個 体 問 積 和 ぶ y ぞ 一 (A-.,, − ^ 元-O ) 個 体 間 相 関 係 数 礼 に ろ ぐ ぶ V 出 )タ( ら,- 影) / = l ∩ ) と(2 ) は距離 (比類時 度) を,(3 ) と(4 ) は類似 度を定義し ており, 前 者は 小さい程,後者は 大きい程. 2つ の個体 aと 川 ま似ていることに成る. 次にクラスター 開の距 離を定義する, いまクラスター を ら ら … , に とし動 の 和 を 叩と す る と式(6.2.12)四 周係が あ る . T -- r 十召 (6.2.12)
ここでr ,β,w はp ×ρの行列であり,式(6.2.13)
のように書き表す.
Tニ
㈲). 召 万b,,). W て 町ト
倉l 匹 』・叩(゛)
づ 町(勺
(6.2.13)馬 を第 丿変量についての総平均・ 馬(゛)
をクラスター
G 内での第 丿変量の平均値と
すると,これらの行列の要素は以下のように与えられる.
匈 =Σ(Xni −Xi )
(X砂一馬) (6.2.14)
bij =万Ilk (x尹) 一石)(馬(゛)一馬) (6.2.15)
-1
●■ m ‥(ん) Wリ= ズ 叩リ . Eノ( ゛) = ぶ( X・ − V尹))(a' 万 一 馬( ゛)) (6.2.16) (6.2.17) 全変 動T は一定で ある から,式(6.2.12)か ら明らかなよう に,クラスター 間の バラツキ βを大きく すれはクラスター 内のバラツキ 叫 ま小さく 成る.し かし ,クラスター 数m を可変 とす れば,m =n という 極端な 場合に 叩 =o となり, m =l とす れば 叩 = r で,m を 大きく す ればm ま小さく 成り得ることは明 らかであ る.し たがって,こ の 基準は,m は固定し たときのものと考えなければならない . 次に m は一定 とし て考えて も, B や 田 ま行列であるから,そ れが大きいとか小さ いとかいうには 何らかの基準を与える必要がある.通常用い られるのは, 次のような 基準で ある[Ward 63][Wishart 69]・ tr w = A =谷
ふ
罵 ■ ⇒ Min升
⇒ Min
m tr 叩  ̄^B = 6。2.4 計算アル ゴリ ズム 4 j ″ Σ ノ (6.2.18) (G.2.19) w' ‘x'')  ̄x')( 耳ノ(')  ̄■ノ) ⇒ Max −1 (6.2.20) クラス 夕ー 分 析 の 手 法 は , 階 層 的 手 法つ取っで の最良の分割 に近いものを得よ うとする算法が色々と工夫されている.
いず れにしても,最良のクラスター を得るためには条件を色々設定し 直して反 復し,
改 善さ れる割合の少なくなった時点で,そ れまでの最良 の分割をクラスター として採
川 するというような 試行錯誤的操作を行わなけ ればな らない.
6.3 表 情 の 感 覚 的 距 離 を 考 慮 し た 表 現 法6
J 。 1 IF 法(Inverse Function representation)
統 計的クラスター 分析 に於いては,結果 として初期のデータ を幾つ かのクラスクー ペ分割できる が,そ れが適 切なクラスター であるか否かは容易には判断できない. こ れは統 計的クラスター 分析ではデータセット 全体を概観することができない からであ る.フェース グラフ は データ の概略を把握するには 非常に優れた表現法であり,おお よそ のクラスター の存在を 比較的容易に見つ け出すことができる.フェース グラフ をクラスター 分析のために使用する には データ の距離関係がフェース グラフ の表 情の感 覚的な 距離関係と一致して いることが望ましい. こ の節で は,表情の認知を表情要素空間から表 情の感覚距離空間 への写像としてモ デル 化 する考 えを導入する ことによって, データ の距離関 係とそ れを表現した表情の 感覚的距 離関係が一致 する 表現法の数学的定式化 を行う.この定式化 を進める前に 規格化さ れたデータ を表情とし て表現し,そ れを認知する までの過程について4 章で 行った 定式化を以下 にまとめておく .まず規格化さ れたデータ の各変 数を表情要素へ そ れぞ れ割り当て,そ の値を量子化して 実際 の表情要素の値へ変換する過程は次のよ うな2 つ の式 によって表せる. y y -一 一 A ・ χ 力( ダ) (6.3.1) (6.3.2) 次に表現さ れた 表情を 認識する過程は式(6.3.3)で表さ れる表情 要素空間から感覚距離 空間への写像として定式化さ れた. Z -- ff(v) (6.3.3) OTOD 法で は, データ の間の距離と データ を表現し た表情 の間の距 離と の関 係は ときには互 いに一致し ない. すな わち,これら2 つの距離の 比例関 係が満足さ れてい ない.ここで は, この比例関係の要求を満たすための関数的な関係 を以下 に示 すよう な手順によって 導き 出す. 規格化した データ 空間 X の中の2 つの任意 の多 次元 データ をX' とx \,x- とX' を 感覚距離空 間へ写 像し て得られる座標をz' とzノ とする.すなわち,式(6.3.1), (G.3.2)(6.3.3) を使って以下 のように成る. Z .ノ Z =^ ( 五(A・ X' )) -- g ’( 力 (A ・ x^ )) (6.3.4) (6.3.5)
X' とy の間の距離d(x \
,xノ)とz' とz^ の間の距離d(z \
,z') は以下の式から求め
られる.
d(x \,x/) = ● ●di、 Z ≒ z^ ) 一 一麗
麗
(耳・ 一 榴)2(卵 一 卵)2
(6.3.6) (6.3.1) ここで,距離のみを考える 場合にはXとr は 要素の順 位が違うだけなので,d(x \
,x^)=d( ダ,y')
=d(A ・ x \,A ・ X' ) (G.3.8)十 分に小さいと仮定で きるとき, d(r' ,r^) はd(y ≒ m と殆ど同じであ る. こ れ ら のことから, d(x' ,x^) =d(y', ダ)がおおよそ満たされる.0 TOD 法ではデータ 空間 X と表情要素空間 yと の間では線形性が満たされていること に成る.し かし , 表情要素空間 yと感覚距離空間 Zとの間は線 形ではないのである. データ の距離関 係とそ れを表現した表情の感覚的距離関係が一致するということは, 肘x ≒ X')とd( れ zノ の関係が線形であるということである.すな わち,式(6.3.9) のような 関係が 成り立つことである. d(z \ z)=a ・ d (x', x-/ 十b, for x \ xりΞ χ (6.3.9) こ こで a と b は定数で ある.しかし OTOD 法ではこのような線形関係は必ずし も満 たさ れな かっ た.例えば, データX' とxノ を表現し た2 個 の表情が殆ど似ていたとし て もd(x \,x /)は大き いことがあり,逆 に2 個の表情が似ていな いときでもd (X',X') は小さいことがあ る. これはd(x', x ダ)=d(y べ 丿) で あることを考慮すると, 関数gが 非線形であ ることを 意味して いる.図6.3.1(a) はこのような データ の距離と 表情の感 覚的距 離との違いが,関数gの非線形性によって 生ずる過程を示している.d(x \,x^) とd(z', zO が線 形な関 係であるといえるためには, d(x', x^)とd( れz') の相関係数は1.0 に近い値でなけ ればな らない.し かし,4.4 節で使っ た88 個 の表情サン プル を作るために使った データ そ れぞ れのペア の距 離d(x \,x^) とこ の 表情サン プル の感覚距離空間で の距離d( れ z') と の間の相関係数は約0.31 で あっ た. ここで は可能な ペア([88 ×(88 −1)]/2 =3828 ベア) の全てにつ いてd(x' ,X') とd(z', z')が計算され相関 係数が求められた.こ の結果は 関数gが非線形であ ることを具体的 に示し ている. X ∼ X y ㈲ OTOD 法の表現過程 y
(b)IF 法での表現過程
Zり
Z
図6.3.10 TOD 法 とIF 法 の表 現 過 程 の相 違 ここで 提案 する表現 法は,ある 意図を持った 関数を導入する こと によって 非線形な 関係を線 形な 関 係に変 換する.関 数g の非線形を 補う 関数7 を 式(6.3.1)と式(6.3.2) で表さ れた変数割当て と規格化の間に挿入する.すな わち, データ 処理 の流れを以 下 のよう に変更する. A y犬h X →r ¨ →r → y する と 式(6.3.1)は 式(6.3.10)のよ う に 成る , W にy =f( ダ)
こ で , ダ -一 一 f(A- X ) (G.3.10) A ・ X である.更にy ≒y と仮定すると,式(6.3.11)のよ うに成る .y -f(A・X ) (6.3.11) 式(G.3.9)の線 形性を満 たすようにするための関数7 を探索 する問題を考えて みる. 前述し たよう に距 離のみを考え る場 合は式(6.3.11)の行列A を省略することができ る ので,式(6.3.9)の左辺はd(g(f{x)) ,g(f(x^))) で置き換えら れる.線形性が満 たさ れる最 も簡単な 場合は, データ 空間Xの任意のXが感覚距離空 間Zの Zに完全にー-・ 致するときである.すな わち, X =Z (6.3.12) となり, 空間X と空間Zが完全に等しく 成る場合であ る.これはデータ x の値が,そ の データ を表現して いる表情が空間Zの中で持つ座標値zに完全に等し いこと を意味 して いる,そ の場合は, d(x \,x ゾ)=d( れ z') と成るので,式(6.3.9)の aとb の 値はa =1 とb=Oと成る.ここで は式(6.3.12)の条件を使うこと によって式(6.3.9)を 満 たす関数7 の形を決定する .式(6.3.12)を式(6.3.3)へ代入すると式(6.3.13)が 導き 出 される. X -- s-(y) 更 に関数gの逆変換によって 次の関 係が得られる. y -- ^  ̄\^) (6.3.13) (6.3.14) こ のよ う に, 式(6.3.11)の行 列A を省略し て 考え ること によって, 式(6.3.11)と式(6.3.14) は 同じ も のと 見 な せ る ので , 関 数 f とし て 関数 g の逆 関数 を 使う こ と に よっ て データ の距 離 と 表 情 の 感覚 的 距 離 の 間 の線 形性 が 満 た さ れ る こと に 成 る( 図6.3.1(b) 参 照). こ れ によ っ て , 行 列A, す な わ ち変 数割 当 て に は 独立 な データ の表 現 が 可 能 と 成 る . し かし な が ら, g の逆 関 数が 得 ら れ る 条件 は 次 の とお りで あ る . (1 )y とzの対応が1 対1 である . (2 )Y から Zへonto写像であ る. 全ての表情要素の値(空間 Yの全て の座標y ) によって描かれたそ れぞれの表 情は 識 別できる ものと仮定できるので,そ れらは全て空間 Z の異な る点 をそ れぞ れ持つ こ とに成る.つ まり関数gは1 対1 対応を満たし ていると考え られ, onto 写 像も またZ =g (Y )とし て満たさ れる.よって, 関数 が ま逆関数ff-' を持つことができる 本章で 提案 する表現法に於いて は,どのよ うな多次元データ も変数割 当て 後の データ 処理 に逆 関数s- を適用することによって, すな わち式(6.3.14)を 使っ て データ x を表情要素yへ変換することによって表情として表現さ れる.本章で 提案し たこ の データ
表現 法を逆関数法Inverse FunctionMethod と名付けて,以後は簡単 のた めにIF 法と呼ぶ.実際 のIF 法のア プリケーション に於いてはX =Z を満 たすよ う にX の 大きさ はZの大きさと同じであることが必要である. この大きさ の調節はX の線 形な 変換によ って簡単に行える. 逆関数 ≪・-'を求めるた めには,4.4 節で表 情の感 覚距離空 間を構成 するた め に用 いた88 個 の表情サン プル の表情要素の値y と M-D-SCAL によって得ら れたそ れぞ れの表 情サン プル の感覚距 離空 間での座標 zを使用し た. 逆関数8-' は実 際に は, 式(6.3.15)のよう に7 個の多項式として求められる . 乃 =p ド'( Z), 2 = L ….7 (G.3.15)