• 検索結果がありません。

多次元データの視覚的表現について-香川大学学術情報リポジトリ

N/A
N/A
Protected

Academic year: 2021

シェア "多次元データの視覚的表現について-香川大学学術情報リポジトリ"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

多次元データの視覚的表現について

妻 鳥 敏 山 彦

統計学では,いわゆるl ̄デー・タの整理_】とかl ̄データの加工_lという言葉が よく使われます。これらは母集団(デー・タの源泉)に関する情報を得るために 重要な作業です。データの特徴を把握する方法紅は,おおまかにいって①計算 (Calculation)④図示(graph)の2通りが考えられます。①はデrタを幾つか の代表値に.凝縮(又は変換)して,その代表値でデータの全体的様相を把捉す ることに.なります。平均値,最頻値,中央値,あるいは範囲(レインジ),偏差 (平均偏差,標準偏差,四分位偏差)などが代表値として,よく使われます。 ④はデータを平面上に.図示して,その構造や変化の様子などを視覚的に(ある いほイメ・−汐として.)把握しようというのです。グラフ化の効用については, 法則性の発見や現象の解明等に.関する諸科学の歴史を想起すれば,ここで改め て言及する必要はないでしよう。①,④はそれぞれ紅ちがった表現方法で利点 や欠点がありますが,データ自身の内包している実体をあるがままに.表現す・る 方法であることが肝要です。さて,ここでは,④に.ついて筆者の体験に基づい て,面白い方法を紹介しよう。 (i)星座グラフ まず表1のようなデータが与えられている とする。これを適当な変換で0度から180度 までの角度に変換する。 例えば max†ズり,.方2わ …,.方れJ〉=g祝 1≦ブ≦た min〈.方1わ.方2ブ,l‥.方乃ブ〉=gβ 1<メ・く七 ‘−’iう く表Ⅰ>

1 2 3 点

1 尤11 ∬12.方13.γ1た 2i」方21ズ22 ∬28・・芳如 1 1 3 花 ュ︰.T 3︰・〃 とすると rユ亡 ユ■33 T3i・ ∬昭【Jわ埼=…旧∬血 αiJ=砦三笠×1800 (去=1,2,1‥‥,循) の形で表Ⅰのデータは,表Ⅱに変換される。(このような具体的な意味づけ

(2)

・く表∬/\ 1 2 3・…点 が行い易いような変換がよい。) この<表Ⅱ>のデー・タに対して た 〟£=∑紗メCOSαり ブ=1 ▲■ 仇=∑町Sinα官ノ ブ=1 α11 α1ヱ α13‥ α1た α21 α22 α221…α2た α乃1α乃2 α乃3‥1α乃鬼 (オ=1,2,…・… ,〝) なる変換を考える Å■ 但し紺プは,各変数の重みと考え∑紺ブ=1(紺プ≧0)を仮定する。 ∫−=1 この変換に.より(〝i,ガプ)(去■=1,……・,〝)の〟個の点を半円の中にプロッ ト(特に星印をつける)したものを星座グラフと呼ぷ。 さて,実際の作図法を具体例で示そう。デー・タとして,5段階評価された学 業成績を用いてみよう。 <表1> まず最初の変換式ほ

這深岳英,数,国,理,社

αせ戸昔話×1800=(和一1)×45。

これから<表Ⅱ>が作られる。 次に各教科間の重みを,同等とみなして 5 紺1=紺2=……= ぴ6とおくと ∑ぴ7=1ロ ブ=1 ヽ■′ ヽ−′ 、− ノ 君 君 君 A B C ︵ ︵ ′l\ 1 2 3 4 3 5 5 2 ▲4− 4 3 3 5 1 4 5 4 3 <表2>・ 英,数,国,理,社 ∴ ご二 軌=紺2=……= 紗6=− となるから,変換 〝£=cos勒, A君】13501800135018001800 〃sinαり B讃 900 450 900 001350 18001350 900135◇ 900

によって点♪(〝ブ,〃プ)が半円内に与えられ C君

ることになる。実際A君の星座上の点ダムほ, 3十J盲 ul=‡{cos1350十COS1800十COS135O・cos1800・”os1800)=−・T 旦土蝮 vl={sin900十Sin450・・・Sinl900十SinOO十Sin135◇}= 5 に.よって与えられる。これを半円内に具体的にプロットしやすいように.,次 の様な整理を行う。

(3)

ガ 座標 点タl 点為 点為 点タ▲ 点鳥 与c倒1350 号(csola50+・CS01800) 与(cso1350十e501800十eo匂1350) 書(c081350・十脚1800+e㊥1850■co81800) 阜(cos13SO+cosl郎○十C関工お○+cos王800+cos1800) 与sin900 −(sin900+8in45。) 古(sin粥+8in侶。+$in900) 与(8in00○+血亜○+・8in00○十8bOり i¢il粥○+$in450+8il00○ヰ8inOO+血1お○) プロット手順 手脛江・・点ア1は原点から4の方向へ平行に・だけ進む0(こと紅同じ)

手取甜2ほ即1から5の方向へ平行にだけ進む0(こと閉じ)

手順3・点鳥ほ点動から4の方向へ平行にだけ進む。(こと綱じ)

手臥点P4はが3から5の方向へ平行紅だけ進む0(こと綱じ)

手順5・即5は射4から5の方向へ平行にだけ進む0(こと軋同じ) Pノま=P5であるから,ここで点夕月がプロットできる。(下図参照) もう1つB君の点斤βとC男の点β。をプロ 3 ツ卜しておこう。 屋座における1−5の横線をェ軸とし, 3の縦線を.γ軸としたとき,点P5の座

離卜亭h■掌冬空)

である。 (但し,円の半径ほ.長さ1とする。) さて,こ.のような星座へのプロットの効用は,5次元のデータを2次元の平 面上にプロットして視覚的紅も1定の区別がなされる点にあるが,吏紅プロッ トした点の位置が,円周上の5つのメモリに従って読むとき,丁度5教在の平 均点を示し,円周上からのへだたり具合が,平均点のまわりのバラツキ具合を 示唆していることである。又屋印への道(path)についても着目することがで

きる。我々の例でみると,A君の5教科の平均点はA!旦土生土蔓±旦=4.6,平 5

均偏差値(14・−4・6回5・−4・6==4・−・4・6回5・−・4・6回5・−・4・6!)== 0.48 B君の場合も同様にして平均点2.6,平均偏差値0.88であるから,A君は平

(4)

均点が高く5の軸に近くなっており偏差値(この場合,各教科の安定度とみな せよう)も小さいので円周上に.近ぐなっている。B君の場合,平均は3以下で, 偏差値も0.88とA君より大きいので 教科問にバラツキありと見受けられる。 そのことはQβの方がPAより円周上から,やや遠ざかっていることに.よって 確かめられる。 教育現場でほ,学期の区切りで生徒の成績表が作成されるであろうが.それ をこの星座グラフ紅プロットして:みるならば,各個人の平均点(全体的学力) やバラツキ(学力の不安定さ)が視覚的に把握できるだけでなく,個人のクラ ス全体における位置づけもー一層よく分る筈である。更に毎学期これを行えば, 個人及びクラスの学習成果の記録ともなりうるだろう。 0一色■1

10 20 ユ0 ■0 ,○ らO TO さ¢ 90 1eO llO 120

6さ‘︶Z⊥098765■つ2ユ098765んプ21▲098Tる5◆︶21 ユ qノヽJうっユ⊃2222222222ユュ・心▲▲lユニ.⊥⊃、▲ もう1つこの考えが判別分析へ応用できることを示しておこう。 今,ゐ次元デ・一夕の2群が,それぞれ変換されて次のように与えられたとす る。

く1群>l1 2

<2群>』1 2

点 β11β12小・‖‖βlた β21β22‥β2た βmlβm2‥β刑 1 2=︰︰S α11 α12 α1た αgl α22…… α2カ α乃1αれ2α氾た

(5)

Q乞(〝‡2),ぴ‡2))に.対して

‡:……:〒≡:プ:ご:乞∴.

P乞(〟;1),少‡1))に対して

l■ 頑1)=∑紺′COSαゎ ′=1 吋)=写紺 プSin勒(∠■=1,・・・ ,〝)\〆≡〉=写紗ブSinβ材(∠=1,…,雛) 7 7 これらP£,Qもを星座の申にプロットしたとき,2つの群が星座の中で最も よく判別できるような点(∽1,抑2,‥沌仇)を求める問題である。 換言すれば,ゑ次元超平面勘十抑2・+…・+以毎=1上の部分平面ざた=‡(紺1,甜2, …‘紺ゐ),:紺官≧0,£=レい・,ゐ)上の1つの点に対して1群,2群のゐ次のデータ (紗+研)個が星座上にプロットすることができ,そのようなぶ烏の点の中で星 座グラフの2群が最もよく判別できるような点(仇,…,鋸叛)を捜すことで ある。 具体例で説明すれば,ある大学の入学試験ほ牒教科であり,ある高校からほ (紗十川)人受験し犯人の合格者があったとする。この(紗十研)人の在学中(高 校)の成績を用いて,上記の点(紺1,紺2,…,打た)を求めたとすれば,これら の数値から,どの教科が合格軋有効であるか,等が推察されるであろう。

(ii)Faces method(H.Chernoff)

この方法は簡単に.云えば,多次元データを人間の顔に似せて配列すること に.よって作られる似顔の表情を通じて,2次元空間内紅表現しようというの である。 従ってデータの特徴ほ似顔の表情に.現れ,我々がその表情をみて,データ の特徴をつかむことになる。表情のデリケ仰・トな変化や特徴把撞に関して− は,我々個々の人生を通じて1さまざまな表情に.接してきており,その無意 識紅培われた経験が大いに役立つのである。早速その概略を述べてみよう。 まず実際のデータを顔を構成する変数(.方1,.翫,….方18)に当てほめる場合に は各変数項目が,異なったレイン汐をとるので,次の様な基準化が必要であ る。 すなわちデータの最大,最小値を,基準化の最大,最小値へ変換する1次 変換を求めると,それは,

(6)

・方り=(giグー勒)・+動 よ−=1,…,18(変数の個数) ∂宅 ・ダニ1,l…紹(デー・タ数) .焉・電メ である。ここに. 肱,〝わ:オ番目の変数項目 に.対応する生のデ 一夕の最大値,最 但し,実際にデータを用いる場合,規準化されたレイン汐が閉区間の場合, 少し不都合が起こ.りうるので少し広めの開区間が望ましい。 さて,具体的な顔の構成ほ①顔の輪郭⑧藤⑧口 ④目 ⑨ひとみ⑥眉の 6つの部分からなる。 右図が およその 骨格であ るので, 以下の説 明ほこ.の 図に基づ くことに しよう。 ♂ ① 顔の輪郭 戯の中心(原点0)と距離ゐ*と.方軸との角度β*(ラジアン)で決めら れる点Pとγ軸対称の点Plによって顔の上邦,下部に分ける。又,顔の

(7)

中心から上端,下端の距離をいずれもゐとし,それぞれの点をぴ,エとす る。上顔払邦雄′下顔部クエP′は長軸鶴,短軸∂宜(オ=ぴ,エ)の比が異なる 楕円をあてはめる。 α髄/み祝=∬4 (上顔部の楕円の比) α1/∂2=∬6 (下顔部の楕円の比) が=与(…1)・ガ(放顔の大きさの倍率) β*=(2・・方2・−・1) ( ゐ=与(…3)・ガ ) 電算機のラインプリンタ一による幻ち出しの場合,横と縦の文字間隔が同 じでないので注意を用する。例えば,上部楕円と下部楕円がP,P′でうま く交わらないようなこ.とが起こる。こ.の辺りほ電算機マニアの腕のみせど ころと思し召せ。 ⑧ 路 線は原点0を中心としでγ軸に.上下ゐ,一方6の長さとする。 芳6のレインジほ(0,1)であるから,界の長さは(0,2ゐ)内に・おさ まることになっている。 蓬)1_】 口は原点0から下Pmの位置に半径虎の円弧を描く P汎=・−・ゐ(∬7・十(1・−・,γ7).寛一8〉 屈=ゐ/卜方8i ここ.で.方8=0のとき適当に指定した長さの線分を措き.方8>0なら上向 きの円弧(スマイル型).方8<0なら,下向きの円弧(アンダリ型)を描く ようにする。(注祁→0ならば忍→…となり半径の大きな円が想定され, ゆるやかなか−プの円弧に.なろう。モ直線は円の1部〝が理解される。) 特に忍が顔中におさまるときほAmニ点×胸とし,はみでるときほ」㌔ から楕円までの距離吼を求めてAm=吼×.方9にする。 はみでるかどうかの判断ほ,日の終点の.γ座標と下顔部楕円のそれを比 較すればよい。しかし,現実には上の処置だけでほ,はみ出ない保障ほな い。

(8)

④ 日 日は適当な大きさの楕円をある角度傾けて描く,楕円の中心の位置ほ次 式で与えられる。 ye=カ〈.れ0十(1鵬.方10)方6〉 ズ¢=仲ち(1・十2.γ11)/4 (但し勒ほy¢⑦高さでの顔までの距離) (れ0や.方6のレイン汐の関係から目の中心ほ虜より下方にくるこ.とはない〝) 又,日の傾き♂¢,日の幅エβほ.ββ=(2.れ2・−・1)方/5,エe=.方14,.ガmin(ズβ,l糀・− ズe)左目ほ.γ座標はそのままでβe,ズeの符号を変え.る。 ⑤ ひとみ ひとみは目の楕円の中心からガ¢=点e(2.方151−・1)だけ一方軸紅平行紅移動 した位置解とる。(この位置に.関してほ左右対称に.しないことが肝要,その 理由ほ読者におまかせします。)虎8=エeレCOS2βe十伽2sin2β。(計算略) ⑥ 眉 眉ほ目の中心からyeだけあがったところで傾き鮎とする? ここに yゎ=2(れ6十0.3)エe・れ3 βゎ=戯+(2∬17L−1)‡

また眉の幅上場エゎ=点8(響)で与えられ,枇yゎ=紬エeの

場合や.方16がある範囲内にきたときなど眉が目を“cutぃするようだ。 以上で各部分の説明を終えますが,基準化された変数の(指定した)レイ ンジと顔の構成に.関する特性の対応を表1に.生理しておきましょう。

範 囲 変 数 顔の構成に.関する特性 梅 園 変 数 顔の構成に関する特性

(0,D 旦L旦 ∬】。・→㌔ 目の位置 _ ∬1−ヰカ (0.5,2) .が 顔の上半分のα/み 坦過重 ∬18 」型適旦些/∂ (0.5,2) ∬5 顔の下草分のα/∂ (0,1) ∬14−すエβ 目の幅の半分 (0,1) ∬6 鼻の長さ

(0,1) ズさ−すカ OU(=OL)の長さ ■ 餌_ .ガ12−す♂β 目の傾き

† (0,1) ズ15 ひとみの位置

(0,1) (

一5,5)

(0,1) ㌦→α彿†口の幅

r

(9)

以上はChernoffのFacesmethodに.沿って説明したが,実際ほ変数の多さ

によっては耳や髪なども付加することが可能であろう。又,場合によっては変 数を折半して2粗の顔を描いて,それを1絶とみなすことも考えられる。変数 が18個以下の場合は,どれかの変数を固定して:(つまり定数を与えでおく)お

けばよい。しかし,どの変数を固定するのがよいか,あるいは,どの変数を,

どの部分に移すとよいか等々は,多くは体験に基づく問題であろう。この手法

の有用性は,利用目的によってこ差異があるのはもちろんであるが,デー・タの特

徴が表情によって捉え.られるばかりでなく,データをいくつかの群に分類する

場合や多変鼻データの系列の変化を指摘する場合など紅有効であろう0データ の微妙な変化も案外捉えることができるかも知れない。筆者も県下(香川県)

の土地分類基本調査のデータを使って,この表現方法を利用した体験がある。

(変数の個数12,データ数約600)そして,視覚的分類は,統計的判別分析に+

分耐えることを実感している0ただ多愚のデータ群を処理するに腰,こ・の方法 は能率的でないので,この辺は今後の研究課題であろう。電算機で措いた衷 情。(資料2)

以上,データの表現についてグラフ化の観点から2つの方法を紹介数しまし

た。云うまでもなくグラフ化の効用ほデーー・タの特徴を視覚的に把握したり,伝

達したり,印象づけること紅あります。又,データ解析に先立って解析の方法

や方向に.ネライをつけるために・も利用できます。教育現場で発生するデータに

(10)

ていた_!ことども紅遭遇するにちがいありません。

参 考 文 献 1.Wakimoto,K and Taguri,M(1978)

Conste11atwngraphicalmethods for representing multidimensionaldotaIAn

lvs七Stct.Moth Vol.30

2.Cbe【nOffu H(1973)

The use of faces to represent pointsin k・−dimevsionoIspace graphical1y.Jour

Amer Statist.Assoc Vol一.63

3い 妻鳥敏彦

メッシュデータの一つの表現とその活用への提案(香川県土地分類基本調査総括報告 審1977)

参照

関連したドキュメント

工学部の川西琢也助教授が「米 国におけるファカルティディベ ロップメントと遠隔地 学習の実 態」について,また医学系研究科

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

人間は科学技術を発達させ、より大きな力を獲得してきました。しかし、現代の科学技術によっても、自然の世界は人間にとって未知なことが

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 学年進行による差異については「全てに出席」および「出席重視派」は数ポイント以内の変動で

続いて川崎医療福祉大学の田並尚恵准教授が2000 年の