• 検索結果がありません。

学位論文題名Study on Significance Verification of the Dimensionsin Multivariate Analysis for Categorical Data

N/A
N/A
Protected

Academic year: 2021

シェア "学位論文題名Study on Significance Verification of the Dimensionsin Multivariate Analysis for Categorical Data"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 情 報 科 学 ) 青 木 健 児

    

学位論文題名

Study on Significance Verification of the Dimensionsin     Multivariate Analysis for Categorical Data

(質的データの多変量解析における次元の有意性検証に関する研究)

学位論文内容の要旨

  実 験や調 査など によって 得られ るデー タは2種 類に大 別される。ーっは量的データ(quantitative data)で あり、 もうー っは質 的デー タ(qualitarive data)である。例えぱ、長さ、重さ、回数、個数 な どのよう に、数 値とし て観測 された データ は量的 データと呼ばれる。一方、性別、職業、学歴な ど のように 、数値 として ではな く、属 性とし て観測 されたデータは質的データと呼ぱれる。また、

観測の対象となる特徴量も同様に量的変数(quantitative variable)と質的変数(qualitative variable) の2種類に 分けられ る。上 の例で は、長 さ、重 さ、回 数、個 数を表 わす変数 が量的 変数であり、性 別 、職業、 学歴を 表わす 変数が 質的変 数であ る。人 文、社会科学の分野で行なわれるアンケート調 査 や多肢選 択式の テスト などで は、量 的デー タより も質的データが得られる機会が圧倒的に多い。

し たがって 、これ らの分 野では 、量的 データ よりも 質的データを分析するための統計手法が必要と される。

  多 変量解 析とは 、実験や 調査な どにお いて複 数の特 徴量が観測されたとき、それらの値をもとに 変 数間の従 属関係 や相関 関係を 調べた り、多 数の変 数を少数の変数に要約したり、観測された個体 の 判別規則 を構築 したり するた めの統 計手法 の総称 である。多変量解析の手法のーっである正準相 関 分析は2組の変数 セット 間の相 関構造 を少数 個の正 準変数 によっ て表わす ための 手法である。ま た 、正準相 関分析 は多変 量解析 の中で 数学的 に最も 一般的な手法であり、他のほとんどの手法は正 準 相関分析 の特別 な場合 として 定式化 される 。した がって、正準相関分析は理論的側面において重 要な手法であるといえる。

  次 元縮小 を目的 とする正 準相関 分析に おいて 、分析 対象で ある2組 の変数 セット間の相関構造が ど の程度複 雑であ るのか 、すな わち有 意な正 準相関 係数の個数(正準変数の個数)がいくっなのか を 知ること は特に 重要な 問題で ある。 この問 題は、 正準相関分析だけではなく、正準判別分析など の次元縮小を目的とする他の手法においても重要である。

  ゼ ロでな い正準 相関係数 の個数 は2組の 変数セ ット間 の母集 団にお ける共 分散行列のランクに等 し く、正準 相関分 析にお ける次 元数と 呼ぱれ る。し たがって、有意な正準相関係数をゼロでない正 準 相関係数 と定義 したと き、有 意な正 準相関 係数の 個数を推定する問題は正準相関分析における次 元 数を推定 する問 題に帰 着され る。次 元数を 推定す るための代表的な手段は共分散行列のランクの 順 次検定を 行なう こと、 すなわ ち次元検定問題((limensionむ衂tes血gproblem)を考えることであ る 。量的変 数に対 する正 準相関 分析に おいて 、母集 団が正規性を持っという仮定のもとで、この問

1066

(2)

題のための検定量がいくっか導出されている。質的変数に対する正準相関分析においても、正規性 を仮定した場合と同じ検定量を用いることが提案されている。しかし、質的変数に対しては正規性 の仮定は満たされない。したがって、質的変数に対する正準相関分析において、これらの検定量を 用いることの数学的な正当性はない。実際、数値シミュレーションにより、対象とする変数が質的 変 数 で あ る 場 合 、 こ れ ら の 検 定 量 の 精 度 が 悪 い こ と が 確 か め ら れ て い る 。   正準相関係数や正準変数の分布に関しては、対象とする変数が量的、質的であるに関わらず、こ れまでに多くの研究がたされている。しかし、次元検定問題のための検定量の分布に関する研究 は、対象とする変数が質的変数である場合については、量的変数の場合と比べ、十分に行なわれて いるとはいえない。

  以上の背景のもと、本研究では、質的変数に対する正準相関分析における次元検定問題のための 検定量を提案する。また、数学的な検討と数値シミュレーションを行なうことにより、提案した検 定量の性質を明らかにするとともに、この検定量が、従来用いられてきた検定量と比べ、理論的に も実験的にも優れていることを示す。

  質的変数に対する正準相関分析は対応分析や2次元分割表に対する数量化理論第3類を数学的 に一般化したものであることから、本研究で提案する検定量はこれらの手法における次元検定問題 においても用いることができる。また、この検定量の導出法は、他の仮説検定問題にも応用するこ とが可能である。例えば、質的変数に対する正準判別分析として定式化される数量化理論第2類に 韜 け る 次 元 検 定 問 題 の た め の 検 定 量 も 同 様 の 考 え 方 で 導 出 す る こ と が で き る 。   質的データの多変量解析では、アイテムやカテゴリーが観測変数となる。本研究ではヽ質的変数 に対する正準相関分析におけるアイテムやカテゴリーの冗長性の定義を与え、アイテムやカテゴ リーの冗長性問題を仮説検定問題として定式化し、この仮説検定問題のための検定量を導出するこ とも行なう。この場合の検定量も次元検定問題における検定量と同様の考え方で導出される。

  次元検定問題では、正準相関係数や相関比の値、すなわち固有値の値の大きさによってその有意 性を評価している。しかし、固有値の値が大きいからといって必ずしもそれに対応する次元が有意 であるとは限らない。このような状況の例のーっとして、対応分析における馬蹄形問題があげられ る。馬蹄形問題は、質的変数の中でも特に順序尺度を持つ変数に対する対応分析において、しぱし ぱ生じる。馬蹄形問題が生じる原因は、分析の対象とする2次元分割表の背後に多変量正規分布が 存在することを仮定することにより、理論的に説明されている。本研究では、この問題についても 考察 し、 馬蹄 形問 題を 解決 する ため の 方法 を提案し、提案方法が有用であることを 示す。

  以上で述べたように、本研究の目的は、質的データの次元縮小を目的とする多変量解析の手法に おける次元の有意性を、より正確に検証するための方法を提案するとともに、提案方法の性質と有 用性を示すことである。

1067

(3)

学位論文審査 の要旨 主 査

  

教 授

  

佐 藤 義 治 副 査

  

教 授

  

宮 腰 政 明 副 査

  

教 授

  

工 藤 峰 一 副査   准教授   今井英幸

    

学位論文題名

Study on Significance Verification of the Dimensionsin     Multivariate Analysis for Categorical Data

(質的データの多変量解析における次元の有意性検証に関する研究)

  質的データ解析は広くは離散データ解析に含まれるが,離散確率変数の統計理論は組み合わせの 数(離散確率変数の取り得るすべての組み合わせ)が問題となるため,実際には極めて困難である.

分割表(contingency table)の分析においては,フアシャー(R.A.Fisher)の精密確率を計算する方法 が知られているが,現実に適用可能な分割数は高々2または3程度であり,一般的な分割表の場合 には実用的な範囲を遥かに超えている.

  現実問題においては,多くの場合連続分布による近似,特に中心極限定理による正規近似に基づく 種カの統計量によって推定あるいは検定の問題が議論されている.

  本論文で扱われている対応分析(CorrespondenceAnalySiS)は種々の定式化が提案されているが,

いずれも同値であることが示されている.従って,議論の対象に最も妥当な定式化を用いることにな る.本論文の主題である次元検定の問題には正準相関分析の枠組みを用いている.ここで,次元の問 題とは,データとして得られる分割表の行または列の類似性を矛盾なく表現するために必要なユー クリッド空間の次元である.これを直感的に理解するためには,正準相関分析の枠組みよりも多次元 尺度構成法の枠組みで考えた法が理解しやすい.すなわち,多次元尺度構成法の枠組みでは,分割表 の相対度数(確率)に関する行間のカイ二乗距離,列間のカイ二乗距離をその距離を何次元のユーク リッド空間の距離関係で表現可能かという問題である.しかし,この直感的な次元を理論的に扱うこ と は 困 難 で あ り . 本 論 文 で は 正 準 相 関 分 析 に よ る 定 式 化 を 用 い て い る .   連続変量の正準相関分析において,二組の変量の線形結合間の正準相関係数はある種の分散共分 散行列の固有値問題として定式化され,固有ベクトルとして最適な線形結合の係数が求まる.従つ て,ここでの次元問題は非零となる固有値の個数,すなわち共分散行列のランクを検定することと 同値である.そのための統計量は正規性の仮定の下で漸近的にカイ二乗分布することが用いられて いる.

  一方,離散データを用いた正準相関分析を行ったとき,連続変量と同様に共分散行列の固有値,固 有ベクトルの問題として定式化ができ,次元問題を行列のランクとして捉えられることは同様であ     ―1068―

(4)

るが,問 題はそのための検定統計量 の分布を連続量として近似することに大きな乖離が生ずる.実際 に 著者 は本 論文において,シミ ュレーションを用いて従来の 連続な場合の統計量をその まま近似と し て 利 用 す る こ と は 検 定 精 度 の 低 下 が 実 用 的 な 範 囲 を 大 き く 超 えて い るこ とを 示し てい る .   著者 はこ の近似の悪さの原因 を離散変量の分布が中心極限 定理によって.多変量正規 分布に近づ いたとし ても,分散共分散行列の標 本分布がウィシャート(J.Wishart)分布から大きく乖離すること によって 生ずることを実証した.

  近年, 情報技術の発展により,観 測される標本数はますます膨大なものとなる傾向をもち,統計的 データ解 析においても,古典的な小 標本理論は重要ではあるが,それに執着する必要はなく,十分に 標本が得 られる状況での議論も有用 であるものと考えられる.本論分はその立場から,標本をいくつ かのブロ ックに分割することによっ て,各プロックに中心極限定理を適用し,各ブロックからの統計 量 を多 変量 正規分布からの標本 と見なすことにより,分散共 分散行列の固有値に関する 検定統計量 を 導出 し, その検定統計量が漸 近的に従来の多変量正規分布 により検定統計量に分布収 束すること を証明し た.

  対応 分析 を正準相関分析の立 場から見た場合,分散共分散 行列の固有値が正準相関係 数の平方を 表 して おり ,その値が大きい程 対応する固有ベクトルの布置 がもつ情報が有効であるも のと見なさ れる.し かし,対応分析における馬 蹄形問題という現象が古くから知られており,固有値の大きさだ け が必 ずし も有効な次元を表現 するものではないことが指摘 されていた.馬蹄形問題の 発生要因に つ いて は様 々な研究がなされて いるが,著者は分割表の背後 に二変量正規分布が存在す るものと仮 定 する なら ば馬蹄形問題生ずる という研究に注目し,馬蹄形 問題の解消のため新しい方 法を提案し た.その 基本的な考え方は,最大固 有値に対応する固有ベクトルのエルミート多項式を2次,3次,と 以 下順 次必 要なまで,データと して与えられる分割表から差 し引いた残差分割表に対応 分析を適用 すること によって,最大固有値の固 有ベクトルの多項式成分,(2次成分が馬蹄形となる)除去できる ことを示 した.

  これ を要 するに,著者は離散 データ解析に韜ける正準相関 分析ともいうべき対応分析 においてそ の 有効 次元 数の検定統計量を提 案するとともにその有用性を 示し,されに対応分析にお ける馬蹄形 問 題と して 古くから知られてい た問題にたいしてその解決法 を与えたものとして,統計 科学におけ る デー タ解 析学やコンピュータ サイエンスにおけるデータマ イニングの分野に貢献する ところ大な るものが ある.

  よ っ て 著 者 は , 北 海 道 大 学 博 士 ( 情 報 科 学 ) の 学 位 を 授 与 さ れる 資 格あ るも のと 認め る .

1069

参照

関連したドキュメント

重回帰分析,相関分析の結果を参考に,初期モデル

文献資料リポジトリとの連携および横断検索の 実現である.複数の機関に分散している多様な

このように,先行研究において日・中両母語話

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

劣モジュラ解析 (Submodular Analysis) 劣モジュラ関数は,凸関数か? 凹関数か?... LP ニュートン法 ( の変種

CIとDIは共通の指標を採用しており、採用系列数は先行指数 11、一致指数 10、遅行指数9 の 30 系列である(2017

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (