• 検索結果がありません。

SEM を利用した新しい探索的データ解析法の開発

N/A
N/A
Protected

Academic year: 2022

シェア "SEM を利用した新しい探索的データ解析法の開発"

Copied!
162
0
0

読み込み中.... (全文を見る)

全文

(1)

SEM を利用した

新しい探索的データ解析法の開発

福中 公輔

(2)

目 次

1SEMにおける探索的データ解析 1

1.1 探索的データ解析について . . . . 1

1.2 EDAの特徴 . . . . 2

1.3 探索的因子分析について . . . . 5

1.4 探索的構造方程式モデリング . . . . 13

1.5 ESEMの適用例 . . . . 16

1.6 ESEMの限界 . . . . 21

2章 機械学習における探索的分析 22 2.1 機械学習について . . . . 22

2.2 統計的機械学習 . . . . 23

2.3 グラフィカルモデル . . . . 27

2.4 ベイジアンネットワーク . . . . 35

2.5 マルコフ確率場 . . . . 46

2.6 ハイブリッドグラフ . . . . 55

2.7 グラフィカルモデルの限界 . . . . 60

3章 グラフィカルモデルのSEMによる表現 62 3.1 SEMを利用したマルコフ確率場モデルの生成 . . . . 62

3.2 マルコフ確率場モデルの生成のためのプログラム . . . . 74

3.3 補足的話題 . . . . 78

3.4 結論 . . . . 85

4章 共通因子構造解析 87 4.1 共通因子におけるマルコフ確率場モデルの生成. . . . 87

4.2 補足的話題 . . . . 107

4.3 結論 . . . . 114

5章 独自因子構造解析 117 5.1 目的 . . . . 117

5.2 方法 . . . . 120

5.3 分析例1 . . . . 123

5.4 分析例2 . . . . 128

(3)

5.5 分析例3 . . . . 132 5.6 結論 . . . . 137

6章 総合考察 139

6.1 グラフィカル構造方程式モデリング . . . . 139 6.2 結論 . . . . 142 付 録A 本研究で用いた分析のプログラム 145 A.1 共通因子構造解析のスクリプト . . . . 145 A.2 独自因子構造解析のスクリプト . . . . 149

付 録B 文献 152

(4)

1 SEM における探索的データ 解析

1.1 探索的データ解析について

探索的データ解析(Exploratory Data Analysis,以下EDAと略す)とはその名 の通り,調査あるいは実験などで得られたデータの構造を探索的に探り出すことを 目的とした統計的データ解析手法の総称である。EDAはデータの平均や相関など 基礎統計量の考察から,多変量解析による分析や分析結果の視覚化(visualization)

に至るまで,その扱う範囲は幅広い。また最近の動向の1つとして,Webシステ ムやPOSシステムなどにより,自動的に集められた大量のデータから,意味のあ る情報の取得を目的としたデータマイニング(data mining)という解析手法が注 目されているが,これもEDAの一種である。

先ほども述べたようにEDAの扱う範囲は非常に幅広いが,それが注目され始め たのは計算機技術が発達した比較的最近になってからである。EDAは1960年代 から1980年代にかけて,当時プリンストン大学統計学部教授であり,AT&Tベル 研究所の主任研究員でもあったJ.W.Tukeyを中心としたデータ解析学派と呼ばれ る人々によって開発され,発展してきた。彼らにより様々な理論や手法が提案さ れ,その集大成がTukey(1977)としてまとめられ,書籍として刊行された。提案 されたこれら複数のデータ解析手法に共通して言えることは,得られたデータの 背後に存在する構造,言い換えればデータを構成する変数の関連構造を把握する ために行うということである。したがって,高度な多変量解析のみならず,例え ば相関分析などの基礎統計解析も含め,変数間の関連構造を分析するための手法

(5)

はすべてEDAと言えるだろう。

これに対して,確認的データ解析(Confirmatory Data Analysis,以下CDAと 略す)と呼ばれる概念がある。これは,まず始めにモデルを仮定し,そのモデル に得られたデータがどれくらい当てはまるかを検討する解析手法であり,統計的 仮説検定などもCDAに含まれる。EDAというアプローチが入手したデータを重 視するのに対し,CDAというアプローチは先行研究などによって得られた事前知 識,すなわち研究者自身の研究仮説を重視するものである。現在の心理学の分野 では,EDA的アプローチではなく,このCDA的アプローチが重要視されている。

また,そのためのモデリング手法として最も有用とされているのが構造方程式モ デリング(Stractural Equation Modeling,以下SEMと略す)である。

しかしながらデータが示唆する情報を多面的に捉えるという意味で,解析初期 のフェーズを重視したEDA的アプローチもデータ解析では重要であり,EDAと CDAは互いに相反するものと言うよりは相互に足りないところを補い合う相補的 な関係にあると考えられる。したがってモデルを構築したいというような状況を 扱う場合,EDAとCDAの両方からのアプローチを行うことが重要である。

1.2 EDA の特徴

EDAにおいては,一般的に「抵抗性」「残差の分析」「再表現」「図示」の4つの 観点が重要であると言われている(渡部・鈴木・山田・大塚,1985)。本節ではこ の4つの概念を順に解説する。

1.2.1 抵抗性

抵抗性(resistance)とは一部の不適切なデータ(外れ値,outlier)からの影響 の受けにくさの度合いのことであり,ある指標がそのような外れ値混入による影 響を受けにくい場合,その指標は抵抗性が高いと表現する。例えば,平均値は外

(6)

れ値の影響を受けやすい指標として知られており,EDAでは平均値の代わりに抵 抗性が高い中央値などを利用したりすることもある。

また生データ(raw data)に外れ値が混入していると,モデル構築においてパ ラメータ推定を行う場合,最小二乗法や最尤推定法は結果に大きな歪みを生じさ せる。したがってこの場合,より頑健な性質を持つロバスト推定など利用する。

あるいは基礎統計解析を利用して,このような外れ値を生データから検出し,あ らかじめ除去するというアプローチも考えられる。これはデータのクリーニング として知られているEDAにおける最も基本的なアプローチの1つである。

1.2.2 残差の分析

残差(residual)とは,モデルにより推定された理論的な値と観測データの値と の差であり,例えばSEMでは,以下のように標本共分散行列Sと推定された母数 によって構造化された観測変数の共分散行列の推定値Σ(ˆθ)との差によって残差行 列を定義している(豊田,1998)。

ΣRES =SΣ(ˆθ) (1.1)

残差はモデルとデータとの乖離の度合いを与える指標であり,構築されたモデ ルが真のモデルに近ければ近いほど残差は小さくなる。したがって,残差を注意 深く吟味することはモデルの良さを評価することにつながり,さらにEDAの観点 からはより良いモデルを構築するための情報を与えてくれることになる。その意 味で残差分析はEDA的アプローチでは必須の事項である。

しかしながら,残差には当該モデルで説明できなかった他のすべての要因が含 まれているため,その解釈は困難である。このためモデリングを行うときに,積 極的に残差が分析されることは少ないというのが現状である。したがって,モデ ル探索においてより効果的な残差分析の方法論を考案する必要がある。

(7)

1.2.3 再表現

データの再表現とは,いわゆる変数変換のことであり,そのままでは比較しづ らいデータに何らかの変換を加えて観察しやすくすることである。再表現の例と しては,「一次変換」「対数変換」「データの等分散化」などがある。

よく利用される再表現として,以下のようなものがある(芝,1979)。

Z = (

I 1 N11

)

−1 (1.2)

ここでNはオブザベーション数,IはN×Nの単位行列,1は全要素が1の1 ベクトル,Xは得られたデータ行列,Σは各変数の標準偏差を対角成分に持つ行 列である。これは生データの値から各変数の平均値を引き,標準偏差で割ったも ので,標準化として知られているデータの再表現の1つである。標準化されたデー タは平均0,分散1となるので,単位に依存することなく,各値を直接比較できる ようになる。

データの再表現は,それを行う過程で有益な情報を得られることもあり,EDA 的アプローチではその意味から積極的に行った方が良い。しかし,当然のことな がら,有効な再表現の方法が見つからないこともある。

1.2.4 図示

図示とはデータを人間が認識しやすいようにグラフィックで視覚的に表現するこ とである。データを適切な図やグラフで表現できたならば,そのデータが持つ性 質を効果的に把握できるだけでなく,外れ値の発見や予期しなかった特徴を抽出 できる可能性につながる。よく利用される図示の方法として,「ヒストグラム」や

「箱ひげ図」などがある。

またモデルを図示する方法として,パス図という表現技法がある。これは観測 変数を四角,潜在変数を楕円で表現し,それらの関係性を矢印によって記述する 方法であり,SEMによるモデリングにおいてよく利用される。パス図を利用する

(8)

ことで,複雑なモデルを誰にでも簡単に理解可能なように表現することができる ので,優れた図示の一例であると言える。

1.3 探索的因子分析について

心理学の分野でよく利用される探索的データ解析の1つに,探索的因子分析(Ex- ploratory Factor Analysis,以下EFAと略す)がある。1960年代に確認的因子分 析(Confirmatory Factor Analysis,以下CFAと略す)が登場するまでは,単に因 子分析と言えばEFAのことを表していた。

因子分析は変数間の相関構造を直接観測することが不可能な少数の潜在変数(la-

tent variable)で説明する多変量解析の1手法である。EFAは得られた変数で構成

されるモデルが未知である場合に有効な手法であり,分析には因子の抽出と因子 パタン(factor pattern)の探索が含まれている。

1.3.1 モデルの定義

ここでは因子分析の基本的なモデルを豊田(2000)に従い定義する。p個の観測 変数を確率ベクトルとしてx = (x1, . . . , xp)として定義する。このとき因子分析 モデルは

x=µx+Af +e (1.3)

として表現される。ここでµxは平均ベクトル,Aは因子パタン行列,fは共通因 子(common factor)ベクトル,eは独自因子(unique factor)ベクトルである。

E[f] =0, E[e] =0, E[f e] =0 (1.4) を仮定すると,因子分析モデルの共分散構造は

Σ(θ) = fA +Σe (1.5)

(9)

となる。ここで共通因子間相関行列Σf は正定値行列,独自因子間行列Σeは対角 行列とする。

1.3.2 因子数の決定法

因子の抽出,すなわち因子数の選択には様々な方法が提案されている。例えば 良く使用される方法の1つとして,因子分析の結果の固有値が1より大きくなる数 を因子数として採用する方法がある(Guttman, 1954; Kaiser, 1960)。これをカイ ザー・ガットマン基準(Kaiser-Guttman criterion)と言う。これ以外にも,Cattell

(1966)により提案された,固有値を降順に折れ線グラフとしてプロットし,固有 値の減少が緩やかになる直前の因子数を採用するスクリー・テスト(scree test)

やHorn(1965)により提案された無作為標本を発生させて固有値の標本変動を補正

した平行分析(parallel analysis)などがある。あるいは因子数の選択をモデルの 選択と考え,AIC(Akaike Information Criterion)やBIC(Bayesian Information Criterion)などの情報量基準やGFI(Goodness of Fit Index),AGFI(Adjusted

Goodness of Fit Index)などの適合度指標を利用してモデル比較の観点から因子数

を決定する方法もある。

しかし,これらはすべて機械的な計算の結果による判断であり,変数の内容や モデルに対する研究仮説を全く反映できていない。ここにモデル探索という観点 からEFAを積極的に利用する場合の問題点がある。

1.3.3 因子の回転

回転には大きく分けて直交回転(orthogonal rotation)と斜交回転(oblique ro-

tation)の2種類があり,前者が因子間相関がない場合(nondiag(Σf) = (0))の,

後者が因子間相関を認める場合(nondiag(Σf)̸= (0))の回転方法である。回転は 元々は因子パタンの単純構造(simple structure)を発見するために行われるもの であった。しかし,モデル探索の観点から考えると,モデルは必ずしも単純構造

(10)

となる必要はない。なぜなら真のモデルが単純構造であるとは限らないからであ る。ここではモデルの複雑性(complexity)という概念を導入し,より柔軟なモデ ル探索が可能になる回転の方法を見る。

単純構造と複雑性

EFAにおける回転は,元々は因子を解釈しやすくするために因子パタンの単 純構造を発見する目的で行われていた。因子パタンの単純構造に関してはThur- stone(1947)が言及しており,Browne(2001)によるとThurstone(1947)の単純構造 のルールは以下の5つに要約される。ここでm は因子数,Λ は回転後の因子パタ ン行列を表している。

1. Λ の各行は少なくとも1個の0を含んでいる。

2. Λ の各列は少なくともm 個の0を含んでいる。

3. Λの任意の2列において,一方の列にのみ0を含むような若干個の行がある。

4. m 4の場合,Λ の任意の2列において,その両方の列に0を含むような若 干個の行がある。

5. Λ の任意の2列において,その両方の列が非ゼロとなるような行はほとんど 存在しない。

一方,因子パタンにおける変数の複雑性という概念も重要である。これは因子 パタン行列Λ において,その変数に対応する行の非ゼロ要素の数として定義され る。因子の回転は,通常この複雑性を少なくするようになされるが,モデルによっ ては複雑性を仮定する方が正しいという場合も考えられる。例えば,国語・数学・

理科・社会・英語という5変数に対して文系・理系という2因子のモデルを想定し てみる。この場合,英語は両因子からの影響を受けていると仮定する方が実質科

(11)

学的知見に合致していると考えられる。このように,モデルによっては変数の複 雑性をあらかじめ考慮した上で回転を行った方がよい場合もある。このことはモ デル探索の観点から十分な注意が必要だと考えられる。

回転基準

m次の正方行列T を用いて,共通因子ベクトルfT f のように変換する場合 を考える。すると(1.3)式の因子分析モデルは以下のように再表現できる。

x=µx+AT1T f +e (1.6)

したがって,初期の因子パタン行列AAT1のように変換される。T には無 数の候補が存在する(回転の不定性,rotational indeterminacy)が,このうち因 子パタン行列が最も最適な構造になるような回転行列Tを発見するために以下の ような関数Qを定義する。

Q(Λ) =Q(AT1) (1.7)

この関数Qを回転基準(rotation criteria)と呼び,これを最小化するようなT が 最適な回転行列Tとなる。ただし,直交回転の場合はT T =I,斜交回転の場合 はdiag(TΣfT) =Iという制約の下で最小化がなされる。

回転の目的が,例えば尺度開発のための1因子構造の発見であるならば,単純 構造の探索に強いVarimax回転やPromax回転を利用するのがよい。しかしなが ら先ほども述べたように,モデル探索を行う目的で回転を行うならば複雑性を考 慮した回転法を採用すべきである。ここでは近年,回転をモデル探索に利用する 場合に良く使用されるQuartimin回転,Geomin回転およびtarget回転の3つを紹 介する。

Quartimin回転 Quartimin回転における回転基準は以下である。

Q(Λ) =

p i=1

m j=1

m l̸=j

λ2ijλ2il (1.8)

(12)

もし各変数が1つの因子のみからパスを受けているなら,言い換えると変数の複 雑性が全て1であるならば,この回転基準の選択が最良となる。すなわち真のモ デルが単純構造を有している場合,Quartimin回転が最も効果的な回転基準にな るということである。この回転基準を選択した場合,回転関数の最小化は0に近 似することになる。しかし一般的に,次で示すGeomin回転でも同様の結果は得 られるため,近年ではこちらの方が推奨されている。

Geomin回転 この回転基準の基礎部分はThurstoneによって考案されたのだが,

それをYatesが修正して「Geomin」と命名した。Geomin回転は,「Λ の各行は少

なくとも1個の0を含んでいる」という単純構造に関するThurstoneの第1ルール に基づいている。

今,因子パタン行列Λ に関して,各要素を2乗し,行ごとに幾何平均をとって それら全ての和を計算することを考えてみる。すなわち,回転基準を以下のよう に表現する。

Q(Λ) =

p i=1

( m

j=1

λ2ij )1

m

(1.9)

(1.9)式では因子パタン行列の各行に少なくとも1つの0が存在すれば,式全体

が0に最小化されることがわかる。しかしながら,これは各行において,ある要 素がたった1つ0であるということによって,その他の要素の値にかかわらず自 動的に最小化されてしまうということでもある。これは言い換えれば,(1.9)式の 値が0となる複数の解が存在するということであり,最良の回転行列を発見する という目的からは問題がある。この問題点に対処するために,微少値ϵ を導入し,

(1.9)式を以下のように修正する。

Q(Λ) =

p i=1

[ m

j=1

(λ2ij +ϵ)]m1

(1.10) これにより,(1.9)式の下限値における解の不定性が除去される。現在では,こ

の(1.10)式の方をgeomin回転基準の定義式としている。

(13)

なお,ϵの値に関しては明確な基準はないが,因子数が3から4の場合はϵ= 0.01

,因子数がそれ以上の場合はそれに併せてϵ の値を大きく設定することでうまく いくことが経験的に知られている。また,geomin回転は変数の複雑性が2以下の 時に優れたパフォーマンスを発揮するといわれている。

target回転 この回転基準は,概念的には「EFAにおける回転の機械的なアプ ローチ」と「分析者の仮説を反映したCFAモデル」との折衷的な方法だといわれ ている(Asparouhov & Muth´en, 2008)。この回転基準では目標となる因子パタン 行列Bを設定し,Λをできるだけそれに近づくように回転する。しかしこのとき,

目標因子パタンB の全ての要素を特定する必要はなく,自身の仮説に基づき全要 素のうちの一部分を指定するだけでよい1。例えば3因子10変数の場合,目標因子 パタンB を以下のように設定する。ここでは特に値を指定しない要素を表して おり,また指定する場合も0以外の任意の値でも良い。

B =



1 0 0.5 0 ∗ ∗ ∗ ∗ 0 0 ∗ ∗ ∗ ∗ ∗ 0 0

∗ ∗ ∗ 0.5 ∗ ∗ 0 0 ∗ ∗

 (1.11)

target回転の回転基準は以下のように表現される。

Q(Λ) =

p i=1

m j=1

aijij −bij)2 (1.12) ここで,aijbij の値が指定されるなら1,bij の値が指定されないなら0とする。

このtarget回転はモデルの中に複雑性が3以上の変数がある場合に優れたパフォー

マンスを発揮するといわれている。

回転アルゴリズム

従来の回転アルゴリズムは,(1.7)式を

g(T) =Q(Λ) =Q(AT1) (1.13)

1ただし識別性の観点から,直交回転で各列(m1)/2 個の要素を,斜交回転で各列m1 の要素を最低限指定する必要はある。

(14)

とし,このgを反復計算により最適化するというものであった。しかし,近年,回転 基準Qを直接最適化する勾配射影アルゴリズム(Gradient Projection Algorithm;

以下GPアルゴリズムと略す)という手法がJenrich(2001, 2002)によって提案さ れた。この手法は次のようにして計算を行う。

まずはじめにMをすべての行列の多様体(manifold)とする。次にT の現在の 値を与え,gのT における勾配Gを計算し,T から負の勾配方向へα単位だけ移 動させる。そしてその結果を多様体M上に射影させる。このときの値を射影Te とする。Jennrich(2001, 2002)において,T がMに制約されたgの停留点でない 場合,

g(Te)< g(T) (1.14)

となることが証明されている。したがって,後はTeをT に置き換え,このような 計算を繰り返すことによって最適なT を求めるのがGPアルゴリズムである。こ れを一般的な手順としてまとめると以下のようになる。

1. 初期回転行列T を選択する。

2. T におけるgの勾配G=dg/dT を計算する。

3. 多様態上においてTT −αGの射影に置き換える。

4. 最適解でない場合はステップ2に戻る。そうでなければ計算を終了する。

ただしステップ2において,G=GqT1)で表されることが知られている

(Jenrich, 2002)。ここでGqは回転基準QΛにおける勾配である。したがって GPアルゴリズムは,gのT における勾配よりも回転基準QΛにおける勾配を 使用することでより単純化されていることがわかる。これがGPアルゴリズムと 従来のアルゴリズムとの大きな違いである。

(15)

1.3.4 EFA から CFA

因子分析は20世紀初頭にイギリスの心理学者C.Spearmanが知能構造の分析手 法として発表した論文から始まった(Spearman,1904)。Spearman(1904)では9 歳から13歳の生徒に Classics , French , English , Mathematics , Pitch discrimination , Music talent の6つのテストを実施し,そこから得られた相 関行列を分析することによって知能の1因子モデルを提案した。このSpearmanの 1因子モデルとは,科目間の関連構造を,すべての科目に共通して影響を与える一 般因子と一般因子では説明できない個々の科目に特有の独自因子に分離して説明 するものである。この1因子モデルはBurt(1909)など多くの心理学者や統計学者 によって詳細に論じられた。

その後,Thurstone(1931)やThurstone(1934)などで1因子モデルから多因子モデ ル(multiple factor model)へと拡張され,モデルで扱える因子数が増加した。この 後,約30年をかけて多因子モデルに関する性質が詳しく調べられ,同時に数学的に も整備されるようになった。その結果がHarman(1960)やLawley & Maxwell(1963) などの書籍にまとめられており,因子分析を多くの研究者に広く知らしめる要因 となった。

しかし1960年代後半になると,これまでの古典的EFAは必ずしもデータに内 在する仮説構造を確証するためには有効ではないという考えが広まり(柳井・繁 桝・前川・市川,1990),EFAは盲目的因子分析(blind factor analysis)として非 難されるようになった。このEFAに代わるのがJ¨oreskog(1969)によるCFAであ る。CFAでは先行研究や研究者の事前の知識を積極的に盛り込み,仮説的構造を 仮定して因子分析を行う。このCFAが,後にパス解析などの因果分析の考え方を 取り入れ,確認的分析の集大成であるSEMへと発展したという経緯がある。

(16)

1.4 探索的構造方程式モデリング

SEMは代表的な確認的分析手法であるが,近年,EFAの考えを取り入れ,EDA 的アプローチとして活用しようという動きが見られるようになった(Asparouhov et

al., 2008)。これはSEMが確認的アプローチであると言っても,最初からデータを適

切に反映したモデルを構築することは難しく,多くの場合,修正指標(modification index)などを利用してモデル探索を行っているからである。

しかし修正指標によるモデル探索は,誤ってパスを削除する,すなわち「誤って 因子パタンを0に制約することで因子の意味が変化してしまう」などの問題点も 指摘されており,必ずしも最適な方法とは言えない(Browne, 2001)。また同じく

Browne(2001)では,CFAにおいてパスの追加や削除を行うことは「もはや『確認

的』ではなく『探索的』であり,修正指標を試すよりも,むしろ因子の回転を利 用した方がより直接的である」と述べている。

そこでこれらの点を考慮し,SEMにおける探索的アプローチとして,EFAの回 転を利用した探索的構造方程式モデリング(Exploratory SEM,以下ESEMと略 す)という方法がAsparouhov & Muth´en(2008)により提案された。ESEMはEFA をSEMの一部として完全に統合しているので,多母集団モデルや平均構造の導入,

残差間の相関の仮定などSEM特有の手法にも応用可能であり,EDAとCDAの折 衷的なデータ解析法として非常に優れている。

1.4.1 ESEM とは

ESEMとは,SEMのモデルの中にEFAパートを導入し,CFAパートとの統合 を図った探索的なモデリング技法のことである。SEMにおける各種母数はEFA パートの変換行列Hを利用して変換を行う。

(17)

回転における不定性

SEMを利用してモデルを構築する場合,一般的に識別条件を満たしている必要 がある。識別条件を満たしていない場合,モデルは識別不定となり,解は求まら ない。モデルを識別不定にしている原因の1つとして,潜在変数の尺度があげら れる。これを解決するためには,一般的に「潜在変数の分散を1に固定する」か,

あるいは「因子パタン行列 の各列において1つの要素を1に固定する」という2 通りのアプローチがとられる2。しかしながら,潜在変数の尺度が識別されるとき でさえ,潜在変数の数mが2以上の時にはさらなる識別可能性問題が現れる。

まずp個の従属変数y= (y1, . . . , yp),q個の独立変数x= (x1, . . . , xq)を仮定し,

m個の潜在変数η を持つ以下のような一般的な構造方程式モデルを考える。

y=ν+Λη+Kx+ϵ (1.15)

η=α++Γx+ξ (1.16)

標準的な仮定では,ϵは平均0・分散共分散行列Θの多変量正規分布に,ξは平均

0・分散共分散行列Ψの多変量正規分布に従う。

ここで,潜在変数ベクトルηm次の正方行列Hを用いて のように変換 することを考える。このとき(1.15)式の測定方程式は

y=ν +ΛH1+Kx+ϵ (1.17)

のように再表現できる。同様にして(1.16)式の構造方程式も以下のように再表現 できる。

=+HBH1+HΓx+ (1.18)

H にはm2 の要素があるので,モデルはm2個の不定性を持つことになる。古 典的EFAと同様にESEMでもこの不定性を利用して回転を行い,そのときに最小

2ここでは全ての因子パタンが推定されるものとし,潜在変数の分散を1に固定する方法をとる。

(18)

化された回転基準から算出された最適な変換行列Hを利用して各種母数の変換 を行うのである。

変換行列による母数の変換

各従属変数の尺度が異なっている場合,行列Λの要素も異なる尺度になってし まう。このとき回転基準の最小化をしても局所最適解に陥ってしまう。EFAでは,

この問題を解決するために回転の前に母数Λの標準化を行う3。これはESEMに おいても同様である。

今,Σyを次元pの対角行列とする。ここで,i番目の対角要素は変数yiの標準 偏差である。この対角行列は以下のように定義される。

Σy =

diag(ΛΨΛ+Θ) (1.19)

すると,規準化された因子パタン行列はΣy1Λと表記でき,回転基準はfy1ΛH1) となるので後はこれを最小化すればよい。ただし,あらかじめ従属変数yが平均 0・分散1に標準化されていれば,f(ΛH1)を最小化することになる。このとき に計算された最適な構造を有する因子パタン行列をΛと表記して,これを回転さ れた標準化解(rotated standardized solution)と呼び,このときに利用された最 適な変換行列をHと表記する。

古典的EFAでは,因子の回転は因子パタン行列Λと因子間相関行列Ψのみに 影響を与えた。しかしESEMでは,この最適な変換行列Hを用いて以下のよう

3あるいはΛを標準化するのではなく,最初に従属変数を平均0・分散1に標準化してから回転 してもよい。

(19)

にほぼ全ての母数を調整することになる。

ν =ν (1.20)

Λ =Λ(H)1 (1.21)

K =K (1.22)

Θ =Θ (1.23)

α =Hα (1.24)

B =HB(H)1 (1.25)

Γ =HΓ (1.26)

Ψ = (H)TΨH (1.27)

1.5 ESEM の適用例

自己効力感(self-efficacy)とはある結果を達成できる可能性の自己の予期であ り,Bandura(1977)を端緒として主に医療・教育場面で多くの研究が行われてき た。例えば坂野・東條(1986)は一般性セルフ・エフィカシー尺度(General Self Efficacy Scale)を作成し,さらに坂野(1989)においてその信頼性と妥当性を検 証している。また伊藤(1996)ではPintrich & De Groot(1990)の学習方略の尺 度をもとに自己効力感と原因帰属との関係を検討している。三宅(2000)は特性 的自己効力感(generalized self-efficacy:以下GSEとする)と課題固有の自己効力 感(task-specific self-efficacy:以下SSEとする)に注目し,GSEがSSEの変容に 及ぼす影響を検討した。ここでGSEとは過去の経験により構成された一般的な日 常場面での行動に影響する自己効力感であり,SSEとは特定の課題や場面に特異 的に影響を及ぼす自己効力感のことである。

自己効力感をSEMのモデルの一部に取り入れた研究としては松沼(2004)があ る。この研究では小学4年生の算数のテスト成績を予測するための変数として「自 己調整学習」「テスト不安」「算数自己効力感」「SSE」「認知的干渉」を取り上げ,

(20)

モデル化を行い関連構造を検討している。ここで自己調整学習とは生徒自らが認 知および行動を調整していく学習方略のことであり(Corno & Mandinach, 1983),

認知的干渉とは課題に無関連の否定的な思考のために解答に注意を集中できなく なることである(Sarason & Stoops, 1978)。またここでのSSEはテスト場面に特 有の自己効力感である。

本節ではこのGSEとSSEに注目し,統計学を学習するという場面に関して構築 したモデルを,ESEMを利用してそのモデルの修正と検討を行う。

1.5.1 方法

調査協力者 東京都内のある私立大学で心理学を専攻している学生のうち,2007 年度の心理統計学の授業を受講した学生100名(男性33名,女性67名)。

調査材料 GSE・自己調整学習・テスト不安・SSE(統計自己効力感)の尺度を測

定するために17項目の質問紙を作成した。それぞれの尺度は3項目から5項目で 構成されており,各質問項目は全て5件法とした。

自己効力感の項目に関して,GSEは成田・下仲・中里・河合・佐藤・長田(1995)

より5項目を選択して利用した。一方SSEには,統計学におけるテスト場面特有 の自己効力感を想定し,独自に作成した。またGSEとSSE以外にも,統計学そ のものに対する自己効力感として統計自己効力感(Statistics Self-Efficacy,StSE)

も取り上げ,これに関しては松沼(2004)で作成された算数自己効力感尺度の中 から5項目を選択して,それを参考に大学生用に表記を一部変更して作成した。こ れらの質問項目を表1.1に示す。各質問項目は全て5件法とした。

一方,試験問題は要約統計量・分散分析・調査法の内容に関するものであり,各 項目において4問ずつ,合計12問の試験であった。なお解答は5つの中から正解 を1つ選ぶ選択式であった。

(21)

表 1.1: 自己効力感に関する質問項目(StSEは統計自己効力感,GSEは特性的自己効力 感,SSEは統計におけるテスト場面特有の自己効力感。なお,GSEに関しては全て反転 項目。)

構成概念 質問項目

StSE 1.私は統計学が得意だと思う。

2.私は統計学でよい成績が取れると思う。

3.私は統計学の学力は優れていると思う。

4.私は統計学の学習内容について多くのことを知っていると思う。

5.私は統計学の勉強のやり方を知っていると思う。

GSE 6.重要な目標を決めても,めったに成功しない。

7.困難に出会うのを避ける。

8.非常にややこしく見えることには,手を出そうとは思わない。

9.すぐにあきらめてしまう。

10.思いがけない問題が起こった時,それをうまく処理できない。

SSE 11.試験で要約統計量に関する問題が出たとき,適切に回答できると思う。

12.試験で分散分析に関する問題が出たとき,適切に回答できると思う。

13.試験で調査法に関する問題が出たとき,適切に回答できると思う。

手続き 2007年度学年末の心理統計学の最終講義時に,担当教員の許可の下で質 問紙と試験が実施された。質問紙と試験は記名式で実施されたが,その結果は授 業の成績とは一切関係ないことが担当教員から伝えられた。質問紙は検査者が1項 目ずつ読み上げていき,検査協力者はそれに合わせて回答していくよう求められ た。一方,試験の制限時間は10分間であった。調査協力者は質問紙の回答が全員 終了した後に試験が実施された。

1.5.2 結果

試験に関して,採点は1問1点でこれら3つの内容ごとに合計し,その3変数を 説明する因子として授業理解度を仮定する。また質問紙に関して,反転項目は6か ら引くことで全て逆転させ,各尺度特性の高い学生ほど高得点となるようにした。

このようなデータを用いて,まず最初に図1.1のようなモデルを構築して分析を

(22)

図 1.1: 自己効力感と授業理解度に関する初期モデル

行った。なお分析にはMplus Ver.5.1を使用した4。分析の結果,適合度は以下の ようになった。

CFI = 0.893, RMSEA = 0.079

このように最初に仮定したモデルはそれほど悪くはなかったが,ここではモデ ルのさらなる改良のために,図1.1のCFAパート1を図1.2のようにEFAモデル に置き換えて,ESEMを適用した。なお,因子の回転にはϵ = 0.0001のGeomin 回転を使用した。

その結果,モデルの適合度は

CFI = 0.905, RMSEA = 0.078

となり,若干の向上が見られた。両モデルの標準化解を表1.2に示す。

4http://www.statmodel.com/を参照。なおESEMを使用するには,Mplusのバージョンは5.1 以降でなければならない。

(23)

図 1.2: 自己効力感と授業理解度に関するESEM(ϵ = 0.0001のGeomin回転を 使用)

表 1.2: CFAおよびESEMにおけるCFAパート1の因子パタンの比較(ESEMにおい て,回転にはϵ= 0.0001Geomin回転を使用した)

CFA ESEM CFA ESEM

StSE GSE StSE GSE StSE GSE StSE GSE

項目1 0.30 0 0.35 -0.05 項目6 0 0.84 -0.02 0.84 項目2 0.52 0 0.50 -0.17 項目7 0 0.82 0.01 0.82 項目3 0.62 0 0.61 0.11 項目8 0 0.85 -0.09 0.86 項目4 0.68 0 0.65 0.00 項目9 0 0.76 0.15 0.75 項目5 0.25 0 0.26 0.22 項目10 0 0.61 0.09 0.61

(24)

表1.2を見るとわかるように,ESEMによる回転の結果,因子パタンはほぼ単 純構造となっており,CFAにおける結果と近似している。しかし項目5は,StSE とGSEの両因子からの影響を受けており,変数の複雑性が2となっていた。した がって項目5に関して,図1.1ではGSEからのパス係数は0に制約しているわけ であるが,これは誤った制約である可能性がある。

表1.1より,項目5は「私は統計学の勉強のやり方を知っていると思う。」であっ た。「勉強の方法」とは過去の経験とその蓄積に基づいて形成されていくものであ り,それに対する自己効力感は統計学に限ったものではない。したがって,項目5 が一般的な自己効力感であるGSEの影響を受けているという結果も不自然ではな いだろう。このように回転による探索的アプローチの結果は実質科学的にも妥当 なものであると考えられる。

1.6 ESEM の限界

ESEMはSEMにEFAを融合することで,本来的には確認的分析であるはずの SEMをモデル探索にも使用できるという点で優れている。しかし,探索可能な空 間は因子パタンに属するところのみであり,潜在変数間のパスの探索や誤差変数間 の探索には使用できない。またESEMが前提としている状況は,因子数は既知で あるが因子の意味は未知であるような場合であるが,このような条件が成立する ような状況はごくまれであろう。ESEMは飽くまで修正指標を利用する代わりの モデル修正のための方法として考案されたということである。したがって,SEM をEDA的なアプローチとして使いたい場合,これらの点を解決し,さらには機械 的な探索と同時に自身の研究仮説も反映できる探索法を考案する必要がある。

(25)

2 章 機械学習における探索的分析

2.1 機械学習について

統計学とは異なる分野で発展してきたデータ解析法の1つに機械学習(machine laerning)というものがある。計算機科学の分野を起源とする機械学習は,もとも とは人間が有している学習能力と同等の機能を計算機に実装するための手段とし て,主に人工知能(artificial intelligence)の分野で研究がなされてきた。しかし 研究が進むにつれて,人工知能だけではなく,大量のデータから計算機を用いて 自動的に有効な知見を発見するためのデータ解析として用いられるようになった。

近年では,これはデータマイニングとして知られている。

上記でも述べたが,データ解析における機械学習の大きな特徴は,与えられた データから自動的に有効な知見を発見する目的で使用されることである。なお,こ こで言う有効な知見とは「重要なデータの抽出」「異常データの検出」「データ間 の関連性の探索」「モデルの発見」「規則の発見」などのことである。そして発見し た知見を基にして,それらの結果を一般化し,新規データに対して予測及び制御 を可能にすることが求められる。これら一連の流れが機械学習の扱う範囲である。

現在,機械学習は「検索エンジン」「医療診断」「遺伝子診断」「迷惑メールの フィルタリング」「株式・金融市場の予測」「DNA塩基配列の解析」「パターン認 識」「ゲーム戦略」「ロボット」「コンピュータビジョン」「生命・進化の解析」「意 志決定」「翻訳システム」など幅広い分野で使用されている。また,扱う研究領域 も計算機科学だけではなく,「ロボット工学」「生命工学」「遺伝子工学」「教育工 学」「医学」「薬学」など理工系の学問はもちろんのこと,「経済学」「経営学」「オ

(26)

ペレーションズリサーチ」「マーケティング」そして「心理学」などの人文社会科 学系の学問でも利用されるようになった。これは多くの研究者が,探索的なデー タ解析において,機械学習が非常に有用であるということに気づいたからと言え るだろう。

機械学習のアルゴリズムは,大きく分けて以下の2つがある。

1. 教師あり学習(supervised learning)

2. 教師なし学習(unsupervised learning)

教師あり学習とは何らかの教師信号を基にして学習を進め,モデル探索やデータ のフィッティングを行うアルゴリズムである。このアルゴリズムは回帰問題や分類 問題に利用されることが多く,誤差逆伝播法(backpropagation)などがその例で ある。一方,教師なし学習は問題を解決する際に,指標となる教師信号が用意さ れておらず,得られたデータの相互関係から探索的に学習を進めていくアルゴリ ズムのことである。強化学習(reinforcement learning)などが教師なし学習の例 である。

機械学習には目的に応じて多くの分析手法が用意されている。例えば「回帰モデ ル」「判別モデル」「クラスタリング」「樹形モデル」「グラフィカルモデル」「ニュー ラルネットワーク」「自己組織化マップ」「サポートベクトルマシン」などが有名 である。これらの各種分析手法は上記のどちらかの学習アルゴリズムを用いて実 装されている。

2.2 統計的機械学習

このように統計学とは全く異なる分野で発展してきた機械学習であるが,近年で は統計学,特にベイズ理論との融合が進み,統計的機械学習(statistical machine learning)として急速に発展している(杉山,2009;Bishop, 2006)。古典的な機 械学習を統計学の観点から見た場合,得られたデータをモデルに当てはめている

(27)

だけに過ぎなかった。つまり母集団を想定せず,また各変数にも確率分布を仮定 しないので,計算された母数の標準誤差や信頼区間を求めることは考慮していな い。これは決定論的(deterministic)であると言える。そのため古典的な機械学習 では,統計学で扱うよりも複雑なモデルを構築することが可能ではあるが,得ら れたデータの構造的な特徴を利用するので,結果は得られたデータに依存してし まう。

それに対して統計的機械学習はデータの背後に母集団を想定し,各変数にも確 率分布を仮定して,モデル及び母数に対して統計的な推測を行う。したがって得 られる結果は常に確率的(stochastic)である。そのため決定論的機械学習と異な

り常に100%の結果を得られるわけではないが,得られた対象の構造に依存する部

分を切り離すため,データの構造によらない一般的な議論を展開することが可能 である。

2.2.1 ベイズ統計学

統計的機械学習ではベイズ統計学(Bayesian statistics)という学問が重要とな る。上記でも述べたように,統計的機械学習では各変数に確率分布を仮定する。し たがって各変数は確率変数であり,得られる結果は常に確率的である。ただしベ イズ統計学における「確率的」とは不確かさの度合いを表すものであり,一般的 な頻度論に基づいた確率とは意味が異なることには注意が必要である。このよう に,確率に対して不確実性の度合いを与えることを「ベイズ的(Bayesian)」と言 い,統計的機械学習においてモデルを構築するのに主要な役割を果たす。統計的 機械学習を理解するためには,まずはこのベイズ的に確率を扱う理論,すなわち ベイズ統計学を知っておく必要がある。

ベイズ統計学における「ベイズ」はThomas Bayesの名に由来する。彼はイギ リスのタンブリッジ・ウェルズに生まれ,聖職者でもあり,科学者でもあり,数学 者でもあった。彼の功績の1つは18世紀に起こった確率に関する議論で,その中

(28)

でも特に「逆確率(inverse probability)」に関する問題に取り組んだことである。

逆確率の問題とは,結果を見てからその原因が何であったのかをいかにして確率 的に推測するのかということであり,このように通常の因果の流れとは逆に確率 を求めることから逆確率と呼ばれている。Bayesはこの逆確率を求めるための方法 を論文に発表して定式化した。この解法を一般化したものが現在よく知られてい る「ベイズの定理(Bayes’ theorem)」であり,ベイズ統計学の根幹を成す概念と して非常に重要である。統計的機械学習では,このベイズの定理を中心としたベ イズ統計学の理論が1つの基礎となる。

2.2.2 ベイズの定理

19世紀初頭,数学者のPierre-Simon Laplaceは確率論に関する著書(確率の解 析理論)を著し,その中でBayesとは別に,彼が独自に発見した逆確率の解法に ついて述べている。Laplaceの逆確率の解法はBayesによる解法に一致するもので あったが,Laplaceによる解法はBayesのそれをさらに一般化し,広い応用可能性 を示したものであった。このLaplaceの逆確率の解法が後にベイズの定理と名づけ られた。

ベイズの定理はベイズ統計学の中で中心的な役割を果たすが,それだけではな く統計的機械学習においても重要な役割を演ずる。しかしベイズの定理の導出は 非常に簡単であり,確率の乗法定理から直ちに導くことができる。

ここで,ある確率変数XY を離散型の確率変数であると仮定する。この場合,

確率の乗法定理は以下で表される。

p(X, Y) =p(Y|X)p(X) (2.1)

ここでp(X, Y)は同時確率(joint probability),p(Y|X)は条件付き確率(condi- tional probability),p(X)は周辺確率(marginal probability)である。このうち

(29)

同時確率p(X, Y)は,その対称性から以下のようにも表現できる。

p(X, Y) = p(Y, X) = p(X|Y)p(Y) (2.2)

(2.1)式と(2.2)式を等式で結び,式を整理することで以下のようなベイズの定理

が得られる

p(Y|X)p(X) = p(X|Y)p(Y) p(Y|X) = p(X|Y)p(Y)

p(X) (2.3)

さらに分子のp(X)に関して,以下の確率の加法定理 p(X) =

Y

p(X, Y) (2.4)

と(2.2)式を利用して以下のように表現する。

p(X) =

Y

p(X, Y) =∑

Y

p(Y, X) =

Y

p(X|Y)p(Y) (2.5) するとベイズの定理は以下のようになる。この式から,ベイズの定理の分母は分 子に現れる量を使って表現できることがわかる。

p(Y|X) = p(X|Y)p(Y)

Y p(X|Y)p(Y) (2.6)

ここでXを結果となる事象を表す確率変数,Y を原因となる事象を表す確率変 数に置き換えて,以下のようにしてもう一度ベイズの定理を眺めるとその有効性 がわかる。

p(原因|結果) = p(結果|原因)p(原因) p(結果)

すなわちベイズの定理とは「原因から結果へ」という通常の因果の流れの中で得ら れる確率(右辺)を計算することで,ある結果が得られるときにその原因となったの は何かという確率(左辺)を求めることができる方法である。ここでp(原因)は当該 事象の前にもともと得られている確率なので「事前確率(priori probability)」,左辺

(30)

p(原因|結果)は結果が得られた後で求められる確率なので「事後確率(posterior probability)」と呼ばれている。もし確率変数が離散量ではなく連続量であったな らば,事前確率と事後確率はそれぞれ「事前分布(prior distribution)」「事後分布

(posterior distribution)」と呼ぶ。なお,確率変数が連続量である場合の確率の定 義は次節で行う。

2.3 グラフィカルモデル

航空機や原子力発電所の動力システムは小さな故障が大災害へとつながるため,

その運営には細心の注意を持ってなされる。しかし人がどれだけ注意深く整備し ても,長く使用していれば必ずどこかに障害が発生してしまう。そのため,あら ゆるシステムには機器の監視をするために何らかのセンサーが取り付けられてい る。システムのどこかに故障箇所があれば,そのセンサーを通じて人にシステム の異常を知らせるというわけである。

しかし上述した航空機のエンジンシステムや原子力発電プラントのようにシス テムが巨大になれば,1つのセンサーで全体を監視することは不可能になる。その ため通常はシステムを複数のサブシステムに分割し,複数のセンサーを取り付け ることによって異常を知らせる可能性を上げ,障害箇所の特定をしやすくさせる。

だがそれらサブシステムはそれぞれが独立に作動しているわけではない。あるサ ブシステムは他のサブシステムと直接,あるいは間接的に複雑に絡み合い,その 調和として全体のシステムが構成されている。したがって,あるセンサーSが反 応したとしても,そのセンサーSが直接監視している部分のみが故障箇所である とは断言できない。なぜなら,あるサブシステムAの故障の影響がB→C→D· · · と連鎖的に反応して,その結果としてセンサーSが反応したという可能性がある からだ。このように考えると,複雑なシステムになれば,それに伴い故障箇所の 特定は困難になることがわかる。

この場合,システム全体を表す「モデル」を構築しておき,当該センサーが反

(31)

応したときに「どの部分が最も故障している可能性が高そうか」を確率的に計算 できれば,故障箇所の特定はしやすくなるのではないだろうか。このような要請 は機器の故障診断に限ったことではない。例えば,人体を1つの巨大なシステム とみなし,体の不調に関して複数の検査の結果から病気を特定する場合でも同様 である。

このように原因あるいは影響関係を探るためには,そのシステムあるいは状況 全体をモデルとして表現しておくと便利である。この目的に有用な探索的分析手 法の1つにグラフィカルモデル(graphical model)がある。グラフィカルモデル を利用すると,観測されたデータから探索的にその変数間の影響関係がモデル化 できるのである。

グラフィカルモデルは大きく分けて以下のような3つの特徴を持っている(Bishop, 2006;元田・栗田・樋口・松本・村田,2008)。

1. 確率モデルの構造を視覚化する簡単な方法を提供し,新しいモデルの設計方 針を決めるのに役立つ。

2. グラフの構造を調べることにより,条件付き独立性などのモデルの性質に関 する知見が得られる。

3. 精巧なモデルにおいて推論や学習を実行するためには複雑な計算が必要とな るが,これを数学的な表現を暗に伴うグラフ上の操作として表現することが できる。

このグラフィカルモデルは数学のグラフ理論を用いて変数間の影響関係を表現す るのであるが,その影響の仕方から3つのモデルが存在する。1つ目は有向グラ フ(directed graph)のみで表現されたモデルであり,ベイジアンネットワーク

(Bayesian network)と呼ばれる。2つ目は無向グラフ(undirected graph)のみで 表現されたモデルで,マルコフ確率場(Markov random field)あるいはマルコフ ネットワーク(Markov network)と呼ばれる。3つ目は有向グラフと無向グラフ

(32)

の両方をモデルの中に含んだハイブリッドグラフ(hybrid graph)あるいは連鎖グ ラフ(chain graph)である。本節ではグラフィカルモデルを表現するのに必要な 3つの主要な概念(確率論,条件付き独立,グラフ理論)に関して簡単にまとめて おく。グラフィカルモデルはグラフを用いた確率モデルであるので,これらの性 質を定義しておくことは理論的考察を行う上で極めて重要である。

2.3.1 確率論

確率論(Probability theory)の歴史は1654年ごろに行われた,フランス人数学 者のBlaise PascalとPierre de Fermatの間の往復書簡によって始まったといわれ ている。しかしそのきっかけとなったのは,フランスの貴族であったChevalier de M´er´eがあるギャンブルにおいて自分が有利になるか不利になるかの計算の仕方を

友人のPascalに相談したことであった。

その後,確率論は数学の一分野として定着し,さまざまな理論的発展を遂げる が,その歴史の中で最も重要な役割を果たしたのは当時のフランスにおいて自他 共に認める最高の数学者Pierre-Simon Laplaceであった。彼が考案した確率論は 頻度主義的な解釈に基づいている。これはつまり,ランダムな繰り返し試行の頻 度として確率を定義するということであり,現在では古典的確率と呼ばれている。

これに対して現代確率論は公理主義的であり,集合論(set theory)や測度論

(measure theory)を基礎に据えた解析学(analysis)の一分野として確立してい る。このような確率論の流れは,1933年にAndrey Nikolaevich Kolmogorovが著 した「確率の基礎概念」という著書に始まる。本項では,このKolmogorovの公理 主義的確率論に基づき,確率を定義する。このような確率は客観的であるが,こ こで述べることはベイズ統計学のような主観確率を問題とする場合でも論じるこ とが可能である。

現代確率論を数学的に考察する場合,その出発点となるのは確率空間(probability

space)である。確率空間は,標本空間Ω,完全加法族F,確率測度P の3つで定

(33)

義され,(Ω,F, P)と表記される。ここで標本空間Ωとは,確率の問題としている 対象において,偶然に起こりうるすべての結果の集合のことである。ただし空集 合ではないとする。

次に完全加法族F について述べる。まず始めに,事象とは標本空間Ωにおける 部分集合の中で特別に選ばれたもののことを意味すると言うことに注意する。Ω の部分集合には任意のものを選べるが,そのすべてに対して確率が定義されてい るとは限らない。つまりΩの任意の部分集合のうち,確率が定義されるものを事 象と呼ぶのである。またその事象全体は完全加法族(completely additive class),

あるいはσ−集合体(σfield)として特徴づけられる。逆に言えば,Ωを標本空 間とする確率は,標本空間Ω上の完全加法族Fの上に定義されていると言うこと である。

なお,事象全体の系が標本空間の完全加法族であるためには,以下の3つの条 件を満たしている必要がある(伊藤,2004)。

1. その抽象空間それ自身を元として持つ。今その空間をΩ,問題の集合系をF とすれば,

F ∋

2. Fに属する加算無限個の元(Ωの集合)の和集合もまたFに属する。記号的 には

E1, E2, E3,· · · ∈ Fならば

k=1

Ek ∈ F

3. F に属する元(集合)の余集合もまたFに属する。すなわちE ∈ Fならば Ω−E ∈ F

最後に確率測度P について述べる。一般に標本空間ΩとΩ上の完全加法族Fと を組にしたもの(Ω,F)を可測空間(measurable space)という。このとき確率測 度とはF上に定義された関数P で,以下の条件を満たすもののことを言う(佐藤,

(34)

1994)。ここでNは自然数全体を表しているとする。また,この確率測度は単に確 率,あるいはEP−測度とも呼ばれる。

1. 任意のE ∈ Fに対して0≤P(E)1 2. P(Ω) = 1

3. (完全加法性) Ek ∈ F, Ek∩El =(k ̸=l), k, l∈Nであれば P(

k=1

Ek) =

k=1

P(Ek)

ここで標本空間Ωからのある試行をωとし,X =X(ω)をΩ上に定義された−∞を含めた実数の値をとる関数とする。このとき任意の実数αに対して

{ω∈Ω :X(ω)> α} ∈ F (2.7)

となるときにXを可測空間上の可測関数(measurable function)という(佐藤,

1994)。また,この可測関数Xのことを確率変数と呼び,確率空間(Ω,F, P)上の

確率変数として定義される。このように確率および確率変数を定義することで,条 件付き確率(conditional probability)を以下のように定義できる。

定義(条件付き確率) X, Y を確率空間(Ω,F, P)上の確率変数とする。このと きXが所与の時のY の確率P(Y|X)

P(Y|X) = P(X, Y)

P(X) (2.8)

として表され,これを条件付き確率という。

また,ここから直ちに以下の系が導かれる。

(35)

P(X, Y) =P(Y|X)P(X)  

これは確率の乗法定理として知られている。条件付き確率も確率の乗法定理も 前節で使用したが,このときは頻度主義に基づいた確率であったので,離散確率 変数にしか適用できなかった。しかし,このように測度論に基づいて確率および 確率空間を定義することにより,確率変数が連続量の場合でもこれらの性質を使 用できることになる。当然ベイズの定理も,連続確率変数における確率の場合に 拡張可能である。

またこれらの性質が使用できるのは,連続確率変数における確率の場合だけでは ない。連続確率変数の確率分布(probability distribution)の場合にも適用できる。

2.3.2 条件付き独立

次にグラフィカルモデルを考察するに当たって,重要な概念となる独立(inde- pendence)及び条件付き独立(conditional independence)(Dawid, 1980)について 述べる。

定義(独立) X, Y を確率空間(Ω,F, P)上の確率変数とする。このとき以下が 成り立てば,確率変数XY は互いに独立であるという。

P(X, Y) =P(X)P(Y) (2.9)

これはXY が独立であるための必要十分条件である。また,確率変数がn個 (X1, X2, . . . , Xn)の場合も同様にして定義される。

P(X1, X2, . . . , Xn) =P(X1)P(X2)· · ·P(Xn) (2.10)  

これに対して条件付き独立は以下のようにして定義される。

参照

関連したドキュメント

まず, Int.V の低い A-Line が形成される要因について検.

2 解析手法 2.1 解析手法の概要 本研究で用いる個別要素法は計算負担が大きく,山

経済学・経営学の専門的な知識を学ぶた めの基礎的な学力を備え、ダイナミック

(平成 10 年法律第 114 号。)第 15 条に基づく積極的疫学調査の一環として、「新型コロナ

Recently,increasingofagedpersonswholeadasolitarylife,unexpectedaccidentsintheir

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

1年生を対象とした薬学早期体験学習を9 月に 実 施し,辰巳化 学( 株 )松 任 第 一 工 場,参天製薬(株)能登工場 ,

[r]