SEM を利用した新しい探索的データ解析法の開発

(1)

SEM を利用した

新しい探索的データ解析法の開発

福中公輔

(2)

第 1 _章 SEM _{における探索的データ} 解析

1.1 探索的データ解析について

探索的データ解析（Exploratory Data Analysis，以下EDAと略す）とはその名の通り，調査あるいは実験などで得られたデータの構造を探索的に探り出すことを目的とした統計的データ解析手法の総称である。EDAはデータの平均や相関など基礎統計量の考察から，多変量解析による分析や分析結果の視覚化（visualization）

に至るまで，その扱う範囲は幅広い。また最近の動向の1つとして，WebシステムやPOSシステムなどにより，自動的に集められた大量のデータから，意味のある情報の取得を目的としたデータマイニング（data mining）という解析手法が注目されているが，これもEDAの一種である。

先ほども述べたようにEDAの扱う範囲は非常に幅広いが，それが注目され始めたのは計算機技術が発達した比較的最近になってからである。EDAは1960年代から1980年代にかけて，当時プリンストン大学統計学部教授であり，AT&Tベル研究所の主任研究員でもあったJ.W.Tukeyを中心としたデータ解析学派と呼ばれる人々によって開発され，発展してきた。彼らにより様々な理論や手法が提案され，その集大成がTukey(1977)としてまとめられ，書籍として刊行された。提案されたこれら複数のデータ解析手法に共通して言えることは，得られたデータの背後に存在する構造，言い換えればデータを構成する変数の関連構造を把握するために行うということである。したがって，高度な多変量解析のみならず，例えば相関分析などの基礎統計解析も含め，変数間の関連構造を分析するための手法

(5)

はすべてEDAと言えるだろう。

これに対して，確認的データ解析（Conﬁrmatory Data Analysis，以下CDAと略す）と呼ばれる概念がある。これは，まず始めにモデルを仮定し，そのモデルに得られたデータがどれくらい当てはまるかを検討する解析手法であり，統計的仮説検定などもCDAに含まれる。EDAというアプローチが入手したデータを重視するのに対し，CDAというアプローチは先行研究などによって得られた事前知識，すなわち研究者自身の研究仮説を重視するものである。現在の心理学の分野では，EDA的アプローチではなく，このCDA的アプローチが重要視されている。

また，そのためのモデリング手法として最も有用とされているのが構造方程式モデリング（Stractural Equation Modeling，以下SEMと略す）である。

しかしながらデータが示唆する情報を多面的に捉えるという意味で，解析初期のフェーズを重視したEDA的アプローチもデータ解析では重要であり，EDAと CDAは互いに相反するものと言うよりは相互に足りないところを補い合う相補的な関係にあると考えられる。したがってモデルを構築したいというような状況を扱う場合，EDAとCDAの両方からのアプローチを行うことが重要である。

1.2 EDA の特徴

EDAにおいては，一般的に「抵抗性」「残差の分析」「再表現」「図示」の4つの観点が重要であると言われている（渡部・鈴木・山田・大塚，1985）。本節ではこの4つの概念を順に解説する。

1.2.1 _抵抗性

抵抗性（resistance）とは一部の不適切なデータ（外れ値，outlier）からの影響の受けにくさの度合いのことであり，ある指標がそのような外れ値混入による影響を受けにくい場合，その指標は抵抗性が高いと表現する。例えば，平均値は外

(6)

れ値の影響を受けやすい指標として知られており，EDAでは平均値の代わりに抵抗性が高い中央値などを利用したりすることもある。

また生データ（raw data）に外れ値が混入していると，モデル構築においてパラメータ推定を行う場合，最小二乗法や最尤推定法は結果に大きな歪みを生じさせる。したがってこの場合，より頑健な性質を持つロバスト推定など利用する。

あるいは基礎統計解析を利用して，このような外れ値を生データから検出し，あらかじめ除去するというアプローチも考えられる。これはデータのクリーニングとして知られているEDAにおける最も基本的なアプローチの1つである。

1.2.2 _{残差の分析}

残差（residual）とは，モデルにより推定された理論的な値と観測データの値との差であり，例えばSEMでは，以下のように標本共分散行列Sと推定された母数によって構造化された観測変数の共分散行列の推定値Σ(ˆθ)との差によって残差行列を定義している（豊田，1998）。

Σ_RES =S−Σ(ˆθ) (1.1)

残差はモデルとデータとの乖離の度合いを与える指標であり，構築されたモデルが真のモデルに近ければ近いほど残差は小さくなる。したがって，残差を注意深く吟味することはモデルの良さを評価することにつながり，さらにEDAの観点からはより良いモデルを構築するための情報を与えてくれることになる。その意味で残差分析はEDA的アプローチでは必須の事項である。

しかしながら，残差には当該モデルで説明できなかった他のすべての要因が含まれているため，その解釈は困難である。このためモデリングを行うときに，積極的に残差が分析されることは少ないというのが現状である。したがって，モデル探索においてより効果的な残差分析の方法論を考案する必要がある。

(7)

1.2.3 再表現

データの再表現とは，いわゆる変数変換のことであり，そのままでは比較しづらいデータに何らかの変換を加えて観察しやすくすることである。再表現の例としては，「一次変換」「対数変換」「データの等分散化」などがある。

よく利用される再表現として，以下のようなものがある（芝，1979）。

Z = (

I − 1 N11^′

)

XΣ⁻¹ (1.2)

ここでNはオブザベーション数，IはN×Nの単位行列，1は全要素が1のN×1 ベクトル，Xは得られたデータ行列，Σは各変数の標準偏差を対角成分に持つ行列である。これは生データの値から各変数の平均値を引き，標準偏差で割ったもので，標準化として知られているデータの再表現の1つである。標準化されたデータは平均0，分散1となるので，単位に依存することなく，各値を直接比較できるようになる。

データの再表現は，それを行う過程で有益な情報を得られることもあり，EDA 的アプローチではその意味から積極的に行った方が良い。しかし，当然のことながら，有効な再表現の方法が見つからないこともある。

1.2.4 図示

図示とはデータを人間が認識しやすいようにグラフィックで視覚的に表現することである。データを適切な図やグラフで表現できたならば，そのデータが持つ性質を効果的に把握できるだけでなく，外れ値の発見や予期しなかった特徴を抽出できる可能性につながる。よく利用される図示の方法として，「ヒストグラム」や

「箱ひげ図」などがある。

またモデルを図示する方法として，パス図という表現技法がある。これは観測変数を四角，潜在変数を楕円で表現し，それらの関係性を矢印によって記述する方法であり，SEMによるモデリングにおいてよく利用される。パス図を利用する

(8)

ことで，複雑なモデルを誰にでも簡単に理解可能なように表現することができるので，優れた図示の一例であると言える。

1.3 探索的因子分析について

心理学の分野でよく利用される探索的データ解析の1つに，探索的因子分析（Ex- ploratory Factor Analysis，以下EFAと略す）がある。1960年代に確認的因子分析（Conﬁrmatory Factor Analysis，以下CFAと略す）が登場するまでは，単に因子分析と言えばEFAのことを表していた。

因子分析は変数間の相関構造を直接観測することが不可能な少数の潜在変数（la-

tent variable）で説明する多変量解析の1手法である。EFAは得られた変数で構成

されるモデルが未知である場合に有効な手法であり，分析には因子の抽出と因子パタン（factor pattern）の探索が含まれている。

1.3.1 モデルの定義

ここでは因子分析の基本的なモデルを豊田(2000)に従い定義する。p個の観測変数を確率ベクトルとしてx = (x₁, . . . , x_p)^′として定義する。このとき因子分析モデルは

x=µ_x+Af +e (1.3)

として表現される。ここでµ_xは平均ベクトル，Aは因子パタン行列，fは共通因子（common factor）ベクトル，eは独自因子（unique factor）ベクトルである。

E[f] =0, E[e] =0, E[f e^′] =0 (1.4) を仮定すると，因子分析モデルの共分散構造は

Σ(θ) = AΣ_fA^′ +Σ_e (1.5)

(9)

となる。ここで共通因子間相関行列Σ_f は正定値行列，独自因子間行列Σ_eは対角行列とする。

1.3.2 因子数の決定法

因子の抽出，すなわち因子数の選択には様々な方法が提案されている。例えば良く使用される方法の1つとして，因子分析の結果の固有値が1より大きくなる数を因子数として採用する方法がある（Guttman, 1954; Kaiser, 1960）。これをカイザー・ガットマン基準（Kaiser-Guttman criterion）と言う。これ以外にも，Cattell

（1966）により提案された，固有値を降順に折れ線グラフとしてプロットし，固有値の減少が緩やかになる直前の因子数を採用するスクリー・テスト（scree test）

やHorn(1965)により提案された無作為標本を発生させて固有値の標本変動を補正

した平行分析（parallel analysis）などがある。あるいは因子数の選択をモデルの選択と考え，AIC（Akaike Information Criterion）やBIC（Bayesian Information Criterion）などの情報量基準やGFI（Goodness of Fit Index），AGFI(Adjusted

Goodness of Fit Index)などの適合度指標を利用してモデル比較の観点から因子数

を決定する方法もある。

しかし，これらはすべて機械的な計算の結果による判断であり，変数の内容やモデルに対する研究仮説を全く反映できていない。ここにモデル探索という観点からEFAを積極的に利用する場合の問題点がある。

1.3.3 _{因子の回転}

回転には大きく分けて直交回転（orthogonal rotation）と斜交回転（oblique ro-

tation）の2種類があり，前者が因子間相関がない場合（nondiag(Σf) = (0)）の，

後者が因子間相関を認める場合（nondiag(Σf)̸= (0)）の回転方法である。回転は元々は因子パタンの単純構造（simple structure）を発見するために行われるものであった。しかし，モデル探索の観点から考えると，モデルは必ずしも単純構造

(10)

となる必要はない。なぜなら真のモデルが単純構造であるとは限らないからである。ここではモデルの複雑性（complexity）という概念を導入し，より柔軟なモデル探索が可能になる回転の方法を見る。

単純構造と複雑性

EFAにおける回転は，元々は因子を解釈しやすくするために因子パタンの単純構造を発見する目的で行われていた。因子パタンの単純構造に関してはThur- stone(1947)が言及しており，Browne(2001)によるとThurstone(1947)の単純構造のルールは以下の5つに要約される。ここでm は因子数，Λ は回転後の因子パタン行列を表している。

1. Λ の各行は少なくとも1個の0を含んでいる。

2. Λ の各列は少なくともm 個の0を含んでいる。

3. Λの任意の2列において，一方の列にのみ0を含むような若干個の行がある。

4. m ≥4の場合，Λ の任意の2列において，その両方の列に0を含むような若干個の行がある。

5. Λ の任意の2列において，その両方の列が非ゼロとなるような行はほとんど存在しない。

一方，因子パタンにおける変数の複雑性という概念も重要である。これは因子パタン行列Λ において，その変数に対応する行の非ゼロ要素の数として定義される。因子の回転は，通常この複雑性を少なくするようになされるが，モデルによっては複雑性を仮定する方が正しいという場合も考えられる。例えば，国語・数学・

理科・社会・英語という5変数に対して文系・理系という2因子のモデルを想定してみる。この場合，英語は両因子からの影響を受けていると仮定する方が実質科

(11)

学的知見に合致していると考えられる。このように，モデルによっては変数の複雑性をあらかじめ考慮した上で回転を行った方がよい場合もある。このことはモデル探索の観点から十分な注意が必要だと考えられる。

回転基準

m次の正方行列T を用いて，共通因子ベクトルf をT f のように変換する場合を考える。すると(1.3)式の因子分析モデルは以下のように再表現できる。

x=µ_x+AT⁻¹T f +e (1.6)

したがって，初期の因子パタン行列AはAT⁻¹のように変換される。T には無数の候補が存在する（回転の不定性，rotational indeterminacy）が，このうち因子パタン行列が最も最適な構造になるような回転行列T^∗を発見するために以下のような関数Qを定義する。

Q(Λ) =Q(AT⁻¹) (1.7)

この関数Qを回転基準（rotation criteria）と呼び，これを最小化するようなT が最適な回転行列T^∗となる。ただし，直交回転の場合はT T^′ =I，斜交回転の場合 はdiag(TΣ_fT^′) =Iという制約の下で最小化がなされる。

回転の目的が，例えば尺度開発のための1因子構造の発見であるならば，単純構造の探索に強いVarimax回転やPromax回転を利用するのがよい。しかしながら先ほども述べたように，モデル探索を行う目的で回転を行うならば複雑性を考慮した回転法を採用すべきである。ここでは近年，回転をモデル探索に利用する場合に良く使用されるQuartimin回転，Geomin回転およびtarget回転の3つを紹介する。

Quartimin回転 Quartimin回転における回転基準は以下である。

Q(Λ) =

∑p i=1

∑m j=1

∑m l̸=j

λ²_ijλ²_il (1.8)

(12)

もし各変数が1つの因子のみからパスを受けているなら，言い換えると変数の複雑性が全て1であるならば，この回転基準の選択が最良となる。すなわち真のモデルが単純構造を有している場合，Quartimin回転が最も効果的な回転基準になるということである。この回転基準を選択した場合，回転関数の最小化は0に近似することになる。しかし一般的に，次で示すGeomin回転でも同様の結果は得られるため，近年ではこちらの方が推奨されている。

Geomin回転この回転基準の基礎部分はThurstoneによって考案されたのだが，

それをYatesが修正して「Geomin」と命名した。Geomin回転は，「Λ の各行は少

なくとも1個の0を含んでいる」という単純構造に関するThurstoneの第1ルールに基づいている。

今，因子パタン行列Λ に関して，各要素を2乗し，行ごとに幾何平均をとってそれら全ての和を計算することを考えてみる。すなわち，回転基準を以下のように表現する。

Q(Λ) =

∑p i=1

( _m

∏

j=1

λ²_ij )¹

m

(1.9)

(1.9)式では因子パタン行列の各行に少なくとも1つの0が存在すれば，式全体

が0に最小化されることがわかる。しかしながら，これは各行において，ある要素がたった1つ0であるということによって，その他の要素の値にかかわらず自動的に最小化されてしまうということでもある。これは言い換えれば，(1.9)式の値が0となる複数の解が存在するということであり，最良の回転行列を発見するという目的からは問題がある。この問題点に対処するために，微少値ϵ を導入し，

(1.9)式を以下のように修正する。

Q(Λ) =

∑p i=1

[ _m

∏

j=1

(λ²_ij +ϵ)]_m¹

(1.10) これにより，(1.9)式の下限値における解の不定性が除去される。現在では，こ

の(1.10)式の方をgeomin回転基準の定義式としている。

(13)

なお，ϵの値に関しては明確な基準はないが，因子数が3から4の場合はϵ= 0.01

，因子数がそれ以上の場合はそれに併せてϵ の値を大きく設定することでうまくいくことが経験的に知られている。また，geomin回転は変数の複雑性が2以下の時に優れたパフォーマンスを発揮するといわれている。

target回転この回転基準は，概念的には「EFAにおける回転の機械的なアプローチ」と「分析者の仮説を反映したCFAモデル」との折衷的な方法だといわれている（Asparouhov & Muth´en, 2008）。この回転基準では目標となる因子パタン行列Bを設定し，Λをできるだけそれに近づくように回転する。しかしこのとき，

目標因子パタンB の全ての要素を特定する必要はなく，自身の仮説に基づき全要素のうちの一部分を指定するだけでよい¹。例えば3因子10変数の場合，目標因子パタンB を以下のように設定する。ここで∗は特に値を指定しない要素を表しており，また指定する場合も0以外の任意の値でも良い。

B^′ =





1 0 ∗ 0.5 0 ∗ ∗ ∗ ∗ 0 0 ∗ ∗ ∗ ∗ ∗ 0 ∗ 0 ∗

∗ ∗ ∗ 0.5 ∗ ∗ 0 0 ∗ ∗



 (1.11)

target回転の回転基準は以下のように表現される。

Q(Λ) =

∑p i=1

∑m j=1

aij(λij −bij)² (1.12) ここで，aij はb_ij の値が指定されるなら1，bij の値が指定されないなら0とする。

このtarget回転はモデルの中に複雑性が3以上の変数がある場合に優れたパフォー

マンスを発揮するといわれている。

回転アルゴリズム

従来の回転アルゴリズムは，(1.7)式を

g(T) =Q(Λ) =Q(AT⁻¹) (1.13)

1ただし識別性の観点から，直交回転で各列(m−1)/2 個の要素を，斜交回転で各列m−1 個の要素を最低限指定する必要はある。

(14)

とし，このgを反復計算により最適化するというものであった。しかし，近年，回転基準Qを直接最適化する勾配射影アルゴリズム（Gradient Projection Algorithm;

以下GPアルゴリズムと略す）という手法がJenrich(2001, 2002)によって提案された。この手法は次のようにして計算を行う。

まずはじめにMをすべての行列の多様体(manifold)とする。次にT の現在の値を与え，gのT における勾配Gを計算し，T から負の勾配方向へα単位だけ移動させる。そしてその結果を多様体M上に射影させる。このときの値を射影Te とする。Jennrich(2001, 2002)において，T がMに制約されたgの停留点でない場合，

g(Te)< g(T) (1.14)

となることが証明されている。したがって，後はTeをT に置き換え，このような計算を繰り返すことによって最適なT を求めるのがGPアルゴリズムである。これを一般的な手順としてまとめると以下のようになる。

1. 初期回転行列T を選択する。

2. T におけるgの勾配G=dg/dT を計算する。

3. 多様態上においてT をT −αGの射影に置き換える。

4. 最適解でない場合はステップ2に戻る。そうでなければ計算を終了する。

ただしステップ2において，G=−(Λ^′GqT⁻¹)^′で表されることが知られている

（Jenrich, 2002）。ここでG_qは回転基準QのΛにおける勾配である。したがって GPアルゴリズムは，gのT における勾配よりも回転基準QのΛにおける勾配を使用することでより単純化されていることがわかる。これがGPアルゴリズムと従来のアルゴリズムとの大きな違いである。

(15)

1.3.4 EFA から CFA へ

因子分析は20世紀初頭にイギリスの心理学者C.Spearmanが知能構造の分析手法として発表した論文から始まった（Spearman，1904）。Spearman(1904)では9 歳から13歳の生徒に Classics ， French ， English ， Mathematics ， Pitch discrimination ， Music talent の6つのテストを実施し，そこから得られた相関行列を分析することによって知能の1因子モデルを提案した。このSpearmanの 1因子モデルとは，科目間の関連構造を，すべての科目に共通して影響を与える一般因子と一般因子では説明できない個々の科目に特有の独自因子に分離して説明するものである。この1因子モデルはBurt(1909)など多くの心理学者や統計学者によって詳細に論じられた。

その後，Thurstone(1931)やThurstone(1934)などで1因子モデルから多因子モデル（multiple factor model）へと拡張され，モデルで扱える因子数が増加した。この後，約30年をかけて多因子モデルに関する性質が詳しく調べられ，同時に数学的にも整備されるようになった。その結果がHarman(1960)やLawley & Maxwell(1963) などの書籍にまとめられており，因子分析を多くの研究者に広く知らしめる要因となった。

しかし1960年代後半になると，これまでの古典的EFAは必ずしもデータに内在する仮説構造を確証するためには有効ではないという考えが広まり（柳井・繁桝・前川・市川，1990），EFAは盲目的因子分析（blind factor analysis）として非難されるようになった。このEFAに代わるのがJ¨oreskog(1969)によるCFAである。CFAでは先行研究や研究者の事前の知識を積極的に盛り込み，仮説的構造を仮定して因子分析を行う。このCFAが，後にパス解析などの因果分析の考え方を取り入れ，確認的分析の集大成であるSEMへと発展したという経緯がある。

(16)

1.4 探索的構造方程式モデリング

SEMは代表的な確認的分析手法であるが，近年，EFAの考えを取り入れ，EDA 的アプローチとして活用しようという動きが見られるようになった（Asparouhov et

al., 2008）。これはSEMが確認的アプローチであると言っても，最初からデータを適

切に反映したモデルを構築することは難しく，多くの場合，修正指標（modiﬁcation index）などを利用してモデル探索を行っているからである。

しかし修正指標によるモデル探索は，誤ってパスを削除する，すなわち「誤って因子パタンを0に制約することで因子の意味が変化してしまう」などの問題点も指摘されており，必ずしも最適な方法とは言えない（Browne, 2001）。また同じく

Browne(2001)では，CFAにおいてパスの追加や削除を行うことは「もはや『確認

的』ではなく『探索的』であり，修正指標を試すよりも，むしろ因子の回転を利用した方がより直接的である」と述べている。

そこでこれらの点を考慮し，SEMにおける探索的アプローチとして，EFAの回転を利用した探索的構造方程式モデリング（Exploratory SEM，以下ESEMと略す）という方法がAsparouhov & Muth´en(2008)により提案された。ESEMはEFA をSEMの一部として完全に統合しているので，多母集団モデルや平均構造の導入，

残差間の相関の仮定などSEM特有の手法にも応用可能であり，EDAとCDAの折衷的なデータ解析法として非常に優れている。

1.4.1 ESEM _とは

ESEMとは，SEMのモデルの中にEFAパートを導入し，CFAパートとの統合を図った探索的なモデリング技法のことである。SEMにおける各種母数はEFA パートの変換行列Hを利用して変換を行う。

(17)

回転における不定性

SEMを利用してモデルを構築する場合，一般的に識別条件を満たしている必要がある。識別条件を満たしていない場合，モデルは識別不定となり，解は求まらない。モデルを識別不定にしている原因の1つとして，潜在変数の尺度があげられる。これを解決するためには，一般的に「潜在変数の分散を1に固定する」か，

あるいは「因子パタン行列の各列において1つの要素を1に固定する」という2 通りのアプローチがとられる²。しかしながら，潜在変数の尺度が識別されるときでさえ，潜在変数の数mが2以上の時にはさらなる識別可能性問題が現れる。

まずp個の従属変数y= (y₁, . . . , y_p)，q個の独立変数x= (x₁, . . . , x_q)を仮定し，

m個の潜在変数η を持つ以下のような一般的な構造方程式モデルを考える。

y=ν+Λη+Kx+ϵ (1.15)

η=α+Bη+Γx+ξ (1.16)

標準的な仮定では，ϵは平均0・分散共分散行列Θの多変量正規分布に，ξは平均

0・分散共分散行列Ψの多変量正規分布に従う。

ここで，潜在変数ベクトルηをm次の正方行列Hを用いてHη のように変換することを考える。このとき(1.15)式の測定方程式は

y=ν +ΛH⁻¹Hη+Kx+ϵ (1.17)

のように再表現できる。同様にして(1.16)式の構造方程式も以下のように再表現できる。

Hη=Hα+HBH⁻¹Hη+HΓx+Hξ (1.18)

H にはm² の要素があるので，モデルはm²個の不定性を持つことになる。古典的EFAと同様にESEMでもこの不定性を利用して回転を行い，そのときに最小

2ここでは全ての因子パタンが推定されるものとし，潜在変数の分散を1に固定する方法をとる。

(18)

化された回転基準から算出された最適な変換行列H^∗を利用して各種母数の変換を行うのである。

変換行列による母数の変換

各従属変数の尺度が異なっている場合，行列Λの要素も異なる尺度になってしまう。このとき回転基準の最小化をしても局所最適解に陥ってしまう。EFAでは，

この問題を解決するために回転の前に母数Λの標準化を行う³。これはESEMにおいても同様である。

今，Σyを次元pの対角行列とする。ここで，i番目の対角要素は変数y_iの標準偏差である。この対角行列は以下のように定義される。

Σy =

√

diag(ΛΨΛ^′+Θ) (1.19)

すると，規準化された因子パタン行列はΣ⁻_y¹Λと表記でき，回転基準はf(Σ⁻_y¹ΛH⁻¹) となるので後はこれを最小化すればよい。ただし，あらかじめ従属変数yが平均 0・分散1に標準化されていれば，f(ΛH⁻¹)を最小化することになる。このときに計算された最適な構造を有する因子パタン行列をΛ^∗と表記して，これを回転された標準化解（rotated standardized solution）と呼び，このときに利用された最適な変換行列をH^∗と表記する。

古典的EFAでは，因子の回転は因子パタン行列Λと因子間相関行列Ψのみに影響を与えた。しかしESEMでは，この最適な変換行列H^∗を用いて以下のよう

3あるいはΛを標準化するのではなく，最初に従属変数を平均0・分散1に標準化してから回転してもよい。

(19)

にほぼ全ての母数を調整することになる。

ν^∗ =ν (1.20)

Λ^∗ =Λ(H^∗)⁻¹ (1.21)

K^∗ =K (1.22)

Θ^∗ =Θ (1.23)

α^∗ =H^∗α (1.24)

B^∗ =H^∗B(H^∗)⁻¹ (1.25)

Γ^∗ =H^∗Γ (1.26)

Ψ^∗ = (H^∗)^TΨH^∗ (1.27)

1.5 ESEM の適用例

自己効力感（self-efficacy）とはある結果を達成できる可能性の自己の予期であり，Bandura（1977）を端緒として主に医療・教育場面で多くの研究が行われてきた。例えば坂野・東條（1986）は一般性セルフ・エフィカシー尺度（General Self Efficacy Scale）を作成し，さらに坂野（1989）においてその信頼性と妥当性を検証している。また伊藤（1996）ではPintrich & De Groot（1990）の学習方略の尺度をもとに自己効力感と原因帰属との関係を検討している。三宅（2000）は特性的自己効力感（generalized self-efficacy：以下GSEとする）と課題固有の自己効力感（task-specific self-efficacy：以下SSEとする）に注目し，GSEがSSEの変容に及ぼす影響を検討した。ここでGSEとは過去の経験により構成された一般的な日常場面での行動に影響する自己効力感であり，SSEとは特定の課題や場面に特異的に影響を及ぼす自己効力感のことである。

自己効力感をSEMのモデルの一部に取り入れた研究としては松沼（2004）がある。この研究では小学4年生の算数のテスト成績を予測するための変数として「自己調整学習」「テスト不安」「算数自己効力感」「SSE」「認知的干渉」を取り上げ，

(20)

モデル化を行い関連構造を検討している。ここで自己調整学習とは生徒自らが認知および行動を調整していく学習方略のことであり（Corno & Mandinach, 1983），

認知的干渉とは課題に無関連の否定的な思考のために解答に注意を集中できなくなることである（Sarason & Stoops, 1978）。またここでのSSEはテスト場面に特有の自己効力感である。

本節ではこのGSEとSSEに注目し，統計学を学習するという場面に関して構築したモデルを，ESEMを利用してそのモデルの修正と検討を行う。

1.5.1 方法

調査協力者東京都内のある私立大学で心理学を専攻している学生のうち，2007 年度の心理統計学の授業を受講した学生100名（男性33名，女性67名）。

調査材料 GSE・自己調整学習・テスト不安・SSE（統計自己効力感）の尺度を測

定するために17項目の質問紙を作成した。それぞれの尺度は3項目から5項目で構成されており，各質問項目は全て5件法とした。

自己効力感の項目に関して，GSEは成田・下仲・中里・河合・佐藤・長田（1995）

より5項目を選択して利用した。一方SSEには，統計学におけるテスト場面特有の自己効力感を想定し，独自に作成した。またGSEとSSE以外にも，統計学そのものに対する自己効力感として統計自己効力感（Statistics Self-Eﬃcacy，StSE）

も取り上げ，これに関しては松沼（2004）で作成された算数自己効力感尺度の中から5項目を選択して，それを参考に大学生用に表記を一部変更して作成した。これらの質問項目を表1.1に示す。各質問項目は全て5件法とした。

一方，試験問題は要約統計量・分散分析・調査法の内容に関するものであり，各項目において4問ずつ，合計12問の試験であった。なお解答は5つの中から正解を1つ選ぶ選択式であった。

(21)

表 1.1: 自己効力感に関する質問項目（StSEは統計自己効力感，GSEは特性的自己効力感，SSEは統計におけるテスト場面特有の自己効力感。なお，GSEに関しては全て反転項目。）

構成概念質問項目

StSE 1．私は統計学が得意だと思う。

2．私は統計学でよい成績が取れると思う。

3．私は統計学の学力は優れていると思う。

4．私は統計学の学習内容について多くのことを知っていると思う。

5．私は統計学の勉強のやり方を知っていると思う。

GSE 6．重要な目標を決めても，めったに成功しない。

7．困難に出会うのを避ける。

8．非常にややこしく見えることには，手を出そうとは思わない。

9．すぐにあきらめてしまう。

10．思いがけない問題が起こった時，それをうまく処理できない。

SSE 11．試験で要約統計量に関する問題が出たとき，適切に回答できると思う。

12．試験で分散分析に関する問題が出たとき，適切に回答できると思う。

13．試験で調査法に関する問題が出たとき，適切に回答できると思う。

手続き 2007年度学年末の心理統計学の最終講義時に，担当教員の許可の下で質問紙と試験が実施された。質問紙と試験は記名式で実施されたが，その結果は授業の成績とは一切関係ないことが担当教員から伝えられた。質問紙は検査者が1項目ずつ読み上げていき，検査協力者はそれに合わせて回答していくよう求められた。一方，試験の制限時間は10分間であった。調査協力者は質問紙の回答が全員終了した後に試験が実施された。

1.5.2 結果

試験に関して，採点は1問1点でこれら3つの内容ごとに合計し，その3変数を説明する因子として授業理解度を仮定する。また質問紙に関して，反転項目は6から引くことで全て逆転させ，各尺度特性の高い学生ほど高得点となるようにした。

このようなデータを用いて，まず最初に図1.1のようなモデルを構築して分析を

(22)

図 1.1: 自己効力感と授業理解度に関する初期モデル

行った。なお分析にはMplus Ver.5.1を使用した⁴。分析の結果，適合度は以下のようになった。

CFI = 0.893， RMSEA = 0.079

このように最初に仮定したモデルはそれほど悪くはなかったが，ここではモデルのさらなる改良のために，図1.1のCFAパート1を図1.2のようにEFAモデルに置き換えて，ESEMを適用した。なお，因子の回転にはϵ = 0.0001のGeomin 回転を使用した。

その結果，モデルの適合度は

CFI = 0.905， RMSEA = 0.078

となり，若干の向上が見られた。両モデルの標準化解を表1.2に示す。

4http://www.statmodel.com/を参照。なおESEMを使用するには，Mplusのバージョンは5.1 以降でなければならない。

(23)

図 1.2: 自己効力感と授業理解度に関するESEM（ϵ = 0.0001のGeomin回転を使用）

表 1.2: CFAおよびESEMにおけるCFAパート1の因子パタンの比較（ESEMにおいて，回転にはϵ= 0.0001のGeomin回転を使用した）

CFA ESEM CFA ESEM

StSE GSE StSE GSE StSE GSE StSE GSE

項目1 0.30 0 0.35 -0.05 項目6 0 0.84 -0.02 0.84 項目2 0.52 0 0.50 -0.17 項目7 0 0.82 0.01 0.82 項目3 0.62 0 0.61 0.11 項目8 0 0.85 -0.09 0.86 項目4 0.68 0 0.65 0.00 項目9 0 0.76 0.15 0.75 項目5 0.25 0 0.26 0.22 項目10 0 0.61 0.09 0.61

(24)

表1.2を見るとわかるように，ESEMによる回転の結果，因子パタンはほぼ単純構造となっており，CFAにおける結果と近似している。しかし項目5は，StSE とGSEの両因子からの影響を受けており，変数の複雑性が2となっていた。したがって項目5に関して，図1.1ではGSEからのパス係数は0に制約しているわけであるが，これは誤った制約である可能性がある。

表1.1より，項目5は「私は統計学の勉強のやり方を知っていると思う。」であった。「勉強の方法」とは過去の経験とその蓄積に基づいて形成されていくものであり，それに対する自己効力感は統計学に限ったものではない。したがって，項目5 が一般的な自己効力感であるGSEの影響を受けているという結果も不自然ではないだろう。このように回転による探索的アプローチの結果は実質科学的にも妥当なものであると考えられる。

1.6 ESEM _の限界

ESEMはSEMにEFAを融合することで，本来的には確認的分析であるはずの SEMをモデル探索にも使用できるという点で優れている。しかし，探索可能な空間は因子パタンに属するところのみであり，潜在変数間のパスの探索や誤差変数間の探索には使用できない。またESEMが前提としている状況は，因子数は既知であるが因子の意味は未知であるような場合であるが，このような条件が成立するような状況はごくまれであろう。ESEMは飽くまで修正指標を利用する代わりのモデル修正のための方法として考案されたということである。したがって，SEM をEDA的なアプローチとして使いたい場合，これらの点を解決し，さらには機械的な探索と同時に自身の研究仮説も反映できる探索法を考案する必要がある。

(25)

第 2 章機械学習における探索的分析

2.1 _{機械学習について}

統計学とは異なる分野で発展してきたデータ解析法の1つに機械学習（machine laerning）というものがある。計算機科学の分野を起源とする機械学習は，もともとは人間が有している学習能力と同等の機能を計算機に実装するための手段として，主に人工知能（artiﬁcial intelligence）の分野で研究がなされてきた。しかし研究が進むにつれて，人工知能だけではなく，大量のデータから計算機を用いて自動的に有効な知見を発見するためのデータ解析として用いられるようになった。

近年では，これはデータマイニングとして知られている。

上記でも述べたが，データ解析における機械学習の大きな特徴は，与えられたデータから自動的に有効な知見を発見する目的で使用されることである。なお，ここで言う有効な知見とは「重要なデータの抽出」「異常データの検出」「データ間の関連性の探索」「モデルの発見」「規則の発見」などのことである。そして発見した知見を基にして，それらの結果を一般化し，新規データに対して予測及び制御を可能にすることが求められる。これら一連の流れが機械学習の扱う範囲である。

現在，機械学習は「検索エンジン」「医療診断」「遺伝子診断」「迷惑メールのフィルタリング」「株式・金融市場の予測」「DNA塩基配列の解析」「パターン認識」「ゲーム戦略」「ロボット」「コンピュータビジョン」「生命・進化の解析」「意志決定」「翻訳システム」など幅広い分野で使用されている。また，扱う研究領域も計算機科学だけではなく，「ロボット工学」「生命工学」「遺伝子工学」「教育工学」「医学」「薬学」など理工系の学問はもちろんのこと，「経済学」「経営学」「オ

(26)

ペレーションズリサーチ」「マーケティング」そして「心理学」などの人文社会科学系の学問でも利用されるようになった。これは多くの研究者が，探索的なデータ解析において，機械学習が非常に有用であるということに気づいたからと言えるだろう。

機械学習のアルゴリズムは，大きく分けて以下の2つがある。

1. 教師あり学習（supervised learning）

2. 教師なし学習（unsupervised learning）

教師あり学習とは何らかの教師信号を基にして学習を進め，モデル探索やデータのフィッティングを行うアルゴリズムである。このアルゴリズムは回帰問題や分類問題に利用されることが多く，誤差逆伝播法（backpropagation）などがその例である。一方，教師なし学習は問題を解決する際に，指標となる教師信号が用意されておらず，得られたデータの相互関係から探索的に学習を進めていくアルゴリズムのことである。強化学習（reinforcement learning）などが教師なし学習の例である。

機械学習には目的に応じて多くの分析手法が用意されている。例えば「回帰モデル」「判別モデル」「クラスタリング」「樹形モデル」「グラフィカルモデル」「ニューラルネットワーク」「自己組織化マップ」「サポートベクトルマシン」などが有名である。これらの各種分析手法は上記のどちらかの学習アルゴリズムを用いて実装されている。

2.2 統計的機械学習

このように統計学とは全く異なる分野で発展してきた機械学習であるが，近年では統計学，特にベイズ理論との融合が進み，統計的機械学習（statistical machine learning）として急速に発展している（杉山，2009；Bishop, 2006）。古典的な機械学習を統計学の観点から見た場合，得られたデータをモデルに当てはめている

(27)

だけに過ぎなかった。つまり母集団を想定せず，また各変数にも確率分布を仮定しないので，計算された母数の標準誤差や信頼区間を求めることは考慮していない。これは決定論的（deterministic）であると言える。そのため古典的な機械学習では，統計学で扱うよりも複雑なモデルを構築することが可能ではあるが，得られたデータの構造的な特徴を利用するので，結果は得られたデータに依存してしまう。

それに対して統計的機械学習はデータの背後に母集団を想定し，各変数にも確率分布を仮定して，モデル及び母数に対して統計的な推測を行う。したがって得られる結果は常に確率的（stochastic）である。そのため決定論的機械学習と異な

り常に100%の結果を得られるわけではないが，得られた対象の構造に依存する部

分を切り離すため，データの構造によらない一般的な議論を展開することが可能である。

2.2.1 ベイズ統計学

統計的機械学習ではベイズ統計学（Bayesian statistics）という学問が重要となる。上記でも述べたように，統計的機械学習では各変数に確率分布を仮定する。したがって各変数は確率変数であり，得られる結果は常に確率的である。ただしベイズ統計学における「確率的」とは不確かさの度合いを表すものであり，一般的な頻度論に基づいた確率とは意味が異なることには注意が必要である。このように，確率に対して不確実性の度合いを与えることを「ベイズ的（Bayesian）」と言い，統計的機械学習においてモデルを構築するのに主要な役割を果たす。統計的機械学習を理解するためには，まずはこのベイズ的に確率を扱う理論，すなわちベイズ統計学を知っておく必要がある。

ベイズ統計学における「ベイズ」はThomas Bayesの名に由来する。彼はイギリスのタンブリッジ・ウェルズに生まれ，聖職者でもあり，科学者でもあり，数学者でもあった。彼の功績の1つは18世紀に起こった確率に関する議論で，その中

(28)

でも特に「逆確率（inverse probability）」に関する問題に取り組んだことである。

逆確率の問題とは，結果を見てからその原因が何であったのかをいかにして確率的に推測するのかということであり，このように通常の因果の流れとは逆に確率を求めることから逆確率と呼ばれている。Bayesはこの逆確率を求めるための方法を論文に発表して定式化した。この解法を一般化したものが現在よく知られている「ベイズの定理（Bayes’ theorem）」であり，ベイズ統計学の根幹を成す概念として非常に重要である。統計的機械学習では，このベイズの定理を中心としたベイズ統計学の理論が1つの基礎となる。

2.2.2 _{ベイズの定理}

19世紀初頭，数学者のPierre-Simon Laplaceは確率論に関する著書（確率の解析理論）を著し，その中でBayesとは別に，彼が独自に発見した逆確率の解法について述べている。Laplaceの逆確率の解法はBayesによる解法に一致するものであったが，Laplaceによる解法はBayesのそれをさらに一般化し，広い応用可能性を示したものであった。このLaplaceの逆確率の解法が後にベイズの定理と名づけられた。

ベイズの定理はベイズ統計学の中で中心的な役割を果たすが，それだけではなく統計的機械学習においても重要な役割を演ずる。しかしベイズの定理の導出は非常に簡単であり，確率の乗法定理から直ちに導くことができる。

ここで，ある確率変数XとY を離散型の確率変数であると仮定する。この場合，

確率の乗法定理は以下で表される。

p(X, Y) =p(Y|X)p(X) (2.1)

ここでp(X, Y)は同時確率（joint probability），p(Y|X)は条件付き確率（conditional probability），p(X)は周辺確率（marginal probability）である。このうち

(29)

同時確率p(X, Y)は，その対称性から以下のようにも表現できる。

p(X, Y) = p(Y, X) = p(X|Y)p(Y) (2.2)

(2.1)式と(2.2)式を等式で結び，式を整理することで以下のようなベイズの定理

が得られる

p(Y|X)p(X) = p(X|Y)p(Y) p(Y|X) = p(X|Y)p(Y)

p(X) (2.3)

さらに分子のp(X)に関して，以下の確率の加法定理 p(X) = ∑

Y

p(X, Y) (2.4)

と(2.2)式を利用して以下のように表現する。

p(X) =∑

Y

p(X, Y) =∑

Y

p(Y, X) =∑

Y

p(X|Y)p(Y) (2.5) するとベイズの定理は以下のようになる。この式から，ベイズの定理の分母は分子に現れる量を使って表現できることがわかる。

p(Y|X) = p(X|Y)p(Y)

∑

Y p(X|Y)p(Y) (2.6)

ここでXを結果となる事象を表す確率変数，Y を原因となる事象を表す確率変数に置き換えて，以下のようにしてもう一度ベイズの定理を眺めるとその有効性がわかる。

p(原因|結果) = p(結果|原因)p(原因) p(結果)

すなわちベイズの定理とは「原因から結果へ」という通常の因果の流れの中で得られる確率（右辺）を計算することで，ある結果が得られるときにその原因となったのは何かという確率（左辺）を求めることができる方法である。ここでp(原因)は当該事象の前にもともと得られている確率なので「事前確率（priori probability）」，左辺

(30)

のp(原因|結果)は結果が得られた後で求められる確率なので「事後確率（posterior probability）」と呼ばれている。もし確率変数が離散量ではなく連続量であったならば，事前確率と事後確率はそれぞれ「事前分布（prior distribution）」「事後分布

（posterior distribution）」と呼ぶ。なお，確率変数が連続量である場合の確率の定義は次節で行う。

2.3 グラフィカルモデル

航空機や原子力発電所の動力システムは小さな故障が大災害へとつながるため，

その運営には細心の注意を持ってなされる。しかし人がどれだけ注意深く整備しても，長く使用していれば必ずどこかに障害が発生してしまう。そのため，あらゆるシステムには機器の監視をするために何らかのセンサーが取り付けられている。システムのどこかに故障箇所があれば，そのセンサーを通じて人にシステムの異常を知らせるというわけである。

しかし上述した航空機のエンジンシステムや原子力発電プラントのようにシステムが巨大になれば，1つのセンサーで全体を監視することは不可能になる。そのため通常はシステムを複数のサブシステムに分割し，複数のセンサーを取り付けることによって異常を知らせる可能性を上げ，障害箇所の特定をしやすくさせる。

だがそれらサブシステムはそれぞれが独立に作動しているわけではない。あるサブシステムは他のサブシステムと直接，あるいは間接的に複雑に絡み合い，その調和として全体のシステムが構成されている。したがって，あるセンサーSが反応したとしても，そのセンサーSが直接監視している部分のみが故障箇所であるとは断言できない。なぜなら，あるサブシステムAの故障の影響がB→C→D· · · と連鎖的に反応して，その結果としてセンサーSが反応したという可能性があるからだ。このように考えると，複雑なシステムになれば，それに伴い故障箇所の特定は困難になることがわかる。

この場合，システム全体を表す「モデル」を構築しておき，当該センサーが反

(31)

応したときに「どの部分が最も故障している可能性が高そうか」を確率的に計算できれば，故障箇所の特定はしやすくなるのではないだろうか。このような要請は機器の故障診断に限ったことではない。例えば，人体を1つの巨大なシステムとみなし，体の不調に関して複数の検査の結果から病気を特定する場合でも同様である。

このように原因あるいは影響関係を探るためには，そのシステムあるいは状況全体をモデルとして表現しておくと便利である。この目的に有用な探索的分析手法の1つにグラフィカルモデル（graphical model）がある。グラフィカルモデルを利用すると，観測されたデータから探索的にその変数間の影響関係がモデル化できるのである。

グラフィカルモデルは大きく分けて以下のような3つの特徴を持っている（Bishop, 2006；元田・栗田・樋口・松本・村田，2008）。

1. 確率モデルの構造を視覚化する簡単な方法を提供し，新しいモデルの設計方針を決めるのに役立つ。

2. グラフの構造を調べることにより，条件付き独立性などのモデルの性質に関する知見が得られる。

3. 精巧なモデルにおいて推論や学習を実行するためには複雑な計算が必要となるが，これを数学的な表現を暗に伴うグラフ上の操作として表現することができる。

このグラフィカルモデルは数学のグラフ理論を用いて変数間の影響関係を表現するのであるが，その影響の仕方から3つのモデルが存在する。1つ目は有向グラフ（directed graph）のみで表現されたモデルであり，ベイジアンネットワーク

（Bayesian network）と呼ばれる。2つ目は無向グラフ（undirected graph）のみで表現されたモデルで，マルコフ確率場（Markov random ﬁeld）あるいはマルコフネットワーク（Markov network）と呼ばれる。3つ目は有向グラフと無向グラフ

(32)

の両方をモデルの中に含んだハイブリッドグラフ（hybrid graph）あるいは連鎖グラフ（chain graph）である。本節ではグラフィカルモデルを表現するのに必要な 3つの主要な概念（確率論，条件付き独立，グラフ理論）に関して簡単にまとめておく。グラフィカルモデルはグラフを用いた確率モデルであるので，これらの性質を定義しておくことは理論的考察を行う上で極めて重要である。

2.3.1 確率論

確率論（Probability theory）の歴史は1654年ごろに行われた，フランス人数学者のBlaise PascalとPierre de Fermatの間の往復書簡によって始まったといわれている。しかしそのきっかけとなったのは，フランスの貴族であったChevalier de M´er´eがあるギャンブルにおいて自分が有利になるか不利になるかの計算の仕方を

友人のPascalに相談したことであった。

その後，確率論は数学の一分野として定着し，さまざまな理論的発展を遂げるが，その歴史の中で最も重要な役割を果たしたのは当時のフランスにおいて自他共に認める最高の数学者Pierre-Simon Laplaceであった。彼が考案した確率論は頻度主義的な解釈に基づいている。これはつまり，ランダムな繰り返し試行の頻度として確率を定義するということであり，現在では古典的確率と呼ばれている。

これに対して現代確率論は公理主義的であり，集合論（set theory）や測度論

（measure theory）を基礎に据えた解析学（analysis）の一分野として確立している。このような確率論の流れは，1933年にAndrey Nikolaevich Kolmogorovが著した「確率の基礎概念」という著書に始まる。本項では，このKolmogorovの公理主義的確率論に基づき，確率を定義する。このような確率は客観的であるが，ここで述べることはベイズ統計学のような主観確率を問題とする場合でも論じることが可能である。

現代確率論を数学的に考察する場合，その出発点となるのは確率空間（probability

space）である。確率空間は，標本空間Ω，完全加法族F，確率測度P の3つで定

(33)

義され，(Ω,F, P)と表記される。ここで標本空間Ωとは，確率の問題としている対象において，偶然に起こりうるすべての結果の集合のことである。ただし空集合∅ではないとする。

次に完全加法族F について述べる。まず始めに，事象とは標本空間Ωにおける部分集合の中で特別に選ばれたもののことを意味すると言うことに注意する。Ω の部分集合には任意のものを選べるが，そのすべてに対して確率が定義されているとは限らない。つまりΩの任意の部分集合のうち，確率が定義されるものを事象と呼ぶのである。またその事象全体は完全加法族（completely additive class），

あるいはσ−集合体（σ−ﬁeld）として特徴づけられる。逆に言えば，Ωを標本空間とする確率は，標本空間Ω上の完全加法族Fの上に定義されていると言うことである。

なお，事象全体の系が標本空間の完全加法族であるためには，以下の3つの条件を満たしている必要がある（伊藤，2004）。

1. その抽象空間それ自身を元として持つ。今その空間をΩ，問題の集合系をF とすれば，

F ∋Ω

2. Fに属する加算無限個の元（Ωの集合）の和集合もまたFに属する。記号的には

E₁, E₂, E₃,· · · ∈ Fならば

∪∞ k=1

E_k ∈ F

3. F に属する元（集合）の余集合もまたFに属する。すなわちE ∈ Fならば Ω−E ∈ F

最後に確率測度P について述べる。一般に標本空間ΩとΩ上の完全加法族Fとを組にしたもの(Ω,F)を可測空間（measurable space）という。このとき確率測度とはF上に定義された関数P で，以下の条件を満たすもののことを言う（佐藤，

(34)

1994）。ここでNは自然数全体を表しているとする。また，この確率測度は単に確率，あるいはEのP−測度とも呼ばれる。

1. 任意のE ∈ Fに対して0≤P(E)≤1 2. P(Ω) = 1

3. （完全加法性） E_k ∈ F, E_k∩E_l =∅(k ̸=l), k, l∈Nであれば P(

∪∞ k=1

E_k) =

∑∞ k=1

P(E_k)

ここで標本空間Ωからのある試行をωとし，X =X(ω)をΩ上に定義された∞ や−∞を含めた実数の値をとる関数とする。このとき任意の実数αに対して

{ω∈Ω :X(ω)> α} ∈ F (2.7)

となるときにXを可測空間上の可測関数（measurable function）という（佐藤，

1994）。また，この可測関数Xのことを確率変数と呼び，確率空間(Ω,F, P)上の

確率変数として定義される。このように確率および確率変数を定義することで，条件付き確率(conditional probability)を以下のように定義できる。

定義（条件付き確率） X, Y を確率空間(Ω,F, P)上の確率変数とする。このときXが所与の時のY の確率P(Y|X)は

P(Y|X) = P(X, Y)

P(X) (2.8)

として表され，これを条件付き確率という。

また，ここから直ちに以下の系が導かれる。

(35)

系 P(X, Y) =P(Y|X)P(X)

これは確率の乗法定理として知られている。条件付き確率も確率の乗法定理も前節で使用したが，このときは頻度主義に基づいた確率であったので，離散確率変数にしか適用できなかった。しかし，このように測度論に基づいて確率および確率空間を定義することにより，確率変数が連続量の場合でもこれらの性質を使用できることになる。当然ベイズの定理も，連続確率変数における確率の場合に拡張可能である。

またこれらの性質が使用できるのは，連続確率変数における確率の場合だけではない。連続確率変数の確率分布（probability distribution）の場合にも適用できる。

2.3.2 条件付き独立

次にグラフィカルモデルを考察するに当たって，重要な概念となる独立（independence）及び条件付き独立（conditional independence）(Dawid, 1980)について述べる。

定義（独立） X, Y を確率空間(Ω,F, P)上の確率変数とする。このとき以下が成り立てば，確率変数XとY は互いに独立であるという。

P(X, Y) =P(X)P(Y) (2.9)

これはXとY が独立であるための必要十分条件である。また，確率変数がn個 (X1, X2, . . . , Xn)の場合も同様にして定義される。

P(X₁, X₂, . . . , X_n) =P(X₁)P(X₂)· · ·P(X_n) (2.10)

これに対して条件付き独立は以下のようにして定義される。

SEM を利用した新しい探索的データ解析法の開発