• 検索結果がありません。

PLS/PCR/OLS 回帰 1 つまたは複数の量的説明変数および / または質的説明変数の線形組み合わせを用いて,1 つまた は複数の量的従属変数の値をモデルして予測するには, このモジュールを使用します. 説明 このモジュールで利用可能な 3 つの回帰手法は, 説明変数の線形組み合わせによるモデ

N/A
N/A
Protected

Academic year: 2021

シェア "PLS/PCR/OLS 回帰 1 つまたは複数の量的説明変数および / または質的説明変数の線形組み合わせを用いて,1 つまた は複数の量的従属変数の値をモデルして予測するには, このモジュールを使用します. 説明 このモジュールで利用可能な 3 つの回帰手法は, 説明変数の線形組み合わせによるモデ"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

1

PLS/PCR/OLS 回帰

1 つまたは複数の量的説明変数および/または質的説明変数の線形組み合わせを用いて,1 つまた は複数の量的従属変数の値をモデルして予測するには,このモジュールを使用します.

説明

このモジュールで利用可能な3つの回帰手法は,説明変数の線形組み合わせによるモデルを生成 するという共通の特性を持ちます.3 つの手法の間の違いは,取り扱われる変数間の相関構造の 方法にあります. OLS 回帰

3 つの手法の中で最も古典的な手法.通常の最小 2 乗法回帰(OLS:Ordinary Least Squares regression)は,より一般的には線形回帰と呼ばれます(説明変数に単一または複合的に従属). p 個の説明変数によるモデルの場合,OLS 回帰は次式で表されます. 0 1 p j j j

Y

X

ここで Y は従属変数, 0, はモデルの切片, Xj はモデルの j 番目の説明変数に対応 (j= 1 から p), そして, は,期待値 0 と分散 ² を持つ確率的誤差. n 個のオブザベーションがある場合,i 番目のオブザベーションに関する従属変数 Y の予測値の 推定は,次式で表されます.

p j ij j i

x

y

1 0

ˆ

OLS 法は,観測値と予測値の間の 2 乗誤差の合計の最小化である.この最小化は,下記のモデル のパラメータの推定量を導きます.

1 2 1

ˆ

'

'

1

ˆ

²

(

ˆ

)

n i i i i

X DX

X Dy

w y

y

W

p

  

 

(2)

2 ここで

ˆ

はi パラメータの推定量のベクトル,X は 1 のベクトルが先行する説明変数の行列, y は n 個の従属変数の観測された値のベクトル,p* は説明変数の数(切片が一定でなければ 1 を 加える),wi は i 番目のオブザベーションの重み,W は重み wi の合計,そして D はその対角 上に重み wi を持つ行列です. 予測値のべクトルは次式で表されます.

1

ˆ

'

'

y

X X DX

X Dy

OLS 回帰の限界は,行列X’X の転置の制約に起因する.それは,行列の階数(ランク)が p+1 であることが必要で,行列がうまく振舞わない場合,いくつかの数値的な問題が生じます. XLSTAT は,これらの 2 つの問題を迂回できる Dempster (1969)のアルゴリズムを使用します. 行列の階数が q に等しい(ただし, q は p+1 よりも小さい)とき,いくつかの変数は,一定で あるか,または共線的な変数のブロックに属するので,それらをモデルから取り除きます. さらに,もしユーザーがオブザベーションの数と比較して,多すぎる数の変数を選択した場合, 変数の自動選択が実行されます.これの理論的な限界は n-1 で,それより値が大きいと行列X’X が 不可逆となります. しかしながら,いくつかの変数を削除するのは最適ではないかもしれません.場合によれば,他 の変数または変数のブロックにほとんど共線的なため,ある変数をモデルに追加しないかもしれ ないが,すでにモデル中に存在する変数を消去することが,新しい変数を追加するよりも意味が あるかもしれません. その理由から,そしてたくさん説明変数を持つケースを取り扱うためにも,他の手法が開発され ています. PCR 回帰

主成分回帰(PCR:Principal Components Regression)は,3 つのステップに分けられます.ま ず,説明変数の表で主成分分析(PCA:Principal Components Analysis)を実行し,そして,選 択された成分で OLS 回帰を実行し,入力変数に対応するモデルのパラメータを計算します.

PCA は,変数によって記述される n 個のオブザベーションを持つ X の表を,q 個の成分で記述 される n 個のスコアを持つ S の表に変換することができます.ここで q は,p 以下であり,そ のような (S’S) は不可逆です.OLS 回帰のステップのために変数 Y と最も相関する成分 r のみ を保持するように追加の選択が成分に適用されます.

(3)

3 OLS 回帰が,Y と R の表で実行される.回帰から得られたパラメータによる解釈の問題を迂回 するために,XLSTAT は,結果をもとの空間に変換し戻して,入力変数に対応するパラメータと 信頼区間を得ます. PLS 回帰 この手法は速く,効率的で,共分散に基づく基準に最適である.変数の数が多い場合,そして説 明変数が相関していそうな場合に推奨されます. PLS 回帰のアイデアは,p 個の変数で記述される n 個のオブザベーションを持つ表から開始して, h<p である h 個の成分の集合を作成することです.この手法は,PCA とは異なる成分を構築する ために用いられ,欠損値の取扱いの利点を提供します.保持するべき成分の数の決定は,通常, クロス・バリデーションに関係する基準に基づきます.ユーザーは,使用する成分の数を設定す ることもできます. 一部のプログラムでは,PLS1 と PLS2 を区別しています. PLS1 は,従属変数が 1 つだけの場 合に対応します.PLS2 は,複数の従属変数がある場合に対応します.XLSTAT で使用するアル ゴリズムでは, PLS1 を PLS2 の特殊なケースとして扱います. OLS や PCR 法の場合では, モデルが複数の従属変数を計算する必要がある場合,モデルの計 算は,従属変数の表 Y の列での単純なループです.PLS 回帰の場合では,Y の共分散構造も計算 に反映されます. PLS 回帰の式は次式のように表されます.

' ' 1 ' ' h h h h h h h h h h h

Y

T C

E

XW C

E

XW

P W

C

E

 

ここで Y は従属変数の行列で,X は説明変数の行列です. Th, Ch, W*h , Wh および Ph, は PLS ア ルゴリズムで生成される行列で,Eh は残差の行列です. X に基づく Y の回帰係数の行列 B は,PLS 回帰アルゴリズムで生成される h 個の成分を持ち, 次式で表されます.

1 ' ' h h h h

B

W

P W

C

注意: PLS 回帰は,OLS や PCR が行うのと同様に線形のモデルを導きます.

(4)

4 注意: もし(PCR での)PCA から得られる成分の数,または PLS 回帰から得られる成分の数が,説明 変数の数と等しい場合,これらの 3 つの手法は同じ結果になります. PLS 回帰から得られる成分は,それらが Yを可能な限り説明するように構築されるが,一方, PCR の成分は,X を可能な限り説明するように構築されます.XLSTAT は,Y と最も相関する成分の 選択を可能にすることによって,PCR の欠点を部分的に補償することができます.

ダイアログ・ボックス

ダイアログ・ボックスは,データ選択から結果の表示まで,さまざまなオプションに対応する複 数のタブに分かれています.下記は,ダイアログ・ボックスのさまざまな成分の説明です. : 計算を開始するには,このボタンをクリックします. : 計算をしないでダイアログ・ボックスを閉じます. : ヘルプを表示するには,このボタンをクリックします. : デフォルト・オプションを再読み込みするには,このボタンをクリックします. : データ選択を削除するには,このボタンをクリックします. : XLSTA がデータを取り扱う方法を変更するには,これらのボタンをクリックします. 下向きの矢印は,XLSTAT が行をオブザベーション,列を変数とみなします.右向きの矢印は, XLSTAT が行を変数,列をオブザベーションとみなします.

(5)

5 一般 タブ: Y / 従属変数: 量的: 従属変数(単一または複数)を選択してください.データは数値でなければなりません.“変 数ラベル” オプションが有効の場合,変数のヘッダも選択されていることを確認してください. X / 説明変数: 量的: 1つまたは複数の量的説明変数を含みたい場合は,このオプションを有効にしてください. そして,対応するデータを選択してください.データは数値でなければなりません.“変数ラベル” オプションが有効の場合,変数のヘッダも選択されていることを確認してください. 質的: 1つまたは複数の質的説明変数を含みたい場合は,このオプションを有効にしてください. それらの Excel の形式が何であろうと,データはカテゴリカルとみなされます.“変数ラベル” オ プションが有効の場合,変数のヘッダも選択されていることを確認してください. 手法: 使用したい回帰手法を選んでください.  PLS: 部分最小 2 乗回帰を計算するには,このオプションを有効にします. PCR: 主成分回帰を計算するには,このオプションを有効にします. OLS: 通常の最小 2 乗回帰を計算するには,このオプションを有効にします. 範囲: 既存のワークシート内のセルから開始して,結果を表示はしたい場合は,このオプション を有効にしてください.そして,対応するセルを選択してください. シート: 有効なワークブックの新規のワークシートに結果を表示するには,このオプションを有 効にしてください. ワークブック: 新規のワークブックに結果を表示するには,このオプションを有効にしてくださ い. 変数ラベル: データ選択(従属変数,説明変数,重み,オブザベーション・ラベル)の最初の行 がヘッダを含む場合は,このオプションを有効にしてください.

(6)

6

オブザベーション・ラベル: オブザベーション・ラベルが利用可能な場合は,このオプションを 有効にしてください.そして,対応するデータを選択してください.”変数ラベル” オプションが 有効の場合,ヘッダを選択内に含める必要があります.このオプションが有効でない場合, XLSTAT によってオブザベーション・ラベル(Obs1, Obs2 …)が自動的に生成されます.

オブザベーション重み: オブザベーションに重み付けするには,このオプションを有効にしてく ださい.このオプションを有効にしない場合は,重みは 1 に等しいとみなされます. 重みは 0 以 上でなければならず,整数の値でなければなりません.あるケースの重みを 2 に設定すると,同 じオブザベーションが 2 回繰り返されることに相当します."変数ラベル" オプションが有効なら, 選択のヘッダも選択されていることを確認してください. 回帰重み: このオプションは,PCR および OLS 回帰でのみ有効です.重みつき最小 2 乗回帰を 実行したい場合は,このオプションを有効にしてください.このオプションを有効にしない場合 は,回帰重みは 1 に等しいとみなされます.重みは 0 以上でなければなりません. "変数ラベル" オプションが有効の場合,選択のヘッダも選択されていることを確認してください. オプション タブ: 共通オプション: 信頼区間 (%): さまざまな検定,パラメータ及び予測で用いる信頼区間の% でのサイズを入力し てください.デフォルト: 95. PLS 回帰のオプション: 停止条件:  自動: XLSTAT が保持する成分の数を自動で決定するようにするには,このオプションを 有効にしてください.  Qi² しきい値: 成分の寄与率が有意であるか否かを決定するために用いる Qi² 基準のしき い値を設定するには,このオプションを有効にしてください. 1-0.95² に対応するデフォ ルト値は 0.0975.  Qi² 改善: 成分の寄与率が有意であるか否かを決定するために用いる Qi² 改善基準のしき い値を設定するには,このオプションを有効にしてください.5% 改善に対応するデフォ ルト値は 0.05.この値は下記のように計算されます.

(7)

7

 

²

 

²

1

²

Imp

²

1

Q h

Q h

Q h

Q h

最小 Press:モデル中で使用する成分の数が最小の Press 統計量を持つモデルに対応する ようにするには,このオプションを有効にしてください.  最大成分数: モデル中で考慮する成分の最大数を設定するには,このオプションを有効に してください. PCR 回帰のオプション: 標準化 PCA: 相関行列で PCA を実行するには,このオプションを有効にしてください.共分散 行列(非標準化 PCA)で PCA を実行するには,このオプションを無効にしてください. 成分をフィルタリング: モデルで使用する成分の数を削減するために,下記の 2 つのオプション の 1 つを有効にできます.  最小%: このオプションを有効にして,選択された成分が表現する合計変動のパーセンテ ージを入力してください.  最大数: 考慮する成分の最大数を設定するには,このオプションを有効にしてください. 成分の並べ替え: “最小 %“または “最大数“に基づいて成分を選択するために,どの基準を用いる かを決定するために下記のオプションの 1 つを選びます.  Y との相関係数: 成分の選択が,従属変数 Y と成分の間の R²決定係数の大きさの順序に基 づくようにするには,このオプションを有効にしてください.このオプションが推奨です.  固有値: 成分の選択が,成分に対応する固有値の大きさの順序に基づくようにするには, このオプションを有効にしてください. PCR 及び OLS 回帰のオプション: 固定切片: モデルの切片(または定数)を与えられた値に設定するには,このオプションを有効 にしてください.そして,対応するフィールド内で値を入力してください(デフォルトでは 0). 許容: OLS アルゴリズムが,一定の値を持つ変数,または他の変数あるいは変数のグループと強 く相関する変数を自動的に削除できるようにするには,このオプションを有効にします(デフォ ルト値は最小の 0.0001.最大値は 1 まで可能).許容値が高いほど,変数間の共線性をより 許 容するモデルになります.

(8)

8 OLS 回帰のオプション: 制約: 質的説明変数を選択した場合のみ,このオプションが有効になります.制約の種類を選ん でください.  a1 = 0: 各質的変数について,変数の最初のカテゴリに対応するモデルのパラメータが 0 に設定されます.この制約の種類は,最初のカテゴリを標準として,あるいは効果なしと してみなす場合に役立ちます.  Sum(ai) = 0: 各質的変数について,さまざまなカテゴリに対応するパラメータの合計が 0 に等しくなります.  Sum(ni.ai) = 0: 各質的変数について,度数で重み付けされたさまざまなカテゴリに対応す るパラメータの合計が 0 に等しくなります. モデル選択: 下記のモデル選択方法の 1 つを使用したい場合,このオプションを有効にしてくだ さい.  最良モデル(Best model):この手法は,“最小の変数“と“最大の変数“で挟まれた多数の変 数に基づくすべてのモデルの中から最良のモデルを選ぶことができます.モデルの品質は 選択の“基準”に依存します.  基準: 次の一覧から基準を選択してください.修正済み R2 乗, MSE(平均 2 乗誤差), Mallows の Cp, 赤池情報量基準(AIC), Schwarz の SBC, 雨宮予測基準.

 最小の変数: モデルで考慮する変数の最小の数を入力してください.  最大の変数: モデルで考慮する変数の最大の数を入力してください..  注意: この手法は,探索されるモデルの数の合計が, Cn,k の合計(ただし k は “最小の 変数“と 最大の変数“の間の値をとり, Cn,k は n!/[(n-k)!k !]である)なので,たいへんに 長い計算になるかもしれません.したがって,“最大の変数“の値を段階的に増やしていく ことを強く推奨します.  ステップワイズ: この選択プロセスは,モデルに最も寄与する変数の追加から開始します (ここで使用される基準は Student の統計量).2 番目の変数の確率が “しきい値水準“より も低い場合は,その変数がモデルに追加されます.この手順は,3 番目の変数についても 同じです.そして,3 番目の変数から開始して,アルゴリズムは変数の 1 つの除去がモデ ルにどう影響するかを評価します.変数のうちの 1 つの Studen 統計量に対応する確率が “しきい値水準“よりも大きい場合は,その変数を除去されます. この手順は,モデルに追加 あるいは除去する変数がなくなるまで続けられます.

(9)

9  フォワード: この手順は,除去ステップがないことを除いては,ステップワイズとまった く同じです.  バックワード: この手順は,すべての可能な変数の選択から開始します.そして,ステッ プワイズ選択と同様な方法を用いて,変数を1つずつモデルから除去します.  しきい値水準: 選択プロセスの間の Student の統計量のしきい値確率の値を入力してくだ さい. 検証 タブ: 検証: モデルを検証するためのデータのサブ標本を使用したい場合は,このオプションを有効に してください. 検証集合: 検証に使用するオブザベーションをどのように獲得するかを決定するには,下記のオ プションの 1 つを選んでください.  ランダム: オブザベーションがランダムに選択されます.したがって “オブザベーション の数” N を指定してください.  最後の N 行: 最後の N 個のオブザベーションが選択されます.したがって “オブザベーシ ョンの数” N を指定してください.  最初の N 行: 最初の N 個のオブザベーションが選択されます.したがって “オブザベーシ ョンの数” N を指定してください.  グループ変数: このオプションを選択した場合,0 か 1 の値だけを持つバイナリ変数を選 択する必要があります.1 の値は,そのオブザベーションが検証に使用されることを意味 します. 予測 タブ: 予測: 予測モードで使用するデータを選択したい場合は,このオプションを有効にしてください. このオプションを有効にすると,予測データ集合が推定データ集合と同じ変数が同じ順序で構造 化されていることを確認する必要があります.一方,変数ラベルは選択してはいけません.以下 に一覧される選択の最初の行は,データに対応しなければなりません. 量的変数: 量的説明変数を選択するには,このオプションを有効にしてください.最初の行が変 数ラベルを含んではいけません.

(10)

10 質的変数: 質的説明変数を選択するには,このオプションを有効にしてください.最初の行が変 数ラベルを含んではいけません. オブザベーション・ラベル: オブザベーション・ラベルがある場合は,このオプションを有効に してください.そして,対応するデータを選択してください.このオプションが有効になってい ないと,オブザベーション・ラベルは XLSTAT によって自動的に生成されます (PredObs1, PredObs2 …). 欠損値 タブ: これらのオプションは,PCR および OLS 回帰でのみ利用できます.PLS 回帰では, 欠損値が アルゴリズムによって自動的に取り扱われます. オブザベーションの消去: 欠損値を持つオブザベーションを消去するには,このオプションを有 効にしてください. 欠損値の推定: 計算を開始する前に折損値を推定するには,このオプションを有効にしてくださ い.  平均または最頻値: 対応する変数の平均(量的変数)または最頻値(質的変数)を用いて, 欠損値を推定するには,このオプションを有効にしてください.  最近接近傍: オブザベーションの最近接近傍を探索して,オブザベーションの欠損値を推 定するには,このオプションを有効にしてください. 出力 タブ: 3 つの手法に共通なオプション: 記述統計: 選択したすべての変数の記述統計量を表示するには,このオプションを有効にしてく ださい. 相関係数: 量的変数(従属および説明)の相関行列を表示するには,このオプションを有効にし てください. 標準化係数: モデルの標準化パラメータ(ベータ係数とも呼ばれる)を表示するには,このオプ ションを有効にしてください. 方程式: モデルの方程式をはっきりと表示するには,このオプションを有効にしてください.

(11)

11 予測値および残差: 予測値と残差の表を表示するには,このオプションを有効にしてください. PLS 回帰のオプション: t, u および u~成分: 成分に対応する表を表示するには,このオプションを有効にしてください. このオプションが有効でない場合,対応するグラフは表示されません. c, w, w* および p ベクトル: PLS アルゴリズムから得られるベクトルに対応する表を表示する には,このオプションを有効にしてください.このオプションが有効でない場合,対応するグラ フは表示されません. VIP: 投影のための変数の重要度の表とグラフを表示するには,このオプションを有効にしてくだ さい. 信頼区間: 標準化係数の信頼区間を計算するには,このオプションを有効にしてください.この 計算は,ジャックナイフ法を含みます. はずれ値分析: はずれ値分析の表とグラフを表示するには,このオプションを有効にしてくださ い. PCR 回帰のオプション: 因子負荷量: 因子負荷量を表示するには,このオプションを有効にしてください.PCA が相関係 数行列に基づく場合(標準化 PCA),因子負荷量は主成分と入力変数の間の相関係数に等しくな ります. 因子/変数の相関: 主成分と入力変数の間の相関を表示するには,このオプションを有効にしてく ださい. 因子得点: PCA によって生成された因子得点(新しい空間でのオブザベーションの座標)を表示 するには,このオプションを有効にしてください.この得点は,PCR の回帰ステップで使用され ます. PCR および OLS 回帰のオプション: 分散分析: 分散分析の表を表示するには,このオプションを有効にしてください. 修正済み予測値: 予測値と残差の表で修正済み予測値を計算して表示するには,このオプション を有効にしてください.

(12)

12 Cook の D: 予測値と残差の表で Cook の距離を計算して表示するには,このオプションを有効に してください. Press: Press 統計量を計算して表示するには,このオプションを有効にしてください. グラフ タブ: 3 つの手法に共通なオプション: 回帰グラフ: 回帰グラフを表示するには,このオプションを有効にしてください.  標準化係数: モデルの標準化係数および対応する信頼区間によってグラフを表示するには, このオプションを有効にしてください.  予測値と残差: 下記のグラフを表示するには,このオプションを有効にしてください. (1) 回帰直線: 説明変数が 1 つだけで,その変数が量的変数の場合に限り,このグラフ が表示されます. (2) 説明変数 対 標準化残差: 説明変数が 1 つだけで,その変数が量的変数の場合に限 り,このグラフが表示されます. (3) 従属変数 対 標準化残差 (4) 予測値 対 観測値 (5) 標準化残差の棒グラフ  信頼区間:グラフ (1) と (4)で信頼区間を表示するには,このオプションを有効にしてくだ さい. PLS 回帰と PCR のオプション: 相関グラフ: 成分と入力変数の間の相関に関するグラフを表示するには,このオプションを有効 にしてください.PCR の場合,相関円を表示するには,この変数を有効にしてください.  ベクトル: 入力変数をベクトルで表示するには,このオプションを有効にしてください. オブザベーション・グラフ: オブザベーションを新しい空間で可視化できるグラフを表示するに は,このオプションを有効にしてください.

(13)

13  ラベル: グラフ上でオブザベーションのラベルを表示するには,このオプションを有効に してください.ラベルの数は,フィルタリング・オプションを用いて調整できます. バイプロット: 入力変数とオブザベーションを同時に表示するグラフを表示するには,このオプ ションを有効にしてください.  ベクトル: 入力変数をベクトルで表示するには,このオプションを有効にしてください.  ラベル: バイプロット上にオブザベーションのラベルを表示するには,このオプションを 有効にしてください.ラベルの数は,フィルタリング・オプションを用いて調整できます. 色づけラベル: 対応するポイントと同じ色でラベルを表示するには.このオプションを有効にし てください.ラベルが黒で表示されている場合,このオプションを有効になりません. フィルタ: 表示するオブザベーションの数を調整するには,このオプションを有効にしてくださ い.  ランダム: 表示するオブザベーションをランダムに選択します.表示する “オブザベーシ ョンの数” N を指定しなければなりません.  最初の N 行: 最初の N 個のオブザベーションが,グラフ上に表示されます.表示する “オ ブザベーションの数” N を指定しなければなりません.  最後の N 行: 最後の N 個のオブザベーションが,グラフ上に表示されます.表示する “オ ブザベーションの数” N を指定しなければなりません.  グループ変数: このオプションを選択すると,0 と 1 の値を持つバイナリ変数を選択する 必要があります.1 は,表示するオブザベーションとして識別されます.

結果

記述統計: 記述統計の表は,選択されたすべての変数についての基本統計量を表示します.従属 変数(青で色づけ),および量的説明変数について,XLSTAT は,オブザベーションの数,欠損 値を持つオブザベーションの数,欠損値のないオブザベーションの数,平均値,不偏標準偏差を 表示します.質的説明変数について,XLSTAT は,その名前とカテゴリの度数を表示します. 相関行列: この表は,説明変数間,従属変数間,および両者のグループ間の相関の可視化を可能 にするために表示されます.

(14)

14 PLS 回帰の結果: 最初の表は,モデル品質指標を表示します.この品質は,指標への成分の累積寄与率に対応しま す.  Q²cum 指標は,モデル(および複数の従属変数がある場合はサブ・モデル)の予測品質 への最初の h 個の成分の全体的な寄与率を測定します.Q²cum(h) 指標は次式で表されま す.   1 1 1 1

²

( )

1

q kj h k q j k j k

PRESS

Q cum h

SCE

   

 

この指標は ,PRESS 統計量(クロスバリデーションが必要)および 1 つ成分の尐ないモデル の誤差の 2 乗和 (SSE)を含みます.Q²cum 指標の最大値の探索は,最も安定したモデルを発見 することに相当します.  R²Ycum 指標は,従属変数と最初の h 個の成分の間の決定係数の合計です.したがって, これは,モデルの従属変数についての最初の h 個の成分の説明力を測定します. R²Xcum 指標 は,説明変数と最初の h 個の成分の間の決定係数の合計です. したがって, これは ,モデルの説明変数についての最初の h 個の成分の説明力を測定します. 成分の数が増えるに伴う,この 3 つの指標の進展展の可視化を可能にするため,棒グラフが表示 されます.R²Ycum と R²Xcum 指標は,成分の数によって必然的に増大しますが,Q²cum はそ うではありません. 次の表は,説明変数および従属変数と t および ũ 成分の相関行列です.グラフは,t 成分との相 関を示します. 次の表は w ベクトルで,続いて w* ベクトル および c ベクトルとなっており,“説明” 部に示 されるように,それはモデルに直接含まれます.h=2 までが有効なモデルに対応する場合,w*/c 軸上の変数チャートでの y ベクトルへの x ベクトルの射影によって,モデル中の対応する係数の 符号と相対重みがわかります. 次の表は,t 成分の空間でのオブザベーションの得点を示します.対応するグラフが表示されて います.いくつかのオブザベーションが検証のために選択された場合,それらがグラフ上に表示 されます. 次の表は,t 成分の空間中でのオブザベーションの標準化得点を示します.これらの得点は,(指 標変数で表される)各オブザベーションと成分との相関を計算することに相当します.これは,

(15)

15 Xs,Ys およびオブザベーションを同時に表示する 相関マップにオブザベーションを表示するこ とを可能にします.このマップの解釈のための事例は, Tenenhaus (2003)で示されています. 次の表は, u とそれから u~ 成分の空間でのオブザベーションの得点です.u~に基づくグラフ が示されています.検証のためにいくつかのオブザベーションが選択された場合,それらがグラ フに表示されます. Q² 品質指標 の表は,成分が従属変数の説明にどれぐらい寄与しているかを可視化できます. 累積 Q² 品質指標 の表は,空間の次元数の増大に伴う品質を測定することができます. 入力変数(従属変数および説明変数)と成分 t および u~の間の R² および冗長性 の表は,t お よび u~の説明力を評価することを可能にします. X の表(n 行と p 個の変数)と c 成分の間 の冗長性は,c で説明される X の分散の一部です.我々は,これを変数と成分の間の相関係数の 2 乗の平均として定義します.

2 1

1

,

(

, )

p j j

Rd X c

R x c

p

冗長性から,t 成分の構築のための説明変数の重要度を測定する VIP(Variable Importance for the Projection) を導くことができます.説明変数 J と成分 h の VIP は,次式で表されます.

2 1 1

,

,

h hj h i ij i i i

p

VIP

Rd Y t w

Rd Y t

 

VIP チャート(成分ごとの棒グラフ)上で,0.8 より大きい VIP を識別するための境界線がプト ッロされています.このしきい値は, Wold (1995)が提案したもので,モデルに有意に寄与して いる変数を識別することができます. 次の表は,はずれ値分析を示します.DModX(X 変数の空間での各オブザベーションからモデル への距離:distances from each observation to the model in the space of the X variables)は,説 明変数についてのはずれ値を識別することができ,一方, DModY(Y 変数の空間での各オブザ ベーションからモデルへの距離:distances from each observation to the model in the space of the Y variables)は,従属変数についてのはずれ値を識別することができます.対応するグラフ上に しきい値 DCrit も,はずれ値を識別するのを助けるために表示されます.DCrit しきい値より上に ある DMod 値がはずれ値に対応します. DCrit は,伝統的に箱ひげ図で使用されているしきい 値を用いて計算されます.i 番目のオブザベーションの DModX の値は次式で表されます.

(16)

16 2 1

( , )

1

p ij j i

e X t

n

DModX

n

h

p

h

 

ここで,e(X,t)ij (i = 1 … n) は,j 番目の成分での X の回帰の残差です.I 番目のオブザベーション の DModY の値は,次式で表されます. 2 1

( , )

q ij j i

e Y t

DModY

q

h

ここで,q は従属変数の数で,e(Y,t)ij (i = 1 … n) は j 番目の成分での Y の回帰の残差です. 次の表は,複数の従属変数に対応するモデルのパラメータを示します.説明変数の数が 20 を超 えない場合は,それに続いて,各モデルに対応する方程式があります. 従属変数のそれぞれについて,一連の表とグラフが示されます. 適合度統計: この表は,各従属変数についての PLS 回帰の適合度統計量を示します.この統計 量の定義は,下記のとおりです. 標準化係数(ベータ係数ともいう)の表は,モデル中の変数の相対重みを比較することができま す.信頼区間を計算するために, PLS 回帰の場合,OLS 回帰で使用される正規性仮説に基づく 伝統的な式は適用しません.Tenenhaus ら (2004)が提案したブートストラップ法が,信頼区間 を推定できます.係数の絶対値が大きいほど,モデル中のその変数の重みがより大きくなります. 標準化係数のまわりの信頼区間が 0 を含む(それはグラフ上で簡単に観察できます)場合, モデ ル中のその変数の重みは,有意ではありません. 予測値と残差の表で,重み,従属変数の観測値,対応する予測値,残差,および信頼区間が,各 オブザベーションについて表示されます.2 種類の信頼区間が表示されます. 平均周辺の区間(こ れは,与えられた説明変数の値の集合によって無限数のオブザベーションについて予測がなされ る場合に対応)と個々の予測値周辺の区間(これはたった 1 つのオブザベーションについて予測 がなされる場合に対応)とがあります.2 つ目の区間は,もちろん,確からしさがより高いので, 通常 1 つ目のよりも広くなります.検証のためにいくつかのオブザベーションが選択された場合, それらがこの表に示されます. あとで表示される 3 つのグラフが可視化を可能にします.

(17)

17  残差 対 従属変数,  予測値と観測値の間の距離 (理想的なモデルでは,すべての点が基準線上にある),  残差の棒グラフ. 予測モードで使用するデータを選択した場合,表は新しいオブザベーションでの予測とそれに対 応する信頼区間を示します. PCR 回帰の結果: PCR 回帰は,主成分分析のステップを必要とします.先の結果が後に関係します. 固有値: 固有値の表とそれに対応するスクリーン・プロットが表示されます.表示される固有値 の数は,空値でない固有値の数に等しくなります.成分フィルタリング・オプションが選択され た場合,それは回帰ステップの前にのみ適用されます. 対応する出力オプションが有効化された場合,XLSTAT は因子負荷量(新しい空間での入力変数 の座標)を表示して,それから入力変数と成分との相関を表示します. PCA が相関行列で実行 された場合,相関は因子負荷量と等しくなります.次の表は,因子得点(新しい空間でのオブザ ベーションの座標) を表示し,これはあとの回帰ステップで使用されます.検証のためにいくつ かのオブザベーションが選択された場合,それらがこの表に示されます. バイプロットに対応す るオプションを選択して,バイプロットを表示することができます. 従属変数との相関に基づくフィルタ・オプションが選択された場合,回帰ステップで使用される 成分は,従属変数との最も大きな決定係数(R²)を持つそれです.成分と従属変数との間の相関係 数の行列が表示されます. 保持される成分の数は,固有値の数と選択されたオプション(”最小%” または”最大成分数”)によります. 固有値に基づくフィルタ・オプションが選択された場合,回帰ステップで使用される成分は,最 も大きな固有値を持つそれです.保持される成分の数は,固有値の数と選択されたオプション(” 最小%”または”最大成分数”)によります. PCR および OLS 回帰に共通の結果: 適合度統計: この表は,回帰モデルの適合度に関係する統計量を示します.  オブザベーション: 計算のために考慮に入れられるオブザベーションの数.下記の数式で, n はオブザベーションの数. 重みの合計: オブザベーションの重みの総計が考慮に入れられます.下記の数式で, W は 重みの総計.

(18)

18  DF: 選択されたモデルの自由度の数(分散分析表の誤差 DF). R²: モデルの決定係数. 0 と 1 の間の値を持つこの係数は,モデルの切片がユーザーによ って固定されなかった場合にのみ表示されます.この係数の値は,次式で計算されます.

2 1 2 1

ˆ

1

(

)

n i i i i n i i i

w y

y

w y

y

 

 

, with 1

1

n i i i

y

w y

n

R² は,モデルによって説明される従属変数のバラツキの比率であると解釈されます. R² が 1 に近いほど,よく適合したモデルです. R² の主要な欠点は,モデルを適合させるた めに使用する変数の数を考慮に入れていないことです.  修正済み R²: モデルの修正された決定係数.R²がゼロに近いとき,修正済み R² は負にな るかもしれません.この係数は,モデルの切片がユーザーによって固定されなかった場合 にのみ表示されます.この係数の値は次式で計算されます.

1

ˆR² 1 1

²

1

W

R

W

p

  

 

修正済み R² は,モデルに使用する変数の数を考慮できるように R²を補正するものです.  MSE: 平均 2 乗誤差(MSE)は,次式で定義されます.

2 1

1

ˆ

*

n i i i i

MSE

w y

y

W

p

RMSE: 平均 2 乗平方根誤差(RMSE)は,MSE の平方根です.. MAPE: 絶対平均比誤差(MAPE)は,次式で計算されます. 1

ˆ

100

n i i i i i

y

y

MAPE

w

W

y

DW: Durbin-Watson 統計量は次式で定義されます.

 

2 1 1 2 2 1

ˆ

ˆ

ˆ

n i i i i i n i i i i

y

y

y

y

DW

w y

y

   

(19)

19 この係数は 1 次の自己相関係数で,残差が自己相関していないことを検証することができます. 残差の独立性は,線形回帰の仮定の 1 つです.残差の間の独立性の仮説が採択されるか棄却さ れるかを知るために,ユーザーは Durbin-Watson 表を見ることが必要になるでしょう.  Cp: Mallows の Cp は次式で定義されます.:

2 *

ˆ

SCE

Cp

p

W

ここで SSE は,モデルと説明変数の 2 乗誤差の総計で,

ˆ

はすべての説明変数を含むモデ ルの残差の分散の推定量です. Cp 係数が p* に近いほど,モデルの偏りが尐なくなります..  AIC: 赤池情報量基準(AIC)は次式で定義されます.

ln

SCE

2 *

AIC

W

p

W

赤池 (1973) が提案したこの基準は,情報理論から導かれ,derives from the information theory Kullback と Leibler の測度 (1951)に基づきます.これは,新しい説明変数の追加が十分な情報 をもたらさないようなモデルにはペナルティを科すモデル選択基準です.AIC が低いほど,よ いモデルです..  SBC: Schwarz のベイジアン基準は次式で表されます.

 

ln

SCE

ln

*

SBC

W

W p

W

Schwarz (1978) が提案したこの基準は, AIC に近く,それを最小化することが目的です.  PC: 雨宮予測基準基準は次式表されます.

1

²



*

*

R

W

p

PC

W

p

雨宮(1980)が提案したこの基準は,修正済み R² のように,モデルの節約原理を考慮すること ができます.

Press RMCE: Press RMSE 統計量は,ダイアログ・ボックス内の対応するオプションが

有効になっている場合のみ表示されます.Press 統計量は次式で定義されます.

2 ( ) 1

ˆ

Press

n i i i i i

w y

y

(20)

20 ここで

y

ˆ

i(i) は,i 番目のオブザベーションがモデルのパラメータの推定に使用され たデータ集合に含まれない場合の,そのオブザベーションの予測です.次式が得られ る場合:

Press

Press RMCE

-

*

W

p

したがって,Press RMSE は RMSE と比較できます.両者の差が大きいことは,モデ ルが,いくつかのオブザベーションの有無に敏感であることを示します. 分散分析表は,説明変数がモデルにどれだけの情報量をもたらすかを評価できます.モデルの切 片がユーザーによって固定されていない場合,選択されたモデルの適合と従属変数がその平均に 等しい基本モデルの適合を比較することによって,その説明力が測定されます.切片が与えられ た値に固定されている場合,選択されたモデルは,従属変数が固定切片に等しい基本モデルと比 較されます. PCR 回帰の場合,モデル・パラメータの最初の表は,選択された成分に基づくモデルのパラメ ータです.この表は,解釈が容易ではありません.入力変数に対応してモデルのパラメータを得 るために変換が実行されるからです.後の表は,OLS 回帰の場合,直接得られます.この表の中 で,対応する標準誤差,Student の t ,対応する確率,信頼区間などのパラメータの推定を見る ことができます. そして,モデルの方程式が,モデルの可視化や再利用を助けるために表示されます. 標準化係数(ベータとも呼ばれる)の表は,モデル中の変数の相対重みを比較することを可能に します.この係数の絶対値が大きいほど,モデル中のその変数の重みが大きくなります.標準化 係数の周辺の信頼区間が 0 を含む(それはグラフで簡単に観察できる)場合,その変数の重みは 有意ではありません. 予測値と残差の表では,重み,説明変数の値(もしそれが 1 つだけの場合),従属変数の観測値, 対応する予測値,残差,信頼区間,修正済み予測値,Cook の D が各オブザベーションについて 表示されます.2 種類の信頼区間が表示されます.平均値周辺の区間(これは与えられた説明変 数の値の集合によって,無限の数のオブザベーションについて予測がなされる場合に対応)およ び個々の予測値の周辺の区間(これはたった 1 つオブザベーションについて予測がなされる場合 に対応).2 つ目の区間は,不確実性がもちろん高いので,通常,最初のものよりも広くなりま す.いくつかのオブザベーションが検証のために選択された場合,それらがこの表に表示されま す.

(21)

21 続くグラフは上記に一覧された結果を可視化することができます.モデル中にたった 1 つの説明 変数がある場合,最初のグラフは,オブザベーション,回帰直線,予測値周辺の信頼区間を可視 化できます.2つ目のグラフは,標準化残差 対 説明変数を表示します.残差は, 横軸周辺に ランダムに分布するはずです.トレンド(傾向)が観察される場合,それはモデルに問題がある ことを意味します. . あとで表示さえっる 3 つのグラフは,標準化残差 対 従属変数,予測値と観測値の間に距離(理 想的なモデルでは,すべての点が 2 分線上にある),標準化残差の棒グラフを別々に可視化する ことができます.3 つ目のグラフは,予期しない数の高い残差があるかどうかを素早く見ること を可能にします:残差の正規性の仮定は,標準化残差の 5%だけが ]-2, 2[ 区間の外にあるべきで す. 予測モードで使用するデータを選択した場合,表は新しいオブザベーションでの予測値と対応す る信頼区間を表示します. OLS 回帰の結果:

Type I SS および Type III SS (SS: 2 乗和) オプションが有効になっている場合,対応する表が表 示されます.

Type I SS の表は,新しい説明変数の漸進的な追加のモデルへの影響を可視化できます.この影 響度は,合計 2 乗誤差(SSE),平均 2 乗誤差(MSE),Fisher の F 統計量, Fisher の F に対応す る確率によって与えられます.より小さな確率は,変数がモデルにより多くの情報をもたらすこ とを示します.注意:変数の選択の順序がここで得られる結果に影響します.

Type III SS の表は,説明変数の除去の(その他のすべての変数が含まれる)モデルの適合度で の影響を可視化できます.影響度は,合計 2 乗誤差(SSE),平均 2 乗誤差 (MSE), Fisher の F 統 計量,Fisher の F に対応する確率で測定されます.より小さな確率は,変数がモデルにより多く の情報をもたらすことを示します.注意:選択における変数の順序は,この表の結果には影響し ません.

事例

PLS 回帰の使用法のチュートリアルは, Addinsoft 社 web サイトの下記のページ. http://www.xlstat.com/demo-pls.htm

(22)

22

参考文献

Akaike H. (1973). Information Theory and the Extension of the Maximum Likelihood Principle. In: Second International Symposium on Information Theory. (Eds: V.N. Petrov and F. Csaki). Academiai Kiadó, Budapest. 267-281.

Anemiya T. (1980). Selection of regressors. International Economic Review, 21, 331-354. Bastien P., Esposito Vinzi V. and Tenenhaus M. (2005). PLS Generalised Regression.

Computational Statistics and Data Analysis, 48, 17-46.

Dempster A.P. (1969). Elements of Continuous Multivariate Analysis. Addison-Wesley, Reading, MA.

Kullback S. and Leibler R. A. (1951). On information and sufficiency. Annals of Mathematical

Statistics, 22, 79-86.

Schwarz G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464. Tenenhaus M. (1998). La Régression PLS, Théorie et Pratique. Technip, Paris.

Tenenhaus M., Pagès J., Ambroisine L. and Guinot C. (2005). PLS methodology for studying relationships between hedonic judgements and product characteristics. Food Quality and

Preference. 16, 4, 315-325.

Wold, S., Martens H. and Wold H. (1983). The Multivariate Calibration Problem in Chemistry solved by the PLS Method. In: Ruhe A.and Kågström B. (eds.), Proceedings of the Conference on Matrix Pencils. Springer Verlag, Heidelberg. 286-293.

Wold S. (1995). PLS for multivariate linear modelling. In: van de Waterbeemd H. (ed.), QSAR: Chemometric Methods in Molecular Design. Vol 2. Wiley-VCH, Weinheim, Germany. 195-218.

参照

関連したドキュメント

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

このアプリケーションノートは、降圧スイッチングレギュレータ IC 回路に必要なインダクタの選択と値の計算について説明し

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

1 つの Cin に接続できるタイルの数は、 Cin − Cdrv 間 静電量の,計~によって決9されます。1つのCin に許される Cdrv への静電量は最”で 8 pF

 学年進行による差異については「全てに出席」および「出席重視派」は数ポイント以内の変動で

イ  日常生活や社会で数学を利用する活動  ウ  数学的な表現を用いて,根拠を明らかにし筋.