Excelによるデータ分析

(1)

Excel による

データ分析

多変量解析編

矢野佑樹

2013/07/27

(2)

1

Excel で学ぶデータ分析（多変量解析編）

多変量解析では，気温とアイスの売上個数の関係や，最寄り駅からの距離と来店者数の関係など，2 つ以上の変数を一度に分析します．では，早速 2 つのデータ間の関係を Excel によって分析しましょう．＜散布図と相関＞例1．あるアイスクリーム販売店では，1 日あたりの適性在庫量を確保するために，アイスクリーム販売量と最高気温の関係を知りたいと考えています．実際にデータを集めてみると，以下の表のようになりました．散布図を作成する 1. ice_cream.xlsx というファイルを開く． 2. C2～D16 までの範囲を選択し，挿入タブの散布図の中にある「散布図（マーカーのみ）」を選択する．グラフを選択したまま右クリックをして，「グラフの移動」を押し，「新しいシート」を選択する． 3. グラフのレイアウトから，グラフタイトルと軸ラベルを追加する．グラフタイトルに「最高気温とアイスクリーム販売量の散布図」，縦軸に「販売量（個）」，横軸に「最高気温（度）」と入力する． 4. 軸の目盛の最小値を指定する場合は，軸を選択し，「軸の書式設定」→「軸のオプション」で，最小値に固定値（例えば横軸であれば20）を指定する．日付最高気温（度）販売量（個） 8月1日 31 100 8月2日 30 95 8月3日 36 150 8月4日 29 88 8月5日 27 80 8月6日 30 91 8月7日 32 112 8月8日 31 105 8月9日 33 125 8月10日 34 140 8月11日 27 80 8月12日 29 90 8月13日 28 87 8月14日 32 119

(3)

2 フォントサイズなどを調整すると，以下のような散布図が出来上がったと思います．散布図から，最高気温が高ければ販売量も多くなるという関係があることがわかります（正の相関）．2 変数間の関係を分析したいときは，まず散布図を描いて視覚的にデータの特徴を捉えることをお勧めします．相関係数を計算する 1. 「分析ツール」の「相関」をクリックする． 2. C2～D16 までの範囲を選択し，新規ワークシートに相関係数を出力する．データ方向は「列」を選択し，「先頭行をラベルとして使用」にチェックを入れる．以下の表が，新しいワークシートにできたと思います．相関係数は約0.97 ですので，最高気温とアイスクリームの販売量の間には「強い正の相関」最高気温（度）販売量（個）最高気温（度） 1 販売量（個） 0.973957624 1

(4)

3 があると判断できます．一般に，相関係数と関連性の強さは以下の表のようになっていますので，参考にしてください．演習問題1 以下の表は，あるドラッグストアチェーンの店舗の売上高，店舗面積，駐車場面積のデータを示しています．新たな店舗を出店する場合，店舗面積と駐車場面積のどちらを広くした方がよいでしょうか．「店舗面積と売上高」，「駐車場面積と売上高」の散布図を作成し，それぞれの相関係数を求めて分析してください．drug_store.xlsx 相関係数関連性の強さ（正の相関）相関係数関連性の強さ（負の相関） 0～0.2 ほとんど関連なし（無相関） -0.2～0 ほとんど関連なし 0.2～0.4 やや関連あり -0.4～-0.2 やや関連あり 0.4～0.7 かなり関連あり -0.7～-0.4 かなり関連あり 0.7～1.0 強い関連あり -1.0～-0.7 強い関連あり店舗店舗面積（m2）駐車場面積（m2）売上高（万円） 1 970 420 3200 2 680 500 2000 3 530 460 1600 4 880 250 3100 5 740 330 2800 6 640 400 2900 7 500 260 2600 8 480 310 2000 9 670 400 2600 10 620 200 2400 11 630 300 2500 12 770 480 2800 13 860 490 3200 14 560 500 2800 15 760 320 3000 16 570 170 2200 17 800 490 3100 18 810 510 3000 19 760 500 2900 20 910 360 3400

(5)

4 ＜単回帰分析＞散布図及び相関係数の値から，2 種類のデータ間の関係の強さがわかりましたが，それらの関係を数式で表し，予測などに用いることはできないでしょうか．そこで，データの集まりについて，できるだけ真ん中を通る直線を描くことを考えます（データを代表する一本の直線）．この直線のことを回帰直線と呼びます．この手法は実証分析などでもよく用いられます．直線の引き方 x とy という 2 つの変数間の関係を考えます．ここで， x の値が y の値に影響を与えると いう因果関係を想定します．例えば，最高気温とアイスクリーム販売量の例では，最高気 温（ x ）がアイスクリームの販売量（ y ）に影響を与えると考えられます．下の x と y の散 布図の中に，データのできるだけ真ん中を通る直線が描かれているのがわかると思います． この回帰直線は，直線と観測値の y 軸方向のずれ（つまり，観測値から直線までの縦のずれ） を全体として最小にするように描かれています． ※より専門的には，それぞれの観測値と直線のy軸方向のずれの二乗をすべて足し合わせたもの（平方和）を最小にするように直線の式が決められますが，ここでの詳しい解説は省略します（最小二乗法）．

(6)

5 この直線の式を一般的に表すと，yabxと書くことができ，データから a と b の値を 最小二乗法によって求めることで，回帰直線の式を導くことができます．計算は Excel が自動的に行ってくれます．では実際に，ice_cream.xlsx のデータを用いて回帰分析を行ってみましょう．回帰直線を描く 1. 散布図でデータ系列を選択する． 2. 右クリックで「近似曲線の追加」，もしくは「グラフツール」の「レイアウト」から「その他の近似曲線オプション」を選ぶ． 3. 近似曲線のオプションで，「線形近似」を選択し，「グラフに数式を表示する」と「グラフにR-2 乗値を表示する」にチェックを入れる．以下のようにデータを代表する一本の線形の近似曲線（回帰直線）が描かれたと思います．数式は，〔販売量（個）＝ 8.1841 × 最高気温（度）－ 146.36〕であることを表しています．また， 2

R

（決定係数）は直線の当てはまりの良さを表しており，0～1 の間の値を取ります．1 に近ければ近いほど，直線がよく当てはまっていることがわかります．逆に 0 に近ければ，直線の当てはまりがよくないと言えます．この場合0.9486 なので，直線はよく当てはまっているといえるでしょう．

(7)

6 では，この回帰式を用いて予測をしてみましょう．例えば，気温35 度のときの販売量を予測したいのであれば，上の式に35 を代入するだけで予測値が得られます．販売量（個）＝ 8.1841 × 35 － 146.36 ＝ 286.44 － 146.36 ＝ 140.08 （約 140 個）このように回帰式を予測に用いることができますが，分析に用いたデータの範囲からあまりにも離れている値を予測に用いることはお勧めできません．回帰分析を実行して信頼性を確かめる（より詳しい分析） 1. 「分析ツール」の「回帰分析」をクリックする． 2. 入力 Y 範囲で D2～D16 までを選択，入力 X 範囲で C2～C16 までを選択する． 3. 「ラベル」にチェックを入れ，出力オプションでは「新規ワークシート」を選択し，「残差」と「標準化された残差」，「残差グラフの作成」にチェックを入れる．以下のように結果が出力されたと思います．「回帰統計」では，「重決定R2」が重要です．重決定 R2 は，前に計算された決定係数 2

R

と同じものです．次に解説する重回帰分析の場合，補正R2（自由度修正済み決定係数）の方がよいのですが，単回帰分析の場合は重決定R2 でもよいです．重決定 R2 の値が 0.4 以上であれば，モデルの当てはまりに問題はないでしょう．「分散分析表」では，一番右の「有意F」のところの値に着目してください．この値が，0.05 以下であれば，係数の推定値の少なくとも一つは意味があるものであることを示しています．この例では，4.25809E-09（₄_.₂₅₈₀₉_₁₀9_{）で，0.05 よりも圧倒的に小さいので，モ} デルが意味のあるものであることがわかります．※単回帰の場合は係数のP 値と一致する．回帰統計重相関 R 0.973957624 重決定 R2 0.948593454 補正 R2 0.944309575 標準誤差 5.194804019 観測数 14 分散分析表自由度変動分散観測された分散比有意 F 回帰 1 5975.596706 5975.596706 221.4333057 4.25809E-09 残差 12 323.8318655 26.98598879 合計 13 6299.428571

(8)

7 次の表では，「係数」とその「P-値」に着目してください．切片の係数は，yabxの式 の a ，最高気温の係数は b の推定値になっています（前と同じ）．ここで重要なのが，最高 気温のP-値です．P 値は，推定された係数の値が 0 である確率を示しています．つまり，最高気温とアイスクリームの販売量の間には関連性がない確率を表しているわけです．この例では，P 値が 4.25809E-09（₄_.₂₅₈₀₉_₁₀9_{）というものすごく小さい値ですので，関} 連性がない確率はものすごく小さいと考えることができます．よって，データ間には関連性があると結論付けます．一般に，P 値が 0.05 以下であれば，推定された係数は意味のあるものであると考えてよいでしょう．逆に0.05 より大きな値であれば，データ間に関連性がない確率が高いと考えられます．※切片は0 であってもよいので P 値は気にしなくて大丈夫です． 最後に，直線（予測値）と観測値の y 軸方向のずれを「残差」と呼びますが，その残差と 最高気温（度）のプロットを確認しましょう．点の集まりにあまり規則性がないような感じであれば（無相関であれば），分析の信頼性には問題ないと考えてよいでしょう．何かしらの規則性がある感じであれば（例えば，最高気温が上がるにしたがって，点の散らばりが大きくなる），不均一分散や系列相関といった問題が考えられます．より高度な分析手法が必要になりますので注意してください．係数標準誤差 t P-値切片 -146.3570857 16.91024584 -8.65493542 1.66516E-06 最高気温（度） 8.184147318 0.54998642 14.88063526 4.25809E-09 下限 95% 上限 95% 下限 95.0% 上限 95.0% -183.2013463 -109.5128251 -183.2013463 -109.5128251 6.985829849 9.382464787 6.985829849 9.382464787

(9)

8 演習問題2 以下の表は，ある商品を売る20 人のセールスマンの営業活動の適性テストの得点と，テスト後一定期間における販売実績（個数）を示したものです．適性テストの得点が販売実績に結び付いているかを確かめてみましょう．散布図の中に回帰直線を描き，分析ツールで回帰分析を行ってください．残差グラフも作成しましょう．また，新たに採用されたセールスマンの適性テストの得点が48 点であった場合，商品の販売個数を予測してみましょう． sale.xlsx ＜重回帰分析＞単回帰分析では，ある1 つの変数 x の値が，もう 1 つの変数 y の値に影響を与えるという ことを考えました．では，2 つ以上の変数が y の値に影響を与えるケースを考えるときはど のようにすればよいでしょうか．y の動きを説明する変数が 2 つ以上ある場合は，単回帰分 析の式を拡張して重回帰分析を行います．例えば，あるドラッグストアチェーンの店舗面積x と駐車場面積₁ x が，売上高₂ y （演習問題 1 のデータ）にどのような影響を与えている かどうかを分析してみます．拡張された式は，ya₀a₁x₁a₂x₂となり，a₀,a₁,a₂は推定するパラメータです．とにかく，Excel で重回帰分析を行ってみましょう．手順は単回帰分析のときと同じですが，入力X 範囲を拡張します． No 適性テスト得点販売実績（個） 1 41 32 2 35 20 3 34 30 4 40 24 5 33 27 6 42 28 7 37 31 8 42 33 9 30 25 10 43 40 11 38 29 12 38 33 13 46 36 14 36 23 15 32 22 16 43 38 17 42 26 18 30 21 19 41 30 20 45 30

(10)

9 重回帰分析を実行する 1. drug_store.xlsx を開き，「分析ツール」の「回帰分析」をクリックする． 2. 入力 Y 範囲で E2～E22 までを選択，入力 X 範囲で C2～D22 までを選択する． 3. 「ラベル」にチェックを入れ，出力オプションでは「新規ワークシート」を選択し，「残差」と「標準化された残差」，「残差グラフの作成」にチェックを入れる．以下のように結果が出力されたと思います．重回帰分析の場合，補正R2（自由度修正済み決定係数）に着目してください．補正 R2 の値が0.4 以上であれば，モデルの当てはまりに問題はないでしょう．この場合，0.59 なので，当てはまりの良さはまあまあです．補正R2 の方がよい理由の一つとしては，重回帰分析では変数の数が増えると決定係数がどんどん大きくなっていってしまうという計算上の問題があるからです．「分散分析表」では，「有意F」の値が 0.05 以下であれば，推定された係数の少なくとも一つは意味があるものであることを示しています．この例では0.000195 ですので，推定されたモデルが意味のあるものであることがわかります．この表では単回帰のときと同様に，「係数」とその「P-値」に着目してください．切片の係数は，ya₀a₁x₁a₂x₂の式のa₀，店舗面積の係数はa₁，駐車場面積の係数はa₂の推定値になっています．上述の通り，P 値は推定された係数の値が 0 である確率を示しています．回帰統計重相関 R 0.796174438 重決定 R2 0.633893736 補正 R2 0.59082241 標準誤差 300.3725329 観測数 20 分散分析表自由度変動分散観測された分散比有意 F 回帰 2 2655698 1327849 14.71730281 0.000195 残差 17 1533802 90223.66 合計 19 4189500 係数標準誤差 t P-値切片 889.568729 380.0692 2.340544 0.031706393 店舗面積（m2） 2.690506489 0.509822 5.277349 6.15931E-05 駐車場面積（m2） -0.226815207 0.657193 -0.34513 0.734231971

(11)

10 P 値を見ると，店舗面積の P-値は非常に低く，駐車場面積の P-値は 0.73 と 0.05 よりだいぶ大きいことがわかります．このことと係数の符号から，店舗面積が広くなれば売上高が上がるという関係があり，駐車場面積は売上高には影響を及ぼさないということが言えます．よって，駐車場面積はモデルから除外してしまってよいでしょう．つまり，店舗面積から売上高を予測する単回帰分析でよいということになります．重回帰分析（2）例2．次の表は，C 社が発売している既存の缶コーヒーブランドの，初年度の販売ケース数，それにかけた広告費と販売促進費のデータを示しています．marketing.xlsx 上と同じ手順で分析すると，以下のような結果が得られます．ブランド広告費（万円）販促費（万円）販売ケース数（万ケース） A 6200 5900 2500 B 8000 5900 3000 C 6700 5500 2200 D 5100 4000 1000 E 6300 6400 2500 F 7500 6500 3100 G 5500 5500 1500 H 6500 5700 2400 I 5900 5100 1900 J 9900 6500 3400 回帰統計重相関 R 0.964261877 重決定 R2 0.929800967 補正 R2 0.9097441 標準誤差 221.7869823 観測数 10 分散分析表自由度変動分散観測された分散比有意 F 回帰 2 4560673.741 2280336.871 46.3582364 9.17E-05 残差 7 344326.2586 49189.46551 合計 9 4905000

(12)

11 補正R2 の値を見るとモデルの精度には問題がないことがわかります．広告費と販促費の P 値は共に0.05 より小さく，係数の符号はプラスですので，どちらかもしくは両方増えれば販売ケース数は多くなるということがいえます．販売ケース数の予測には以下の式を使います．販売ケース数＝ 0.27 × 広告費＋ 0.52 × 販促費－ 2455.44 もし，新たな商品（ブランド）を追加するときに，広告費8200 万円，販促費 5800 万円を設定するならば，販売ケース数は，販売ケース数＝ 0.27 × 8200 ＋ 0.52 × 5800 － 2455.44 ＝ 2774.56 2774 個と予測できます．ちなみに，残差分析では「残差と予測値」の散布図（eYˆプロット）を用います（説明変数が2 つ以上あるため）．点の集まりに規則性がなければ特に問題はないでしょう．重回帰分析における注意点予測に用いる変数間に高い強い相関があると，多重共線性という問題が発生します．説明変数間に0.7～1 の強い相関がある場合は注意してください．係数標準誤差 t P-値切片 -2455.442508 560.6626773 -4.37953623 0.003236291 広告費（万円） 0.273289776 0.072272235 3.781393716 0.006879744 販促費（万円） 0.518948004 0.133308809 3.892826039 0.00595366

(13)

12 ＜数量化理論Ⅰ類＞数量化理論Ⅰ類は，『0』，『1』データを用いた回帰分析です．よって分析手法はこれまでと同じですが，データの質が異なります．例を用いて解説します．例3．次の表は，あるチョコレート菓子の様々なブランドが売り出されたときの，テレビ CM の有無と新聞広告の有無，そのとき対象となったお菓子の認知率のデータを示しています．ad.xlsx まず，このデータを次のような『0』，『1』データ（質的データ）に変換します．ブランドテレビCM 新聞広告認知率（％） A 2 2 21.8 B 1 1 48.3 C 1 1 46.7 D 2 1 28.3 E 2 2 16.7 F 1 2 25.8 G 2 1 34.2 H 1 1 50.0 I 1 2 34.3 J 2 1 21.0 K 1 1 43.5 L 1 1 41.3 M 1 1 41.7 N 2 1 26.2 O 1 2 27.7 ※1は「あり」，2は「なし」を示しているブランドテレビCMありテレビCMなし新聞広告あり新聞広告なし認知率（％） A 0 1 0 1 21.8 B 1 0 1 0 48.3 C 1 0 1 0 46.7 D 0 1 1 0 28.3 E 0 1 0 1 16.7 F 1 0 0 1 25.8 G 0 1 1 0 34.2 H 1 0 1 0 50.0 I 1 0 0 1 34.3 J 0 1 1 0 21.0 K 1 0 1 0 43.5 L 1 0 1 0 41.3 M 1 0 1 0 41.7 N 0 1 1 0 26.2 O 1 0 0 1 27.7 ※該当するなら1，該当しないなら0

(14)

13 分析には，「あり」と「なし」のどちらかのデータを用います．なぜなら，どちらか一方が決まればもう一方の値も決まるので，2 つも必要ないからです．今回は，「テレビCM あり」と「新聞広告あり」の列を使って分析を行います．今回のデータを用いて重回帰分析を行うと以下の結果が得られます．補正R2 も有意 F の値も問題なく，テレビ CM ありと新聞広告ありの P 値も小さい値なので問題ありません．係数の値から，認知率の予測式がわかります．認知率＝ 15.22 × テレビ CM あり＋ 12.86 × 新聞広告あり＋ 16.13 ここで，テレビCM ありと新聞広告ありの値は 0 か 1 ですので，例えばテレビ CM ありで新聞広告なしの場合の認知率の予測値は，認知率＝ 15.22 × 1 ＋ 12.86 × 0 ＋ 16.13 ＝ 31.35（％）と予想されます．ところで，数量化理論Ⅰでは係数の値を正規化します．調整は以下のように行います．「テレビCM なし」の『1』の数は 6 で，分析から除外しているので係数は 0 とします．「テレビCM あり」の『1』の数は 9 で，係数は 15.22 です．その平均値を求めると， 132 . 9 15 / ) 9 22 . 15 6 0 (     回帰統計重相関 R 0.918640707 重決定 R2 0.843900749 補正 R2 0.817884207 標準誤差 4.621239212 観測数 15 分散分析表自由度変動分散観測された分散比有意 F 回帰 2 1385.443 692.7216 32.43708377 1.44679E-05 残差 12 256.2702 21.35585 合計 14 1641.713 係数標準誤差 t P-値切片 16.12666667 2.531157 6.371263 3.55044E-05 テレビCMあり15.22222222 2.435607 6.249868 4.25526E-05 新聞広告あり 12.86 2.531157 5.080681 0.000270346

(15)

14 重回帰分析で求めた係数からこの値を差し引いた値を，各ダミー変数への重みとします．テレビCM なしは09.1329.132，テレビCM ありは15.229.1326.09となります．同様に新聞広告なしは8.57，新聞広告ありは 294. となります．定数項を調整してあげると，認知率＝ 6.09 × テレビ CM あり＋ 4.29 × 新聞広告あり＋ 33.83 となります．もう一つの式は，認知率＝－9.13 × テレビ CM なし－8.57 × 新聞広告なし＋ 33.83 となります．認知率が前と同じになるかを計算してみましょう．＜コンジョイント分析＞例4. 以下の表は来年発売可能なノートパソコンの「属性」と「水準」を示しています．どのような組み合わせの商品がよいでしょうか？新商品開発のヒントを得るためには消費者アンケートが有効です．この場合，2 水準に対して属性が4 つあるので，すべての組み合わせについて満足度を聞くとすれば，16 通りの商品案を提示しなければなりません．しかし，あまり案が多いとアンケートに回答する側が大変になってしまいます．そこで，商品案を絞りつつバランスの良い商品案リストを作ります．コンジョイント分析では「直交表」というものを使って商品案を作成します．バッテリー持続時間 3時間 6時間ハードディスク容量 100GB 160GB メモリ容量 512MB 1GB 価格 5万円 10万円水準属性商品案持続時間ハードディスク容量メモリ容量価格 1 3時間 100GB 512MB 10万 2 3時間 100GB 512MB 20万 3 3時間 160GB 1GB 10万 4 3時間 160GB 1GB 20万 5 6時間 100GB 1GB 10万 6 6時間 100GB 1GB 20万 7 6時間 160GB 512MB 10万 8 6時間 160GB 512MB 20万

(16)

15 上の表は，L8 直交表を用いて作成した商品案です．今回はそれぞれの商品案について，消費者に7 段階（1 点～7 点）で評価してもらうことにしました．以下の表は，その結果をまとめたものです．分析をするためには，それぞれの回答者について商品1～8 までのデータを，以下のような『0』，『1』データに変換します．回答者2，3，4，についても同様にデータを加工します．加工が終わったら，再度回帰分析を用いて分析をします．数量化理論Ⅰ類のときと同様に，0，1 データなので，一方の列を削除して分析を行います．今回は，3 時間の列，100GB の列，512MB の列，20 万の列を削除します．データが加工できたら，「回帰分析」の「入力Y 範囲」に満足度の列を指定し，「入力 X 範囲」には 6 時間，160GB，1GB，10 万の列を指定して重回帰分析を行ってください（laptop.xlsx）．結果を見ると，補正R2 も有意 F の値も問題なく，すべての説明変数の P 値は 0.05 よりも小さくなっています．商品案持続時間ハードディスク容量メモリ容量価格回答者1 回答者2 回答者3 回答者4 1 3時間 100GB 512MB 10万 2 4 4 4 2 3時間 100GB 512MB 20万 1 1 1 1 3 3時間 160GB 1GB 10万 6 6 7 5 4 3時間 160GB 1GB 20万 4 3 3 2 5 6時間 100GB 1GB 10万 5 5 7 7 6 6時間 100GB 1GB 20万 2 2 2 3 7 6時間 160GB 512MB 10万 7 7 5 6 8 6時間 160GB 512MB 20万 3 2 3 2 満足度回答者商品案 3時間 6時間 100GB 160GB 512MB 1GB 10万 20万満足度 1 1 1 0 1 0 1 0 1 0 2 1 2 1 0 1 0 1 0 0 1 1 1 3 1 0 0 1 0 1 1 0 6 1 4 1 0 0 1 0 1 0 1 4 1 5 0 1 1 0 0 1 1 0 5 1 6 0 1 1 0 0 1 0 1 2 1 7 0 1 0 1 1 0 1 0 7 1 8 0 1 0 1 1 0 0 1 3 2 1 1 0 1 0 1 0 1 0 4 持続時間ハードディスク容量メモリ容量価格

(17)

16 係数の値から，満足度の予測式は以下のように書けます．満足度＝ 0.875×持続時間＋1.25×HDD＋1×メモリ容量＋3.25×価格＋0.625 機能高水準で20 万の商品と，機能は低水準だが 10 万円の商品のどちらの満足度が高いでしょうか？（3.76，3.88）属性の重要度それぞれの係数の値は，説明変数が 0 から 1 へ変化したときの満足度の変動幅を表しています．よって，すべての係数の値を合計し，それに対するそれぞれの係数の大きさの割合を求めることで，属性の重要度がわかります．この例では価格が満足度の変動幅の 50％を占めていますので，消費者が価格を非常に重要視していると判断できます．コンジョイント分析の注意点あまりにも「属性」もしくは「水準」の数が多くなると，直交表を用いて絞り込んでも商品案が多くなってしまいます．分析対象とする属性と水準をなるべく絞り込んでから直交表を用いるようにしてください．回帰統計重相関 R 0.928585 重決定 R2 0.86227 補正 R2 0.841865 標準誤差 0.810807 観測数 32 分散分析表自由度変動分散観測された分散比有意 F 回帰 4 111.125 27.78125 42.25880282 3.01072E-11 残差 27 17.75 0.657407 合計 31 128.875 係数標準誤差 t P-値切片 0.625 0.320499 1.950081 0.061620261 6時間 0.875 0.286663 3.05236 0.005051579 160GB 1.25 0.286663 4.360514 0.00016954 1GB 1 0.286663 3.488411 0.001682873 10万 3.25 0.286663 11.33734 9.00056E-12

(18)

17 付録Ⅰ：残差分析回帰分析において，残差の特徴を見ることは非常に重要です．単回帰の場合は，散布図を描くことで特徴がすぐわかりますが，重回帰分析ではグラフを描くのが大変なため，残差の特徴で分析の正確さを判断します．以下の 4 つのデータセットで回帰分析を行うと，すべてほぼ同じ回帰式となります．しかし，データの特徴（残差の特徴）は全然違いますので，確かめてみてください．

出所：F.J.Anscombe, “Graphs in Statistical Analysis”, The American Statistician, Vol.27, No.1,1973, pp.17-21.

no x1 y1 x2 y2 x3 y3 x4 y4 1 10 8.04 10 9.14 10 7.46 8 6.58 2 8 6.95 8 8.14 8 6.77 8 5.76 3 13 7.58 13 8.74 13 12.74 8 7.71 4 9 8.81 9 8.77 9 7.11 8 8.84 5 11 8.33 11 9.26 11 7.81 8 8.47 6 14 9.96 14 8.1 14 8.84 8 7.04 7 6 7.24 6 6.13 6 6.08 8 5.25 8 4 4.26 4 3.1 4 5.39 19 12.5 9 12 10.84 12 9.13 12 8.15 8 5.56 10 7 4.82 7 7.26 7 6.42 8 7.91 11 5 5.68 5 4.74 5 5.73 8 6.89 パターン1 パターン2 パターン3 パターン4

(19)

18 パターン 1 は特に問題はありません．パターン 2 は，回帰式が線形でないことを示しています．また，このようなパターンは，系列相関がある場合によく見られます．パターン3 は，1 つの外れ値が回帰直線を曲げてしまう（大きな影響を与えてしまう）ことを示しています．このような場合には，外れ値を除くことで違った回帰直線が得られます．パターン4 は，1 つの外れ値が全く異なった結果を与えることを示しています．外れ値を除いたら垂直な回帰線が得られることがわかります．とにかく，規則性の見られる残差がプロットされる場合には注意が必要です．付録Ⅱ：分析ツールが表示されていない場合 1. 「ファイル」→「オプション」をクリック 2. アドインの中の「分析ツール」を選択し，設定を押す． 3. 「分析ツール」にチェックを入れて OK を押す．データタブの中に「データ分析」アイコンができる．