• 検索結果がありません。

Microsoft Word - SDA2012kadai07.doc

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft Word - SDA2012kadai07.doc"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

都市データ分析 第7回 課題書 2012年5月31日

重回帰モデルによる地価推定

担当 鈴木 勉 (システム情報系) TA 高森 賢司(システム情報工学研究科) 茨城県の公示地価を重回帰モデルによって説明し,地価に影響を及ぼすと考えられる要因との関係を 定量的に記述する. 1.重回帰分析 重回帰分析では一つの従属変数(被説明変数)を,複数の独立変数(説明変数)で説明することを考 える.これによって、どの独立変数が,どの程度従属変数に影響を与えているかを知ることができる. 1.1.従属変数と独立変数 今地点iにおける地価をYiとし,これをn個の変数X1iX2iXkiに関する一次式で表すと, n i u X X X Yi01 1i2 2i+Lk ki+ i      =1,2,L, という式で表わすことができる.ここでX1iX2iXkiを独立変数,Yiを従属変数(または目的変数)とよ ぶ.β0,β1,…,βkは未知の定数(パラメータ)であり,対応するそれぞれX1iX2iXkiが1単位増加した ときYiがどの程度増加する(βが負の値を持つときは減少する)かを表す値である.また, ) ( 0 1 1i k ki i i Y X X u = − β +β +L+β は説明しきれない値であり,誤差項という. 1.2.最小2乗法

YをXで説明するとき、Yiとβ0+β1X1i+…+βkXkiとの値が近いほど,言い換えればYi-(β0+β1X1i+…+βkXk)の

値が0に近い方が説明力が高くなる.そこでこの差の2乗の総和 2 1 2 2 1 1 0 ) (

= − − − − − n i ki k i i i X X X Y β β β L β を最小とするようなβ0,β1,…,βkの値を求めることによって推定式を決定することができる.この方法を 最小2乗法と呼ぶ.β0,β1,…,βkの最小2乗法による推定量を求めるために上の式をβ0,β1,…,βkでそれぞ れ偏微分して0とおくと,正規方程式と呼ばれる方程式が得られる.つまり, 2 1 2 2 1 1 0 1 0, , , ) ( ) (

= − − − − − = n i ki k i i i k Y X X X Q β β L β β β β L β とおけば, 0 ) ( 0 0 ) ( 0 0 ) ( 1 0 1 2 2 1 1 0 1 2 2 1 1 0 1 1 1 2 2 1 1 0 0 = − − − − − ⋅ ⇔ = ∂ ∂ = − − − − − ⋅ ⇔ = ∂ ∂ = − − − − − ⋅ ⇔ = ∂ ∂

= = = n i ki k i i i ki k n i ki k i i i i n i ki k i i i X X X Y X Q X X X Y X Q X X X Y Q β β β β β β β β β β β β β β β L M L L              が最小となる条件となる.この正規方程式を解くことによりβˆ0と偏回帰係数 k β β βˆ , ˆ , , ˆ 2 1 L が求められる. 計算過程は行列方程式を利用した大がかりなものになるためここでは示さないが,結果としての偏回帰

(2)

係数の一般形は次のようになる. ] [ ] [ ˆ S S yy yj j = β ただし, ] [ Sij :行列Siji行j列目の要素の余因子 である.最小2乗法によって導かれた式 ki k i i

X

X

X

Y

ˆ

β

ˆ

β

ˆ

β

ˆ

β

ˆ

2 2 1 1 0

+

+

+

+

=

L

YのX1,X2,Xkに対する回帰式といい,被説明変数の観測値Yiと回帰式によって推定された値

iの差 ) ˆ ˆ ˆ ˆ ( ˆ 2 2 1 1 0 i i k ki i i i i Y Y Y X X X e = − = − β +β +β +L+β を残差と呼ぶ. 1.3.重相関係数

重相関係数(R)とは,予測値Yˆ と実測値Yの値の動きの類似性を計算したものであり,i

Yの相関

係数である.

= = = − − − − = n i i n i i n i i i Y Y Y Y Y Y Y Y R 1 2 2 1 1 ) ˆ ˆ ( ) ( ) ˆ ˆ )( ( ただし

= =

=

=

=

n i n i i

Y

Y

n

Y

n

Y

1 1

1

ˆ

1

ˆ

がよい予測値であれば(

iYi)は45°線の周りに集まってくるので,相関係数は高くなる. 図1 予測値対実測値の相関図 1.4.決定係数 被説明変数とその平均との差の2乗和を全平方と呼ぶ.全平方は,次のように,回帰平方和と残差平方 和の合計として表すことができる.

(3)

2

=

2

+

2

)

ˆ

(

)

ˆ

(

)

(

Y

i

Y

Y

i

Y

Y

i

Y

i 全平方和 回帰平方和 残差平方和 残差平方和は,被説明変数の値Yと回帰直線で当てはめた

の差(残差)の2乗和であり,全平方のう ち回帰直線で説明できない部分である.回帰直線の当てはまりがよければ,残差平方和が小さくなる. したがって,全平方和のなかで回帰平方和の占める割合を以下のように定義する.

= = = =

=

=

n i i n i i i n i i n i i

Y

Y

Y

Y

Y

Y

Y

Y

R

1 2 1 2 1 2 1 2 2

)

(

)

ˆ

(

1

)

(

)

ˆ

(

R2は回帰直線による説明力を表す指標として用いられ、決定係数と呼ばれる.R2はその定義から0≦R2 ≦1であり,1に近いほど当てはまりがよいと判断できる. 決定係数は、独立変数の数が増えると単純に増加していく性質がある.したがって意味のない独立変 数を分析にいれても決定係数だけは上昇していく.この欠点を補うために「自由度調整済み決定係数」 を用いることが多い(kは独立変数の数).

= =

=

n i i n i i i

n

Y

Y

k

n

Y

Y

R

1 2 1 2 2

)

1

/(

)

(

)

1

/(

)

ˆ

(

1

また,決定係数は重相関係数の2乗と等しい.重相関係数の2乗は以下で表わされる. 2 1 2 2 1 1 2 ) ˆ ˆ ( ) ( ) ˆ ˆ )( ( ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − − − =

= = = n i i n i i n i i i Y Y Y Y Y Y Y Y R ただし

= =

=

=

=

n i n i i

n

Y

Y

Y

n

Y

1 1

1

ˆ

1

ˆ

ここで分子について

{

}

2 1 1 2 1 1 1

)

ˆ

ˆ

(

)

ˆ

)(

ˆ

(

)

ˆ

ˆ

(

)

ˆ

ˆ

(

)

ˆ

(

)

ˆ

(

)

ˆ

ˆ

)(

(

= = = = =

=

+

=

+

=

n i i n i i i i n i i n i i i i i n i i i

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

であるので,

= = = = = = =

=

=

=

n i i n i i i n i i n i i n i i n i i n i i

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

Y

R

1 2 1 2 2 1 1 2 1 2 2 1 2 1 2 2

)

(

)

ˆ

(

1

)

(

)

ˆ

(

)

ˆ

(

)

(

)

ˆ

(

となり決定係数と一致することがわかる.

(4)

1.5.多重共線性 重回帰分析モデルにおいて,説明変数どうしの相関係数が高い場合,説明変数間に多重共線性がある という.パラメータの分散が大きくなってしまったり,相関の高いものどうしの説明変数のパラメータ が片方はプラスで大きな値となり,一方が逆にマイナスで大きな値となってしまったりといったことが 起こる.多重共線性を回避するには前もって説明変数間の単相関係数を求め,相関の高いものについて は説明変数をどれかに代表させるという措置が必要になる. 1.6.ダミー変数 説明変数として使用できるものは数値で表せるもの(量的変数という)のみではない.ここでは数値 に表すこのできない,与えられた数値そのものにあまり意味がない変数(質的変数という)を取り扱う ことを考える.ある特定のカテゴリーに属する場合は1,そうでない場合には0を与える変数をダミー変 数という.(例)市町村ダミー(つくば市なら1,それ以外なら0) 1.7.変数の選択 重回帰分析では「変数の選択」が行われることが重要である.被説明変数に影響を及ぼしている変数 を、多くの変数の中から選択する.これは説明変数の組み合わせを様々に変化させて重回帰分析を繰り 返し,最も当てはまりの良いモデルを選択する方法である.これには以下のような方法がある. (1)強制投入法: 全ての変数を強制的に取り入れる方法. (2)変数増加法: 単回帰から出発し順次変数を取り入れていく方法. (3)変数減少法: 全ての変数を含んだ重回帰モデルから出発し、順次変数を減少させていく方法. (4)ステップワイズ法: 変数増加法と変数減少法を組み合わせた方法.事実上標準的方法. 2.データの取得 ホームページ(http//www.risk.tsukuba.ac.jp/~tsutomu/public_html)よりリンクされている本講義の ホームページにアクセスする.ページ内にある下記のファイルを自分のディレクトリにダウンロードす る. ・都市データ分析第7回課題書 ・都市データ分析第7回課題回答用紙 ・地価データ(Landprice.xls) ・地図データ(for_GIS.zip) 3.データの編集 ①ダウンロードしてきたファイルのうち「Landprice.xls」を開く ②オリジナルのデータを保存するために、「ファイル」の「名前をつけて保存する」から 「Landprice _20*******_Suzuki.xls」(Landprice _学籍番号_名前)という名前をつけて保存する. ③各地点のデータから地価に影響を与えていると思われる指標を整理する(ダミー変数の作成など) 4.SPSSによる重回帰分析 4.1.エクセルデータの読み込み SPSSを立ち上げる.「ファイル」→「開く」→「データ」を選ぶと,初め「ファイルの種類」が「SPSS (*.sav)」になっているが,「Excel(*.xls)」または「すべてのファイル(*.*)」を選択する. 範囲は指定しなくてよい.③で作成したファイルを選択すると図2のようにデータが読み込まれる.各 データの名前が長かったり,互いに似通っていたりすると警告が出ることがあるが,分析上は特に問題 はない.操作するにあたってわずらわしいと思うときはデータの名前を変えておく.

(5)

4.2.分析方法の指定 読み込んだデータを用いて,重回帰分析を行う.「分析」→「回帰」→「線形」(図3)より「線形 回帰」のウィンドウを開く. 4.3.重回帰分析の設定 まず被説明変数(SPSSの表記では従属変数)を左側のボックスから選択し,図4の①ボタンで「従属 変数」として読み込む.また,説明変数(SPSSの表記では独立変数)となるものを同じように左側のボ ックスから選択し,②のボタンで「独立変数」として読み込む.③の枠内は変数選択の方法を決めるも ので,初めは「強制投入法」を選択する.最後に④の枠内の「保存」ボタンをクリックし,「予測値」 「残差」内の「標準化されていない」にそれぞれチェックをする(図5). 以上の設定が終了したら,「OK」を押して分析を開始する.「出力1」というタイトルが付いたウィ ンドウが自動的に立ち上がり,分析結果が表示される 課題1 地価に影響を与えると考えた指標を書きなさい.その際その指標が地価に正の影響を与えるか 負の影響を与えるかを予測し、その理由を書きなさい. 課題2 課題1で考えた指標を用いて,SPSSをつかって重回帰分析を行い,その分析結果を書きなさい. ただし,変数の選択方法は「強制投入法」を用いること. 課題3 課題2の分析結果より,それぞれ投入した変数が地価に正の影響または負の影響を与えているか を判断せよ.また,それぞれの説明変数が有意であるかを判断せよ. 図3 分析方法の指定 図2 エクセルデータの読み込み 図5 予測値・残差の保存設定 図4 変数の投入

(6)

課題4 予測値対実測値についてのグラフを描き,その分布から推定の特徴を考察しなさい. 課題5 ここまでの分析を踏まえ,もう一度SPSSを用いて重回帰分析を行い,選択変数を変えた試行錯 誤の末,うまく説明できたと思われたものについて分析結果を書き,どのような理由でどういった変数 を採用したのかを説明しなさい. 4.4.Excelファイルの出力 分析が終了したあと,SPSS内のデータの右端に予測値を表す「pre_1」と残差を表す「res_1」とい う新しい項目が追加されていることがわかる.予測値と残差が追加されたデータをExcelデータとして出 力するには,「ファイル」→「名前をつけて保存」を選び,はじめ「ファイルの種類」が「SPSS(*.sav)」 になっているものを「Excel(*.xls)」に変更して適当な名前をつけて保存をすればよい. 5.ArcGISによる残差の空間分布の把握 重回帰分析によって求められた予測値と実測値の差である残差が,空間的にどのような分布をしてい るかを調べることによって重回帰分析の結果を考察する. 5.1.ArcGISによるデータの確認 ダウンロードしてきた「for_GIS.zip」を解凍すると「for_GIS」というフォルダが作成される.この フォルダの中に入っている「Landprice.mxd」をダブルクリックしてArcGISを立ち上げる. ArcGISが立ち上がると図6のような画面になる.このデータでは茨城県の市町村境界,つくば市周辺 の鉄道路線と駅,そして今回対象とした「Landprice.xls」に収録されていた公示地価の観測地点のポイ ントデータが表示されている. 公示地価の属性情報を確認するには図6の①で示されている「属性情報」ボタンを押して,各公示地 価のポイントデータをクリックすれば,属性情報が表示される(図7). 属性情報を確認したら,一度ArcGISを閉じておく. 図6 ArcGISの画面

(7)

図7 属性情報の表示 5.2.残差データの追加 課題5で行った重回帰分析の結果追加した残差のデータを,GISのデータファイルに追加する.まず 重回帰分析で出力した残差の値の入ったExcelファイルを開く,「住所」列の隣に「予測値」「残差」「正 の残差」「負の残差」列を新たに作成する. 予測値の入った列「PRE_1」と残差の値のはいった列「RES_1」をコピーして,「予測値」「残差」 の列に貼り付ける(図8).このとき両方のファイルのデータの並び順が一致しているかに注意する. 図8 残差の挿入 次に残差を「正の残差」と「負の残差」に分ける,「正の残差」の項目には残差の正の値のみを、「負 の残差」の項目には残差の負の値の絶対値を関数などを使用して入力する(図9).

(8)

↓ 図9 正の残差・負の残差の項目の作成 それぞれの項目が作成できたら,「ファイル」→「上書き保存」を選択する. このとき,Excelは開 いたままにする. 次に,SPSSから「ファイル」→「開く」→「データ」を選択する.はじめ「ファイルの種類」を「d Base(dbf)」を選択し、「for_GIS」フォルダの中に入っている「Landprice.dbf」というファイル を選択してデータを開く. Excelファイルの方から「予測値」「残差」「正の残差」「負の残差」列を コピーし,dbfファイルの同名の列に貼り付ける.このときも両方のファイルのデータの並び順が一致し ているかに注意する.貼り付けたら,dbfファイルを上書き保存し,SPSSを閉じる. 5.3.ArcGISによる残差の表示 「Landprice.dbf」のファイルを加工して閉じたら,再び「Landprice.mxd」からArcGISを立ち上 げる.左側のボックスの中にある「Landprice」という項目を選択し右クリック→「プロパティ」を選 択する(図10).「レイヤプロパティ」ウィンドウが表示されたら「シンボル」→「チャート」→「バ ー/カラム」を選択し,「フィールド選択」から正の残差を選択して図11の①のボタンを押し「OK」 を押す.

(9)

すると各地点での正の残差がグラフで表される(図12).同様に負の残差を表示することもできる. 図12 正の残差の表示 正の残差と負の残差を同時に表示させるには左側のボックスにある「Landprice」を選択し右クリッ ク→「コピー」を選択した後左側のボックスの一番上にある「レイヤ」を選択して右クリック→「レイ ヤの貼り付け」を選択すればよい.地図画像の出力は「ファイル」→「マップのエクスポート」を選択 し、「ファイルの種類」でjpegなどを指定して適当な名前をつけて保存すればよい. 課題6 課題5で求めた残差の空間分布をGISにて表示して分布図を作成し,その特徴を考察せよ. 余裕のある人は課題7にもチャレンジ. 図10 プロパティの表示 図11 残差の表示

(10)

課題7* ここまでの分析より,今回与えられていなかったデータのうちどういったデータがあればより よく地価を推定できるかを考察せよ. 課題提出先 提出期限:2012年6月6日(水)17:00まで 提出先:システム情報エリア支援室レポートボックス 参考文献 [1] 宮脇典彦(2000):SPSSによるデータ解析の基礎,培風館 [2] 大野高裕(1998):多変量解析入門,同友館 [3] 平成21年公示地価:http://tochi.mlit.go.jp/chika/kouji/20090323/index.html [4] 平成20年都道府県地価調査:http://tochi.mlit.go.jp/chika/chousa/2008/index.htm

参照

関連したドキュメント

現実感のもてる問題場面からスタートし,問題 場面を自らの考えや表現を用いて表し,教師の

「課題を解決し,目標達成のために自分たちで考

 ESET PROTECT から iOS 端末にポリシーを配布しても Safari の Cookie の設定 を正しく変更できない現象について. 本製品で iOS

この課題のパート 2 では、 Packet Tracer のシミュレーション モードを使用して、ローカル

議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

測定結果より、凝縮器の冷却水に低温のブライン −5℃ を使用し、さらに凝縮温度 を下げて、圧縮比を小さくしていくことで、測定値ハ(凝縮温度 10.6℃ 、圧縮比

出来形の測定が,必要な測 定項目について所定の測 定基準に基づき行われて おり,測定値が規格値を満 足し,そのばらつきが規格 値の概ね