論 文
降雨データのファジィ回帰分析
杉本肇 新藤久和
(平成5年8月31日受理)
An Application of Fuzzy Regression Analysis
to Rainfall Data
HajimeSUGIMOTO HisakazuSHINDO Abstract Afuzzy regression analysis has been proposed on the analogy of the traditional one. However, the criterion for explanatory variable selection and the analysis of residuals have not been studied. This paper focuses the attention on residual distributions to select significant variables. An apPlication to rainfall data is also presented.1 諸言
「ファジィ」(fuzzy)という言葉は日本語では「あい まい」と訳されている.あいまいさは人間の社会生活の 本質的なものである.人間の高度な思考の本質は,あいま いさを含んだ情報をあいまいなまま理解するところにあ る.そのあいまいさを認めることによってできた理論が 「ファジィ理論」である. 1965年にアメリカのL.A.ザデー[1]によってファ ジィ理論が提案されてから今日までに,論理,演算,制御, 知識工学,人工知能,パターン認識,プログラミング,OR, 最適化,意思決定,統計,経済,経営,社会調査等極めて多 くの分野に応用されてきた.それは,ファジィ理論が人間 社会の諸現象を数理的に扱える理論だからである.田中 ら12】によって提案されたファジィ回帰分析もその中の 一つである. しかしながら,ファジィ回帰分析において,回帰式を検 討する方法についての研究は行なわれていないようであ る.回帰式によって推定を行なう場合,求めた回帰式が ’電子情報工学科,Department of Electrical Engineering and Computer Science. 適当なものでなければその推定結果は害になりこそすれ 役に立たないものとなってしまう. そこで本報告では回帰式の検討方法を提案し,降雨デー タに適用した結果について検討する.2 ファジィ理論
2.1 ファジィ集合論
ファジィ集合論は,言葉の意味や概念にみられるあい まいさを定量的に表す概念であり,ファジィ理論の基礎 となるものである. 従来の集合論では,個々の要素がその集合に属するか 否か,すなわち1か0かが明確に定義されていなければ ならない.このような集合はクリスプ(crisp)集合と呼ば れ,二値論理の思想と深く結び付いている. しかし,人間の社会生活における諸現象は,1か0かで 規定できないことが多い.そこでこれらを取り扱うため に,従来の集合論を拡張したファジィ集合論が導入され た.ファジィ集合論とは,個々の要素がその集合に属する か否かを明確に定義しない,無限多値論理に対応するも のである.ファジィ集合を定義するために,個々の要素がその集 合Sに属する度合を設定する.この度合は0と1の間の 数として数量化される.個々の要素ごとに集合に属する 度合は異なるので,これを個々の要素ごとの関数とみな し,これをメンバシップ(membership)関数と呼ぶ.つま りファジィ集合Aは次のようなメンバシップ関数μA(x) を定めることにより定義される13エ. 0≦μA(x)≦1, x(≡s (1) 1.0 P A▲ 1 c‘ 1 C1 ’’・・⑳ 、 ・e ’ .●. 、 7 、 ’ 、 Φ
2.2 ファジィ数
図1:区間 ファジィ数とはあいまいで不明確な数であり,実数を 要素とするファジィ集合で表される.ファジィ数は,形式 的には次のように定義される[41. 定義2.1実数直線上Ri上で定義された正規かつ凸ファ ジィ集合で,特にメンバシップ関数が区分的に連続なも のをファジィ数という. あいまいな数であるファジィ数を数学的に取り扱うた めには,普通の数の四則演算をファジィ数にまで拡張す る必要がある.2つのファジィ数M,Nが与えられたと き,それぞれのメンバシップ関数をμM(x),μ1v(ω)とす ると,ファジィ数の四則演算は次のように表すことがで きる.(1)加法:M㊥N
μM㊥N(z)= sup min(μM(x’),paN(Y)) (2) z=x十y (2)減法:ルIeハr μMeN(z)ニ sup min(μM(x),μN(y)) (3) z=x−y (3)乗法:M⑧」V μM⑧N(z)= sup min(paM(X),pa N(y)) (4) z=x×y (4)除法:.M②N μM②1v(z)=sup min(μM(x),μN(y)) z=x/y3 ファジィ回帰分析
3.1 ファジィ回帰分析の定式化
(5) 一般に,入力データXj=(忽」1,Xゴ2,’”,ω」η)と出力 データ動の組@」,yゴ)が与えられたとき,この間の関係 式を求めるには,回帰式 y:=αo十αIXI十… 十αnXn (6) を仮定して,残差平方和m
S・=Σ(yゴ・−a・一・、・ゴ、一…一晒。)・(7) ゴ=1 を最小にするパラメータベクトルα :(αo,α1,…,αn) を求める.ここで,mはサンプルの数ηは変数の数である. この方法は最小二乗法と呼ばれている.ここで,データと 回帰式による推定値の差は,観測誤差とみなされ,ある確 率分布,通常は正規分布に従うことが仮定されている, このデータと推定値の差を,同定しようとするシステ ムのあいまい性によるものとの観点から,ファジィ回帰 分析が導入された.システムのあいまい性はパラメータ のあいまい性によるものとみなし,ファジィ回帰式のパ ラメータはファジィ数で与えられる. つまりファジィ回帰分析とは,ファジィ線形回帰式Y=Ao十AIXI十…十AnXn (8)
を仮定して、ファジィ係数Ao,Al,…,Anを推定する方 法である[41.ここでは,ファジィ係数のメンバシップ関 数が区間で与えられている場合について考える. 区間とは,図1のようなメンバシップ関数で与えられ, その中心αと幅cを用いて, A=(α,c) (9) と表すことができる. 2.2のファジィ数の演算より,次の区間演算が得られ る. Ai+Aゴ=(αi・+・a」,Ci+cゴ) (10) 凪=(kαi, kc) (11) 以上の区間演算より,区間線形回帰モデルの出力は ち=(αX」,cl刎) (12) となり,出力も区間となることがわかる.ただし,α= (α・,α・,…,αn),・=(・・,・・,…,・。),xゴ=(1,・」、,…, xゴn)tである.ここで,tは転置を意味しており, Xjは縦 ベクトルである. 区間線形回帰分析の問題を定式化するために,次の二 つのことを要請する.1.推定区間Yjのなかに,与えられた出力的が存在す る. y」・y」1⇔ oyゴ≦αX」+cl刎yゴ≧αxゴーc 1 X」’ 1} (」=1,…,m) (13) 2.推定区間Yjの幅の合計を最小にする.すなわち,
m
雅Σ・国
」=1 (14) 区間係数Ai=(αi,Ci)を求める問題は,(13),(14)式 より次の線形計画問題に帰着できる[5].m
(15) また,専門家が係数Aiについて,漠然とした知識があ るとし,これをBi=(β‘,di)という区間で表すと,(15) 式で表される問題に次のような専門家の知識としての制 約条件を付け加えることができる. A・ c2 Bi⇔{fii 一 di≦αi 一 cifii + di≧αi + ci} (16) これにより,ファジィ回帰分析の結果はより受け入れや すいものとなる.3.2 回帰式の検討
ファジィ回帰分析の結果,得られた推定式が適当なも のであるかどうか検討を行なう必要がある.その検討方 法の一つとして,残差を検討することが考えられる. 通常,回帰分析における観測誤差は正規分布に従うこ とが仮定されている.ファジィ回帰分析においても同様 に残差が正規分布に従うことが望ましい. ある分布と正規分布を比較する指標に,「ひずみ」と 「とがり」がある.「ひずみ」の絶対値が大きいとき,す そをひている方向に推定式が大きく偏ってしまう.ファ ジィ回帰分析では,データをすべて含む区間を最小にし, その区間の中心を推定式としているためである.よって, 残差は正または負のどちらか一方に多く集まることにな る.この場合,要素が少ない方に回帰式の推定値を偏らせ る原因があると考えられる. また,「とがり」の値が大きいときは,すそが長く伸び ているため区間の幅が大きくなり,誤差が大きくなって しまう.この場合は残差の大きいものに注目し,その原因 を調べるとよいと考えられる. いずれの場合も正規分布に従わない要因を,さまざま な角度から検討し,変数の追加や変数変換を行なう必要 がある.4 降雨データへの適用
ファジィ回帰分析を用いて,桧原湖の水位と降水等の 関係について検討する. 湖の水位に影響している要因として考えられるものと して降水があげられる.これは,単発的な降水ならば地面 に吸収され,湖に流れ込む量は少なく,何日か連続して降 水があったならば,湖に流れ込む量は多くなると考えら れる.また,冬期の降水は,積雪として残ると考えられる. 以上のことから説明変数として次の3つを取り上げた, エ1:降水量(mm) ω2:連続して雨が降った日数(日) X3:積雪量(cm) 目的変数yは,湖への流入量とする.データ,データの 基本統計量,データの分布をそれぞれ表1,表2,図2に 示す. サンプル数は平成2年11月1日から平成3年 10月31日までの1年分である.ファジィ回帰モデル を YニAo十Alx1十ノ4・2x2十A3x3 (17) とおき,(15)式の線形計画問題を解くと次の結果が得 られた. y == (14.9965,13.8760) 十(0.1630,0.1405)x1 −(0、0004,0)x3 (18) ここで,x2の係数が0になっているのは,連続して降水が あれば流入量は増加するという観点から,α2≧0とい う制約条件を加えたためである, (18)式による推定値Yと,実測値γの差をヒストグ ラムで表したのが図3である.負の方に大きく偏ってい ることがよみとれる.残差が正であるものが推定値を偏 らせていると考えられる.図3で正の値を示しているサ ンプルの多くは4月と7月に連続している.これは4月 は雪解けが,7月は梅雨が影響していると考えられる. そこで,次の変数を追加して再度分析を行なう. x4:4月のとき1,その他のときO x5:7月のとき1,その他のとき0 結果は以下の通りである.o ㈱ 40 60 e 6 ve Xl X2 o 50 X3 o
Y
和 駒 図2:データのヒストグラム 表2:データの基本統計量 表1:データ ¢ ¢ 工 γ 2.11.01 0 0 130 H2、11.02 0 0 0 2.13 H2.1LO3 0 0 0 247 H2.U,04 52 1 0 8.69 H2.11.05 0 0 0 7.47 H2.1LO6 0 0 0 391 H2.11.07 6 1 0 7.49 H2JLO8 1 2 0 1.26 H2,11.09 22 3 0 2.29 H2,1110 8 4 0 1249 H2.11ユ1 39 5 20 12.55 H2.1112 9 6 0 11.49 H2」1.13 0 0 0 1005 H2.11ユ4 0 0 0 8.80 H21115 0 0 0 754 H310.16 0 0 0 384 H3.10.17 26 1 0 1155 H3.10,18 0 0 0 644 H3、10,19 3 1 0 446 H3.11.20 1 2 0 517 H3.11.21 1 3 0 3.89 H3.U.22 0 0 0 519 H3己0.23 0 0 0 2.60 H3.10.24 24 1 0 3.91 H3.1025 8 2 0 10.44 H3、10.26 10 3 0 3.92 H3.10.27 28 4 0 14.44 H3ユ028 0 0 0 5.27 H3.10.29 0 0 0 3.95 Ha10.30 0 0 0 5.29 H3.10.31 0 0 0 3.97 Y = (6.8891,6.7624) 十(0.1862,0.1567)xl 十(0.0978,0)x2 −(0.0085,0)x3 十(8.8927,3.3375)x4 十(2.2006,0.1286)x5 (19) (19)式における残差のヒストグラムを図4に示す. 図3に比べ,ひずみが小さくなっているのがわかる.しか し,まだ負の方に偏っている.図4で正の値となっている サンプルのなかで,比較的大きな値のものは前日に大き な降水があったものが多い.そこで前日の降水量を変数−2o −1o 最小値 最大値 平均値 標準偏差 ひずみ とがり o tO −19261 17.388 −9.220 5.730 2.188 5.604 図3:(18)式の残差 お −oo −m 最小値 最大値 平均値 標準偏差 ひずみ とがり o so −15.680 22.030 −2.161 4.835 1.869 5.579 図4:(19)式の残差 20 一tO o u 最小値 一17.512 最大値 16.437 平均値 一2.934 標準偏差 4.329 ひずみ O.778 とカfり 3.114 図5:(20)式の残差 N エ6として追加し,分析を行なった.得られる回帰式は以 下の通りである. Y = (4.7493,3.8826) 十(0.2013,0.1543)xl 十(0.1052,0)x2 −(0.0108,0)x3 十(11.7920,6.2887)x4 十(2.4929,1.8214)x5 十(0.2332,0.2047)x6 (20) (20)式における残差のヒストグラムを図5に示す. 図3,図4に比べ,「ひずみ」,「とがり」ともに小さく なり,図5は正規分布に従っているとみなせる.
5 結果の検討
(18)式と同じ説明変数で回帰分析を行なうと,次の 結果を得る, y := 5.750十〇.112Xi +0.514x2−O.026x3 (2i) 寄与率は0.174である.また,各変数のt値は次の通りで ある. 定数項:14.131 Xl:4.279 x2: 4.884 x3 : −4.057 (21)式では十分な説明ができていない.(18)式と(21) 式を比較すると大きく異なっている.これは,(18)式に よる残差の分布のひずみが大きく,回帰式に大きく影響 しているためと考えられる. (20)式と同じ変数で回帰分析を行なった結果は次の 通りである. y ニ 3.331十〇.237xi十〇.146x2−0.097x3 十10.997x4十3.804x5十〇.359x6 (22) 寄与率は0.517である.また,各変数のt値は次の通りで ある. 定数項:9.735 Xl : 6.112 x2 : 3.409 x3ニ ー2.553 x4 : 4.447 x5 : 13.496 x6: 9.289(20)式と(22)式とでは上に比べ近い結果となって いることがわかる.変数x4,z5,x6を加えることにより, 残差が小さくなりその結果(20)式と(22)式の推定式 が近づいたといえる. (20)式より,x4,x5の係数の値が他に比べて大きい. このことから,4月と7月には流入量が多いことがいえ る.(18)式の残差からよみとれたことと一致してい る.また,x3の係数が負になっていることより,積雪が多 くなると流入量が減るといえる.これは,湖に流れ込む水 が雪という形で残っているためと考えられる.