データ解析に見るグラブ
新村秀一
illlllllllllllllllllllllllllltlllIlIlIlIllIlIlIlIlIlIlIllIlIlIIlIlIlIlIlIIlIlIIlIlIlIlIIlIIlIIlIlIIlIlIIlIllIlIlIlIlIIl111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111
.
はじめに
地球が豪々と音をたてて回っていると言った人がL 、た が,最近のデータ解析も目まぐるしく変化してきている ようである.昔は統計解析という言葉がよく使われたが, 最近ではデータ解析と呼ばれるようになってきた.そこ に時代の変遷を見る想いである.たとえば,探索的デー タ解析 [5 J のように,単に統計手法にとどまらず図式表 示を重視する傾向が強まっている. この影響は統計パッケージにも及んでいる.そこで代 表的な統計パッケージ SAS を中心としてその一端を紹 介したい.この他にも,チャーノフ図に代表されるよう な多くのグラフ手法が統計に用いられているが割愛す る.2
.
SAS とは
本稿では, SAS を紹介するのが目的ではないし,紙 面も少ないので巻末の文献 [IJ-[3J を参考にしてほし い.当初, SAS はデータ管理機能とプログラミング機 能を含む統計パッケージとして開発されたが,その後グ ラフイツグ・時系列解析・品質管理・ OR などを追加し て,エンド・ユーザ一言語に変身してきている. 本稿の執筆を牧野先生から勧めていただし、たさいに, 文献 [6J に SAS のグラブ処理が数3
.
統計手法とグラフ
従来の統計書は,個別手法のアルゴリズムの紹介に主 眼を置いたものが多かった.しかし,現実の分析対象に 向かつて問題解決を迫られた読者には,一連のデータ解 析の手順を示す必要がある.また,統計手法とグラフ表 現を併用する必要もある.表 1 は,そのような主張から 執筆した「統計処理エッセンシャル J からの表である. すなわち,統計手法は大雑把に分けると予測に関する ものと変数の分布を調べる手法とに別れる.後者に関し て,対象とする変数の数と変数が数値か文字かによって 分類したものがこの表である. 1 個の数値変数のデータに関しては,従来平均値・標 準偏差・最大値・範囲・変動係数等の要約統計量が用い られてきた. これらは数値として客観的に把揮できる が,俸グラフのような図式表現を用いれば視覚的かつ具 体的に把握できる. 2 変数の要約統計量としては,相関係数がある.それ を補うグラフ表現としては 2 変数の散布図が用いられ る.Anscombe[ 7
J は,図 1 に示す平均値・分散・共分 散のまったく等しい 2 変数の有名なデータを示した.相 関係数が意味のあるのは (a)の場合であり, (b)は曲線相関 を, (c)は異常値を, (d)は右の孤立点 1 個に大きな影響を 表 1 変数の分布を調べる手法 [2J
数値変数 カテゴリ一変数 多くとりあげられており,その観点 から読者に紹介してほしいとのこと であった.しかし,調査の時間も十 分にないので,文献名の紹介にとど め後日の宿題としたい.t:変数
I
基、礎ー統ナ計ャ量
-~
単純集計 パーチャート しんむら しゅういち 住商コンピューターサービス紛 干 101 千代田区東神田 2-5 ー 151
7
2
(10) 散布図 2 重クロス集計 多重クロス集計 数量化E類 オベレーションズ・リ+ーチ © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.!印./ 1((い/
l叶
dイ
lii
r
1 / /
2006
1015
,Pトili 115 出
Anscombe( 1973) のデータ [3J[ 7] ](1 till11111talli--川U い 5O Il-ハ U J残差のプロ‘y ト
ここて、は,回帰分析のモデル・ピルディングで,残差 のプロットが重要な役割を果たしていることを紹介した4
.
2
J.P. SALL は,アメリカの 1790年から 1970年までの 10年毎の人口データ(図 2 )を用いて,良いモデルの探索 を述べている[1 ]. 最初は,このデータに次の単回帰モデルを適用した. 人口 =bO+bl*年 この結果,図 3 のように満足な統計量が得られた.こ こで満足していては,データ解析としては失敗である. このモデルの残差を描くと次の残差プロットになる. これから,モテツレに 2 次の項が必要なことが示唆され 受けているが,このような状況はカテゴリーデータを用 いたりした場合におこりやすい.このようにグラフは, 要約統計量のもつ欠点を積極的に補足してくれる. 3 変数以上のデータは,主成分分析を用いて少ない次 元に投影してデータの分布が把握できる. データ解析においては,原表の様式・変数名・カテゴ リーの決定等の前準備の後,データをコンピュータに入 力するわけであるが,入力ミスや異常値の発見そしてデ ータ編集等を行なわなければいけない.後先が逆になる が,この入力ミスや異常値の発見に変数の要約統計 量のグラフ表示である幹葉表示・箱ヒゲ図などが多く用 いられている.また,最近の統計パッケージでは,正規 確率プロット図も簡単に出力される. 図 1 る. 人口 =bO+bl 半年 +B2*( 年 )**2 この多項回帰モデルをデータに当てはめると,図 5 の 残差プロットになる. 1940年と 1950年の 2 点の残差は,戦後の景気後退によ る外れ値である.このため,この 2 点を 1 とし残りの点、回帰分析とグラフ
4
.
1
回帰分析とグラフ 回帰分析に関して,そのアルゴリズムあるいは分散分 析表が射影子あるいはピタゴラスの定理と結びつけて考 えれば深い理解が得られることはよく知られている.4
.
LEGEND: A 1 065,
6 2 065,
ETC. POPI
200
+ 150 + 100 +1
50
+0 +
A
-・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・司・・・+・・・・・+・・・・・+・・・・・・+・ 官 190 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 A A A A A A A A A A A A PLOT OF POP 怜YEARA A A A A A
1
7
3
YEAR アメリカの人口データ [IJ 3 OBS HAD MI551NG VALUES図 2 HOTE:
DEP VARIABLE: POP PROB>F 0.0001
伝1~8y
MEAN SQUARE SUM OF SQUARES DF SOURCE R-SQUARE ADJ R-SQ 唱 E マ, au 匂・・・., ROOT MSE DEP MEAN C.V. 刊 ODEL ERROR C TOTAL PROB > ITI T FOR HO: PARAMETER=O STANDARD ERROR PARAMETER ESTl
MATE DF VARIABLE 0.0001 0.0001 -13.714 14.208 142.805 0.075928 -1958.366 1.078795 INTERCEP YEAR 単回帰モデルの分析結果[1
]
図 3 LEGENO: A 1 085,
8 2 085,
ETC. 向。+ 30 + 20 + 10 + Ao
+・・・---A---A
A
A ・ 10 + A A A A ・ 20 + A A -・・・・+・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・+・・・・・+ー・・・・+・・・・・+・・・・・+・・・・・・+---1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 A A A A APLOT
o
r
RE51 白骨YEARA A A OHrιqua-nuHVAHZ 』 CJW YEAR 単回帰による残差プロット[1 ] 2.5 + A A A A 0.0 +ー ---A・・・・・・ ---A---A・・・・・・・・・・・・・・・・・・・・・・・・・"・・・・・・・・・・・・・・・・・・ A A A A
A
・ 2.5 + -5.0 + ・ 7.5 + ・・・・+・・・・・+・・・・ー+---~・・+・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・+・・ー・・ 1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 LEGENO: A 1 0 日 5 , B 2 OB5,
ETC.A A
。
A A A 図 4 PLOT OF RE51D・'YEAR の円 ptF3E1 肉 υHu--円・ L's YEAR オベレーションズ・リサーチ 多項回帰モデルの残差プロット[1 ] 図 51
7
4
(12) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.OEP VARIABLE: POP SOURCE DF MOOEL 3 ERROR 15 C TOTAL 18 ROOT MSE DEP MEAN C.V. VARIABLE DF INTERCEP YEAR YEARSQ OUMMY SUM OF SQUARES 71909.581 13.181051 71922.762 0.937410 69.767勾7匂 1.34362 PARAMETER ESTIMATE MEAN
SQUARE F VALUE PROB>F
23969.860 27277.636 0.0001
0.878737
R-SQUARE
伝説
ADJ R-SQ
STANDARD T FOR HO:
ERROR PARAMETER=O PROB > ITI
マ'hu 守 r07' hu 『噌,司 'nU
21H3
・ 7 ,民 Jny aunUマ'マ, RU2d 、,ヴ, nζ-nu ・ 内υnunu n u n u n u h 『 7eauh 吋 hF RJ7,
7'TEM マ ''d £民民 JE ・ 661F 9 』£ unHh斗-8
3
2
7
-OJ ・ κu- nu を dnu 官。-220 宮、 n u 72.794 ・ 76.08 匂 79.588 ・ 11.217 0.0001 0.0001 0.0001 0.0001 図 B ダミー変数を用いたモテソレの分析結果[1
]
PLOT OF RE51D・‘ YEAR LEGEND: A 1 065
,
6 2 065,
ETC.2 + A R E 1
+
A A 5 A A Ao
A A A A 1"戸『、 U 0 +・・・・・・・・・・・・・・"・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・イA--Aも・・・・・・・---A A\』ノ L A S A ・ 1 + A A A A -2 + ・・+・・・・・+・・・・・+-・・・・+・・・・・+---+・・・・・+・・・・・+---+・・・・・+・・・・・+・・・・ 1790 1810 1830 1850 1810 1890 1910 1930 1950 1910 1990 YEAR 図 7 ダミー変数を用いたモデルの残差プロット[1
]
を O とするダミー変数をモデルに導入する. 人口 =bo+b1*年 +B2ホ(年 )**2+B3ホDUMMY これによって,次の分散分析表と残差のプロットが描か れる.この 2 点は, 870万人(回帰係数 -8.742) の落ち 込みを示しており,回帰係数は 1% で棄却される. 4.3 残差と非線形回帰分析 この後,このデータにロジスティックモデル・分割モ デル・誤差の絶対値を最小化する LAV 回帰分析・繰り返 し重み付き回帰分析を非線形回帰分析 NLIN で説明し ている.ここで重要なのは,これらの一連の回帰モデル が,次の重み付き誤差平方和によって統ーできることで ある.また, LAV 回帰分析は LP を用いて,通常の回 帰分析は 2 次計画法の問題になる. 1988 年 4 月号 SSE= 'L. 叩i e♂ 4.4 多重共線性 回帰分析において,残差の検討の重要性を述べた.こ の他の問題として,回帰分析の変数選択がある.この時 に問題になるのは,多重共線性である.多重共線性とは, 説明変数の問に高い相関がある場合に,回帰係数や統計 量に悪影響をおよぼす.図 S はこの多重共線性を説明す る概念図である.上図は, 2 個の説明変数 MAXPULSE と RUNPULSE の問に高い相関があることを示してお り, Z 軸方向は目的変数を表わしている. 4.5 変数選択問題における図式表示 4.2 でみたように時系列データて‘あれば, 残差の時系 列プロットを描けばよかった.一般のデータで、は,残差1
7
5
共線住のないデータの 3 次元表示 多重共線性のあるデータの模式図[1
J
図 S の検討として偏回帰プロットや残差の分布を 箱ヒゲ図・正規確率プロット・幹葉図等を用 いて検討できる.志村 [4J は,偏回帰プロ ットを用いた変数選択を論じている.筆者も 別の角度からこの問題に関して意見をもって いるが割愛する. 日本における品質管理の成功は,わかりや すさ使いやすきを追及した大衆運動だったこ とにあるのではな L 、かと想う.そして,グラ フがその手助けをしている. SAS/QC の責任者である Rodriguez[8
J
も日本的な品質管理に注目し,数回にわたり 調査のため訪日している.図 S は,彼が開発 している SAS/QC の箱型管理図である.ま た, SAS/GRAPH を用いて図 10 のようなパ レート図や特性要因図が描ける. SAS は,プログラム言語としてみても,P
L/l やコボルに比べて 10倍以上の威力があ る. OS は別として, ソフトウェアを 1 つ選ぶとすれば r
All i
n
one
systemJ の SASを選べば間違いがないであろう.図は身長と 体重のデータを読み込んで年齢と性別毎にそ
品質管理
5
.
SAS のレポート機能
6
.
3σ Limitsr
o
r
n
=
1
5
:
町L=17.5X
=
1
4
.
3
正L=11.0 箱型管理図4
0
1
0
3
0
却 Fa 甲 AnE 官 MHR 円 U 中 lHn 。2
0
1
8
1
6
1
4
1
2
1
0
8
6
4
2
。 オベレーションズ・リサーチ 箱型管理図 図 S1
7
6
(
1
4) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.A. パレート図 工程不良項目別バレート図
∞
1
8
0
1関 1却件120
1∞
白書士
F
印4
0
m
部 累積比率 的 ω 却 O~ 弘且魚'll!._.Ti. K h 見 AO汚キ塗手変そ
れズ装キ
T 形{の也
B. 特性要因図直圏
1) ラックス、
¥
休憩 計画直回
検査台数 500 台8
0
/〆1:累
積ω 民合計沼
事女 別
4
0
率
却o
...畠晶晶晶晶晶晶調 。 汚キ塗メ変それズ装ツ形の
キ{也激励直亜
プライド 闘争,己、 図 10 パレート図や特性要因図 の平均図を計算し,肩幅と胴の長さに反映してレポート したものである.ほんの数行でプログラムできる.7.
終わりに
日本においては p 大学教育において正規の統計あるい はデ}タ解析がとりあげられていないが,企業をはじめ として広く使われている.これに大きく貢献したのはソ ラフ等の助けを借りたわかりやすさに加え,最近ではソ フトウェアの普及や統計手法の取り込みが見られる.諸 先輩方には,生意気とお叱りを受けそうだが, OR も一 皮むけた伊達ものになる必要があるのかも知れないと考 える今日この頃です. 文献 フトウェアの普及であろう.一方,品質管理の成功はグ[1] J.P.Sall
(新村訳)(1986)
,
S
A
S による回帰分1
7
7
砂パーソナルコンビュータ用線形計画法パッケージ‘
パーソナル LP
実用的な例題を多数収録し,入門書向け に線形計画j去をわかりやすく解説グ 開発.千本厳(側電力計算センター) 機種:N5200/05MKII
PC-980J
定価: 80000 円 概要:線形 ρ1・Illilìl、ハッケージ.問題入 )J , i梓f卒表の操作, 1"'1 解 U; , サポート 機能など. (マニュアル添付.) 解説書:パソコンパッケージによる 例解線形計画法(定価 1800flJ) 問合せ先 :LI 本電気ソフトウェア約 営業部 ft0
:
;
(
4
4
4
)
3
2
1
1
ファジイ理論
とその応用
ノドィ、:f!1;1I,'i cl'í:/A ,, /3200IIJ
.ì[ iド'人!fi l古i からも注目され始めたファジイ月!"命 について,永年研究を重ねてきた詫:名が,ファ シイ集合とこれを定義づ、けるメンバーシップ関 数,ファジイエントロビー,ファジイシステム 手の基本的概念から, I必 )11 凶i 全般にわたって解 説した決定版. 3 月号特集/好評発売中