• 検索結果がありません。

データ解析に見るグラフ

N/A
N/A
Protected

Academic year: 2021

シェア "データ解析に見るグラフ"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

データ解析に見るグラブ

新村秀一

illlllllllllllllllllllllllllltlllIlIlIlIllIlIlIlIlIlIlIllIlIlIIlIlIlIlIlIIlIlIIlIlIlIlIIlIIlIIlIlIIlIlIIlIllIlIlIlIlIIl11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111

1

.

はじめに

地球が豪々と音をたてて回っていると言った人がL 、た が,最近のデータ解析も目まぐるしく変化してきている ようである.昔は統計解析という言葉がよく使われたが, 最近ではデータ解析と呼ばれるようになってきた.そこ に時代の変遷を見る想いである.たとえば,探索的デー タ解析 [5 J のように,単に統計手法にとどまらず図式表 示を重視する傾向が強まっている. この影響は統計パッケージにも及んでいる.そこで代 表的な統計パッケージ SAS を中心としてその一端を紹 介したい.この他にも,チャーノフ図に代表されるよう な多くのグラフ手法が統計に用いられているが割愛す る.

2

.

SAS とは

本稿では, SAS を紹介するのが目的ではないし,紙 面も少ないので巻末の文献 [IJ-[3J を参考にしてほし い.当初, SAS はデータ管理機能とプログラミング機 能を含む統計パッケージとして開発されたが,その後グ ラフイツグ・時系列解析・品質管理・ OR などを追加し て,エンド・ユーザ一言語に変身してきている. 本稿の執筆を牧野先生から勧めていただし、たさいに, 文献 [6J に SAS のグラブ処理が数

3

.

統計手法とグラフ

従来の統計書は,個別手法のアルゴリズムの紹介に主 眼を置いたものが多かった.しかし,現実の分析対象に 向かつて問題解決を迫られた読者には,一連のデータ解 析の手順を示す必要がある.また,統計手法とグラフ表 現を併用する必要もある.表 1 は,そのような主張から 執筆した「統計処理エッセンシャル J からの表である. すなわち,統計手法は大雑把に分けると予測に関する ものと変数の分布を調べる手法とに別れる.後者に関し て,対象とする変数の数と変数が数値か文字かによって 分類したものがこの表である. 1 個の数値変数のデータに関しては,従来平均値・標 準偏差・最大値・範囲・変動係数等の要約統計量が用い られてきた. これらは数値として客観的に把揮できる が,俸グラフのような図式表現を用いれば視覚的かつ具 体的に把握できる. 2 変数の要約統計量としては,相関係数がある.それ を補うグラフ表現としては 2 変数の散布図が用いられ る.

Anscombe[ 7

J は,図 1 に示す平均値・分散・共分 散のまったく等しい 2 変数の有名なデータを示した.相 関係数が意味のあるのは (a)の場合であり, (b)は曲線相関 を, (c)は異常値を, (d)は右の孤立点 1 個に大きな影響を 表 1 変数の分布を調べる手法 [2

J

数値変数 カテゴリ一変数 多くとりあげられており,その観点 から読者に紹介してほしいとのこと であった.しかし,調査の時間も十 分にないので,文献名の紹介にとど め後日の宿題としたい.

t:変数

I

基、礎ー統ナ計ャ量

-

~

単純集計 パーチャート しんむら しゅういち 住商コンピューターサービス紛 干 101 千代田区東神田 2-5 ー 15

1

7

2

(10) 散布図 2 重クロス集計 多重クロス集計 数量化E類 オベレーションズ・リ+ーチ © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

!印./ 1((い/

l叶

dイ

lii

r

1 / /

200

6

10

15

,Pトili 115 出

Anscombe( 1973) のデータ [3J[ 7] ](1 till11111talli--川U い 5O Il-ハ U J

残差のプロ‘y ト

ここて、は,回帰分析のモデル・ピルディングで,残差 のプロットが重要な役割を果たしていることを紹介した

4

.

2

J.P. SALL は,アメリカの 1790年から 1970年までの 10年毎の人口データ(図 2 )を用いて,良いモデルの探索 を述べている[1 ]. 最初は,このデータに次の単回帰モデルを適用した. 人口 =bO+bl*年 この結果,図 3 のように満足な統計量が得られた.こ こで満足していては,データ解析としては失敗である. このモデルの残差を描くと次の残差プロットになる. これから,モテツレに 2 次の項が必要なことが示唆され 受けているが,このような状況はカテゴリーデータを用 いたりした場合におこりやすい.このようにグラフは, 要約統計量のもつ欠点を積極的に補足してくれる. 3 変数以上のデータは,主成分分析を用いて少ない次 元に投影してデータの分布が把握できる. データ解析においては,原表の様式・変数名・カテゴ リーの決定等の前準備の後,データをコンピュータに入 力するわけであるが,入力ミスや異常値の発見そしてデ ータ編集等を行なわなければいけない.後先が逆になる が,この入力ミスや異常値の発見に変数の要約統計 量のグラフ表示である幹葉表示・箱ヒゲ図などが多く用 いられている.また,最近の統計パッケージでは,正規 確率プロット図も簡単に出力される. 図 1 る. 人口 =bO+bl 半年 +B2*( 年 )**2 この多項回帰モデルをデータに当てはめると,図 5 の 残差プロットになる. 1940年と 1950年の 2 点の残差は,戦後の景気後退によ る外れ値である.このため,この 2 点を 1 とし残りの点、

回帰分析とグラフ

4

.

1

回帰分析とグラフ 回帰分析に関して,そのアルゴリズムあるいは分散分 析表が射影子あるいはピタゴラスの定理と結びつけて考 えれば深い理解が得られることはよく知られている.

4

.

LEGEND: A 1 065

,

6 2 065

,

ETC. POP

I

200

+ 150 + 100 +

1

50

+

0 +

A

-・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・・・・・+・司・・・+・・・・・+・・・・・+・・・・・・+・ 官 190 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 A A A A A A A A A A A A PLOT OF POP 怜YEAR

A A A A A A

1

7

3

YEAR アメリカの人口データ [IJ 3 OBS HAD MI551NG VALUES

図 2 HOTE:

(3)

DEP VARIABLE: POP PROB>F 0.0001

伝1~8y

MEAN SQUARE SUM OF SQUARES DF SOURCE R-SQUARE ADJ R-SQ 唱 E マ, au 匂・・・., ROOT MSE DEP MEAN C.V. 刊 ODEL ERROR C TOTAL PROB > ITI T FOR HO: PARAMETER=O STANDARD ERROR PARAMETER ES

Tl

MATE DF VARIABLE 0.0001 0.0001 -13.714 14.208 142.805 0.075928 -1958.366 1.078795 INTERCEP YEAR 単回帰モデルの分析結果[

1

]

図 3 LEGENO: A 1 085

,

8 2 085

,

ETC. 向。+ 30 + 20 + 10 + A

o

+・・・

---A---A

A

A ・ 10 + A A A A ・ 20 + A A -・・・・+・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・+・・・・・+ー・・・・+・・・・・+・・・・・+・・・・・・+---1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 A A A A A

PLOT

o

r

RE51 白骨YEAR

A A A OHrιqua-nuHVAHZ 』 CJW YEAR 単回帰による残差プロット[1 ] 2.5 + A A A A 0.0 +ー ---A・・・・・・ ---A---A・・・・・・・・・・・・・・・・・・・・・・・・・"・・・・・・・・・・・・・・・・・・ A A A A

A

・ 2.5 + -5.0 + ・ 7.5 + ・・・・+・・・・・+・・・・ー+---~・・+・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・・+・・・・・+・・・・・+・・ー・・ 1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 LEGENO: A 1 0 日 5 , B 2 OB5

,

ETC.

A A

A A A 図 4 PLOT OF RE51D・'YEAR の円 ptF3E1 肉 υHu--円・ L's YEAR オベレーションズ・リサーチ 多項回帰モデルの残差プロット[1 ] 図 5

1

7

4

(12) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(4)

OEP VARIABLE: POP SOURCE DF MOOEL 3 ERROR 15 C TOTAL 18 ROOT MSE DEP MEAN C.V. VARIABLE DF INTERCEP YEAR YEARSQ OUMMY SUM OF SQUARES 71909.581 13.181051 71922.762 0.937410 69.767勾7匂 1.34362 PARAMETER ESTIMATE MEAN

SQUARE F VALUE PROB>F

23969.860 27277.636 0.0001

0.878737

R-SQUARE

伝説

ADJ R-SQ

STANDARD T FOR HO:

ERROR PARAMETER=O PROB > ITI

マ'hu 守 r07' hu 『噌,司 'nU

21H3

・ 7 ,民 Jny aunUマ'マ, RU2d 、,ヴ, nζ-nu ・ 内υnunu n u n u n u h 『 7eauh 吋 hF RJ7

,

7'TEM マ ''d £民民 JE ・ 661F 9 』£ unHh

斗-8

3

2

7

-OJ ・ κu-­ nu を dnu 官。-220 宮、 n u 72.794 ・ 76.08 匂 79.588 ・ 11.217 0.0001 0.0001 0.0001 0.0001 図 B ダミー変数を用いたモテソレの分析結果[

1

]

PLOT OF RE51D・‘ YEAR LEGEND: A 1 065

,

6 2 065

,

ETC.

2 + A R E 1

+

A A 5 A A A

o

A A A A 1"戸『、 U 0 +・・・・・・・・・・・・・・"・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・イA--Aも・・・・・・・---A A\』ノ L A S A ・ 1 + A A A A -2 + ・・+・・・・・+・・・・・+-・・・・+・・・・・+---+・・・・・+・・・・・+---+・・・・・+・・・・・+・・・・ 1790 1810 1830 1850 1810 1890 1910 1930 1950 1910 1990 YEAR 図 7 ダミー変数を用いたモデルの残差プロット[

1

]

を O とするダミー変数をモデルに導入する. 人口 =bo+b1*年 +B2ホ(年 )**2+B3ホDUMMY これによって,次の分散分析表と残差のプロットが描か れる.この 2 点は, 870万人(回帰係数 -8.742) の落ち 込みを示しており,回帰係数は 1% で棄却される. 4.3 残差と非線形回帰分析 この後,このデータにロジスティックモデル・分割モ デル・誤差の絶対値を最小化する LAV 回帰分析・繰り返 し重み付き回帰分析を非線形回帰分析 NLIN で説明し ている.ここで重要なのは,これらの一連の回帰モデル が,次の重み付き誤差平方和によって統ーできることで ある.また, LAV 回帰分析は LP を用いて,通常の回 帰分析は 2 次計画法の問題になる. 1988 年 4 月号 SSE= 'L. 叩i e♂ 4.4 多重共線性 回帰分析において,残差の検討の重要性を述べた.こ の他の問題として,回帰分析の変数選択がある.この時 に問題になるのは,多重共線性である.多重共線性とは, 説明変数の問に高い相関がある場合に,回帰係数や統計 量に悪影響をおよぼす.図 S はこの多重共線性を説明す る概念図である.上図は, 2 個の説明変数 MAXPULSE と RUNPULSE の問に高い相関があることを示してお り, Z 軸方向は目的変数を表わしている. 4.5 変数選択問題における図式表示 4.2 でみたように時系列データて‘あれば, 残差の時系 列プロットを描けばよかった.一般のデータで、は,残差

1

7

5

(5)

共線住のないデータの 3 次元表示 多重共線性のあるデータの模式図[1

J

図 S の検討として偏回帰プロットや残差の分布を 箱ヒゲ図・正規確率プロット・幹葉図等を用 いて検討できる.志村 [4J は,偏回帰プロ ットを用いた変数選択を論じている.筆者も 別の角度からこの問題に関して意見をもって いるが割愛する. 日本における品質管理の成功は,わかりや すさ使いやすきを追及した大衆運動だったこ とにあるのではな L 、かと想う.そして,グラ フがその手助けをしている. SAS/QC の責任者である Rodriguez[

8

J

も日本的な品質管理に注目し,数回にわたり 調査のため訪日している.図 S は,彼が開発 している SAS/QC の箱型管理図である.ま た, SAS/GRAPH を用いて図 10 のようなパ レート図や特性要因図が描ける. SAS は,プログラム言語としてみても,

P

L/l やコボルに比べて 10倍以上の威力があ る. OS は別として, ソフトウェアを 1 つ選

ぶとすれば r

All i

n

one

systemJ の SAS

を選べば間違いがないであろう.図は身長と 体重のデータを読み込んで年齢と性別毎にそ

品質管理

5

.

SAS のレポート機能

6

.

3σ Limits

r

o

r

n

=

1

5

:

町L=17.5

X

=

1

4

.

3

正L=11.0 箱型管理図

4

0

1

0

3

0

却 Fa 甲 AnE 官 MHR 円 U 中 lHn 。

2

0

1

8

1

6

1

4

1

2

1

0

8

6

4

2

。 オベレーションズ・リサーチ 箱型管理図 図 S

1

7

6

(

1

4) © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(6)

A. パレート図 工程不良項目別バレート図

1

8

0

1関 1却

件120

1∞

書士

F

4

0

m

部 累積比率 的 ω 却 O~ 弘且魚'll!._.Ti. K h 見 AO

汚キ塗手変そ

れズ装キ

T 形{の也

B. 特性要因図

直圏

1) ラックス、

¥

休憩 計画

直回

検査台数 500 台

8

0

/〆1:累

ω 民合計沼

事女 別

4

0

o

...畠晶晶晶晶晶晶調 。 汚キ塗メ変そ

れズ装ツ形の

キ{也

激励直亜

プライド 闘争,己、 図 10 パレート図や特性要因図 の平均図を計算し,肩幅と胴の長さに反映してレポート したものである.ほんの数行でプログラムできる.

7.

終わりに

日本においては p 大学教育において正規の統計あるい はデ}タ解析がとりあげられていないが,企業をはじめ として広く使われている.これに大きく貢献したのはソ ラフ等の助けを借りたわかりやすさに加え,最近ではソ フトウェアの普及や統計手法の取り込みが見られる.諸 先輩方には,生意気とお叱りを受けそうだが, OR も一 皮むけた伊達ものになる必要があるのかも知れないと考 える今日この頃です. 文献 フトウェアの普及であろう.一方,品質管理の成功はグ

[1] J.P.Sall

(新村訳)

(1986)

,

S

A

S による回帰分

1

7

7

(7)

砂パーソナルコンビュータ用線形計画法パッケージ‘

パーソナル LP

実用的な例題を多数収録し,入門書向け に線形計画j去をわかりやすく解説グ 開発.千本厳(側電力計算センター) 機種:

N5200/05MKII

PC-980J

定価: 80000 円 概要:線形 ρ1・Illilìl、ハッケージ.問題入 )J , i梓f卒表の操作, 1"'1 解 U; , サポート 機能など. (マニュアル添付.) 解説書:パソコンパッケージによる 例解線形計画法(定価 1800flJ) 問合せ先 :LI 本電気ソフトウェア約 営業部 ft

0

:

;

(

4

4

4

)

3

2

1

1

ファジイ理論

とその応用

ノドィ、:f!1;1I,'i cl'í:/A ,, /3200IIJ

.ì[ iド'人!fi l古i からも注目され始めたファジイ月!"命 について,永年研究を重ねてきた詫:名が,ファ シイ集合とこれを定義づ、けるメンバーシップ関 数,ファジイエントロビー,ファジイシステム 手の基本的概念から, I必 )11 凶i 全般にわたって解 説した決定版. 3 月号特集/好評発売中

最新パソコン言語事情案内

一一どの言語を使うと便利か←ー

別冊プログラム移植定価1捌円

4 月号特集/好評発売中/定価 930 円

超伝導新理論の展望

別冊相対蛤の座標

ff両2000JlJ

サイエンスネ土

東京都千代川区神出須 ftl 町 2-4 安部徳ビル

ft03(256)

1091 振将来点 7

-2387

1

7

8

(16)

.

n

.

.・ ・蓄電. ・ ・... ・-・ ・ ・ ・

•••

日間

-.

.

・・... ・・・・・・・・・.... ・・

.

・. ・

.

.

・.

••.•

••

•.

.•

•.

•.

•••.

•••

・・・ H[IG制 τ.~7.1 WE.CHT-ao.'

"・“

..[IC制 y ・!'.! W(IGO

h

",..

・・ .0 AG(.l~ S(X.

,

側[1"'"・6・ .2 W( I"'" ・'‘ .2

"

'

6

Aヌt. U s[民.. AG(・ 2 ・

s

[

"

.

.

r

.•

•.•

•.•

・・

-・ ・

.

.

・ ・軍事・ .

•••...

.

.

・・

.

・・.

・-•••

.

.

・.・.... ・・・・... ・・・・... ・・

.

・・

.

・ ・. ・. ・

.

.

.

.

.

.

.

.

.

.

.

•.

••

・・

-H ・ "(1"例 '-S7 W(ICHt.".7

.

.

.

.

叫 H訓,.,.., W( IC'嶋Y・ 92.7 "・ u N(I Gtfl・・..­ W(ICHT-10

,.'

"・5・ AG(_11 H 潟R 伺 AG(. ・ 2S(拠・例 AGε." $[1(-'ー 図 11 レポート機能によるグラフ表示 析の実践,朝倉書店

[2 J

高森寛,新村秀一( 1987),統計処理エッセンシ ヤノ!.-,丸善

[

3

J

市川伸一,大橋靖雄 (1987), SAS によるデータ 解析入門,東大出版会

[4J

志村健一,大谷部恵子,吉津正(1 986) ,散布図 による変数選択,

J

SQC 第 16回年次大会研究発表 要旨,

6

5

-

6

8

[5 J J

.

W.

Tukey( 1

9

7

7).

"Exploratory Data Anaュ

!ysis"

,

Massachusetts

,

Addison-Wes!ey

[6 J S

.

H. C

.

duToit

,

A.

G. 羽人 Steyn ,

R. H.

Stumpf

, “

Graphica! E

xp!oratory Data Anaュ

lysis"

,

Springer-Verlag.

[7] F.

J.

Anscombe(1973).

Graphs i

n

s

t

a

t

i

s

t

i

c

a

l

analysis ヘ The

Ame

r

.

S

t

a

t

i

s

t

.

27: 1

7

-

2

2

[

8

J R.

N.

Rodriguez

(大橋靖雄訳) (1 986). “統計的 品質管理におけるグラブイツタ手法のデータ解析へ の応用", I品質 J ,

16

,

[4 J

,

5

5

-

6

5

.

[9J

新村秀一( !987). “体験に基づく汎用統計パッケ ージの紹介ぺ「品質 J ,

17

,

[3J

,

1

4

-

2

1

オベレーションズ・リサーチ © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

市場を拡大していくことを求めているはずであ るので、1だけではなく、2、3、4の戦略も

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

などに名を残す数学者であるが、「ガロア理論 (Galois theory)」の教科書を

「海洋の管理」を主たる目的として、海洋に関する人間の活動を律する原則へ転換したと

彼らの九十パーセントが日本で生まれ育った二世三世であるということである︒このように長期間にわたって外国に

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

ある架空のまちに見たてた地図があります。この地図には 10 ㎝角で区画があります。20

保税地域における適正な貨物管理のため、関税法基本通達34の2-9(社内管理