サバイバルアナリシスで時間を統計分析する

Loading....

Loading....

Loading....

Loading....

Loading....

全文

(1)

サバイバルアナリシスで時間を統計分析する

大学院経済学研究科 教授

鈴川

すずかわ

晶夫

あきお

(経済学部経済学科)

専門分野 : 数理統計学

研究のキーワード : 統計,統計的推測,生存時間解析,多変量解析,非線形

数理統計学とはどのような学問ですか?

統計学(statistics)は、データ解析のための方法を研究する学問です。データには様々 なものがあります。社会科学においては社会生活にともなって自然に発生するデータもあ

れば、意識的に調査により得られるデータもあります。自然科学においては、実験や観測

によって得られるデータがあります。これら個々のデータは性格も異なっており、その解

析も場合に応じて適切な方法が選択されなければなりません。しかし、どのようなデータ

でも、いったん数字を用いて表の形に表現してしまえば、ある程度共通の方法により処理

することができます。この共通の部分が統計学の研究の対象です。

統計学は大きく二つに分けることができます。調査や実験によって得られたデータを整

理してその解釈を助けるための方法は記述統計(descriptive statistics)と呼ばれます。デー

タの分布の様子を視覚的に捉えるためにヒストグラムを描くことや、その分布の様子を数

値的に捉えるために基本統計量(平均や標準偏差など)を計算することは基礎的な記述統

計手法です。ところで、データに誤差や確率的な変動が多く含まれている場合には、その

データを単に整理するだけでは明確な結論が出にくい場合があります。このような場合に

は、データ(標本)の背後に確率的なモデル(母集団)を想定し、データ(標本)に基づ

いて確率モデル(母集団)について推測を行います。このような方法は統計的 推 測

(statistical inference)と呼ばれます。これを概念的に図示したものが図1です。統計的

推測の論理を数学的に整理したものが数理統計学(mathematical statistics)です。数理

統計学では、得られたデータに基づいてデータの背後の確率モデル(母集団)に対してど

のように推測を行うべきかを論じます。

どのような研究を行っているのですか?

“Time is money”(時は金なり)という言葉を聞いたことがあるかと思います。この言

葉は、古くから「時間はお金と同様に貴重なものだから、決して無駄にしないように」と

いう意味で用いられています。そして、現在も未来も私達にとって、“Time is precious”

(時は貴重)であることに変わりはありません。

時間についての統計の解析法を開発することを目指しています。関心ある時間に関して

データを収集し、そのデータに基づいて統計的推測や客観的判断を行うための方法論(サ

バイバルアナリシス、survival analysis、生存時間解析)について研究しています。サバ イバルアナリシスは、時間に関する統計データの解析法の総称です。医学における寿命デー

定理・法則

出身高校:山口県立徳山高校 最終学歴:北海道大学大学院工学研究科

(2)

タの分析(lifetime data analysis)、工学における機械が故障するまでの時間に関する分析

(信頼性工学、 reliability engineering)、経済活動が継続する時間(失業継続時間や企業

が倒産するまでの時間など)の分析(継続時間分析、duration analysis)などを含めてサ

バイバルアナリシスと呼ばれます。

サバイバルアナリシスにおいては、時間に関するデータを扱うがゆえに、実験や調査な

どによってデータを取得する際に問題が生じます。「時間を観測するには時間がかかるため

に、得られる統計データには不完全性が伴う」という問題です。例えば、失業継続時間を

一年間調査して、調査結果を分析する場合を考えてみます(図2)。この一年内に失業した

人を追跡調査します。調査期間中に就業した人(失業者AとC)については、その失業継

続時間を知ることができます。しかし、途中で追跡調査不可能となってしまった人(失業

者D)や追跡調査終了時点でまだ失業中の人(BとE)については、失業継続時間を知る

ことはできません。もちろん、調査期間の延長などを行って失業継続時間が観測されるま

で気長に待つわけにもいきません。したがって、このような場合には、失業継続時間は打

切り(censoring)を受けた不完全な観測値として分析者の手元に届きます。この打切られ

た観測値を無視してデータ解析を行えば、当然、解析結果には偏りが生じます。

完全に観測されたデータに、打切られた不完全なデータを加えて、いかに偏りのない解

析を行うか、時間を観測するには時間がかかることはやむを得ないこととして、そのなか

でいかに短期間に有用な解析結果を導くか、それがサバイバルアナリシスの面白さです。

次に何を目指しますか?

実験や調査においては、多くの場合、複数の観測項目(変量)についてのデータ(多変

量データ)が得られます。例えば、学力テストにおいても、各受験者は国語や数学など複

数の科目を受験する場合がほとんどです。多変量データを解析する際には、変量間の関連

性を調べ、それを考慮したデータ解析を行うことが大切です。このようなデータ解析手法

は多変量解析(multivariate analysis)と呼ばれます。時間についてデータ解析を行う場 合にも、複数の時間の間の関連性を調べることが大切な場合があります。例えば、親の寿

命と子の寿命の関連性や、再発を繰り返す病気における1度目の再発までの時間と2度目

の再発までの時間の関連性などです。このように関心ある時間が複数ある場合に、それら

の関連性を考慮した柔軟な解析手法を開発することを目指しています。 母集団

標本 推測 抽出

調査開始 Months 調査終了

×:失業

○:就業

□:打切り

A B

C

D E

図1 統計的推測の概念図 図2 失業継続時間の調査

Updating...

参照

Updating...

関連した話題 :