• 検索結果がありません。

日本統計学会誌, 第45巻, 第2号, 217頁-230頁

N/A
N/A
Protected

Academic year: 2021

シェア "日本統計学会誌, 第45巻, 第2号, 217頁-230頁"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

217 頁∼ 230 頁

統計家の役割:これまでとこれから

岩崎 学

The Role of Statisticians: Past, Present, and Future

Manabu Iwasaki

ビッグデータの時代と言われる現在,統計家そして日本統計学会などの学術団体の果たす役割 も変化しつつある.本稿では,筆者の直接の経験に基づき,これまでの統計家の歩んできた道お よびいくつかの統計学上のトピックスを挙げ,これからの統計家の在り方を考える手立てとする.

In this big data era, the roles of statisticians in academia and industries and of academic societies such as the Japan Statistical Society are gradually changing. The perspective of statistics seems to become much broader than ever. In this article, based on the author’s own experience, activities of statisticians of past several decades are described, which are expected to be worth for rethinking the role that will be played by statisticians of present and coming ages.

キーワード: 多変量解析,線形代数,Autocorrelation,MAR,Mid-P value,Projection Pursuit, Propensity Score,Response Surface,Spectral Analysis

1. はじめに 「ビッグデータ」の語も人口に膾炙し,統計学への社会の期待もこれまでになく大きな ものとなりつつある.それに伴い,統計家個人あるいは統計学会などの専門家集団として の統計コミュニティの担う役割も多岐にわたり,その責任も重くなりつつある.本稿では, 抽象的な議論ではなく,私自身が過ごし実際に経験してきた統計コミュニティでの過去を 振り返ると共に,これまで興味を持って勉強かつ研究してきたいくつかの話題について触 れる. 時代とともに統計の研究も実践も変化しつつある.圧倒的なネットワーク環境と計算技 術の進展で大きく変わった部分も多いが,これまでの研究および経験の蓄積に基づき変わ らない部分も確かにある.本稿は,私自身の直接の経験に基づく狭い範囲の記述に終始し ているが,時代の流れを多少なりとも感じ取っていただければ幸いである. 成蹊大学理工学部情報科学科:〒 180-8633 東京都武蔵野市吉祥寺北町 3-3-1 (E-mail: iwasaki@st.seikei.ac.jp).

(2)

本稿は,2015 年の統計関連学会連合大会における日本統計学会会長講演に加筆したもの である.なお,以下では人名はすべて敬称略で記載することをお断りしておく. 2. これまでの統計家 ここでは,自分自身の経験の範囲内でのこれまでの統計家について,記録を交え述べる. 2.1 あの頃の統計界 私が大学(東京理科大学理学部応用数学科)に入学したのは 1971 年で,当時コンピュー タへの期待がますます大きくなり,東京工業大学をはじめとする日本の大学に「情報」の 名を冠した学科が初めて誕生した年 (1970) の翌年であった.判別分析をテーマとした卒 業研究を国立公衆衛生院の福富和夫の指導下で行い,1975 年 4 月に東京理科大学大学院に 進学した.当時の理科大応用数学科には,津村善郎,増山元三郎の両氏が在籍し,教育・ 研究に当たられていた.両氏は共に 1912 年生まれであるが,津村は明治最後の年の 45 年, 増山はその名の示す通り大正元年の生まれである.私の指導教授は津村であり,大学院進 学の前年には,津村の指導によりその準備として Wilks (1962) を読んだ. 津村は標本調査の大家であり(津村 (1956),津村・築林 (1986) など),標本調査理論の農 業分野での応用の功績により 1953 年に第 1 回の大内賞を受賞している(当時の所属は農林 省).理科大では,多変量解析の理論の研究を進め,多変量分布論に関する Tumura (1965) は,James (1954),Constantine (1963) 流の扱いとは異なり,変数変換のヤコビアンの緻密 な計算により zonal 多項式を導くというオリジナルな結果として評価されている.津村の 研究をさらに発展させ,独自の結果を得たのが,津村門下でのちに統計学会会長にもなっ た杉山高一である.また津村は,当時大学院に入学した牧野都治の要請に応え,オペレー ションズリサーチの分野でも,待ち行列理論の研究者として活動した. 今一人の増山は,Fisher 流の推測統計を九州大学の北川敏男と共に日本に導入したパイ オニアであり,それまでの統計学に対する新しい学問であることの強調のため,推計学(推 測と計画の科学)なる語を創出した(増山 (1949, 1964) など).また増山は,実験計画法 の数学理論の研究 (増山 (1956)) をはじめとする,生物統計,品質管理の分野での貢献も 顕著であり,朝日賞 (1947) を始め,第 1 回デミング賞 (1951),大内賞 (1962) などを受賞 している.津村の大内賞受賞が 42 歳,増山の朝日賞受賞が 35 歳でデミング賞受賞が 39 歳 であったことは,受賞した両人の卓越した業績があったことはもちろんであるが,彼らに 授賞を決めた側の慧眼と大胆さにも脱帽する.なお,後年の統計関係の朝日賞受賞者には 赤池弘次 (1988) がいる(赤池は 2006 年に京都賞も受賞). 私の大学院在籍当時の増山は,専ら個体差の準恒常性の研究に従事していて,毎週の統 計の大学院セミナーでは,各種の生体反応データに基づく研究成果を示した上で,各デー

(3)

タに対し,これは対数正規分布,これはガンマ分布と明確に区分けして見せた.少数例の データに基づく対数正規分布とガンマ分布との識別はほとんど不可能であるので,その区 分けには当該現象に対する正しい理解と深い洞察が必須で,それこそがデータ解析では重 要であることを暗に示していたと,今になって解釈している. 津村,増山というデータ取得のための方法論である標本調査および実験計画法の第一人 者の指導を受ける機会があったにもかかわらず,私は当時の流行でもあった多変量解析を 自らの勉強のテーマとした.データを取るための方法論が統計学において極めて重要であ ることに気づくのは後のことであり,それまでに相応の年月を必要とした. 当時の統計学研究の拠点は,東京の他には主として,大阪,広島,福岡であった.そし て特に若手の研究者は,時系列解析か多変量解析のいずれかを専攻するのが主流であった. 単純に過ぎるとの誹りを恐れずに言えば,微積分が得意なものは時系列に,線形代数が得 意なものは多変量解析に進んだようであり,私自身は線形代数が得意というより微積分が 苦手であったことから後者の一員となった.若手の研究の中心は統計学の数学理論であり, たとえば Zacks (1971) の購読などが当時の流行でもあった. 私の前後数年間の研究仲間には,理科大では岩瀬晃盛,清水邦夫,栗木進二,佐藤学が いて,その他の東京勢としては,赤平昌文,柴田里程を筆頭に,間瀬茂,神保雅一,豊岡康 行,飯田孝久,三田晴義,矢島美寛,鎌倉稔成,渡辺則生,大橋靖雄,本多正幸,井上隆 勝などの面々がいた.東京以外では,北海道の水田正弘,中西寛子.大阪では,三浦良造, 白旗慎吾を大将とした,谷口正信,近藤正男,長畑秀和,猪原正守,狩野裕,江口真透,安 芸重雄,荒木孝治,松尾精彦,稲葉太一,永田靖,熊澤吉起,竹綱正典,林利治,五十川嘉 子の面々,広島では西井龍映,百武弘登,辻卓見,大瀧慈,越智義道.福岡では,野間口 謙太郎,高田佳和,坂田年男,西晃央,笹渕祥一,栗原考次,渡辺美智子,白石高章,前 園宣彦,山口和範などの名を挙げることができる(もちろんすべての人物を網羅したもの ではないことをお断りしておく).残念ながら若くして逝去された豊岡,五十川を除けば, 現在の統計学の研究,教育および普及の中枢を担っている面々ばかりである. 当時はまだ研究発表の機会もそう多いものではなく,年に 2 回開催の日本数学会統計数 学分科会と日本統計学会の研究発表会が主たる「戦場」であった.PowerPoint や OHP の 時代ではなく,黒板に数式を書きながらの説明,および今でいうところのポスターならぬ模 造紙に研究内容を書いたものを黒板に張り付けての発表などが口頭発表の常套手段であっ た.数学会では,セッションの座長をその場にいる人の中から適当に選ぶなどおおらかな 時代でもあったが,それぞれの研究発表に対する竹内啓,渋谷政昭の的確で鋭いコメント には括目したと同時に背筋の伸びるような思いもしたものであった.

学会以外では,修士修了後 5 年までの若手の集まりであった YSG (Young Statisticians Group),もう少し上の年代の研究者も参加した統計サマーセミナーでの泊りがけの交流な

(4)

どがあり,これらに参加することで他大学の研究者などを相互に知る場となった.旅費の 援助も今ほどではなかった時代に,若手研究者は自らの費用でこれらに積極的に参加した のであったが,そこでの経験はその後何十年と続く統計家の協調の礎を築く得難いもので あった. 1970 年代から 80 年代にかけての日本の統計研究の中心は統計的推測における漸近理論 であった.竹内啓,赤平昌文を筆頭とする推定の漸近理論,塩谷実,早川毅,杉浦成昭,藤 越康祝,小西貞則,杉山高一,築瀬靖子などによる世界に冠たる多変量標本分布の漸近展 開 (Siotani et al. (1985)) が一世を風靡していた.数学会の場が主であったこともあり,統 計の応用の研究発表はほとんど記憶にない.当時津村は因子分析の研究にも携わっていて, その解釈を巡り,大阪大学の丘本正と学会発表の場で論争を繰り返していた.時に激烈な 物言いとなることもあり,そのシーンは私と同年代の研究者の記憶にも残っていることで あろう.見解に相容れない部分があったにせよ,津村は丘本の開発したオリジナルな手法 はそれとして高く評価していたことを,直接津村から聞いたものとしてこの場で記してお きたい.また津村はあるとき,竹内啓を評して「彼(竹内)の言うことや書くものは必ず 自分の頭の中を通っている」と,述べたことがあった.私は,それは当たり前ではないか とその当時思ったものであるが,それが最大級の賛辞であることは後になって,特に昨今 の学生などの所業を見るに,改めて理解に至り,自らに対する戒めともなった.ちなみに, 竹内が 30 歳の時に出版した数理統計学の書物 (竹内 (1963)) は,私見ではあるが,50 年以 上たった現在でもなお,数理統計は言うに及ばず統計学一般の書物としてそれに優るもの を見てはいない. 現在,統計学部や統計学科を持たない日本では,統計数理研究所を除き,統計研究者は 各大学などに点在せざるを得ず,研究上の議論や共同研究などの機会を持つことが難しい. そのため,年に数回の学会やシンポジウムだけでなく,各大学などで定期的に行われるセ ミナーなどへの参加は極めて重要な役割を担うことになる.私は,竹内啓,広津千尋,国 友直人,竹村彰通などを中心とした東京大学の統計学輪講,鍋谷清治,高橋一,刈屋武昭, 田中勝人などの統計グループによる一橋大学のセミナー,柳井晴夫,岩坪秀一,繁桝算男 らの主宰する大学入試センターでのセミナーなどに参加した.また,東京工業大学の真壁 肇を中心とした鈴木久敏,鳩山由紀夫,鎌倉稔成,宮川雅巳らのセミナーにも顔を出した. 東大での竹内のコメントは,当然ながら大いに勉強になったものであるし,一橋大学で は,たまたま来日されていた Herman Chernoff の計らいで後日 Harvard 大学に短期間滞在 する機会を得,その際に Donald B. Rubin の知己を得るなど,その後の自らの研究に大き な影響を与えてくれた.また,大学入試センターでは,数理統計とは別の心理・教育を中 心とした人文社会分野の研究者の人脈に接することができ,それは今に至るまでも続いて いる.東工大では後に首相となる鳩山の知己を得た.学外者である自分を快く受け入れて

(5)

くれたこれらのセミナーの主宰者に感謝している. 2.2 多変量解析の展開 前項で,多変量解析を自らの勉強のテーマに選んだと述べたが,ここではそれに関する 事項を述べる.1970 年代は,コンピュータによる統計計算が現実のものとなってきた時代 であり,それに伴い,多変量解析の実際問題への応用が脚光を浴び始めてきた.当時の多 変量解析の主要な書物は,海外のものでは Anderson (1958) および Rao (1973) であった. 両書とも基礎的な部分から進んだ内容まで格調高い調子で記述されてはいたのであるが, 修士レベルの院生にとっては難解で,大部であることもあって読み通すのはほぼ不可能で あった.いっぽう和書では奥野他 (1971) があり,この書物は理論と応用のバランスという 面からみて,現在に至るまでこれに優る多変量解析の書物はないのではないかと思われる. また,竹内・柳井 (1972) は,柳井の学位論文を発展させた書物で,射影の観点から多変量 解析の諸手法が統一的に解説されたユニークな内容からなり,文字通り多変量解析の基礎 の習得には最適であった.私自身,この書物のおかげで多変量解析が多少なりとも理解で きたといっても過言ではない. 多変量解析には,理論と応用の両面があるが,それらの間の距離はなかなかに遠いと言 わざるを得ない.理論としては,多変量正規分布および Wishart 分布に基づく多変量分布 論の系譜がある.津村は当時「昔は Wishart 分布の導出が多変量分布論のゴールであった が今ではそれは出発点になっている」と述懐していたが,まさにそのとおりであり,1970 年代には,zonal 多項式および行列変量の超幾何関数を用いての正確な標本分布の表現およ びその漸近展開の研究が最終段階を迎えていた.そこには,前述のとおり日本人の統計学 者の寄与が大きかった.多変量解析の書物は十指に余るが,中でも Eaton (1983) はベクト ル空間における coordinate-free なアプローチと統計モデルにおける群の作用下での不変性 を中心に据えた内容で,数学の勉強も兼ねて,大いに楽しめた書物であった.そして,多 変量分布論の第一人者である著者による Muirhead (1982) はまさにその集大成というべき 大部の著作であり,これが多変量分布論研究の出発点とするのであれば,研究の最前線へ の道のりははるか彼方と言わざるを得ないであろう. 多変量解析の応用では,上述の奥野他 (1971) の影響が大きかった.主として品質管理 関係の著者らによる書物であることから例題にはその方面のものが多いが,その適用範囲 は品質管理にとどまるものではなく,様々な分野での応用が広がりを見せつつあった.私 自身は,多変量解析手法の中では主成分分析が好みであり,複雑な多変量データに潜む構 造を成分負荷量として可視化してくれる様は,まさに統計解析の醍醐味と言えるものであ る.応用という面では,林知己夫の数量化理論(たとえば林 (1974) など)を忘れてはなら ない.計算環境が貧弱な 1950 年代にその理論の礎が築かれて応用に供されたという事実に

(6)

は驚きを禁じ得ない.そして,林が柳井晴夫らと 1973 年に創設した日本行動計量学会を中 心に,人文社会科学分野での様々な応用例が報告された.私は,林の数量化理論の中でも, 主成分分析的な数量化 III 類が好きで (岩崎 (1989)),その馬蹄効果 (horse-shoe effect) に 関し,林と直接議論したこともよい思い出である. 多変量解析の数学理論の基礎である線形代数の役割にも触れておこう.多変量解析の手 法の理解には線形代数は欠かすことのできないものであり,Rao (1973) をはじめとする多 変量解析の多少気の利いた書物には必ずと言っていいほど線形代数の 1 章が設けられてい るのみならず,丸ごと 1 冊統計学者の書いた線形代数の書物も海外ではいくつか出版され ている.日本でも竹内 (1974) がある.最初この本に接したときは,なぜ統計学者が線形代 数の本を,と思ったものであるが,後年自分も線形代数の書物を上梓することとなった (岩 崎・吉田 (2006)).線形代数の書物として忘れてならないのが柳井・竹内 (1983) である. 前述の竹内・柳井 (1972) の理論的な部分をまとめたものであり,この本の出版が予告され たときから心待ちにしていた.刊行後即座に入手し短期間に集中して読んだが,間違いが 非常に多く(その大半は記号の不整合などの軽微なものであったが),それを正す作業も含 め,非常に面白くためになった本でもあった.発見した間違いのリストは著者のひとりで ある柳井に手渡した. 大学初年級の線形数学の授業は,統計家が担当したほうが,適切な応用例も簡単に見つ けることができて学生の興味も引くであろうことから,数学者よりも望ましいのではない かと考えている.統計で扱う正方行列は主として対称行列であり,非対称な行列であれば それは正方行列に限らず長方行列である.したがって,正方行列の固有値・固有ベクトル は,実数の範囲のものを扱っておけば十分であり,長方行列の分解には特異値分解が必須 である.もちろん非対称正方行列のジョルダン標準形や単因子論は数学的に美しく,ある 種の分野では必要不可欠なものであろうが,初学者にとっては難解なものであるに違いな いし,少なくとも統計的データ解析ではあまりお目にかからない.岩崎・吉田 (2006) もそ の観点から執筆した. 3. 魅力的な統計手法 統計家は,統計手法のどこに魅力を感じるのであろうか.数学的な深み,応用の広範さ など人様々であるに違いがないが,私は統計手法に与えられた名称の語感に惹かれてきた. 統計手法には,古くは jackknife や bootstrap,最近の LASSO など,様々な名前が付けら れている.名称は重要で,AIC (Akaike Information Criterion) はその前身の FPE (Final Prediction Error) に比べると,定義が異なるとはいえ,断然素晴らしい命名で,その普及 に一役も二役も買っていると言えるのではないか.ここでは,私自身が名称に惹かれ,名 前からその中身に入ったものをいくつか挙げ,自らの研究との関連および統計的データ解

(7)

析全般でのそれらの果たす役割について述べる.

3.1 Response Surface Methodology (RSM)

品質管理分野での応答曲面法(反応曲面法)である.Response surface と聞いただけで, 魅力的な手法であるという期待を抱かせる.大学院時代に津村,増山というデータ取得の 方法論の大家の近辺にいたにもかかわらず,統計解析の数学的な理論にしか興味を持って いなかったのであるが,1985 年秋からの半年間の New Zealand での在外研究が視野を広 げさせる契機となった.当時の New Zealand の統計家の日本の統計に対する主たる関心 事は品質管理であった.特に,田口玄一の展開する実践的な理論は注目の的であり,私は Taguchi method なる語を彼の地で初めて聞いたのであった.その後,田口の著作 (田口 (1976, 1977)) や Box et al. (1978),Box and Draper (1987) などの George E. P. Box を中 心とした品質管理系の書物や論文を数多く読み,実験計画法の重要性を認識した.田口の 著書は,実践に即したきわめて新規性の高いものであるとの印象を受けたが,当時の私には 上述の Box などの本のほうが読みやすかった.どちらがいいというものではなく,両方を 読み比べることによりさらに理解が深まるのであろう.このときの経験が後の岩崎 (1994, 2006) の書物,高橋・岩崎 (1994),平野・岩崎 (2008) などの応用論文につながった. 言うまでもなく(と今では言えるが),データ取得のための方法論こそが統計的データ解 析では最重要であり,データを取るのではなく既にそこにしかも大量にあるという現時点 のビッグデータの時代にあってもそれは変わらない,という立場が統計家のレゾンデート ルであろう.もちろん,綿密なデータ取得の計画(実験計画や標本調査)に基づかなけれ ば駄目であるというつもりは毛頭なく,すでに取られたデータであっても,それが取られ たいきさつや状況を吟味し,計画されたデータ取得という理想的な状況との距離感を測り ながらデータ解析に臨むべきである.そのためにも,理想的な状況を理解しておく必要が あるという意味で,実験計画と標本調査は統計教育のカリキュラムには必須である. 3.2 Autocorrelation 第 2 節で,自分は多変量解析と時系列解析の二者択一で多変量解析を選択したと述べた が,時系列解析への憧憬は持ち続けていた.Autocorrelation の語は常に頭の中にあり,時 系列解析派の若手の俊秀の研究発表に刺激され,時系列の勉強も密かに行っていた.中でも Anderson (1971) は,多変量解析の第一人者の著作であることから,多変量解析派の自分に も比較的理解可能であった.1985 年の New Zealand 滞在中も勉強を進め,Iwasaki (1985, 1988),Iwasaki and Wang (1990) につなげることができた.これらにより,東大の国友直 人や一橋大の統計グループなどの経済系の研究者とのつながりができた.中でも,Iwasaki (1985) の主要な結果を導くにあたっての刈屋武昭の「一般化して考えるのがよい」という アドバイスは,とかく一般論の理解のためには具体的な例を考えるという考え一辺倒であっ

(8)

た自分にとって新鮮な考え方であり,一般から個別へ,個別から一般へというアプローチ はどちらも重要であるとの認識を新たにした. 3.3 Projection Pursuit 射影追跡と訳されているこの手法は,現代にも通じる computer intensive な統計手法の 代表である.複雑な多次元データの持つ構造を人間の理解可能な 2 次元ないしは 3 次元とい う低次元の空間に射影することにより可視化するという発想は,大変に魅力的なものであっ たし,その重要性は現代でも変わらない.Friedman and Tukey (1974),Friedman (1987), Diaconis and Freedman (1984),Huber (1985),Jones and Sibson (1987) といった当代を 代表する統計学者が論文を発表したが,その中でも Huber (1981) をはじめとするロバス ト推定に関する著作で数理統計学者とみなしていた P. J. Huber の論文 Huber (1985) には たいそう驚かされ,欧米の研究者の懐の深さを目の当たりにした思いであった.ちなみに, Huber (1981) の読解にはかなり悪戦苦闘した. 射影追跡の文脈で最も印象に残るのは,正規分布を構造を持たない分布と位置付け,多 次元空間でのデータの持つ構造を,正規分布からの距離で測るという発想であった.とか く初等的な統計教育では正規分布ばかりを扱うのであるが,それはそれで重要ではあるも のの,現実のデータ解析では,正規分布は偶然とみなされる誤差を表す誤差分布であり,む しろ正規分布を示さないところにデータの持つ構造を見出すという観点のほうが重要であ る.分布の非対称性の吟味,適切な変数変換の探索,外れ値の検出,有限混合モデルのあ てはめなど,種々の統計解析手法をデータに適用し,正規分布とみなされるところまで解 析を実行し続け,正規分布が現れたら分析(構造の摘出)を終了するというストラテジー が実際的である.射影追跡に関しては,岩崎 (1991, 1992b),岩崎・福永 (1989) などを表 したが,それらの中でもあるいはその後のいくつかの著述でも,その誤差分布としての正 規分布の役割については言及している. 3.4 Spectral Analysis スペクトル解析は,主成分分析に代表されるように,統計的データ解析で主要な位置を占 める.ただしここでいうスペクトル解析は時系列解析でいうそれとは異なり,行列の固有 値・固有ベクトル分解に基づく手法を指す.2.2 項で述べた Muirhead (1982),Eaton (1983) ではスペクトル解析が主要な数学の道具であったが,それを順位データなどに拡張し華麗 な数学理論を展開した Persi Diaconis の仕事には目を見張らされた(Diaconis (1988, 1989) など).関連した話題としては Bloomfield (1974),Cox (1972) などがあり,私も Iwasaki (1992),岩崎 (1992a) などを著した.この頃の仕事を中心に,1991 年日本数学会において

坂田年男と共同で「k 次対称群の 2k次元表現の既約分解とその統計的意味」なる特別講演

(9)

かにこの論文で狙っていたのであったが,その 1 つ前の論文の Iwasaki (1991) で小川賞を いただくことになった.Iwasaki (1991) はロバスト推定に関するもので,Huber (1981) で 悪戦苦闘した甲斐があったというものである.悪戦苦闘は後で実を結ぶ確率が高い(確率 1 ではないが). スペクトル解析は単純化して言えば射影であり,射影する固有空間の選択とそれらへの 射影により,多次元データを縮約して解釈を容易にするという意味では,前項の射影追跡 および時系列解析のそれと同様であり,多次元データの解析の根幹をなすものである.そ の意味で「射影」は統計的データ解析の最重要用語と言っても過言ではない(この件,江 口真透と議論した記憶がある). 3.5 mid-P value 何らかの帰無仮説 H0に関する検定統計量を T とし,その実現値を t∗としたとき,帰無 仮説の下での(片側)P 値は p = P (T ≥ t∗) で表される.それに対し,T が離散型の場合,

mid-P 値は mid-P = P (T > t∗) + 0.5P (T = t∗) で定義される.mid-P 値とは,興味をそ そらざるを得ない命名である.検定統計量 T が連続のとき P 値 p は区間 (0, 1) 上の一様分

布に従い,したがってその期待値は E[p| H0] = 0.5 となる.ところが T が離散型の場合は,

E[p| H0] > 0.5 であり,期待値が 0.5 となるのは mid-P 値である (E[mid-P | H0] = 0.5).

私はある時期以降,吉村功の影響で医薬品の承認申請に関わり,医療統計,生物統計の 分野に進出することになった.そしてこの分野は,それまで見知っていた数理統計とはか なり違う領域であることに気が付いた.米国などでは,Department of Statistics に加え, Department of Biostatistics が数多く設置されているが,その理由が初めて理解できた.P 値に基づく研究結果の評価の中で,P 値が保守的な結果を与えるという議論を知り,mid-P 値の存在を知った.統計理論的に見れば,E[mid-P | H0] = 0.5 であることからも分かるよ うに,mid-P 値は,連続な検定統計量での P 値に対応する量として極めて自然なものであ り,海外の文献でもその使用が推奨されたりもしている.興味を持って調べてはみたもの の (岩崎 (1993), Iwasaki and Tanida (1994)),実際のデータ解析で mid-P 値が議論の俎 上に乗ることはほとんどないのは残念である.

離散型の統計量に関連した論文としては Agresti and Coull (1998) を忘れてはならない. 近似が「正確」よりも良い,というその表題はすこぶる興味をそそるものであった.私と 同じく興味を抱いた統計家は相当な数に上ったと見え,その後,それにまつわる論文が数 多く出された(Iwasaki and Hidaka (2001) 参照).離散変量(カウントデータ)に関して はその後も興味を持ち続け,これもその命名に惹かれた ZIP (Zero-Inflated Poisson) も含 め (岩崎・廉 (2007), 岩崎・大道寺 (2009)),それらをまとめた著書である岩崎 (2010) を 上梓した.

(10)

3.6 MAR と Propensity Score

MAR (Missing At Random) も propensity score(傾向スコア)も Donald B. Rubin の 命名である (Rubin (1976), Rosenbaum and Rubin (1983)).Rubin は,ignorability,EM algorithm (Dempster et al. (1977)),SUTVA (Stable Unit Treatment Value Assumption) などの用語を世に送り出している.欠測データ解析に関しては Little and Rubin (1987) が 基本的な文献であり,その 10 年後に Schafer (1997) が出版されている.この 10 年間での 顕著な進歩は実際の計算法の発展であり,Schafer (1997) では,種々のアルゴリズムの提 案に加え,専用のソフトウェアに関する記述もある.岩崎 (2002) は,これら 2 冊の書物を 読む前の準備段階としての位置付けで書かれたものである.その後,初版の改訂版である Little and Rubin (2002) が出版され,その時分から,nonignorable な場合の統計手法に関 する論文が爆発的に増加し,岩崎 (2002) の段階ではまだベータ版であった SAS の PROC MI と PROC MIANALYZE も正規にリリースされるなど,理論の整備とソフトウェアの 拡充による実際問題への応用が大いなる広がりを見せた.当時,あまりの論文の多さに閉 口して理論について行くことを半ばあきらめ,この分野の研究は若い人に今後を託すつも りで欠測データの解析の分野からは多少遠ざかるようになった. そのころ興味を持ったのが,同じ D. B. Rubin のお家芸である統計的因果推論であった. Propensity score についてはそれ以前から興味を持っていたのであるが,ここに来て本格 的に取り組みだした.因果推論のアプローチの仕方には種々のものがあるが,これまでの いきさつから必然的に Rubin の potential outcomes の枠組みを中心に取り組んだ.観察研 究における因果推論がその主たるテーマであるが,Rosenbaum (2002) の本では,題名に 観察研究と謳っていながらまず最初は実験研究に関する章から始められていて,目次を見 た時は多少いぶかしく感じたが,実験研究におけるランダム化が極めて重要な役割を果た すことが分かり,Rosenbaum の意図が明解に理解できたのである. Propensity score の有用性が国内外で広く認識されるにつれ,統計はもとより,臨床分 野およびマーケティング分野での論文が極めて多く出版されるようになり,かつまた理論 面においても様々な新手法が提案され,一大研究分野を形成するようになった.自らの勉 強を兼ねて,統計関連学会連合大会でまとまった報告をした (岩崎 (2011, 2014)).その当 時は Rubin (2006) をかばんに入れて毎日持ち歩いていた.そして,それらをベースに岩 崎 (2015) を出版したが,それと相前後する形で 2010 年の出版が予告されていた Imbens and Rubin (2015) が出版された.Imbens and Rubin (2015) は題名が An Introduction と いうことであるが,きわめて大部の著作であり,その内容からして確かに introduction と 言えなくもないが,これが研究の入り口であるとするならば,前述の Muirhead (1982) 同 様,研究の最前線への道のりは遠い.

(11)

実験研究と観察研究の違い,頻度論,尤度法,ベイズ法の各考え方,各種アルゴリズムに 基づく実際の計算法など多くの統計学あるいは数値計算法(たとえば岩崎 (2004) など)の 知識を必要とする.私がこれらに取り組んだのは研究のキャリア上ではかなり後のほうの 時期であり,それ故の大変さはあったのであるが,逆に言えば,様々な統計手法に関する 基礎知識の不足していた若い日であったならば,その本質を理解することは難しかったに 違いない.勉強するに早すぎることはあっても,遅すぎることはないのである. 4. これからの統計家 これまでの日本における統計家は,前節までの記述で分かるように,統計研究者とほぼ 同義語であり,その人数も学会の会員数で見るとほぼ横ばいである期間が長かった.しか し近年,統計に対する社会の認知度が上がり,いわゆる統計家への期待は大きなものとな りつつある.Google のチーフエコノミスト Hal Varian がそのインタビュー記事の中で述 べた “I keep saying the sexy job in the next ten years will be statisticians.”が紹介され, 統計家は sexy job と喧伝されたことも一役買っている. 統計研究者の絶対数も欧米諸国に比して決して多いものでないが,研究者と実務家との 間をつなぐいわゆる棟梁クラスの人材の不足が顕著なものとなってきている.第一線の統 計研究者でなくても,統計理論およびその考え方を知り,各統計手法の利点と限界をその 手法の発展の歴史的経緯を踏まえて理解し,実際問題に適用して具体的な結果を導き,得 られた結果を正しく解釈する人材がますます重要なものとなる.他分野の研究者あるいは 実務家とのコミュニケーションを取る能力も必要とされるであろう. ビッグデータ,統計の時代とは,多種多様で大量のデータの時代でもあるが,それに加 え,データを扱う人口の増加という面が強い.Hal Varian は,上述の言明のすぐ後で “The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids.”と述べているのも,それを反映した見解 である.そのための人材育成は急務である,というものの一朝一夕にできるものではない. 日本統計学会は,2011 年から統計検定を開始している.統計検定の創設に当たっては, 当時の会長の美添泰人,次の会長の竹村彰通をはじめとする多くの統計関係者が献身的な 貢献をした.私自身,美添,竹村時代の理事長として微力ながらお手伝いをしたが,当時 の熱気と統計研究者の無私の努力には素晴らしいものがあった.統計検定開始のいきさつ とその役割について,詳細は竹村 (2012) を参照されたい.幸いにして統計検定は発展の一 途をたどり,今後は,日本統計学会だけでなく統計界全体の財産として守り育てていく必 要がある.統計検定の合格者から未来の統計界を担う人材が生まれることを期待する.

(12)

統計家の役割がますます重要なものとなるに連れ,学術団体である日本統計学会のよう な学会の性格も変化しつつある.これまでの研究者集団としての相互の研究交流の役割か ら,さらに広い活動が期待されている.統計検定の運営はその一つであるが,統計教育,国 際交流など,ますますその守備範囲は広がりを見せ,それらに携わる人の数もその任務も 必然的に増えざるを得ない.しかしそれは社会からの負託に応えるべき責任を負うことで あり,統計家としては必要なことでもある.その点については竹村 (2012) と意見を同じく している. 統計家としての自覚と自信を持ち,これからの社会を統計の力でよりよくするため努力 しようではありませんか. 謝辞 私が現在あるのは,本文中で名前を挙げた方々はもとより,名前を挙げなかった多くの 人たちのおかげである.中でも,津村善郎,牧野都治,塩谷実の各先生方,および岩瀬晃 盛,清水邦夫の両氏に大いなる感謝を捧げる.これらの方々にはキャリアの初期段階でそ の後の研究および学会活動のきっかけを与えていただいた.さらに,直接の関係はなかっ たが,いろいろな意味で現在の自分に大きな影響を与えてくれた竹内啓,渋谷政昭の両先 生に,誠に僭越ながらお礼を申し上げたい.加えて,原稿を丁寧に読みコメントを戴いた 査読者にも感謝する.なお,本稿をまとめるにあたっては,科学研究費補助金基盤 (A) No. 25240005 の援助を受けた. 参 考 文 献

Agresti, A. and Coull, B. A. (1998). Approximate is better than “exact” for interval estimation of binomial proportions, Am. Stat., 52, 119–126.

Anderson, T. W. (1958). An Introduction to Multivariate Statistical Analysis, John Wiley & Sons. Anderson, T. W. (1971). The Statistical Analysis of Time Series, John Wiley & Sons.

Bloomfield, P. (1974). Linear transformations for multivariate binary data, Biometrics, 30, 609–617. Box, G. E. P. and Draper, N. R. (1987). Empirical Model-Building and Response Surfaces, John Wiley & Sons. Box, G. E. P., Hunter, W. G. and Hunter, J. S. (1978). Statistics for Experimenters. An Introduction to Design,

Data Analysis, and Model Building, John Wiley & Sons.

Constantine, A. G. (1963). Some non-central problems in multivariate analysis, Ann. Math. Stat., 34, 1270– 1285.

Cox, D. R. (1972). The analysis of multivariate binary data, Applied Statistics, 21, 113–120.

Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood estimation from incomplete data via the EM algorithm (with discussion), J. R. Stat. Soc. Ser. B , 39, 1–38.

Diaconis, P. (1988). Group Representations in Probability and Statistics, Institute of Mathematical Statistics. Diaconis, P. (1989). A generalization of spectral analysis with application to ranked data, Ann. Stat., 17,

949–979.

Diaconis, P. and Freedman, D. (1984). Asymptotics of graphical projection pursuit, Ann. Stat., 12, 793–815. Eaton, M. L. (1983). Multivariate Analysis. A Vector Space Approach, John Wiley & Sons.

(13)

Friedman, J. H. and Tukey, J. W. (1974). A projection pursuit algorithm for exploratory data analysis, IEEE

Trans. Computing, 23, 881–890.

林知己夫 (1974).『数量化の方法』東洋経済新報社.

平野哲夫,岩崎学 (2008).「乳酸デヒロゲナーゼ (LD) 活性測定の至適条件の Response Surface Methodology (RSM) の応用の試み」『臨床化学』37, 292–299.

Huber, P. J. (1981). Robust Statistics, John Wiley & Sons.

Huber, P. J. (1985). Projection pursuit (with discussion), Ann. Stat., 13, 436–525.

Imbens, G. W. and Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. An

Introduction, Cambridge University Press.

Iwasaki, M. (1985). Mean efficiency of least squares estimator of regression coefficients, J. Japan Statist. Soc.,

15, 139–149.

Iwasaki, M. (1988). Efficiency of least squares in a linear model with autocorrelated disturbances, in Statistical

Theory and Data Analysis II (ed. K. Matusita), North-Holland, 511–523.

岩崎学 (1989).「数量化 III 類によるテスト得点の解析」『行動計量学』16, 13–21. 岩崎学 (1991).「射影追跡:その考え方と実際」『計算機統計学』4, 41–56.

Iwasaki, M. (1991). Construction of M-estimators by robustifying orthogonal polynomials associated with the density function, J. Japan Statist. Soc., 21, 155–171.

Iwasaki, M. (1992). Spectral analysis of multivariate binary data, J. Japan Statist. Soc., 22, 45–65. 岩崎学 (1992a).「テスト得点のスペクトル解析」『行動計量学』19, 24–33. 岩崎学 (1992b).「コンピュータ指向型データ解析の新手法」『行動計量学』19, 37–49. 岩崎学 (1993).「mid-P value:その考え方と特性」『応用統計学』22, 67–80. 岩崎学 (1994).『混合実験の計画と解析』サイエンティスト社. 岩崎学 (2002).『不完全データの統計解析』エコノミスト社. 岩崎学 (2004).『統計的データ解析のための数値計算法入門』朝倉書店. 岩崎学 (2006).『統計的データ解析入門 実験計画法』東京図書. 岩崎学 (2010).『カウントデータの統計解析』朝倉書店. 岩崎学 (2011).『傾向スコア:その考え方と特性』統計関連学会連合大会初級中級講座資料. 岩崎学 (2014).『マッチングと統計解析』統計関連学会連合大会チュートリアルセミナー資料. 岩崎学 (2015).『統計的因果推論』朝倉書店. 岩崎学,大道寺香澄 (2009).「ゼロ過剰な確率モデルとそのテスト得点の解析への応用」『行動計量学』36, 25–34. 岩崎学,福永真美 (1989).「多項式指標による射影追跡」『応用統計学』18, 103–128.

Iwasaki, M. and Hidaka, N. (2001). Notes on the central and shortest confidence intervals for a binomial parameter, Japanese Journal of Biometrics, 22, 1–13.

Iwasaki, M. and Tanida, T. (1994). Sample size determination based on mid-P value for use with the testing in 2× 2 comparative trials, Journal of the Japanese Society of Computational Statistics, 7, 57–64. Iwasaki, M. and Wang, S. (1990). On coordinate-free measures of efficiency of least squares in a linear model,

J. Eng. Math., 7(1), 1–8.

岩崎学,廉民善 (2007).「ゼロトランケーションのあるカウントデータの解析」『行動計量学』34, 91–100. 岩崎学,吉田清隆 (2006).『統計的データ解析入門 線形代数』東京図書.

James, A. T. (1954). Normal multivariate analysis and the orthogonal group, Ann. Math. Stat., 25, 40–75. Jones, M. C. and Sibson, R. (1987). What is projection pursuit? (with discussion), J. R. Stat. Soc. Ser. A,

150, 1–36.

Little, R. J. A. and Rubin, D. B. (1987). Statistical Analysis with Missing Data, John Wiley & Sons. Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data, Second Edition, John Wiley

& Sons.

増山元三郎 (1949).『推計学の話』朝日新聞社. 増山元三郎 (1956).『実験計画法』第2版, 岩波書店.

(14)

増山元三郎 (1964).『少数例のまとめ方 改稿版 I,II』竹内書店新社.

Muirhead, R. J. (1982). Aspects of Multivariate Statistical Theory, John Wiley & Sons. 奥野忠一,久米均,芳賀敏郎,吉澤正 (1971).『多変量解析法』日科技連.

Rao, C. R. (1973). Linear Statistical Inference and Its Applications, Second Edition, John Wiley & Sons. Rosenbaum, P. R. (2002). Observational Studies, Second Edition, Springer.

Rosenbaum, P. R. and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41–55.

Rubin, D. B. (1976). Inference and missing data (with comments by R. J. A. Little), Biometrika, 63, 581–592. Rubin, D. B. (2006). Matched Sampling for Causal Effects, Cambridge University Press.

Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data, Chapman & Hall.

Siotani, M., Hayakawa, T. and Fujikoshi, Y. (1985). Modern Multivariate Statistical Analysis: A Graduate

Course and Handbook , American Science Press.

高橋慶一,岩崎学 (1994).「半導体プロセスにおけるエッチング特性の最適化—混合実験の効果的適用」『品質』 24, 193–201. 田口玄一 (1976, 1977).『実験計画法 第3版 上,下』丸善. 竹内啓 (1963).『数理統計学』東洋経済. 竹内啓 (1974).『線型数学 補訂版』培風館. 竹内啓,柳井晴夫 (1972).『多変量解析の基礎—線型空間への射影による方法—』東洋経済新報社. 竹村彰通 (2012).「広がりのある統計学研究をめざして」『日本統計学会誌』41, 251–264. 津村善郎 (1956).『標本調査法』岩波書店.

Tumura, Y. (1965). The distribution of latent roots and vectors, TRU Mathematics, 1, 1–16. 津村善郎,築林昭明 (1986).『標本調査法』岩波書店.

Wilks, S. S. (1962). Mathematical Statistics, John Wiley & Sons.

柳井晴夫,竹内啓 (1983).『射影行列・一般逆行列・特異値分解』東京大学出版会. Zacks, S. (1971). The Theory of Statistical Inference, John Wiley & Sons.

参照

関連したドキュメント

10) Takaya Y, et al : Impact of cardiac rehabilitation on renal function in patients with and without chronic kidney disease after acute myocardial infarction. Circ J 78 :

38) Comi G, et al : European/Canadian multicenter, double-blind, randomized, placebo-controlled study of the effects of glatiramer acetate on magnetic resonance imaging-measured

健康人の基本的条件として,快食,快眠ならび に快便の三原則が必須と言われている.しかし

Nevertheless, when the turbulence is dominated by large and coherent structures, typically strongly correlated, the ergodic hypothesis cannot be assumed and only a probability

 我が国における肝硬変の原因としては,C型 やB型といった肝炎ウイルスによるものが最も 多い(図

いメタボリックシンドロームや 2 型糖尿病への 有用性も期待される.ペマフィブラートは他の

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.