ことにより望ましい統計的推論への道を開いた2)。一
方で,Kazil and Jarmul(2017)や本橋(2018)の データ分析の「前処理」あるいは Data Wrangling (データラングリング)は,実務的な処理を問題にし
ている3)。
本小論で利用するデータである大林(2020)で発表 した第1期 JCGIndex サーベイ(Phase I)は,2002年 から2017年までの16年間のアンケート調査である。16 年間の間に質問の改廃や新規導入により質問数は個別 に計算すると449項目あり,累計986社のデータが蓄積 されている。アンケート調査の単純・クロス集計で は,欠測値は基本的に無視することが多い。しかし, 何らかの計量分析手法をそのまま適用するためには, 理論の出発点である完全データの必要性は高い。そこ で,ある変数に欠測値がある場合は,すべての変数に ついてデータが存在するユニットだけを残した完全 ケース(完全データと区別)を作成する方法を取るこ とが多く,欠測値が少ない場合はあたかも完全データ での分析と同一視している。当然,この手法では,欠 測値と横並びとなるケースをすべて削除する。した がって,欠測値が多い場合にはサンプルサイズが小さ くなり過ぎる。サンプルがどこまで小さくなって検定 力を失ってよいかという指針は出しにくい。また,相 関係数のように2変数ずつなら利用できる変数を事前 に削除してしまう可能性があり問題である。そのた め,バイアスが生じるリスクをおかしながら,なるべ く利用できるデータを活用する ACA 法(Available-Case Analysis:利用可能ケース分析)や PDA 法 (Pairwise Deletion Analysis:ペア毎削除分析)を利
今後の課題は,データベースへの代入法などの適用 によるデータベース構築である6)。しかし,被験者 (社)の脱落だけではなく,再登場,さらには設問の 脱落や新規導入など,通常の実験計画の枠を外れる構 造を持った JCGIndex サーベイのデータラングリング には多くの解決すべき問題が残っている。 注 1)JCGRIndex サーベイは,16年間継続した質問の単純集計を 資料として大林(2020)が公開している。 2)欠測データメカニズムは以下の3種類; MAR 欠測するかどうかが,観測値のみに依存 Missing At Random MCAR 欠測するかどうかが,何にも依存しない Missing Completely At Random
NMAR 欠測するかどうかが,観測値と欠測値に依存 Not Missing At Random
ランダムな欠測を仮定でき,正しい統計モデルを使用すれ ば欠測値を補完する必要はない(完全データの尤度から欠測 値に関する部分を除いた直接尤度を用いた統計的推測が可能 となる)。代入法などのその後の発展は,Little and Rubin (2019),日本製薬工業協会(2014,2016),高井他(2016) を参照。 3)ラングリングは,カウボーイの別名である牛や馬を飼い慣 らす人というラングラーからきている。勝手気まま牛たち (データ)を飼い慣らし整列させるイメージである。また, しばしばデータクレンジングとも言う。また,前処理は単に 準備,あるいは整形と言うこともある。データ分析に必要な 時間の8割以上がこういった作業となることを強調している。 4)いわゆる AI を利用して予測値を求め,それを代入する方法 を考えることができる。ソニーが一時無料で配布していた AI の試供品(Prediction One)を利用して,アンケートの データベース全体を読み込ませ予測モデルをブラックボック ス的に作成させた。本文中で説明変数に利用した「株式会社 のガバナンスは株主にある」という主張についてという変数 を AI アプリケーションで予測させてみた。その結果,単純 に予測モデルを構築させると68.77パーセントの的中率の多 値選択が推計され,その主要寄与変数は,監査役人数,ス トックオプションを導入しているか,報酬委員会の有無,社 外取締役の選任基準の文書化,重視する経営指標 ROE で あった。モデルのコメントとして,「予測モデルの精度はか なり良いです。予測の利用効果が出る可能性が高いです。 データ数を増やすと精度が改善する可能性が高いです。」を 出力した。一方,モデルの検証を行うオプションを使用する と,64.37パーセントで,主要寄与変数は,重要なステーク ホルダが株主,社外取締役に期待する重要な役割・機能,監 査役の社外取締役の人数,重視する経営指標:売上高,重視 する経営指標売上高利益率となった。モデルのコメントは, 「予測モデルの精度は良いです。予測結果を利用すると効果 が期待できます。」を出力した。結果として選択される変数 が異なることから,安定性に関して不安があり,使用を見 送った。 5)例えば,最高経営責任者の報酬は業績評価に基づいている か,ストックオプション制度を導入,海外で定期的にアナリ ストと会っているか,売上高の対数,ROE,純利益率を説 明変数として加えた独立社外取締役数の時系列・クロスセク ション推計におけるコーポレートガバナンスコードダミーの 係数は0.9003,t- 値は5.11である。 6)高井(2016)によると,疑似完全データを必要とするの は,データ収集者と分析者が分業している時に,分析者によ る多様な分析手法が利用可能となるからである。あるいは, 統計的推測だけが目的ではなく,政策介入や対顧客マーケ ティング分析などでは,対象となる個人や企業などの主体の 欠測値を補完した疑似完全データが実用上必要となる。ま た,個人情報等を提供できない場合に共変量を利用した精度 の高い代入をし,共変量を削除したデータを提供することに よりプライバシー保護を前提に質の高いデータを提供する例 もある。 参考文献 大林守(2020),資料:日本のコーポレートガバナンス:16年 間の JCGIndex サーベイ,専修商学論集,第111号,118-147。 大林守(2018),日本型コーポレートガバナンスの展開:16年 間の JCGR コーポレートガバナンス調査から読み解く,京都 大学経済研究所マクロ経済学・経済システム研究会(9月19 日)発表資料。 大林守・若杉敬明(2014),研究ノート コーポレートガバナ ンスと企業業績,専修商学論集,第99号,53-62。
セス) 日本製薬工業協会(2014),臨床試験の欠測データの取り扱い に関する最近の展開と今後の課題について,http://www. jpma.or.jp/medicine/shinyaku/tiken/allotment/missing_data. html(2020年10月25日アクセス) 日本製薬工業協会(2016),欠測のある連続量経時データに対 する統計手法について,http://www.jpma.or.jp/medicine/ shinyaku/tiken/allotment/statistics.html(2020年10月25日ア クセス) 本橋智光(2018),前処理大全[データ分析のための SQL/R/ Python 実践テクニック]技術評論社。 英文
Little R.J.A.& Rubin, D.B. (2019), Statistical Analysis with Missing Data, 3rd ed., Wiley.