独立社外取締役数とコーポレートガバナンスコード導入 : 第1期JCGIndex サーベイ

(1)

(2)

ことにより望ましい統計的推論への道を開いた2）_。一

方で，Kazil and Jarmul（2017）や本橋（2018）のデータ分析の「前処理」あるいは Data Wrangling （データラングリング）は，実務的な処理を問題にし

ている3）_。

本小論で利用するデータである大林（2020）で発表した第1期 JCGIndex サーベイ（Phase I）は，2002年から2017年までの16年間のアンケート調査である。16 年間の間に質問の改廃や新規導入により質問数は個別に計算すると449項目あり，累計986社のデータが蓄積されている。アンケート調査の単純・クロス集計では，欠測値は基本的に無視することが多い。しかし，何らかの計量分析手法をそのまま適用するためには，理論の出発点である完全データの必要性は高い。そこで，ある変数に欠測値がある場合は，すべての変数についてデータが存在するユニットだけを残した完全ケース（完全データと区別）を作成する方法を取ることが多く，欠測値が少ない場合はあたかも完全データでの分析と同一視している。当然，この手法では，欠測値と横並びとなるケースをすべて削除する。したがって，欠測値が多い場合にはサンプルサイズが小さくなり過ぎる。サンプルがどこまで小さくなって検定力を失ってよいかという指針は出しにくい。また，相関係数のように2変数ずつなら利用できる変数を事前に削除してしまう可能性があり問題である。そのため，バイアスが生じるリスクをおかしながら，なるべく利用できるデータを活用する ACA 法（Available-Case Analysis：利用可能ケース分析）や PDA 法（Pairwise Deletion Analysis：ペア毎削除分析）を利

(3)

(4)

今後の課題は，データベースへの代入法などの適用によるデータベース構築である6）_{。しかし，被験者} （社）の脱落だけではなく，再登場，さらには設問の脱落や新規導入など，通常の実験計画の枠を外れる構造を持った JCGIndex サーベイのデータラングリングには多くの解決すべき問題が残っている。注 1）JCGRIndex サーベイは，16年間継続した質問の単純集計を資料として大林（2020）が公開している。 2）欠測データメカニズムは以下の3種類； MAR　欠測するかどうかが，観測値のみに依存　　　 Missing At Random MCAR　欠測するかどうかが，何にも依存しない　　　　Missing Completely At Random

NMAR　欠測するかどうかが，観測値と欠測値に依存　　　　Not Missing At Random

　ランダムな欠測を仮定でき，正しい統計モデルを使用すれば欠測値を補完する必要はない（完全データの尤度から欠測値に関する部分を除いた直接尤度を用いた統計的推測が可能となる）。代入法などのその後の発展は，Little and Rubin （2019），日本製薬工業協会（2014，2016），高井他（2016）を参照。 3）ラングリングは，カウボーイの別名である牛や馬を飼い慣らす人というラングラーからきている。勝手気まま牛たち（データ）を飼い慣らし整列させるイメージである。また，しばしばデータクレンジングとも言う。また，前処理は単に準備，あるいは整形と言うこともある。データ分析に必要な時間の8割以上がこういった作業となることを強調している。 4）いわゆる AI を利用して予測値を求め，それを代入する方法を考えることができる。ソニーが一時無料で配布していた AI の試供品（Prediction One）を利用して，アンケートのデータベース全体を読み込ませ予測モデルをブラックボックス的に作成させた。本文中で説明変数に利用した「株式会社のガバナンスは株主にある」という主張についてという変数を AI アプリケーションで予測させてみた。その結果，単純に予測モデルを構築させると68.77パーセントの的中率の多値選択が推計され，その主要寄与変数は，監査役人数，ストックオプションを導入しているか，報酬委員会の有無，社外取締役の選任基準の文書化，重視する経営指標 ROE であった。モデルのコメントとして，「予測モデルの精度はかなり良いです。予測の利用効果が出る可能性が高いです。データ数を増やすと精度が改善する可能性が高いです。」を出力した。一方，モデルの検証を行うオプションを使用すると，64.37パーセントで，主要寄与変数は，重要なステークホルダが株主，社外取締役に期待する重要な役割・機能，監査役の社外取締役の人数，重視する経営指標：売上高，重視する経営指標売上高利益率となった。モデルのコメントは，「予測モデルの精度は良いです。予測結果を利用すると効果が期待できます。」を出力した。結果として選択される変数が異なることから，安定性に関して不安があり，使用を見送った。 5）例えば，最高経営責任者の報酬は業績評価に基づいているか，ストックオプション制度を導入，海外で定期的にアナリストと会っているか，売上高の対数，ROE，純利益率を説明変数として加えた独立社外取締役数の時系列・クロスセクション推計におけるコーポレートガバナンスコードダミーの係数は0.9003，t- 値は5.11である。 6）高井（2016）によると，疑似完全データを必要とするのは，データ収集者と分析者が分業している時に，分析者による多様な分析手法が利用可能となるからである。あるいは，統計的推測だけが目的ではなく，政策介入や対顧客マーケティング分析などでは，対象となる個人や企業などの主体の欠測値を補完した疑似完全データが実用上必要となる。また，個人情報等を提供できない場合に共変量を利用した精度の高い代入をし，共変量を削除したデータを提供することによりプライバシー保護を前提に質の高いデータを提供する例もある。 参考文献 大林守（2020），資料：日本のコーポレートガバナンス：16年間の JCGIndex サーベイ，専修商学論集，第111号，118-147。大林守（2018），日本型コーポレートガバナンスの展開：16年間の JCGR コーポレートガバナンス調査から読み解く，京都大学経済研究所マクロ経済学・経済システム研究会（9月19 日）発表資料。大林守・若杉敬明（2014），研究ノート　コーポレートガバナンスと企業業績，専修商学論集，第99号，53-62。

(5)

セス）日本製薬工業協会（2014），臨床試験の欠測データの取り扱いに関する最近の展開と今後の課題について，http://www. jpma.or.jp/medicine/shinyaku/tiken/allotment/missing_data. html（2020年10月25日アクセス）日本製薬工業協会（2016），欠測のある連続量経時データに対する統計手法について，http://www.jpma.or.jp/medicine/ shinyaku/tiken/allotment/statistics.html（2020年10月25日アクセス）本橋智光（2018），前処理大全［データ分析のための SQL/R/ Python 実践テクニック］技術評論社。英文

Little R.J.A.& Rubin, D.B. （2019）, Statistical Analysis with Missing Data, 3rd_{ed., Wiley.}