教育政策研究・評価のための「統計分析ツール」の開発とその適用
全文
(2) 北海道教育大学紀要(教育科学編)第68巻 第₁号 Journal of Hokkaido University of Education(Education)Vol. 68, No.1. 平 成 29 年 ₈ 月 August, 2017. 教育政策研究・評価のための「統計分析ツール」の開発とその適用 橋 野 晶 寛 北海道教育大学旭川校教育学教室. The Development and Application of Statistical Tools for Education Policy Research and Evaluation HASHINO Akihiro Department of Education, Asahikawa Campus, Hokkaido University of Education. 概 要 社会科学分野における計量的実証分析は近年急速な発展を遂げており,教育政策を対象とし た政策研究・評価もその例外ではない。こうした手法の進歩は研究面での大きな進展をもたら すものである。一方で,実証分析の知見の理解や方法論教育の面を念頭に置いた場合,初学者 にもアクセスしやすい分析ツールが不可欠となる。本稿では,筆者が作成した「政策研究・評 価のための統計分析ツール」について,機能の解説・適用事例の紹介を行い,その政策研究お よび方法論教育における意義について述べる。. 1.課題設定 社会科学分野における計量的実証分析の手法は,ミクロデータを用いた政策評価等の分野で近年大きく発 展しており,教育政策を対象とした政策研究・評価もその例外ではない。分析手法の高度化・精緻化および それに伴う実証的知見の蓄積は,研究の局面においては大いに歓迎すべき点である。しかし,一方でそうし た手法の高度化は,手法に不案内な者を実証的研究の知見の理解から遠ざけるとともに,彼ら自身による実 証分析へのコミットメント自体を削ぐことにもつながりうる。特に,学部教育等において実証分析の入門的 講義・演習を行う際,あるいは,実務家が分析手法を独習する際には,この点は重要な問題である。すなわ ち,統計学的手法を用いた実証分析の手法を理解するためには,その数理的な理解のみならず分析の一連の 作業の経験も不可欠であり,後者の点に関しては初学者・実務家に利用可能な分析ツールが必要とされる。 しかし,実際には,研究者の間で広く用いられている手法であっても,初学者・実務家が同様の分析作業を 経験することは難しく,そのことが分析手法の実際的理解,またそれを基にした数理的性質への関心・理解 の機会を減じることにもつながっている。本稿では,こうした研究と教育における方法論の理解の乖離を埋 めるべく,入門者・実務家向けの実証分析ツールを作成し,その機能と分析の実例を紹介するとともに,政. 27.
(3) 橋 野 晶 寛. 策研究および方法論教育における意義を議論する。 今日の大学教育における社会科学系の実証分析の入門的講義・演習において,実データを用いた分析の実 習は広く行われており,その際に主に用いられているのはExcelであると思われる。Excelではスプレッド シートによるデータ入力・保存とともに,散布図やクロス表などの基本的な図表作成,相関係数などの統計 量などの計算が可能であり,またExcelの機能として提供されているアドインの「分析ツール」を用いれば, 群間の平均値の差の検定,分散分析,線形回帰分析など初歩的な線形モデルの分析も可能である。しかし, 社会科学で扱う対象において,こうした手法で分析可能なデータは限られており,実際の研究で用いられて いる現代的な手法に対応していない。実際に学習者自身で実行できない手法であるがゆえに,学習者が,そ うした手法を用いた研究論文に向き合う際に,分析手法のみならず実証研究全体の理解・検討を放棄するこ とも少なくない。また,Excelの基本的な機能の範囲内で分析を行うにしても,その操作性は良いとは言い 難く,ストレスを感じさせる場面が多々ある1)。対象や方法の理解の上で必ずしも本質的とは言えない煩雑 な操作手順に多くの時間・手間をかけなければならないことは,初学者の「統計アレルギー」の一端にもな りかねない大きなデメリットである。 研究者が使用している統計ソフト(Stata, SAS, SPSSなど)に学習者がアクセス可能であれば,これらの 問題は回避できるが,実際にはそれらは高価であり,学生・実務家が独習あるいは独自の研究への利用を目 的に個人的にライセンスを取得することは困難である。また,学生向けの廉価版があったとしても機能が限 定されているとともに,実際の実証研究で用いられている手法が搭載されるまでにタイムラグが生じること もしばしばである。近年では,実証研究あるいは方法論教育において,フリーソフトRを用いることも少な くないが,操作の面で初学者・実務家向けのものとは言い難いように思われる。こうした社会科学系の方法 論教育の難点を克服すべく,Excelのアドインとして広く使用できる「政策研究・評価のための統計分析ツー ル」 (以下「統計分析ツール」 )の作成を試みた。「統計分析ツール」作成にあたっては特に次の3点を重視 した。 まず第1は,操作性である。本「統計分析ツール」では,市販統計ソフトと同様にほとんどの分析の手順 をマウスの操作で完了させることができる。特に複数の変数について同じ作業を繰り返す必要がある場合な どにおいても,1度の操作で済むようにしている。また,様々な変数の変換や分析などで伴う労力を最小限 にしている。 第2は,手法のカバーの範囲である。 「統計分析ツール」は,元々は筆者の学部教育の補助の用途で作成 したものであり,筆者の専門分野の教育政策研究で用いられる頻度の高い手法を中心的に搭載しているが, 一般的に社会科学系の分野の実証研究においても使用頻度の多い分析手法を含んでいる。実証分析において 最もよく使われる手法は回帰分析であるが,社会科学の場合,連続量の被説明変数だけでなく,離散変数や 制限的変数の被説明変数を扱うことが多いため,本「統計分析ツール」ではそれらの様々なデータ型に対応 した回帰モデルをカバーしている。さらに近年の政策評価の文脈で重視される因果的推論のための手法やリ サンプリング,メタアナリシスなどの現代的手法にも対応している。また,教育政策を対象とした分析・研 究を念頭において,認知的能力・非認知的能力に関する教育測定の現代的手法の核である項目反応理論につ いても搭載している。 第3は,解釈可能な出力の提示である。一部の非線形モデルでは分析結果の出力について直感的な解釈が 難しいものが含まれており,分析結果の解釈とその報告には注意を要する。しばしば,統計ソフトによって 出力された数表通り,回帰係数やその標準誤差,その統計的有意水準を機械的に報告するという儀礼が行わ れているが,それは報告として不十分であるばかりでなく,誤った解釈を導くことにもつながる2)。こうし た不適切な報告は初学者のみならず,量的アプローチを専門としている研究者の間でも見られるものであり,. 28.
(4) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 解釈可能な結果を報告するという行為自体に作業コストが大きいのではないかと推測される。本「統計分析 ツール」では,実質科学の次元における解釈可能性を高めるべく,容易に利用可能な事後推計の機能を充実 させた。 以下では,筆者の作成した「統計分析ツール」の諸機能を解説し,いくつかの実データへの適用事例を示 した上で,その研究・教育上の意義を議論する。. 2.「統計分析ツール」の主な機能と特長 本「統計分析ツール」はExcelアドインとして作動し,図1のように,コマンドバーのメニューから各種 機能を使用することができる3)。主たる機能は,1)データ加工,2)行列演算,3)グラフ作成,4)記 述統計,5)回帰分析,6)多変量解析,7)事後推計である。それぞれの詳細は以下の通りである。. 図1 「統計分析ツール」メニュー画面. 2. 1.データ加工 「データ加工」メニューより選択できる機能は以下の通りである。 1)変数の値の再割当 2)変数の変換 3)ダミー変数の作成 4)クラスターレベルの変数の作成 上記の1) , 2)は市販の統計ソフトにある機能と同様である。3)は,K種類の値をとる元の1変数から, 新たにK個のダミー変数を作成し,記録する機能である。回帰分析などにおいて,等間隔でない順序変数や 順序がない名義変数を説明変数として用いる際に有用な機能である。4)は,クラスターレベルの平均値, 分散,最小値,最大値を算出した上で変数化する。同一クラスターのケースには同一の値が入力される。こ れも後続の分析を行う際の省力化に大きく寄与するものである。. 29.
(5) 橋 野 晶 寛. 2. 2.行列演算 「行列演算」メニューより選択できる機能は以下の通りである。 1)行列の加減乗算,逆行列,べき乗行列,平方根行列,行列式の計算 2)各種行列分解(固有値分解,コレスキー分解,LU分解,LDU分解,QR分解) Excelでは行列を扱う関数が存在し,加減乗算,逆行列の計算などが可能であるが,その操作は非常に面 倒である。本「統計分析ツール」では,その労力・ストレスを大きく軽減することができる。また,基本的 な行列分解の機能は,統計学的手法の理解の際に有用と思われる。 2. 3.グラフ作成 「グラフ」メニューより選択できる機能は以下の通りである。 1)ヒストグラム 2)散布図・散布図行列 ヒストグラム,散布図はExcelの元来の機能を用いて作成可能であるが,実際の実証分析の際には,分析 の前段階の作業として,複数の変数について作成する必要があり,多くの手間を要する。本「統計分析ツー ル」では,指定された複数の変数について一度に全て同じフォーマットでヒストグラム,散布図・散布図行 列(指定した変数全ての組み合わせで作成)を即座に作成する。また,ヒストグラムには,カーネル密度関 数を重ねることも可能である。これらの機能は,主題となる後続の分析への迅速な移行を助けるものとなっ ている。 2. 4.記述統計 「記述統計」メニューより選択できる機能は以下の通りである。 1)記述統計量 平均,標準偏差,分散, ジニ係数,最小値,最大値,四分位点,十分位点 2)度数分布表 3)相関係数 積率相関係数,相関行列,偏相関係数,ポリシリアル相関係数 4)クロス表および各種連関指標 フ ァ イ 係 数, 対 数 オ ッ ズ 比,Goodman-Kruskalの γ,Stuartの τc, ポ リ コ リ ッ ク 相 関 係 数,χ2値, CramerのV 記述統計の算出・度数分布表作成,相関係数,クロス表作成もヒストグラム・散布図作成と同様に,各種 分析の前段階の作業として必要なプロセスである。これらはExcelの関数やピボットテーブル機能で実行可 能であるが, 離散変数における連関指標の計算は,Excelの関数を用いて分析者自身が自力で計算する場合, その作業は非常に煩雑となる。特に多くの変数の組で実行することは難しい。また,順序変数間の連関指標 (Goodman-Kruskalの γ,Stuartの τc)の計算は,変数のカテゴリー数が多い場合には,自力計算は実質的 に不可能である。Excelの関数による計算を前提とした統計分析のテキストでは,その重要性に拘わらず, これらの連関指標の扱いは多くの場合で省かれている。本「統計分析ツール」を使用すれば,これらの問題 を回避することができ,また,変数間のカテゴリー数の異同を問わないポリコリック相関係数,連続変数- 順序離散変数間の連関を測るポリシリアル相関係数の算出が可能であり,変数の型に応じた適切な連関指標 を選択することができる。. 30.
(6) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 2. 5.回帰分析 「回帰分析」メニューより選択できる機能は以下の通りである。 1)線形回帰モデル(クロスセクション) 2)線形回帰モデル(1階自己相関誤差項) 3)線形回帰モデル(パネル) 固定効果・変量効果モデル,固定係数・変量係数モデル,1階自己相関誤差項を伴う固定効果・変量効 果モデル,ダイナミックパネルモデル 4)切断回帰モデル 5)トービットモデル 6)操作変数法線形回帰モデル 2段階最小二乗法,制限情報最尤法,一般化積率法 7)処置効果モデル 2段階推定法,最尤法 8)スウィッチング回帰モデル 2段階推定法,最尤法 9)サンプルセレクションモデル 2段階推定法,最尤法 10)確率的フロンティアモデル 11)比率データモデル ベータ分布回帰モデル 12)2項選択モデル ロジット,プロビット,不均一分散プロビット,Complementary log-log 13)順序選択モデル ロジット,プロビット 14)多項選択モデル 多項ロジット,条件付きロジット 15)ログリニアモデル 16)計数モデル ポアソン回帰,負の2項回帰,一般化負の2項回帰,ゼロ過剰モデル(ポアソン回帰,負の2項回帰), ゼロ切断モデル(ポアソン回帰,負の2項回帰) 17)生存分析 カプラン・マイヤー法,Cox比例ハザードモデル,パラメトリックモデル(指数分布,ワイブル分布, ゴンペルツ分布,対数正規分布,対数ロジスティック分布,一般化ガンマ分布) 18)メタアナリシス・メタ回帰モデル 元々 Excelに組み込まれているアドインの「分析ツール」で回帰分析を行う場合,独立・均一分散の誤差 項の線形回帰モデルのみが実行可能である。また,被説明変数・説明変数のデータ範囲に欠測値がある場合 は,列の並べ替えや削除などによって,それらを変数の指定範囲からリストワイズ・ペアワイズで除外する 必要があるなど,実用の面で大きな制約がある。 本「統計分析ツール」で実行可能な上記の回帰モデルは社会科学系の実証分析で広く使われているもので あり,学習者が実データを実際に分析することで,それらの手法の深い理解に資すると考えられる。また,. 31.
(7) 橋 野 晶 寛. データに欠測値がある場合においても,自動的に欠測ケースをリストワイズ除去した上で分析を実行する。 さらに,標準誤差の算出に関してヴァリエーションを充実させている。通常の標準誤差の他に,HuberWhiteの頑健標準誤差,クラスター頑健標準誤差,クラスター2方向頑健標準誤差,リサンプリング(ブー トストラップ法,ジャックナイフ法,Balanced Repeated Replication)による標準誤差を選択することがで きる。特にリサンプリングによる方法は,小規模標本や複雑なサンプリングデザインによる調査データの分 析には不可欠であり,教育政策研究の文脈では,PISAやTIMSSといった国際学力調査データの2次分析を 行う際に必須となる方法である。 2. 6.多変量解析 「多変量解析」メニューより選択できる機能は以下の通りである。 1)主成分分析 2)因子分析 3)項目反応理論 多次元の変数の情報をより少ない次元に縮約する手法は,教育測定等において不可欠の手法である。これ らはExcelの「分析ツール」では利用できないため,従来は統計ソフトを用いてこれらを実行する。本「統 計分析ツール」では社会科学系の分析で広く用いられている主成分分析,因子分析の他に,認知的能力・非 認知的能力の測定に用いられている項目反応理論(2値変数モデル)を搭載した。項目反応理論は多次元の 離散変数の情報を各個体の能力や特性に関する連続量の潜在変数に縮約する手法であり,教育測定という元 来の用途に限らず,幅広い分野で適用可能な重要な手法である。 2. 7.事後推計 本「統計分析ツール」の重要な機能として,分析後の予測値推計機能を充実させた。この事後推計機能で は,任意の説明変数の下での被説明変数の予測値について,点推定値だけでなく,確率的シミュレーション によって区間推定値を得ることができる。また,グラフによる視覚化も可能であり,一連の操作も極めて直 感的である。後述のように,この機能は非線形モデルによる推定結果を解釈する上で有用である。. 3.適用事例 本「統計分析ツール」の特長を具体的に理解するために,紙幅の制約上限定的ではあるが,ヒストグラム・ 散布図行列のグラフ作成,回帰分析におけるリサンプリングによる標準誤差推定,離散選択モデルにおける 事後推計の3事例を示す。 3. 1.グラフ作成 図2,図3は本「統計分析ツール」のグラフ作成機能によって出力された,カーネル密度関数付きヒスト グラムと散布図行列である。データとしてシミュレーションによって発生させた変数を用いた。どちらも, 対象となる変数の選択といくつかのオプションの選択に関する操作のみで出力されたものであり,Excelの 元来のグラフ機能およびアドインの「分析ツール」を用いて作図する場合に比較して,大幅に省力化がなさ れている。. 32.
(8) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 図2 ヒストグラムの出力画面. 図3 散布図行列の出力画面. 33.
(9) 橋 野 晶 寛. 3. 2.線形回帰モデル(リサンプリングによる標準誤差) 線形回帰モデルのパラメータ推定は,Excelが提供しているアドイン「分析ツール」の「回帰分析」によっ て実行可能であるが,前述の通り,欠測ケースのリストワイズ削除のほかに,各種の標準誤差の推定に対応 していないという難点がある。本「統計分析ツール」では,不均一分散に対応したHuber-Whiteの頑健標 準誤差をはじめ,クラスター内の相関を許容するクラスター頑健標準誤差,リサンプリング(ブートストラッ プ法,ジャックナイフ法,Balanced Repeated Replication)による標準誤差を選択することができる。特に リサンプリングによる方法は,Plausible Valueおよび層化抽出法に基づく国際学力調査の2次分析において 不 可 欠 で あ る。PISAで はBalanced Repeated Replication(BRR) が,TIMSSで は Jackknife Repeated Replication(JRR)が用いられている。前者によるパラメータの分散は以下の式⑴で得られる。 ⑴. ^. ただし,m, rはPlausible Value,複製の添え字であり,PISAの場合M=5, R=80である。θmは最終加重か ^. つ m 番 目 のPlausible Valueの 下 で の パ ラ メ ー タ 推 定 値, θmrは r 番 目 のBRR加 重 か つ m 番 目 のPlausible Valueの下でのパラメータ推定値である。定数 k はFayの調整係数であり,PISAではk=0.5とされている。回 帰係数およびBRRによる標準誤差を推定するには,各Plausible Value,BRRウェイトの下で計405回のパラ メータ推定が必要となる。本「統計分析ツール」では,通常の線形回帰モデルの際の手続きに加えて Plausible ValueとBRR加重変数の指定を1度行うことで標準誤差を得ることができる。 BRRを用いたPISAのデータの分析の例としては,OECD(2009: Ch8)による解説中に,2003年調査のベ ルギーのデータを用いたものがあり,ここでは同一データでのレプリケートを試みる。被説明変数は読解ス コア,説明変数は親の職業に関する社会経済指標(HISEI)と生徒の性別(GENDER)であり,線形回帰モ デルで回帰係数およびBRR標準誤差を推定すると表1の結果が得られる。比較のためにOECD(2009: 123) の出力結果とStataのpvコマンドによる出力結果を下段に掲載している4)。 表1 線形回帰モデル(BRRによる標準誤差推定) 定数 HISEI GENDER. 係数 403.394 2.242 0.096. BRR標準誤差 5.735 0.097 3.237. t値 70.334 23.126 0.030. p値 0.000 0.000 0.976. 95%CI下限 392.152 2.052 -6.249. 観測数 = 8543 調整済み決定係数 = 0.148 F(2, 8540) = 267.953 Pr>F = 0. 定数 HISEI GENDER. 34. OECD(2009:123)掲載値 係数 BRR標準誤差 403.39 5.74 2.24 0.10 0.10 3.24. Stata: pv 係数 BRR標準誤差 403.39424 5.7353756 2.2416271 0.09693135 0.09642563 3.2372579. 95%CI上限 414.637 2.432 6.442.
(10) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 表より,双方の出力と同様の結果が得られていることが確認できる。一方で,TIMSSデータに関するJRR によるパラメータの分散は以下の式⑵で得られる。 ⑵. ただし,m, z, rはPlausible Value,ジャックナイフゾーン,ジャックナイフ複製群の添え字であり, ^. TIMSSの場合M=5, R=2である。θmは最終加重かつ m 番目のPlausible Valueの下でのパラメータ推定値, ^. θmzrは z 番目のゾーン,r 番目の複製群かつ m 番目のPlausible Valueの下でのパラメータ推定値である。加 重のパターンは1つのPlausible Valueにつき,RZ種類存在する。TIMSS2015の日本の第8学年(中学2年) のデータを例にとると,そのサンプルでのゾーン数Z=74であるから,回帰係数およびJRRによる標準誤差 を得るためには計745回のパラメータ推定が必要となる。本「統計分析ツール」のオプションでは通常の線 形回帰モデルの際の手続きに加えて,Plausible ValueとJRRゾーン・複製群変数の指定を1度行うことに よって標準誤差を得ることができる。 表2は,TIMSS2015の日本の中学2年生のサンプルに関して,数学スコアを被説明変数,性別,生まれ月, 家庭の蔵書数を説明変数とした回帰分析の出力結果である5)。上段は本分析ツールによるもの,下段はStata のpvコマンドによるものを示している。 表2 線形回帰モデル(JRRによる標準誤差推定:上段=「統計分析ツール」/下段=Stata, pv) 定数 女子 生まれ月 蔵書数(10-25冊) 蔵書数(26-100冊) 蔵書数(101-200冊) 蔵書数(200冊以上). 係数 527.129 1.074 1.009 27.773 53.465 76.960 90.217. JRR標準誤差 5.207 4.018 0.361 5.132 5.289 4.959 5.193. t値 101.238 0.267 2.795 5.412 10.109 15.519 17.373. p値 0.000 0.789 0.005 0.000 0.000 0.000 0.000. 係数 527.129 1.074 1.009 27.773 53.465 76.960 90.217. JRR標準誤差 5.196 4.026 0.360 5.139 5.287 4.963 5.197. t値 101.452 0.267 2.800 5.404 10.113 15.506 17.361. p値 0.000 0.790 0.006 0.000 0.000 0.000 0.000. 95%CI下限 516.922 -6.803 0.301 17.711 43.096 67.238 80.036. 95%CI上限 537.337 8.951 1.718 37.834 63.834 86.682 100.397. 観測数 = 4734 調整済み決定係数 = 0.103 F(6, 4727) = 76.991 Pr>F = 0. 定数 女子 生まれ月 蔵書数(10-25冊) 蔵書数(26-100冊) 蔵書数(101-200冊) 蔵書数(200冊以上). 35.
(11) 橋 野 晶 寛. 上記の例で明らかなようにBRR,ジャックナイフ法,あるいはブートストラップ法といったリサンプリ ングを用いた手法では加重・標本を替えて数百回以上のパラメータ推定が必要である。分析者自身がプログ ラムを書かずともこうした繰り返しを伴う手続きを容易に実行できる点は本「統計分析ツール」の大きな利 点である。 3. 3.離散選択モデル(確率的シミュレーションを用いた事後推計) 離散変数を被説明変数とする回帰分析のような非線形モデルの場合,一般的に,出力された回帰係数の解 釈は困難である。多項選択モデルのように回帰係数の正負の符号と限界効果の正負の符号が一致しない場合 もあり(Greene2011: Ch18) ,回帰係数のみで各説明変数の効果を判断することは不適切である。この問題 に対する考えうる対処法は,限界効果の推計もしくは確率関数等の予測値の推計である。ここでは2項選択 モデルを例として事後推計機能の適用例を見る。 データはLong(1997: Ch3)で用いられている有配偶女性の労働参加に関するデータである。被説明変数 (LFP)は,女性本人が就業している場合に1,そうでない場合に0となる2値変数である。説明変数は, 5歳以下の子どもの数(K5) ,6歳から18歳の子どもの数(K618),本人の年齢(AGE),本人の高等教育 機関在学歴の有無(WC),夫の高等教育機関在学歴の有無(HC),本人の対数賃金率(LWG),本人を除く 世帯収入(INC)である。本「統計分析ツール」を用いた2項ロジットモデルによる出力画面は図4の通り である。参考のために表3に,Long(1997: 49)の数表,統計ソフトStata(Version 14.0),フリーソフト Rによる出力の数値(回帰係数,標準誤差,対数尤度)も併せて載せている6)。. 図4 2項ロジットモデルの出力画面. 図4と表3の比較から明らかなように,本「統計分析ツール」によって,他の統計パッケージと同様の推 定結果が得られている。ただし,上述のように,線形モデルとは異なり,このような回帰係数の数表からは 結果を解釈するのは困難である。そこで,まず本「統計分析ツール」の機能を用いて回帰係数を限界効果に 変換した結果を得る。限界効果は線形モデルの回帰係数のように,説明変数1単位増加あたりの被説明変数 の変動として解釈できる。2項ロジットモデルの場合,j 番目の説明変数xjの限界効果は以下の式⑶,式⑷ で得られる。. 36.
(12) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 表3 2項ロジットモデルの推定結果の比較. 定数 K5 K618 AGE WC HC LWG INC 対数尤度. Long(1997:49)掲載値 回帰係数 標準誤差 3.182 ― -1.463 ― -0.065 ― -0.063 ― 0.807 ― 0.112 ― 0.605 ― -0.034 ― -452.63. Stata 回帰係数 標準誤差 3.18214 0.6443751 -1.462913 0.1970006 -0.0645707 0.0680008 -0.0628706 0.0127831 0.8072738 0.2299799 0.1117336 0.2060397 0.6046931 0.1508176 -0.0344464 0.0082084 -452.63296. 回帰係数 3.18214 -1.462913 -0.064571 -0.062871 0.807274 0.111734 0.604693 -0.034446. R glm. -452.63. 標準誤差 0.644375 0.197001 0.068001 0.012783 0.22998 0.20604 0.150818 0.008208. ⑶. ⑷. βjは j 番目の説明変数に関する回帰係数である。式⑶は限界効果の標本平均であり, Λは逆ロジット関数, 式⑷は説明変数が標本平均値の下での限界効果である。線形モデルでは両者の限界効果は同一の値となるが, 非線形モデルでは異なった値となる。標準誤差は双方ともにデルタ法によって得られる7)。 表4は式⑶の限界効果について得られた出力を示している。例えばAGEの係数の-0.013は,本人の年齢が 1歳上昇するに従って就業確率が1.3%減少することを意味している。 表4 2項ロジットモデルにおける限界効果の推計結果 被説明変数=LFP 定数 K5 K618 AGE WC HC LWG INC. 平均限界効果 ― -0.304 -0.013 -0.013 0.168 0.023 0.126 -0.007. 標準誤差 ― 0.041 0.014 0.003 0.048 0.043 0.031 0.002. z値 ― -7.426 -0.950 -4.918 3.510 0.542 4.009 -4.196. p値 ― 0.000 0.342 0.000 0.000 0.588 0.000 0.000. 95%CI下限 ― -0.384 -0.041 -0.018 0.074 -0.061 0.064 -0.010. 95%CI上限 ― -0.224 0.014 -0.008 0.261 0.107 0.187 -0.004. 限界効果の推計の他に非線形モデルの結果の解釈の方法としては,確率的シミュレーションを用いた確率 関数の予測値推計がある(King et al. 2000)。2項選択モデルにおける手順は以下の通りである。 1)特定の値の説明変数に関する行ベクトルxsをセットする。 2)パラメータβとその共分散行列Σの推定値を用いて,以下の式⑸の多変量正規分布からR組の係数ベク トル{β*[1],…, β*[R]}を発生させる。. ⑸. 37.
(13) 橋 野 晶 寛. 3)各組の係数ベクトルについて,確率関数p[r]=F(xsβ*[r])を算出し,その平均値および分位点を得る。た だしF(・)は逆リンク関数である。 図5は,本人の対数賃金率の影響について評価するために,その他の説明変数を平均値に固定した上で, 確率関数の平均値と区間推定値(95%信頼区間)について本「統計分析ツール」の「事後推計」機能を用い て出力したものである8)。本人の賃金上昇が女性の就業に与える効果の大きさに関して視覚的かつ直感的な 理解が可能となっている。同様に,図6は,離散的説明変数である本人学歴および未就学児の数の就業への 影響を評価したものである。. 図5 シミュレーションによる確率関数の区間推定 (連続的説明変数). 図6 シミュレーションによる確率関数の区間推定 (離散的説明変数). これらから,より直感的かつ視覚的な分析結果の解釈が可能となっている。こうした分析結果の提示は, 分析者本人にとっての理解のみならず,研究者間あるいは研究者-公衆間のコミュニケーションのために不 可欠のプロセスと言えよう。. 4.今後の展望 本稿では,筆者が初学者・実務家向けに作成した政策研究・評価のための統計分析ツールについて,機能 の解説,適用例の紹介をふまえて,その意義について述べた。冒頭でも触れたように,教育政策研究に限ら ず近年の社会科学系の実証分析において,実際の研究で用いられている手法は多様化・高度化しており,初 学者・実務家にとって現代的手法の理解の敷居は高くなっている。そうした手法の数理的性質を理解するこ となく,統計パッケージの操作手順を覚えるだけで分析を実行することは厳に慎まなければならない。しか し,一方で,初学者が,自身で実行できない手法について理解の動機づけを失い易いこともまた事実である。 あるいは,分析が実行可能であっても,統計学や実質科学の面での理解の向上を伴わない煩瑣なアプリケー ション固有の操作があることで,初学者を実証分析の営為自体から遠ざけてしまう。教育的側面から見れば, 優れた実証研究のレプリケーションや試行的な分析等による学習効果は小さくなく,そのためには煩瑣な手 順を排したツールが必要とされよう。筆者の作成した「統計分析ツール」がその一助となることを願う次第 である。 また, 「統計分析ツール」の作成の企図は,初学者や実務家向けの計量的実証分析の方法論教育や研究の ためだけに限定されず,広くは,専ら計量的手法を用いる研究者とそうでない研究者の間,あるいは,研究 者共同体-社会間のコミュニケーションに資することを目指したものでもある。情報量に乏しい実証分析の. 38.
(14) 教育政策研究・評価のための「統計分析ツール」の開発とその適用. 量産は,実質的な知見を生み出さないことで研究領域としての停滞を招くだけでなく,不適切な知見の解釈 が「伝言ゲーム」という形で公衆に流通することで,研究者共同体の外部に大きな影響を与えうる。以前に もまして大規模データが利用しやすくなった昨今において「アスタリスク統計学」による政策研究が社会に 与えうる負の影響は非常に大きい。分析手法を理解して用いるだけでなく,知見を適切に伝達する過程まで を含めて,実証分析の水準の向上が求められる。 最後に「統計分析ツール」の開発に関して,今後の展望として,将来的に拡充すべき機能を列挙しておき たい。 第1は,回帰モデルである。回帰モデルは基本的なものについては既に搭載しているが,その他に搭載す べき重要なものとしては,分位点回帰モデル,階層モデル,時系列解析,空間統計学・空間計量経済学の諸 モデルが挙げられる。 第2は,マッチングである。本分析ツールは回帰モデルを中心としたものになっているが,近年の政策評 価の文脈では,共変量調整の方法としてマッチングが用いられることも少なくない。マッチングはモデルの 関数形に大きく依存する回帰分析に較べて因果的推論の文脈では大きな利点がある。 第3は,包絡分析法である。包絡分析法自体は線形計画法を応用した組織評価手法であり,統計的手法で はないが,確率的フロンティアモデルの代替的な効率性推定手法の選択肢として言及されることが多い。包 絡分析法は複数産出を伴う効率性の評価を容易に行える点で,実務上大きな利点がある9)。 第4は,欠測値への対応である。この点は,サーベイデータにおいて欠測値が生じることを鑑みれば,不 可避の課題である。現段階では欠測ケースの処理は,分析の際にリストワイズ・ペアワイズで当該ケースを 除外するという方針をとっているが,効率性の面でこのような方針は最善とは言い難い。EMアルゴリズム による多重代入法,データ拡大法などの導入が望まれる。 そして最後に,計算負荷の高い手法への対応全般を重要な課題として挙げておきたい。本「統計分析ツー ル」はVBAによって作成したが,ブートストラップ法やバンド幅選択のためのクロスヴァリデーションを 伴うノンパラメトリック・セミパラメトリックモデルなど多く回数の繰り返しを伴う手法,大規模データの 分析については,実行速度の面で必ずしも実用的でない場合がある。また,現段階では搭載していないが, 将来的にマルコフ連鎖モンテカルロ法を用いた手法を取り入れる場合には,この問題は非常に重要であると 思われ,一部の関数をVBA以外の言語で作成するといった対処が必要となろう。. 注 1)例を挙げれば以下のような点である。連続変数の分布を視覚的に確認する際に基礎的な作業として,ヒストグラムを作成 することが行われるが,Excelでヒストグラムを作成する場合,区間の入力,該当するケース数の集計,グラフ作成という 複数の手順が必要である。この作業を複数の変数について行うには多くの手間がかかる。また「分析ツール」で「回帰分析」 を行う場合,空白を含むセルを被説明変数・説明変数の「データ範囲」に含めることはできない。実際の調査データにおい て通常欠測値が存在するため,その場合には,当該ケースを「データ範囲」から除外するために行を削除する,データを並 べ替えるという手順を分析毎に加えなければならない。 2)線形・非線形モデルを問わず,実証研究の論文では統計的に有意であったパラメータの正負の符号の情報を機械的に報告 しているものが多く見受けられる。このことは被説明変数が線形予測子(xβ)の単調増加関数となっていることを前提と しているが,この前提は複数の線形予測子がある多項選択モデルでは満たされない。3節に示すように,限界効果もしくは 特定の説明変数の値における確率関数を推計して解釈する必要がある。 3)「統計分析ツール」のアドインは筆者のホームページより得られる。 4)Stataのpvコマンドはデフォルトで組み込まれておらず,adoファイルをインストールする必要がある。 5)分析に用いた変数は,数学スコアのPlausible Value(BSMMAT01~ BSMMAT05) ,性別(ITSEX) ,年齢(BSDAGE),. 39.
(15) 橋 野 晶 寛. 家庭蔵書数(BSBG04)である。性別は女子=1,男子=0となるダミー変数に変換した。生まれ月は年齢の観測値(小数 を含む値)を生まれ月に変換し,3月生まれを0とし,1月早く生まれるに従って+1となる値に変換した。蔵書数は5値 の順序変数を,最も少ないカテゴリーを基準とした4つのダミー変数に変換した。 6)Rでの推定では,一般化線形モデルのパッケージglmを用いた。 7)Stataでは,回帰モデルの推定の後に,“margins, dydx(*)”と入力することで表4と同じ結果(限界効果の標本平均)を 得ることができる。 8)シミュレーションのために係数ベクトルを多変量正規分布から1000回発生させた。乱数の発生回数は事後推計のオプショ ンで変更可能である。 9)Cook&Zhu(2013=2014)ではExcelのソルバー機能を用いた実践が紹介されているが,ワークシートとマクロ双方の入力 が必要でやや煩雑である。包絡分析法自体に特化したExcelアドインとしては有償のDEA Frontierがある。. 文 献 Cook, Wade D. and Joe Zhu, 2013, Data Envelopment Analysis: Balanced Benchmarking, CreateSpace Independent Publishing Platform.(=2014,森田浩訳『データ包絡分析法』静岡学術出版. ) Greene, William H., 2011, Econometric Analysis, 7th edition, Pearson Education. King, Gary, Michael Tomz, and Jason Wittenberg, 2000,“Making the Most of Statistical Analyses: Improving Interpretation and Presentation,”American Journal of Political Science, 44⑵: 341-355. Long, Scott J., 1997, Regression Models for Categorical and Limited Dependent Variables, Thousand Oaks: Sage. Martin, Michael O., Ina V. S. Mullis, and Martin Hooper, eds., 2016, Methods and Procedures in TIMSS Advanced 2015, Boston: Boston College TIMSS & PIRLS International Study Center. OECD, 2009, PISA Data Analysis Manual, 2nd edition, Paris: OECD.. 〈付 記〉 本研究は文部科学省科研費26285180および15K17336の助成を受けたものです。 (旭川校准教授). 40.
(16)
関連したドキュメント
From these results described above, we can conclude that the subjects grip the caps with the two-finger gripping that is easy to exert their force when the opening
・スポーツ科学課程卒業論文抄録 = Excerpta of Graduational Thesis on Physical Education, Health and Sport Sciences, The Faculty of
Standard domino tableaux have already been considered by many authors [33], [6], [34], [8], [1], but, to the best of our knowledge, the expression of the
⑹外国の⼤学その他の外国の学校(その教育研究活動等の総合的な状況について、当該外国の政府又は関
Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”
廃棄物の再生利用の促進︑処理施設の整備等の総合的施策を推進することにより︑廃棄物としての要最終処分械の減少等を図るととも
1)研究の背景、研究目的
1、研究の目的 本研究の目的は、開発教育の主体形成の理論的構造を明らかにし、今日の日本における