法情報学
資料配布用ホームページ
https://sites.go
ogle.com/site/
yuasah/
統計的手法
4
統計手法について
多変量解析
相関分析
回帰分析
主成分分析
因子分析
テキストマイニング
政治学、政治過程論における主流
•原理と、統計ソフト
ウェアの出力(結
果)の見方を理解す ればよい
•数式を理解する必 要なし
研究の進め方
実定法
問題の所在 学説の状況 判例の状況
学説・判例をふまえ 自説の提示と、考察 まとめ
データを使った分析
問題意識・所在 先行研究
仮説
仮説の検証と、検証 結果の考察
まとめ
ビッグデータ
大量の情報
高速で統計処理 利用例
マーケティング 人出の予想 来客数の予想
混雑や渋滞の予想
個人別の行動ターゲティング広告
6
人工知能、 AI
チェス
ロシアのガリ・カスパロフ氏と、IBMコンピュ ーター「ディープブルー」が対局(1996年・ 97年)
将棋
故・米長邦雄永世棋聖が2012年、将棋ソフ ト「ボンクラーズ」に敗北
ディープ・ラーニング
人の脳の神経回路をまねして情報を処理 大量のデータを入力 → 特徴をつかんで 自ら学習を繰り返す
人が勘や経験に基づいて実行していた作 業が、自動化できる
診断・治療補助(患者ごとに最適な薬を見 つける)、車の自動運転
自律判断できる各種ロボットへ
The Next Rembrandt
レンブラント の画風を、AI が機械学習 や顔認識で 分析
3Dプリンター
モノクロ写真の人工知能を用い
た自動カラー化
早稲田大学のプロジェクト
http://hi.cs.waseda.ac.jp:80
82/
※ AIの実用化
アメリカ AP通信
2014年から一部の記事をAIによって自動 生成することを開始
自動作曲
https://www.jukedeck.com/
ロゴのデザイン
作家の小説の作風を分析して新作の小説を 創作する技術
『人工知能の
見る夢は AI
ショートショー
ト集』
12
※ AIと自動運転
総務省
AIネットワーク 社会推進会議 http://www.so umu.go.jp/ma in_sosiki/kenk yu/ai_network /
※ AIに関する法整備の参考
・総務省AIネットワーク化検討会議 報告書2016「AIネットワーク化の影響とリスク -智連社会
(WINS(ウインズ))の実現に向けた課題-」
http://www.soumu.go.jp/menu_news/s-news/01iicp01_02000050.html
・平成27年11月5日 未来投資に向けた官民対話
http://www.kantei.go.jp/jp/97_abe/actions/201511/05kanmin_taiwa.html
・「プログラムの医療機器への該当性に関する基本的な考え方について」(平成26年11月14日 付け薬食監麻発1114第5号厚生労働省医薬食品局監視指導・麻薬対策課長通知)
http://www.mhlw.go.jp/file/06-Seisakujouhou-11120000-Iyakushokuhinkyoku/261114.pdf
・「医療機器プログラムの取扱いに関するQ&Aについて」(平成26年11月25日付け厚生労働省 医薬食品局医療機器・再生医療等製品担当参事官室、厚生労働省医薬食品局安全対策課、 厚生労働省医薬食品局監視指導・麻薬対策課連名事務連絡)
http://www.mhlw.go.jp/file/06-Seisakujouhou-11120000- Iyakushokuhinkyoku/261125jimurenraku.pdf
・情報通信審議会答申諮問第203号「ロボットにおける電波利用の高度化に関する技術的条件
」及び諮問第2034 号「災害対応ロボット・機器向け通信システムの技術的条件」 http://www.soumu.go.jp/main_content/000404273.pdf
・知的財産戦略本部会合「知的財産推進計画2016」
http://www.kantei.go.jp/jp/singi/titeki2/160509/siryou2.pdf
EXCEL の準備
Excelの準備
「ファイル」 → 「オプション」
「アドイン」 → 「分析ツール」
メニューの「データ」の中に、
「データ分析」が出ていることを
確認する
セルの書式指定
セルを右
クリック
セルの書
式指定
表示形
式、フォ
ントその
他を設
定でき
る
基本の四則演算
計算式
=
計算式は、半角のかならず「 = 」
から始める
半角
計算式は、半角英数字で入力
四則演算で使う記号
+ 足し算
- 引き算
* かけ算
/ 割り算
計算式を入力し、確定
セルの参照
セル番地(行、列)でも入力可
参照元の数字を変更すると、参
照している式の計算値も変わる
関数式
関数を使う式の基本
= 関数名 ( : )
関数名は半角英数
( : ) 内に、関数で処理する範囲
よく使う関数
SUM 合計
AVERAGE 算術平均
MAX 最大値
MIN 最小値
EXCEL を使う上でのヒント
複数領域の選択
最初の領域を選
択し、次に Ctrl キ
ーを押しながら
次の領域を選択
する
Mac の場合は、
Command キー
連番の入力
最初にある程度、手
作業で入力
入力した範囲を選
択し、右下のハンド
ラにカーソルを合わ
せてドラッグする
図形
図形の操作の基本
「挿入」 → 「図形」
グラフ
使用するデータの範囲選択
「挿入」 → 「グラフ」
作りたいグラフの種類を選ぶ
課題
各都道府県の人口を示すグラフを作成しま しょう(データは「統計でみる都道府県のすが た」を利用)。
福岡県の今年度の予算の主要な支出内訳を わかりやすく示すグラフを作成しましょう(デー タは福岡県のホームページで探して、EXCEL に入力する)。
自分の出身高校の「アクセスマップ」を作成し ましょう。
平均
Yahoo! ニュース 2003 年 5 月 18 日
Yahoo! ニュース 2017 年 7 月 16 日
1 世帯あたりの平均所得が 589
万 3000 円であるということ
589 万 3000 円程度の所得のある
世帯が一番多いということなの
か ?
出典:「富裕層ビジネスは10兆円の消費市場」第一生命経済研究所Economic Trends(2007年)。
バブル経済の崩壊後、平均所得
が年々低下
「失われた 20 年」
にもかかわらず、なぜ年収 2000
~ 2500 万、 2500 万超の人数が
年々増えているのか ?
3種類の平均
AVERAGE 算術平均
MODE 最頻値
MEDIAN 中央値
3 種類の平均は、一致すると
はかぎらない
課題
「統計でみる市区町村のすがた」のホーム ページから「経済基盤」のファイルをダウン
ロードし、福岡県内の市町村の住民数、納税 義務者数と課税対象所得のデータを用意し ます。
1. 福岡県内の市町村の住民一人あたりの課 税対象所得を算出してみましょう。
2. 福岡県内の市町村の住民一人あたりの課
3. 福岡県内の市町村の納税義務者一人あ たりの課税対象所得について、3種類の 平均値を算出してみましょう。そして、そ の違いについて、200~400字程度で考 察してみましょう。
4. 中間層が減少し、二極化が進行しつつあ るというのは本当でしょうか。あなたの周 囲の環境について800字程度で考察して みて下さい。
相関と回帰
関係
「関係がある、関係がない」
性別と、化粧しているかは、関係がある? 少年犯罪と、親の離婚は関係がある?
髪の長さと、野球部に入っているかは関係が ある?
女子高生の援助交際経験率と、高校の偏差 値は関係がある?
この部屋にいる人の年間欠席数と、家から大 学までの距離とは関係がある?
関係
「関係がある、関係がない」
性別と、化粧しているかは、関係がある? 少年犯罪と、親の離婚は関係がある?
髪の長さと、野球部に入っているかは関係が ある?
女子高生の援助交際経験率と、高校の偏差 値は関係がある?
この部屋にいる人の年間欠席数と、家から大
質的変数と、質的変数
量的変数と、質的変数
量的変数と、量的変数
相関
関係があること
→ 「相関」という
二つ以上の事物(変数)の、
一方が変われば他方もそ
れに連れて変わるという関
正の相関と負の相関
正の相関
2 つの変数の増減が比例してい
る場合
負の相関
2 つの変数の増減が反比例して
相関係数
+1 から -1 の間で表される
2 変数の変動が全く同じ(比例)
→ 1.0
2 変数の変動が全く逆(反比例)
→ -1.0
A と B の相関係数が 0.001 だった場合
AとBの関係はプラス(Aが増えるとBも増え、Bが増
えるとAも増える)
しかし、増えるのはごくわずか
A と B の相関係数が -0.3 だった場合
AとBの関係はマイナス(Aが増えるとBが減り、Bが 増えるとAが減る)
増減は、あまり大きくないが小さくもない
注意
相関関係と因果関係は違う
相関関係=関係がある(類似し
ているだけ)
因果関係=原因と結果という関
係がある(方向がある)
Office2003以前の場合
Office2007以降の場合
課題 コンビニの 1日の雑誌類の売り上
げと店全体の売り上げは、関係がある
か。相関分析を行ってみなさい。
店 雑誌類の売り上げ 全体の売り上げ
A 10450 106700
B 22430 345000
C 5980 298000
D 13400 234560
E 44500 345605
F 89430 193342
G 6700 220050
課題 県内政令都市の各区の火災発生
件数と交通事故発生件数は関係がある
か。相関係数を行ってみなさい。
市 区 町 村 火 災 発 生 件 数 交 通 事 故 発 生 件 数
門 司 区 3 9 9 0 4
若 松 区 1 9 5 8 3
戸 畑 区 2 5 5 5 3
小 倉 北 区 6 0 2 , 6 7 5
小 倉 南 区 3 9 1 , 7 8 3
八 幡 東 区 2 4 6 5 6
八 幡 西 区 6 2 2 , 8 1 7
東 区 5 8 2 7 0 7
博 多 区 6 6 3 9 9 8
中 央 区 4 4 2 1 8 6
南 区 6 0 2 3 5 8
西 区 2 9 1 6 7 3
城 南 区 2 5 1 3 3 7
行・列の移動
2つ以上の変数の相関を分
析するには ?
相関を調べたい列が隣り合うように移
動してから、「入力範囲」で指定
移動したい列の名前をクリックして、列 を選択する
右クリック → 「切り取り」
挿入したい列の隣をクリック
C をク
リックす
る
右クリック → 「切り取ったセルの挿入」
このとき、
「貼り付
け」を選
ばないよ
うに注意
「高齢化率」の列が、人口総数の列の隣
に移動する
課題
「統計でみる市区町村のすがた」データを用 意します。はじめに自分の予想(仮説)を立 てて、次に相関分析を行い、その結果をそ れぞれ文章でまとめなさい。
1. 65歳以上人口の割合が増えると、どのよ うな影響を与えると思われるか?
2. 福岡県内の市町村の外国人住民の割合 は、何と関係があるのか?
3.
アンケートデータの入
力とクロス表
データの入力の仕方
アンケート用紙 集計:1人分(1ケース)を1行に入力する
集計の仕方
サンプルファイルの「クロス表用」
シートを利用する
性別ごとに、人数を集計するに
は ?
「挿入」 → 「ピボットテーブル」
集計するデータが入っている表
の範囲を選択 →OK
レポートに追加するフィールドを
選択
「値フィールドの設定」
適切な種類を選ぶ
回帰分析
回帰分析
回帰分析とは
regression
回帰分析の役割
予測
結果の分析
予測の例
新しいコンビニを開店した。この店は、
いくらぐらいの売り上げがあると予測さ
れるか。
結果分析の例
プロ野球昨年度の優勝チームは、
なぜ優勝したのか ?
12球団のデータを集める 選手の平均年齢
選手の平均年棒 監督の年齢
コーチの人数
最大の
原因は?
原因と結果
Y 結果
をあらわす
X 原因をあらわす
a,b,… 原因や結果には直接関係し
ない変数
散布図(プロット)による予測
2 つの変数間の関係を調べる
サンプル 身長( c m) 体重( kg)
A 1 8 8 6 1
B 1 6 0 5 0
C 1 7 3 5 5
D 1 5 9 4 9
E 1 8 7 6 2
プロットを作る(普通は原因を横軸、結果を縦 軸に引く)
体 重
A B
C
D
E F
プロットしてみると、原因(身長)と結果(体重) との間の相関関係が高そうなことがわかった
↓
原因(体重)をもとに結果(身長)を予測できな いだろうか?
0
直線を引く
体 重
A B
C
D
E F 直線に沿って予測
が可能と考えられ る
88
あるクラスの人の自宅からの距離と
通学時間
学生 自宅からの距離(Km) 通学時間(分)
A 0.1 1
B 0.7 10
C 5 15
D 30 40
E 30 45
F 1.1 15
G 0.5 9
H 10 30
I 40 65
J 20 40
K 20 35
課題 5
自宅からの距離が 15km の人は、
通学時間は何分かかると予想さ
れるか ?
ヒント
まず散布図のグラフを作る。その
上に直線を引いてみる。
変数を、アルファベットを使って表す
とき
結果 Y
原因 X
原因結果に関係のない変数
a,b,c,…
例 ある車の走行距離と使用するガ
ソリン
走った距離(Km) 使ったガソリン(L)
20.5 3.5
13.9 2.4
47 5.5
69 10.7
30 4.7
作業 散布図
使ったガソリン(L)
0 1 2 3 4 5 6 7 8
0 10 20 30 40 50
使ったガソリン(L)
使ったガソリン(L)
0 1 2 3 4 5 6 7 8
0 10 20 30 40 50
使ったガソリン(L)
回帰直線
が、ゼロを
式で表すと
Y = a X +b
Y ガソリンの量
X 走った距離
a 回帰係数
b 定数 (X=0 の時の Y の値)
回帰
式
重回帰分析の注意
データの用意
質的な変数をデータにする場合
例:男女
ダミー化処理を行う
男性= 1 、女性= 0
例:「はい」「いいえ」
はい= 1 、いいえ= 0
回帰分析でわかること
(1) 予測
原因 X の値を入れた場合の、結
果 Y の予測
係数 a と定数 b がわかる →
X を投入すれば Y が予測値とし
て出る
(2) 原因
結果 Y に対して、原因 X が与える
影響力の大小の分析
係数 a の大小がわかる →
影響力の大小がわかる
何が原因なのかわからないと
くに有効
回帰分析の実際
2004年大統領選挙 全米各地で、電子投票 採用カウンティのブッシュ票が多い(異様に多 い郡もある)
カウンティ合計では電子投票は約20%、登録 済有権者合計では約30%
1. 電子投票は Bush 有利 ?
2. ?
Hypothesis
Regression Analysis
ケース:2004年大統領選カリフォルニア州各郡 従属変数1: ブッシュ候補の得票総数
従属変数2: ブッシュ候補の得票率 独立変数: 登録済有権者人口
郡の面積
電子投票(ダミー) ヒスパニック
高齢者
デジタルデバイド(貧困者)
N=58 R
2=0.53
Coefficientsa
53.451 2.492 21.451 .000
6.795E-07 .000 .111 .578 .566
2.724E-04 .000 .159 1.149 .256
2.675E-05 .000 1.911 1.092 .280
2.594E-05 .000 .993 1.402 .167
-3.38E-04 .000 -3.206 -2.359 .022
3.101 4.687 .092 .662 .511
(Constant) V_POP SQUARE HISPANIC OVER65 D_DIVIDE E_VOTE Model
1
B Std. Error Unstandardized
Coefficients
Beta Standardi
zed Coefficien
ts
t Sig.
Dependent Variable: BUSH_PER a.
N=58 R
2=0.85
Coefficientsa
-6975.311 4671.188 -1.493 .142
1.127E-03 .002 .014 .512 .611
.513 .444 .023 1.155 .253
.369 .046 2.061 8.049 .000
-.305 .035 -.912 -8.797 .000
-.288 .268 -.213 -1.072 .289
-48.767 8785.587 .000 -.006 .996
(Constant) V_POP SQUARE HISPANIC OVER65 D_DIVIDE E_VOTE Model
1
B Std. Error Unstandardized
Coefficients
Beta Standardi
zed Coefficien
ts
t Sig.
回帰分析の実際 2
司法制度改革審議会 民事訴訟利用者調査 民事訴訟制度研究会
http://www.jlf.or.jp/jlfnews/vol35_2.shtml 最高裁判所
「日本の民事裁判制度についての意識調 査」への協力について
http://www.courts.go.jp/about/topics/180 6.html
多重共線性とは
重回帰の落とし穴 !
多重共線性とは ?
multicollinearity
投入する独立変数間に非常に強い相関が あったり、一次従属な変数関係がある場合、 解析が不可能になったり結果が求まったとし てもその信頼性が低くなる
。
重回帰の場合
Y
X3 X2 X1
原因
結果
重回帰と共分散
肥満
過食
自動車通勤通学 運動不足
原因
結果
ここにも原因と結果の関 係が実はあるのではな
いか?
多重共線性の例
X1 と X2 の相関
度を調べてみ
る
X1とX2の相関 度が非常に高い ことが確認でき る
説明変数同士の相関係数が±1に近い場合 は、多重共線性が生じ、得られる回帰係数
は非常に不安定
少し説明変数の値が変わったり、データ数が 変わっただけで、回帰係数の値が大きく変動
してしまう
検証してみよう
Yを従属変数とし、X1とX2を独立変数として回帰分析を行
「C3」セルの 値を6に変更 し、再び回帰 分析を行う
X2のケースの値の1つが、7から6になった だけで、回帰係数が大幅に変動してしまっ た!!
多重共線性の発生を防ぐには ?
防ぐ方法 1
独立変数間の相関分析を行い、
相関の高い変数は外す
外す理由=相関度が高い独立変
数同士は、 独立 していないから
課題 6
九州大学で集中講義をするたびに、視力が 悪い学生が多い(というよりも、裸眼で見てい る学生がほとんどいない)ので驚きます。なぜ こんなに視力が悪いのでしょうか。
1. 視力(結果)に影響を与える原因を3つ考 え、仮説を立てよう。
2. 周囲の受講者に協力してもらって、10人 分以上のデータを集め、重回帰分析を 行ってみよう。そして、仮説は検証された