担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
今回学ぶこと
統計学とは何か?
データの基礎。
数学の復習。
テキスト該当箇所:1章。
1 統計学とは何か?
1.1
統計学の定義と目的
統計学:統計(データ)を分析し、分析結果に基づいて意思決定を行う手法を総称して、 と呼ぶ。
⊲ 統計学は、客観的・科学的な意思決定の基礎。
統計学の目的:分析対象を大量に観測(データの収集)⇒ の発見や、 科学理論の 。
⊲ 例(小売店の出店計画):店舗の売上に影響する立地要因は何か?
⊲ 例(生活習慣と健康):喫煙をすると、肺がんのリスクは上がるか?
⊲ 例(経済理論):自動車の需要曲線は、どのような形状をしているか?
とにかくデータをたくさん集めて分析⇒個々の事例を眺めていても分からない「法則」 が、見えてくる!
1.2
統計学の汎用性
さまざまな分野で使われている統計学。
⊲ 自然科学(生物、医、物理、etc)、社会科学(経済、経営、心理、社会、etc)。
⊲ 実務分野:新薬のテスト、品質管理、ファイナンス、マーケティング、etc。
Remark:どの分野の統計学も、基本原理は (後述)。
⊲ 統計的推測:限られた標本から、分析対象全体の特性を推測。「一部」から「全体」 を知る。
1
1.3
記述統計・統計的推測と確率論
記述統計:データを整理・要約し、情報を抽出する作業を、 と呼ぶ。
⊲ 平均値や標準偏差を求める、ヒストグラムを描いてみる、など。
⊲ データ自体は単なる数字の羅列。特徴が見えない。⇒データを入手したら、まずは 記述統計にまとめる。
統計的推測:分析対象の一部を観測し( )、そこから対象全体( )が持 つ特性を推測する手法を、 と呼ぶ。統計学の中心的トピック。
⊲ 母集団全体を調べるのは物理的・制度的に難しい。∴母集団から標本を抽出⇒標本 を分析して、母集団の様子を 。
⊲ 例:日本の会社員全体(母集団)の平均年収を調べるのは、ムリ⇒全国から無作為 に抽出された1000人の会社員(標本)の平均年収を計算。
⊲ ...全体が見えていなくとも大丈夫?
Remark:限られた標本による分析結果は、誤差・不確実性を伴う⇒ を応用。
⊲ 例:たかだか1000人分の平均年収を、何十万人から成るサラリーマン全体の平均年 収とみなして良いのか?良いとすれば、その根拠は?
⊲ 確率論:不確実なことがらを、数理的に処理するための道具。
⊲ 統計学は、確率論の観点から、最も精度の高い分析デザインを提案。簡単に言えば、 確率論の基準で「 データの使い方」を考える。
2 データの基礎
2.1
データのレイアウト
観測したデータは通常、次のように記録する。
⊲ 例:学生の身長・体重・性別(テキストp15より)。
番号 身長(cm) 体重(kg) 性別(女=1)
1 178 63 0
2 165 62 0
3 168 69 0
4 152 41 1
.. .
.. .
.. .
.. .
15 168 69 0
データの用語
⊲ 観測個体:記録された個体ひとつひとつを (あるいは個体)と呼び、代 表してiと表す。例:i = 3(3番目)の個体は、身長168cm、体重62kg、男性。
⊲ 変数:記録されている個体の情報を、 と呼ぶ。例:このデータの変数は、身 長、体重、性別の三つ。
⊲ 次元:変数の数を、 と呼ぶ。例:このデータは三次元のデータ。
⊲ サンプル数:観測個体の総数を と呼び、nで表す。例:上のデータ のサンプル数はn = 15。
2.2
データ(変数)のタイプ
量的データと質的データ
⊲ 量的データ:長さや重さ、金額、温度、時間など。定量的に測られたデータを、 データと呼ぶ。上の例:身長と体重。
⊲ 質的データ:性別(男・女)や学歴(中卒・高卒・大卒)など、個体の属性・状態を 示すデータを、 データと呼ぶ。上の例:性別。
Remark:文字列で与えられた質的データは、必ず に置き換える。(コー
ディング。)
⊲ 上の例:性別に「男=0、女=1」という数値を振る。⇒量的変数として扱える。 性別 性別(女=1)
1 男 1 0
2 男 2 0
3 男 ⇒ 3 0
4 女 4 1
.. .
.. .
.. .
.. .
15 男 15 0
... 0と1、どちらが「女」を指すのか忘れないようにメモ。
クロスセクションデータ:ある時点において、複数の個体を観測することで得られるデー
タを、 データと呼ぶ。
⊲ ある時点で見たときの、個体間のバラつきを記録したデータ。
⊲ 例:上の学生データは、クロスセクションデータ。
時系列データ:単一の個体を、複数時点に渡って継続して観測することで得られるデータ を、 データと呼ぶ。
⊲ 特定個体の、時間を通じた変化を記録したデータ。
⊲ 例:1987∼2000年の日本のマクロ経済データ。
年 貨幣需要 利子率 GDP 1987 113.12 4.8 367.56 1988 124.18 4.8 390.33 1989 137.01 5.6 409.18
.. .
.. .
.. .
.. .
2000 186.4 1.2 485.97
⊲ 時系列データの観測の頻度:年、四半期、月、週、日...。
3 数学の復習
3.1
和記号 のルール
和記号(サムorシグマ):n個の数X1,X2, . . . ,Xnの和は
n
i=1
Xi = X1+ X2+ · · · + Xn. (1)
和記号の演算ルール
⊲ ルール1:添え字iが付かない定数をcと置けば
n
i=1
cXi = cX1+ cX2+ · · · + cXn= c(X1+ X2+ · · · + Xn) = (2)
⊲ ルール2:同様に、
n
i=1
c = c + c + · · · + c
n 個の c
= . (3)
⊲ ルール3:二つの列{X1,X2, . . . ,Xn}と{Y1,Y2, . . . ,Yn}について
n
i=1
(Xi+ Yi) = (X1+ Y1) + (X2+ Y2) + · · · + (Xn+ Yn)
= (X1+ X2+ · · · + Xn) + (Y1+ Y2+ · · · + Yn) = . (4)
Remark:(n
i=1Xi)2
n
i=1Xi2。間違いやすいので要注意!
⊲ 確認:左辺を展開すると
(
n
i=1
Xi)2 = (
n
i=1
Xi)(
n
i=1
Xi) = (X1+ X2+ · · · + Xn)(X1+ X2+ · · · + Xn)
= (X21+ X22+ · · · + Xn2)
=右辺ni=1X2i
+ (X1X2+ · · · + Xn−1Xn)
余計な交差項
n
i=1
Xi2.
(5)
3.2
微分・積分の初歩的な利用法
導関数による関数の最大化:変数xの関数y = f (x)について、
f′(x) = d f (x) dx = limh→0
f (x + h) − f (x)
h (6)
を f (x)の と呼ぶ。f (x)の、xにおける接線の傾きを測る。
0 1 2 3 4
0246810
(A)
x
f(x)
0 1 2 3 4 5
0246810
(B)
x
f(x)
図1:微分(A)は関数の傾き、積分(B)は面積の計算
⊲ f′(x)が点x = x∗でゼロ⇔x = x∗で f (x)の傾きがゼロ、平ら。
⊲ 一方グラフで見ると、「山の頂上」は平ら。(図1A参照。)∴条件「f′(x) = 0」を満 たすxを解けば、関数 f (x)を最大にするxの値が分かる。
Remark:この講義では導関数f′(x)を、「 を見つける道具」とし
て機械的に利用する。
⊲ 例:関数 f (x) = −2x2+ 8xは、xがいくらのとき最大になる?⇒ f (x)の導関数は
f′(x) = −4x + 8. (7)
これをゼロと置いて解けば−4x∗+ 8 = 0 ⇔ x∗= 2。このとき関数は f (2) = 8で最大。
定積分:変数xの関数y = f (x)(f (x) ≥ 0)について、x軸(定義域)上の区間[a, b]を次 のようにm等分する。
a, a +b − a m
,
a + b − a m ,a +
2(b − a) m
, . . . ,
a + (m − 1)(b − a)
m ,b
. (8)
ここで
b
a f (x)dx = limm→∞
m
j=1
f
a + j(b − a) m
b − a m
高さ×幅
(9)
を、f (x)のaからbまでの と呼ぶ。
⊲ 曲線 f (x)で作られる図形を、をm個のブロックに分割。f
a + j(b−a)m はブロックの
高さ、b−a
m は幅⇒掛けると面積。(図1B参照。)
⊲ m個のブロックの面積を足し合わせれば[a, b]上の面積が求まる。区切りmを増や すほど面積の近似が正確に。
Remark:この講義では定積分を、「関数 f (x)と区間[a, b]で作られる を 求める道具」として機械的に利用する。
⊲ 例:関数 f (x) = −x2+ 6xの原始関数は
F(x) = −1 3x
3+ 3x2+ c. (10)
(cは積分定数。)∴区間[1, 4]で定積分すると
4
1 f (x)dx = F(4) − F(1) = 24。これは 図1Bの斜線部の面積。一方、6つのブロックで近似すると多少ずれる。
まとめと復習問題
今回のまとめ
統計学:データに基づく意思決定⇒統計的推測のアプローチ。
データの基礎。
数学の復習。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 「肥満が気になるので、毎月体重を測って記録した。」これはクロスセクションデータと 時系列データ、どちらか?
2. ( Xi)2 Xi2を、数値例n = 2、X1= 1、X2= 2で確認する。左辺( Xi)2 = (X1+X2)2 = 9、 右辺 X2
i = X12+ X22 =__。よって左辺右辺である。
3. 関数 f (x) = 3x2−8x + 10を最小にするxを求めよ。
4. 関数 f (x) = 6x(x ≥ 0)を、0から4の範囲で定積分せよ。(定積分を使わずに求めても良
いです。)