• 検索結果がありません。

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

N/A
N/A
Protected

Academic year: 2021

シェア "ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

春学期 統計学 I

記述統計と推測統計

担当: 長倉 大輔

(ながくらだいすけ)

(2)

本日の予定

本日はまず記述統計と推測統計の違い、推測統計学の 基本的な構造について説明します。

(3)

記述統計と推測統計

 統計学とは?

与えられたデータの背後にある「特性」、「法則」を「検 証」、「発見」、「分析」するための手法の開発、その応用 などに関わる学問の事です。

(4)

記述統計と推測統計

 データの種類 データの種類はおおまかに 2 つに分けられます。 1 つ目は実験により育成される実験データと呼ばれるも の。2 つ目は実験から生み出されたものではない 非実験データです。

(5)

記述統計と推測統計

 実験データ これは分析者によってデータが育成される条件、状態を 管理できる環境で生み出されるようなデータで、物理学 や化学などで用いられるようなデータです。 このようなデータでは他の条件を同じにして特定の条件 を変えた場合のデータの変動が測定できるため、データ に含まれる変動の規則性を見つける事が容易といえま す。

(6)

記述統計と推測統計

 非実験データ これは気象学や経済学で観測されるようなデータで、分 析者はデータが育成される条件、状態を管理できませ ん。実現した値を観測する事ができるだけです。 このようなデータではいろんな諸条件が組み合わさった 状態でデータが育成されるため、そこに隠された法則な どを見つける事が実験データに比べると難しくなります。 経済やファイナンスのデータはほとんどが非実験データ です。

(7)

記述統計と推測統計

 記述統計 記述統計(統計的記述)とは与えられたデータに対して、 そのデータの特徴を要約(記述)する事です。 具体的には、よく知られたもので平均、 今日説明するものでは中央値、最頻値、 今後説明するものでは分散、 などがあげられます。

(8)

記述統計と推測統計

 推測統計 多くの場合、データは分析したい対象全体の一部分に 関してのみ与えられます。 それら一部分から対象全体に関する特性を推測する事 を推測統計(統計的推測)といいます。

(9)

記述統計と推測統計

 記述統計と推測統計の例 今、私たちは ある工場で作られた電球の品質を分析したい とします。 与えられたデータ(観測値)は電球 20 個の寿命です。 例えば 電球 1 の寿命 150時間 電球 2 の寿命 130時間 … 電球20の寿命 90 時間

(10)

記述統計と推測統計

 記述統計と推測統計の例 ここで私たちはまず これら 「20個の」電球は大体何時間くらいで寿命が つきてしまっているのか? という事に関心があるとします。 与えられた20個のデータを眺めているだけではなかな かわかりません。この場合よく使われるのが(標本)平 均という統計量です。 標本とはデータの事で、統計量とは標本から計算される もの(より正確には標本の関数)のことです。

(11)

記述統計と推測統計

 記述統計と推測統計の例 これら 20 個の電球の寿命の平均は 120 時間だったとし ましょう。これはこのデータ(20個の電球) においてだい たい 120 時間あたりの値をとる電球が多いと言うことを 意味します。 これでこの「20個の電球」についての特徴のひとつが 明らかになりました。これがデータの特性を記述すると いうことです。

(12)

記述統計と推測統計

 記述統計と推測統計の例 しかし私たちが本当に関心があるのは、この 「20個の」 電球の寿命ではなく、むしろ この工場でつくられる電球の寿命の平均はどれ くらいか? という事でしょう。 ここで問題はこの工場で作られた 20 個の電球(全体の 一部)の寿命の平均が120 時間である事から、 「この工場で作られる電球の平均寿命は 120 時間」 と結論してよいか?です。

(13)

記述統計と推測統計

 記述統計と推測統計の例 20 個の電球の寿命の平均からいかに全体の電球の 寿命の平均について推測するかを問題にするのが 「推測統計」の問題です。 ここでは、「20 個の電球の寿命の平均(標本平均)」は 「全体の電球の寿命の平均(母平均)」の推定値とみ なされます。 推定値とはそれが真の値ではなく、誤差をともなって いるという事を意味します。

(14)

記述統計と推測統計

 記述統計と推測統計の例 このように推定を行った場合、興味のある問題として、こ の推定値は全体の電球の寿命の平均を どれくらい正確に推定しているか? ということがあります。誤差が 小さい場合と大きい場合 では結論がまったく違うものになります。他にも どのようにすれば誤差を小さく推定できるだろうか? という問題にも興味があるでしょう。 推測統計はそのような問題について考えます。

(15)

母集団と標本

 母集団と標本 観測対象の事を母集団といい(例: ある工場で作られた 電球の寿命)、母集団からの観測される値を標本といい ます (例:20個の電球の寿命)。  全標本 もし母集団全ての値が観測できた場合、それを全標本と いいます。

(16)

母集団と標本

 全数調査と標本調査 全数調査とは全標本が得られる場合の調査の事であり、 標本調査とは母集団の一部分しか観測できない調査の 事です。 全数調査は多くの場合非常に時間と経費がかかります (不可能である場合も多い)。「電球の寿命」の例などは 全数調査が不可能な例です。

(17)

母集団と標本

 全数調査と標本調査の例 (全数調査の例) 「国勢調査」 5 年ごとに日本に住んでいる全ての人を対象に調査。 (標本調査の例) 「家計調査」 毎月農家を除く全ての世帯の暮らし向きを把握するため に全体の5000分の1を対象に調査。

(18)

母集団と標本

 無作為標本 標本の採り方の代表的な例に無作為標本というものが あります。 これは母集団から標本を無作為に(より厳密には確率 的独立に)とるというやり方のことです。これは標本から 母集団に関する推測をする際に極めて重要になってき ます。

(19)

母集団と標本

 無作為標本に失敗した例 無作為標本に失敗するとどうなるかという例として有名 なものとして1936年のアメリカ大統領選挙の話があり ます。 この時ある新聞社は200万人規模の(標本)調査を行 い共和党のランドン氏の大勝利を予想しました。 しかし結果は民主党のルーズベルト氏の圧勝に終わり ました。

(20)

母集団と標本

 無作為標本に失敗した例 この新聞社の調査の問題点は調査の対象を同誌の購 買者と電話保有者に限定した事にありました。 当時はまだ電話を所有できるのは高所得者に限り、高 所得者は共和党を支持する傾向が高かったため、調査 では共和党の勝利という結果になったのです。 これは一部で全体を代表させるのに失敗した例です。

(21)

記述統計 - データの中心

 標本平均

平均という言葉は「平均点」「平均気温」「平均降水量」な ど、日常でよく使われているので、すでになじみの深い ものだと思いますが、これもれっきとした統計用語です。

(22)

記述統計 - データの中心

 平均の定義 今 n 個の観測値からなる標本 { x1, x2, … xn } が得られたとします。 この時平均(より正確には標本平均)は と定義されます。 (平均はしばしば

x

と書かれます。) 1 2

...

n

x

x

x

x

n

 

(23)

記述統計 - データの中心

 平均の意味、解釈

平均はデータがどの値の周りに多く分布しているか を表していると解釈する事ができます。言い換える とデータの中心を表していると考えられます。

(24)

記述統計 - データの中心

 Σ (シグマ)記号 平均の定義の分子の部分はΣ記号を使うとより簡便に 表せます。Σ記号とは の事です。これによって平均は と表わされます。 1 2 1

...

n i n i

x

x

x

x

 

n i i

x

n

x

1

1

(25)

記述統計 - データの中心

 Σ(シグマ)記号の性質 Σ記号は統計学で非常に頻繁に登場するので ここでその性質を確認します。 (1) 各 xi を c 倍して和を取ったものは となります。

 

n i i n i i

c

x

cx

1 1

(26)

記述統計 - データの中心

 Σ(シグマ)記号の性質 (2) 定数 c に対して となります。 (3) 2組の観測値{ y1,…,yn} と { x1,…,xn } に対して が成り立ちます。

cn

c

n i

1

  

n i i n i i n i i i

y

x

y

x

1 1 1

)

(

(27)

記述統計 - データの中心

 Σ(シグマ)記号の性質 (1) - (3)より、例えば などが導けます。

n

c

x

c

x

c

x

n i i n i i n i i 2 1 1 2 1 2

2

)

(

  

(28)

記述統計 - データの中心

 メディアン(中位点、中央点) 観測値を大小順番に並べ、真ん中に位置する値を 中位点、またはメディアンといいます。 ただし観測値の数が偶数の場合、ちょうど真ん中にくる 数はないので、真ん中の2 つの観測値の平均をメディア ンとします。

(29)

記述統計 - データの中心

 (例)メディアン(標本数が奇数の場合) 標本が { x1, x2,…,x5 } = { 7, 9, 4, 2, 5 } であるとすると、 まず小さい順に並べて { 2, 4, 5, 7, 9 } 次にメディアンなので、その真ん中の値を取ります。 { 2, 4, 5, 7, 9 } よってメディアンは 5 となります。 ちなみにこの標本の平均は5.4となります。

(30)

記述統計 - データの中心

 メディアン(標本数が偶数の場合) 標本{ x1, x2,…, x6 } = { 10, 7, 9, 4, 2, 5 } であるとすると、 まず小さい順に並べると { 2, 4, 5, 7, 9, 10 } です。次にその真ん中の2つの観測値の平均をとります。 { 2, 4, 5, 7, 9, 10 } ⇒ (5 + 7)/2 = 6 よってメディアンは 6 となります。 ちなみにこの標本の平均は37/6 ≒6.2です。

(31)

記述統計 - データの中心

 メディアンの定義 標本{ x1, x2,…, xn } を小さい順に並べたものを { x(1), x(2), …., x(n)} とします。 (標本の数 n が奇数の時) この時メディアンは x((n+1)/2) です。 (標本の数 n が偶数の時) この時メディアンは (x(n/2) +x(n/2 + 1) )/2 です。

(32)

記述統計 - データの中心

 メディアンの特性 平均もメディアンも共にデータの中心を測るものですが (どのあたりの値のデータが多く観測されているかを見る)、 メディアンは平均に比べて異常値(外れ値)の影響を受け にくいという特徴があります。

(33)

記述統計 - データの中心

 メディアンの特性 例えば今5人の人の年収が(単位は円) {500万、600万、700万、800万、900万} だとすると、平均は700万メディアンも700万です。 ここである年収1兆円の大富豪がこの標本に加わった としましょう。 {500万、600万、700万、800万、900万、1兆円} この場合平均は (1兆3500万)/6 で1666億7250万 になります。しかしメディアンは750万です。

(34)

記述統計 - データの中心

 モード(最頻値) 標本の中で最も頻繁に出た値をモード、または最頻値と いいます。例えば標本 { 3, 10, 7, 9, 4, 3, 5 } が与えらた時に 3 が 2 つあり、最も頻繁に観測されてい ます。よってこの場合はモードは 3 となります。 ちなみにこのデータのメディアンは 5、平均は約5.9となり ます。

(35)

記述統計 - データの中心

 モード(最頻値) 平均やメディアンと違い、モードは一つとは限りません。 例えば標本 { 2, 10, 7, 9, 4, 2, 5, 9 } が与えらた時には 2 と 9 が共に2つあるので、 モードは 2 と 9 になります。

(36)

記述統計 - データの中心

演習問題 男女5人ずつに1週間にコンビニエンスストアを利用する回 数を聞いたところ、 男性は 5回、2回、3回、3回、4回、 女性は 1回、1回、5回、4回、4回 という解答が得られた。 (1) 男性5人の平均、メディアン、モードを求めて下さい。 (2) 女性5人の平均、メディアン、モードを求めてください。 (3) 男女10人合計の平均、メディアン、モードを求めて下 さい

参照

関連したドキュメント

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

充電器内のAC系統部と高電圧部を共通設計,車両とのイ

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

基本目標4 基本計画推 進 のための区政 運営.

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

4.「注記事項 連結財務諸表作成のための基本となる重要な事項 4.会計処理基準に関する事項 (8)原子力発 電施設解体費の計上方法

J2/3 ・当初のタンク設置の施工計画と土木基礎の施工計画のミスマッチ

それらのデータについて作成した散布図を図 15.16 に、マルチビームソナー測深を基準に した場合の精度に関する統計量を表 15.2 に示した。決定係数は 0.977