春学期 統計学 I
記述統計と推測統計
担当: 長倉 大輔
(ながくらだいすけ)
本日の予定
本日はまず記述統計と推測統計の違い、推測統計学の 基本的な構造について説明します。
記述統計と推測統計
統計学とは?
与えられたデータの背後にある「特性」、「法則」を「検 証」、「発見」、「分析」するための手法の開発、その応用 などに関わる学問の事です。
記述統計と推測統計
データの種類 データの種類はおおまかに 2 つに分けられます。 1 つ目は実験により育成される実験データと呼ばれるも の。2 つ目は実験から生み出されたものではない 非実験データです。記述統計と推測統計
実験データ これは分析者によってデータが育成される条件、状態を 管理できる環境で生み出されるようなデータで、物理学 や化学などで用いられるようなデータです。 このようなデータでは他の条件を同じにして特定の条件 を変えた場合のデータの変動が測定できるため、データ に含まれる変動の規則性を見つける事が容易といえま す。記述統計と推測統計
非実験データ これは気象学や経済学で観測されるようなデータで、分 析者はデータが育成される条件、状態を管理できませ ん。実現した値を観測する事ができるだけです。 このようなデータではいろんな諸条件が組み合わさった 状態でデータが育成されるため、そこに隠された法則な どを見つける事が実験データに比べると難しくなります。 経済やファイナンスのデータはほとんどが非実験データ です。記述統計と推測統計
記述統計 記述統計(統計的記述)とは与えられたデータに対して、 そのデータの特徴を要約(記述)する事です。 具体的には、よく知られたもので平均、 今日説明するものでは中央値、最頻値、 今後説明するものでは分散、 などがあげられます。記述統計と推測統計
推測統計 多くの場合、データは分析したい対象全体の一部分に 関してのみ与えられます。 それら一部分から対象全体に関する特性を推測する事 を推測統計(統計的推測)といいます。記述統計と推測統計
記述統計と推測統計の例 今、私たちは ある工場で作られた電球の品質を分析したい とします。 与えられたデータ(観測値)は電球 20 個の寿命です。 例えば 電球 1 の寿命 150時間 電球 2 の寿命 130時間 … 電球20の寿命 90 時間記述統計と推測統計
記述統計と推測統計の例 ここで私たちはまず これら 「20個の」電球は大体何時間くらいで寿命が つきてしまっているのか? という事に関心があるとします。 与えられた20個のデータを眺めているだけではなかな かわかりません。この場合よく使われるのが(標本)平 均という統計量です。 標本とはデータの事で、統計量とは標本から計算される もの(より正確には標本の関数)のことです。記述統計と推測統計
記述統計と推測統計の例 これら 20 個の電球の寿命の平均は 120 時間だったとし ましょう。これはこのデータ(20個の電球) においてだい たい 120 時間あたりの値をとる電球が多いと言うことを 意味します。 これでこの「20個の電球」についての特徴のひとつが 明らかになりました。これがデータの特性を記述すると いうことです。記述統計と推測統計
記述統計と推測統計の例 しかし私たちが本当に関心があるのは、この 「20個の」 電球の寿命ではなく、むしろ この工場でつくられる電球の寿命の平均はどれ くらいか? という事でしょう。 ここで問題はこの工場で作られた 20 個の電球(全体の 一部)の寿命の平均が120 時間である事から、 「この工場で作られる電球の平均寿命は 120 時間」 と結論してよいか?です。記述統計と推測統計
記述統計と推測統計の例 20 個の電球の寿命の平均からいかに全体の電球の 寿命の平均について推測するかを問題にするのが 「推測統計」の問題です。 ここでは、「20 個の電球の寿命の平均(標本平均)」は 「全体の電球の寿命の平均(母平均)」の推定値とみ なされます。 推定値とはそれが真の値ではなく、誤差をともなって いるという事を意味します。記述統計と推測統計
記述統計と推測統計の例 このように推定を行った場合、興味のある問題として、こ の推定値は全体の電球の寿命の平均を どれくらい正確に推定しているか? ということがあります。誤差が 小さい場合と大きい場合 では結論がまったく違うものになります。他にも どのようにすれば誤差を小さく推定できるだろうか? という問題にも興味があるでしょう。 推測統計はそのような問題について考えます。母集団と標本
母集団と標本 観測対象の事を母集団といい(例: ある工場で作られた 電球の寿命)、母集団からの観測される値を標本といい ます (例:20個の電球の寿命)。 全標本 もし母集団全ての値が観測できた場合、それを全標本と いいます。母集団と標本
全数調査と標本調査 全数調査とは全標本が得られる場合の調査の事であり、 標本調査とは母集団の一部分しか観測できない調査の 事です。 全数調査は多くの場合非常に時間と経費がかかります (不可能である場合も多い)。「電球の寿命」の例などは 全数調査が不可能な例です。母集団と標本
全数調査と標本調査の例 (全数調査の例) 「国勢調査」 5 年ごとに日本に住んでいる全ての人を対象に調査。 (標本調査の例) 「家計調査」 毎月農家を除く全ての世帯の暮らし向きを把握するため に全体の5000分の1を対象に調査。母集団と標本
無作為標本 標本の採り方の代表的な例に無作為標本というものが あります。 これは母集団から標本を無作為に(より厳密には確率 的独立に)とるというやり方のことです。これは標本から 母集団に関する推測をする際に極めて重要になってき ます。母集団と標本
無作為標本に失敗した例 無作為標本に失敗するとどうなるかという例として有名 なものとして1936年のアメリカ大統領選挙の話があり ます。 この時ある新聞社は200万人規模の(標本)調査を行 い共和党のランドン氏の大勝利を予想しました。 しかし結果は民主党のルーズベルト氏の圧勝に終わり ました。母集団と標本
無作為標本に失敗した例 この新聞社の調査の問題点は調査の対象を同誌の購 買者と電話保有者に限定した事にありました。 当時はまだ電話を所有できるのは高所得者に限り、高 所得者は共和党を支持する傾向が高かったため、調査 では共和党の勝利という結果になったのです。 これは一部で全体を代表させるのに失敗した例です。記述統計 - データの中心
標本平均
平均という言葉は「平均点」「平均気温」「平均降水量」な ど、日常でよく使われているので、すでになじみの深い ものだと思いますが、これもれっきとした統計用語です。
記述統計 - データの中心
平均の定義 今 n 個の観測値からなる標本 { x1, x2, … xn } が得られたとします。 この時平均(より正確には標本平均)は と定義されます。 (平均はしばしばx
と書かれます。) 1 2...
nx
x
x
x
n
記述統計 - データの中心
平均の意味、解釈
平均はデータがどの値の周りに多く分布しているか を表していると解釈する事ができます。言い換える とデータの中心を表していると考えられます。