• 検索結果がありません。

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

N/A
N/A
Protected

Academic year: 2021

シェア "データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

第 4 章 データの分析 No.01 (中学校での履修事項) 1 年生:資料の整理 ①階級、階級の幅、度数、度数分布表、ヒストグラム(柱状グラフ)、度数折れ線、 相対度数 ②範囲、代表値(平均値、中央値、最頻値) ③近似値、誤差、有効数字 3 年生:標本調査 ①標本、母集団、標本調査、全数調査、無作為抽出 を学んだそうですね? (なぜ、「データの分析」を学ぶのか?) 社会活動で、さまざまな問題の解決能力が必要とされる。問題解決を客観的に行う為に ・目的に合わせてデータを収集 ・それらを分析する力の習得 が(国際的に?)求められている。その基礎固め、あるいは、(数理)統計学の初歩 (統計・データ・情報の言葉の違い) 統計 ・・・ 集団における個々の要素の分布を調べ、その集団の傾向・性質などを 数量的・統一的に明らかにすること。また、その結果として得られた 数値 データ ・・・ 立論・計算の基礎となる、既知あるいは認容された事実・数値。資料 → つまり、「計算するための基となる数字の集まり」と考えると良い。 → 「データ」は「統計」を計算するための基となるものであるが、データは統計を 計算するために用いられるとは必ずしも決まっていない。 → 統計を計算するために、基になるデータは必要であるが、データがあるからと言 って、それが必ず統計として表されている訳ではない。 情報 ・・・ ①あることがらについての知らせ ②判断を下したり、行動を起こしたりするために必要な、種々の媒体 を介しての知識

(2)

上の図にもあるように、「統計学」の目的の一つとして 「データ」(※中学校では資料と呼んでいた)や「統計」を正しく分析し、我々の判断や 行動に役立つ「情報」を導き出す力を養うことが挙げられる。 (度数分布表とヒストグラム) 1 年 A 組 20 人の生徒の右手の握力を測定して階級毎に表にまとめたものである。 階級 ・・・データを整理するために用いる区間 階級値 ・・・各階級の中央の値 ※後で採り上げる「中央値」とは異なる 階級の幅 ・・・区間の幅(上では 5[kg]である) 度数 ・・・階級に入っているデータの個数、階級毎の度数を示して分布の様子を わかりやすくした表(左上)を度数分布表という。 右上のように、階級の幅を底辺、度数を高さとする長方形を順に書いて視覚的に度数の 分布を表したものをヒストグラム(柱状グラフ)という。両端に度数 0 の階級があるもの として、各長方形の上辺の中点を順に線分で結んでできたグラフを、度数折れ線(度数分 布多角形)という。また、このヒストグラムは一つの山のように見えるため、単峰性分布 という。山が二つ以上ある分布を多峰性分布、特に二つの場合を二峰性分布という。 また、特定の階級 A の相対度数を 階級 の度数 全データの大きさ で定める。各階級に相対度数を対 応させた表を相対度数分布表、相対度数を用いた折れ線を相対度数折れ線という。(次頁) 計算 分析 (数量的情報・ 定性的情報) データ 統計 情報

(3)

累積して度数などを見る場合もある。特定の階級 A までの度数をすべて加えたものを、 階級 A の累積度数、相対度数を加えたものを累積相対度数という。累積度数を用いてヒス トグラムを考えることもできる。累積しているため右上がりとなる。折れ線を書く場合は、 各長方形の右上の頂点を結ぶ。これを累積度数折れ線という。累積相対度数を各階級の上 限で結んだ累積相対度数折れ線もある。

(4)

データの分析 No.02 (代表値) データ全体の特徴を表す一つの数値を代表値という。 ①平均値(相加平均 ※確率分布では期待値という言葉もある) n 個のデータ x1,x2,x3,…,xnの総和を n で割ったもの(相加平均)

を、データの平均値という。※和の記号Σを用いて

と表すことができる。(理解するためにいろいろな書き方をおさえよう) ※他のデータに比べて極端に大きかったり小さかったりする少数のデータをはずれ値とい う。はずれ値を含む場合、(他に影響を与えやすいので)平均値は代表値としてふさわしく ない。 ②中央値 データを大きさの順に並べたとき、中央にくる値を中央値という。 (a)データが奇数個の場合 並べ直したものを x1,x2,x3,…,xn としたとき、中央は 番目なのでx が中央値と なる。 (b)データが偶数個の場合 並べ直したものを x1,x2,x3,…,xn としたとき、

,

+1 番目の 2 つのデータが中央 にあるので、その 2 つのデータの平均値を全データの中央値とする。 ※はずれ値を含むデータの場合、中央値を考えることで、はずれ値をのぞくデータの平均 に近い値となり、代表値にふさわしい。 ③最頻値 データの中で、最も個数の多い値を、そのデータの最頻値という。※度数分布表を扱う 場合(連続的なデータを扱う場合)は、最も度数の大きい階級の階級値を最頻値とするこ ともあるが、通常(離散的なデータを扱う場合)は最初の定義を用いることとする。

(5)

(ヒストグラムと代表値の関係) ヒストグラムに関して、山の上(高い)の部分を「峰」、山の下(低い)の部分を「裾」 と呼ぶ。峰が一つの分布を単峰性分布、二つ以上の分布を多峰性分布といい、特に山が二 つの分布を二峰性分布という。 ①左右対称な分布 完全に対称な場合(連続的なデータでは、正規分布と呼ばれる) 平均値=中央値=最頻値 である。(※完全に対称でない場合は、=の部分が≒) ②右に歪ゆがんだ分布(左に峰が寄り、右方向に裾をひく分布) 最頻値<中央値<平均値 ③左に歪んだ分布(右に峰が寄り、左方向に裾をひく分布) 平均値<中央値<最頻値 となる。 ②や③の場合、平均値を代表値とすることが適切ではない場合がある。※はずれ値の影 響を受けにくい性質を「抵抗性がある」という。中央値や最頻値は、抵抗性がある代表値 である。 (代表値の性質) 平均値 中央値 最頻値 ・常に 1 つだけ存在 ・抵抗性がない ・データが有効に活用され ている。 ・常に 1 つだけ存在 ・抵抗性がある ・個々の数値は代表値に直 接反映されにくい。 ・1つとは限らない ・抵抗性がある

(6)

データの分析 No.03 (四分位数と箱ひげ図) データの散らばりを考えるときに、次のような(代表)値を考えることがある。 ・範囲(range)=(データの最大値)-(データの最小値) 範囲は、最大値・最小値のみで決まる値なので、極端にはなれた値があると、それだけ で範囲は拡大する。また複数のデータを比較するときに範囲が同じ場合は、散らばりの違 いを表せない。 ・四し分ぶん位い数(quartile) データを大きさの順に並べたとき、データ全体を 4 等分する位置にあるデータを小さい 方から、第 1 四分位数、第 2 四分位数(※中央値のこと)、第 3 四分位数という。データ を小さいものから順に並べ替えて、左半分のデータを「下位のデータ」、右半分のデータを 「上位のデータ」と呼ぶことにする。※データが奇数個の場合、中央にくる値は、そのど ちらでもないものとする。このとき (下位のデータの中央値)=第 1 四分位数 (上位のデータの中央値)=第 3 四分位数 で定める。 ①データを小さいものから順に並べ替える。 ②中央値(第 2 四分位数)を求める。 ※偶数個→中央にある 2 個の値の平均値 ③上の定義に従って第 1 四分位数・第 3 四分位数を求める。 ※データの最小値、第 1 四分位数(Q1)、中央値(第 2 四分位数 ; Q2)、第 3 四分位数 (Q3)、最大値の 5 つの値を用いてデータを要約することを「5 数要約」という。 ※表計算ソフト Microsoft Excel で関数を用いて四分位数を出すこともできるが、教科 書にある定義と若干異なることに注意しないといけない。一般に複数の定義があるが、こ こでは、上の定義で求めるものとする。

(7)

・四分位範囲=(第 3 四分位数)-(第 1 四分位数) 四分位範囲の値が小さければ、データが中央値の近くに集まっていることを指す。逆に 大きければ、データの散らばりが大きいことを指す。 ・四分位偏差= 四分位範囲 四分位範囲は Q3-Q1で与えられる量なので、はずれ値や裾が広い分布の影響を受けにく い(抵抗性がある)。また、Q3-Q1=(Q3-Q2)+(Q2-Q1)なので、四分位偏差は、2 つの平均 を表していると見ることもできる。 視覚的に分布を見る場合に、5 数要約(最小値、Q1、Q2、Q3、最大値)を用いて次の「箱 髭 ひげ

図」(box and whisker plot)を描いて見る方法がある。

※平均値の + は省略することが多い。( ○ や ● を使ったものもある。) (箱ひげ図とヒストグラム)

(ヒストグラムと比較することで)箱髭図が表している分布がどんなものか分かると思 う。※ただし、多峰性分布の場合(峰が複数あるため)箱髭図からは分布を判断できない ので注意が必要である。

(8)

(補足)はずれ値の判別 はずれ値の疑いがあるデータを次のように判別することができる。 四分位範囲を Qrとすると (下位境界値)=Q1-1.5×Qr、 (上位境界値)=Q3+1.5×Qr と定めたときに、下位境界値を下回っている、もしくは、上位境界値を上回っているとき にはずれ値であるとみなせる。箱髭図を用いて、箱の長さを測って上の式を用いて境界値 を描くことができるので、視覚的にはずれ値の疑いがある領域を探ることもできる。

(9)

データの分析 No.04 (分散と標準偏差) 四分位範囲・四分位偏差は、中央値を基準にした散らばりを考えたが、ここではあらた めて平均値を基準にした散らばりの量を考えてみる。 n 個のデータ x1,x2,…,xnが与えられていて、この平均値を x ー とする。このとき をそれぞれ x1,x2,…,xn の偏差という。平均値を下回っているデータに対しては、その偏差 は負の値をとり、上回っている場合その偏差は正の値をとる。一つ一つは平均からどのく らい離れているかを見ることができる。では、全体としてどのくらい散らばっているかを 見たいと思い、これらの平均値を考えてみると これは常に起こる。つまり、偏差の平均値は散らばりの量としては使えない。考えてみ れば自明なことで、平均から下回っているところと上回っているところで相殺するので、 量としては 0 を返す訳である。従って、次のような量を考えてみる。 偏差の絶対値の平均値(※これを「平均偏差」という)を考える。絶対値をとることで、 それぞれが正の値をとるので、正の量を返す。けれども、絶対値記号を外すときに常に場 合分けを考慮しないといけないため、これはあまり使えない。一般には次の量を考える。 偏差の 2 乗したものの平均値を考える。2 乗することで場合分けを考慮しなくても良い。 この量を分散(variance)という。※V[X]と表すこともある。 分散の値が小さいほど平均値の近くにデータが集まっていると言える。 分散はここで採り上げた量としては一番使える値であるが、これにも若干の問題点があ る。それは 2 乗することで次元が 1 つ上がってしまったということである。従って、それ

(10)

を「補正」するため、分散の(正の)平方根をとった標準偏差(standard deviation)と いうものを考える。これによって、次元が「元に戻った」のである。※Sx と表すこともあ る。 標準偏差の値が小さいほど平均値の近くにデータが集まっていると言える。 分散については、次で求めることもできる。 つまり (分散)=(各データを 2 乗したものの平均値)-(元のデータの平均値)2 で求まる。

(11)

データの分析 No.05 (開かい平へい法) 正の数の平方根を手計算で求める方法として挙げられるものに「開平法」がある。具体 的な方法から一般的な原理を押さえてみよう。 を筆算で求めるには次のようにする。 ①数字は、小数点を基準に 2 桁ずつに区切っておく。 ②平方(2 乗)して 18 以下になる最大の整数として 4 を見つけ、√(ルート,根号)の上に 4 を書く。 ③18-42=2 と次の 2 桁 49 を並べて 249 と書く。 ④左側では、4+4=8 を縦書きで計算する。 8□×□≦249 となる最大の整数□として 3 を見つけ、 √の上に 3 を書く。 ⑤249-83×3=0 で右側は終わり。左側は 83+3=86 を縦書きで計算する。∴ =43. この方法を活用すれば、他にも のように求まる。※もちろん有限でない場合もある。 上の筆算は、どんな原理で行われているのだろうか?その一端を次で見てみよう。 左側の和の部分で同じものを足しているのは、上の式の(右辺)第 1 項以降が表してい る。右側の積の部分についても(右辺)の各項の積がそれを表している。

(12)

10a+b の 2 乗を正方形の面積でイメージしてみると次のようになる。 (補足)偏差値について ある数値が標本の中で、どの位置にあるかを表したもの。平均値が 50、標準偏差が 10 となるように標準化(規準化)されている。分布が正規分布(※「確率分布」の単元で扱 われるが、ここでは左右対称な連続分布というイメージで良い、下図参考)であるとき、 偏差値の利用価値は高い。偏差値を T(下図の T-score にならって T とした。本来は standard score)、変量を x、その平均値を xー 、標準偏差をσxとすると次で求まる。

(13)

データの分析 No.06 (相そう関かん関係) 「相関」は国語的な意味としては、2 つのものが密接に関わりあっていることを指す。こ こから、(数学的には)2 種類のデータについて関係性・類似性があるか否かを判断する指 標を考えることとする。※今まで扱ったデータは、同一の対象に対して 1 つの項目をもつ データのため「1 次元データ」と呼ばれる。対して、ここでは 2 つの変数(項目)をもつ データ「2 次元データ」を扱う。 2 変量 x、y の関係を座標(平面)のように点をとって表すと傾向を読み取りやすい。こ のような図を散布図(相関図)という。 2 つの変量のデータにおいて、一方(の値)が増えると他方も増える傾向があるとき正の 相関(関係)があるという。[図 1]また、一歩が増えると他方は減る傾向があるとき負の相 関(関係)があるという。[図 2]どちらも認められないとき、相関(関係)がないという。 [図 3]さらに、相関があり、特に散布図において直線的な傾向が強いとき、相関(関係)が 強いといい、逆に直線的傾向が弱いとき、相関(関係)が弱いという。 2 つの度数分布表を組み合わせた「相関表」を用いて調べることもできる。※各階級の欄 に記入されている数は度数を表す。

(14)

2 次元データの組が非常に多いときは相関表を用いて度数で表すことで分布を捉えやす いという利点がある。 (共分散と相関係数) 散布図だけではなく、相関関係の正負や強弱を数値で表すことができるか考えてみよう。 2 変量 x、y それぞれの偏差の積の平均値 を共分散(covariance)という。散布図を座標平面に見立てて、2 変量 x、y の平均値 xー、 y ー をそれぞれ x 座標、y 座標にとった点(xー , yー)を中心に平面を 4 領域①~④(右上から 反時計回りにとる)に分割したとする。各データの偏差の積の値が正ならば①・③の領域 に点があり、逆に積の値が負ならば②・④の領域に点がある。従って 正の相関がある⇒①・③に点が多い⇒共分散の値は正 負の相関がある⇒②・④に点が多い⇒共分散の値は負 相関関係がない⇒(xー, yー)付近に点が多い⇒共分散の値はほぼ 0 となる。

(15)

(補足)共分散に関する別公式 共分散の定義式を変形すると つまり、2 つの変量 x、y のデータの(積の平均)から各々の(平均の積)をひいたもの となる。 共分散は、もとのデータの値の大きさで決まるため、単位が異なる 2 変量を扱う場合に 解釈しづらい。そのため、各々の標準偏差で割った「相関係数」を用いることが一般的で ある。 2 変量の間に相関があるか否か、また、その強弱をみるために共分散をそれぞれの変量に おける標準偏差で割ったもの を相関係数(correlation coefficient)という。※主に r で表す。分母・分子の 1/n は約 分できるため、(偏差の積の和)÷(x の偏差の 2 乗和)(y の偏差の 2 乗和)と見ること もできる。 相関係数の大事な性質としては、分子にある 2 変量の偏差の積をそれぞれの標準偏差で 割っているため(※規準化) となる。この証明は難しい。

(16)

(証明) とおく。これを展開すると となり、こ れを t の 2 次不等式と思って(2 次方程式 Q = 0 の)判別式を D とすると 移項して、その項で割ることで 分母・分子に 1/n2を掛けて括弧の中に入れると (左辺)の 2 乗をはずすことで すなわち -1≦r≦1 を得る。 (証明終) 相関係数は絶対値が 1 に近いほど強く、0 に近いほど弱いことを表している。ここでは 次で類別する。 1~0.9 極めて強い 0.9~0.7 強い 0.7~0.4 相関がある 0.4~0.2 やや相関がある(弱い相関がある) 0.2~0 ほとんど相関はない

(17)

相関について注意しないといけないことは、2 変量の値の大小に関することなので、相関 関係だけで因果関係を裏付けているわけではないことである。 (補足)疑似相関 または 偽相関 2 つの事柄に因果関係がないにも関わらず、見えない要因によって因果関係があるように 推測されることを疑似相関(偽相関)という。例えば、「A:アイスクリームの販売数」と 「B:熱中症の患者数」には正の相関が期待されるが、A は B の原因ではなく、ともに「暑 さ」という要因からきているものである。 (補足)度数分布表と標準偏差 度数分布表が与えられたときの分散・標準偏差は次で求められる。 階級値が x1,x2,…,xnで、それぞれの度数が f1,f2,…,fn(度数の和は N とする)のとき (分散)=

(標準偏差)= (分散)

(18)

(仮平均と変量変換) データの値が大きいときや散らばりが少ないときに(平均に近い)一定の量を除いた上 で平均を計算し、元に戻した方が平均を求めやすい場合がある。ここで除かれる一定の量 を仮平均と呼んでいる。変量を x(データの数は n 個)、仮平均を x0とすると であることから、変量 x の平均値 xー は で求まる。 仮平均としてふさわしい値は、①真の平均値に近いこと②扱いやすい数値であること③ (度数分布表では)その階級値に属する度数が大きいこと、が挙げられる。 一般に、元の変量 x に対して、u=ax+b(a , b は定数)で与えられた新しい変量 u につ いて、その平均値や分散・標準偏差を見てみよう。 u の分散を Vu とすると であるから、su= |a| sxとなる。

参照

関連したドキュメント

絡み目を平面に射影し,線が交差しているところに上下 の情報をつけたものを絡み目の 図式 という..

これらの定義でも分かるように, Impairment に関しては解剖学的または生理学的な異常 としてほぼ続一されているが, disability と

このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた

「系統情報の公開」に関する留意事項

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

としても極少数である︒そしてこのような区分は困難で相対的かつ不明確な区分となりがちである︒したがってその