• 検索結果がありません。

1 Excel 1. [Standard] (call [Call Standard]) Excel [ ] [E ] Excel m 1 ( ) (

N/A
N/A
Protected

Academic year: 2021

シェア "1 Excel 1. [Standard] (call [Call Standard]) Excel [ ] [E ] Excel m 1 ( ) ("

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

確率・統計の基礎 資料

中田 寿夫

福岡教育大学 数学教育ユニット

令和元年版

概 要 記述統計について実際にコンピュータを用いて実習していきます。

1

ログインと

Excel

の立ち上げ

• ログイン:学生証がないとログインできない注 1.。起動画面が進めば [Standard] の

イメージ (call 教室ならば [Call Standard]) を選択。

• Excel:[スタート] → [E の項目] → Excel 注 2. でたちあげる。

2

データの整理

2.1

度数分布

テストの得点や 50m 走の記録などのように、ある集団を構成する人や物の特性を表す 量を変量という。また、調査や実験などで得られた変量の観測値の集まりをデータとい う。データを構成する観測値や測定値の個数をそのデータの大きさという。 例題 1 下の数値 (出席番号と国語の試験の結果である変量) は生徒 30 人の国語の試 注 1.情報システムナビ 2019 (http://news.fukuoka-edu.ac.jp/form/guide/navi2019.pdf) , p.7–8 を 見ること。 注 2. Excelはバージョンによって細かな操作が異なっていることがある。2019 年 4 月に導入されたシステ ムは Excel 2019 がインストールされているが、本文で動作確認を行った Excel のバージョンは 2013 であ る。同様に、例えば [スタート]→ [R] → [R x64 3.5.1] や [スタート]→ [は] → [秀丸] など。

(2)

験の結果を出席番号順に並べたデータである。(データの大きさは 30 である。) 表 1: 国語の得点の一覧 出席番号 1 2 3 4 5 6 7 8 9 10 得点 46 30 24 49 39 9 75 29 54 30 出席番号 11 12 13 14 15 16 17 18 19 20 得点 78 65 42 75 57 53 57 46 62 56 出席番号 21 22 23 24 25 26 27 28 29 30 得点 69 92 96 55 44 66 40 54 66 65 表計算ソフト (ここでは Excel 2013) を用いて以下を作成せよ。 • 度数分布表 • ヒストグラム • 度数折れ線 【解答】 Excel 2013を用いてこれらの手順を示す。 • 度数分布 1. セル A1 から A30 に得点データのみを入力する。 2. 階級値(上限値)を C2 から C6 に 20,40,60,80,100 と入力する。また、実際の 階級の情報を D2 から D6 に 1-20, 21-40, 41-60, 61-80, 81-100 と入力する。 3. 以下の手順で「分析ツール」を読み込む。 分析ツールを初めて使用する場合は以下の手続をとる必要がある (Excel 2013 のヘルプの引用) (1) [ファイル] タブをクリックし、[オプション] をクリックして、[アドイン] カテゴリをクリックする。 (2) [管理] ボックスの一覧の [Excel アドイン] をクリックし、[設定] をクリッ クする。 (3) [有効なアドイン] の一覧の [分析ツール] チェック ボックスをオンにし、 [OK] をクリックする。 4. メニューバーの中から [データ]→ [データ分析] を選び(データタブで表示さ れるメニューの一番右にある)、[ヒストグラム] を選ぶ。

(3)

5. ヒストグラムのボックスのうち 入力範囲 $A$1:$A$30 データ区間 $C$2:$C$6 として「出力先」をチェックした後に、出力先を$C$10 として OK をクリック する。 そうすると、以下のような表が作成される。 表 2: 国語の得点の度数分布表 データ区間 頻度 20 1 40 6 60 12 80 9 100 2 次の級 0 • ヒストグラム 1. D11から D15 をマウスで指定する。 2. メニューバーの中から [挿入] →[縦棒グラフの挿入]→[2-D 縦棒]→[集合縦棒] を選択する。 3. 横軸が 1,2,3,4,5 となっていますので、1 にカーソルを移動させたのちに右クリッ クし、[データの選択] により [横(項目)軸ラベル] の [編集] を選び、$D$2:$D$6 として OK をクリックする。 • 度数折れ線 1. D11から D15 をマウスで指定する。 2. メニューバーの中から [挿入]→[折れ線グラフの挿入] → [マーカー付き折れ線] を選択する。 3. 横軸が 1,2,3,4,5 となっているので、1 にカーソルを移動させたのちに右クリッ クし、[データの選択] により [横(項目)軸ラベル] の [編集] を選び、$D$2:$D$6 として OK をクリックする。 上では度数分布をまとめる際に「分析ツール」を用いて度数分布表を作成したが、他に も Excel 2013 の関数として FREQUENCY 関数を用いる方法もある。つまり、度数分布

(4)

の項目 3∼4 に関して以下のようにしても構わない。 1. C2から C6 に入力された階級値(上限値)を C20 から C24 にコピーする。 2. D20から D24 をドラッグする。 3. D20に (マウスを使って) =FREQUENCY(A1:A30,C20:C24) と入力して、確定する際 に、Ctrlキーと Shift キーを押しながら Enter キーを押す。 問 1 下の数値は例題 1 における同じ生徒 30 人の数学の試験の結果である。 表 3: 数学の得点の一覧 出席番号 1 2 3 4 5 6 7 8 9 10 得点 71 72 4 49 82 100 64 93 31 37 出席番号 11 12 13 14 15 16 17 18 19 20 得点 100 71 23 50 72 48 55 86 34 84 出席番号 21 22 23 24 25 26 27 28 29 30 得点 2 100 77 63 57 52 43 44 62 47 別のシートを用いて (Sheet2 で行うこと。シート名は「問」に変更すること。ついでに Sheet1のシート名は「例題」に変更しておくこと) 例題 1 と同様に、Excel 2013 の「分析 ツール」を用いて以下を作成すること。 • 度数分布表 • ヒストグラム • 度数折れ線 さらに、FREQUENCY 関数を用いて D20 から D24 に度数分布を表示せよ。

2.2

累積度数

階級以下、または階級以上の階級の度数を加え合わせたものを累積度数といい、それら を表でまとめたものを累積度数表という。 例題 2 例題 1 の度数分布表である表 2 に関しての累積度数表を作成する。

(5)

表 4: 国語の得点の累積度数表 階級 累積度数 20 1 40 7 60 19 80 28 100 30 【解答】 Excel 2013を用いて手順を示します。各階級の度数である 1, 6, 12, 9, 2 の データが D20∼ D24 に入っているものとする。 1. E20に「=D20」と入力する。 2. E21に「=E20+D21」と入力する (データが累積されていることに注意すること)。 3. E21の値を E22,E23,E24 にコピーする。(E24 の値が生徒の人数である 30 になって

いることに注意すること) 4. C27, D27に「階級」、「累積度数」とそれぞれ書き、C20∼C24 と E20∼E24 のデー タを C28∼C32, D28∼D32 に値貼りつけでコピーする。これを整形して (枠を囲っ て C27, D27 に灰色で色付けする)、累積度数表を作成する。 問 2 問 1 で用いた数学のデータに対しても累積度数分布表を作成すること。

2.3

相対度数

各階級の度数をデータ全体の個数で割った値をその階級の相対度数といい、相対度数を 表の形にまとめたものを相対度数分布表という。相対度数分布表では、各階級の相対度数 の合計は 1 となる。 例題 3 例題 1 の度数分布表である表 2 に関しての相対度数表を作成せよ。 表 4: 国語の得点の相対度数表

(6)

階級 相対度数 20 0.033 40 0.200 60 0.400 80 0.300 100 0.067 【解答】 Excel 2013を用いて手順を示す。各階級の度数である 1, 6, 12, 9, 2 のデータ が D20∼ D24 に入っていて、E24 には合計人数である 30 が入っているものとする。 1. F20に「=D20/$E$24」と入力する。 2. F20の値を F21, F22, F23, F24 にコピーする (F21, F22, F23, F24 の和が 1 になっ ていることに注意すること)。必要であればセルの書式の設定を行うこと。 3. F27, G27に「階級」、「相対度数」とそれぞれ書き、C20∼C24 と F20∼F24 のデー タを F28∼F32, G28∼G32 に値貼りつけでコピーして整形して相対度数表を作成 する。 問 3 問 1 で用いた数学のデータに関しての相対度数表を作成すること。

2.4

散布図

2つの変量の間の関係を図に表してみる。 例題 4 例題 1 の表 1 であらわれた国語の得点と問 1 の表 3 であらわれた数学の得点 の一覧に関する相関図を書け。 【解答】 1. 国語の得点のデータ A1∼A30 を A36∼A65 にコピーする。 2. シート「問」から数学の得点のデータ A1∼A30 を B36∼B65 にコピーする。 3. A36∼B65 をドラッグして [挿入] → [グラフ] → [散布図] を選択する (散布図の種類 を選ぶことができるが左上の単純なものを選ぶ)。 2つの変量の間の関係として以下のように言う。

(7)

• 一方が増えると他方も増える→正の相関関係がある→散布図を構成する点は全体的 に右上がり (例) 身長と体重、喫煙率と肺癌の発症率 • 一方が増えると他方は減る→負の相関関係がある→散布図を構成する点は全体的に 右下がり (例) 気温と灯油の消費量、身長と 100m を歩くのに要する歩数

3

データの代表値

3.1

平均値

変量 x がとる N 個の値 x1, x2,· · · , xN において、これらの総和を N で割ったものを平 均値といい、¯xであらわす。 定義 3.1 (平均値) データ x1,· · · , xN について平均値を以下で定義する: ¯ x := 1 N(x1+ x2 +· · · + xN) = 1 N Nk=1 xk (1) 例題 5 例題 1 の表 1 であらわれた国語の得点の平均値 ¯x を求めよ。 【解答】 データが A1∼A30 に入っているとする。 1. F2∼F5 に「総数」「合計」「平均値 1」平均値 2」とそれぞれ入力する。 2. G2,G3に 30, =SUM(A1:A30) とそれぞれ入力する。G3 には得点の合計が入力される。 3. G4には式 (1) の定義に従って、=G3/G2 と入力する。 4. G5には平均値を求める関数である =AVERAGE(A1:A30) を入力する。 問 4 例題 5 と同様に、問 1 の表 3 であらわれた数学の得点の平均値を求めること。 問 5 a, bを実数として与える。次の問に答えよ。

(8)

1. ax1+ b, ax2+ b,· · · , axN + bの平均値を ax + b とあらわすことにする。このとき、 ax + b = ax + b (2) を示せ。ただし、x は式 (1) で定義されたものとする。 2. a = 1 のときには x + b = x + b (3) となるが、これは仮平均を表す式である。仮平均とは、例えば 1002, 1003, 998 の 平均を求めるときに仮平均を 1000 とした場合、それぞれのデータから 1000 を引い た値が 2, 3,−2 なので、この平均値は 1 となり、全体の平均値は 1000 + 1 = 1001 で あるような計算方法をさす。 式 (3) が仮平均の考え方を述べた式であることを具体的に数値の例を挙げて説明せよ。 なお、仮平均は中学校指導要領解説 [5, 58 ページ、第 1 学年 A 数と式] にあるとおりの正 の数、負の数の指導において有効である注 3. 次に度数分布表から平均値を求める方法を考える。度数分布表では各階級に属するデー タの個々の値はわからないことにより、ある階級に属するデータはすべてその階級の中央 の値をとるものと考える。この値を階級値と言う。 データが以下の表 5 の度数分布にまとめられているとき、平均値 ¯xは次のように計算さ れる。 定義 3.2 度数分布表による平均値 ¯ x = 1 N(x1f1+ x2f2+· · · + xnfn) = 1 N nk=1 xkfk (4) = x1 f1 N + x2 f2 N +· · · + xn fn N = nk=1 xk fk N (5) ただし、N = ni=1 fiである。 表 5: 度数分布 注 3. 例えば、5 人の身長 143, 152, 155, 149, 151 [cm] の平均は 150 を基準にすると、−7, 2, 5, −1, 1 である ので仮平均は (−7 + 2 + 5 − 1 + 1)/5 = 0 より、150 + 0 = 150 [cm] であることがわかる。

(9)

階級値 度数 相対度数 x1 f1 fN1 x2 f2 fN2 .. . ... ... xn fn fNn 合計 N 1 babababababababababababababababababababab データから直接得られる平均値と度数分布表に整理したものから得られる平均値 は異なることが多いが、その差はそれほど大きくない。 式 (4) と式 (5) は「足した後に最後に N で割る」のか「総数 N で割ったものを足す」のか の違いがある。このことは頻度を用いて計算するか相対頻度を用いて計算するかの違いと なってあらわれている注 4. 例題 6 例題 1 の国語の成績に関して • 相対度数表から • 度数分布表から 平均値を計算せよ。 【解答】 1. I27, J27, K27 にそれぞれ「階級値」「階級値*度数」「階級値*相対度数」と入力 する。 2. 「階級値」のセル I28∼I32 には階級値である 10,30,50,70,90 を入力する。 3. 「階級値*度数」では、J28 に=I28*D11 と入力し、それを J28∼J32 にコピーする。 注 4. 相対頻度を用いた式 (5) は確率分布に関しての平均をとるという考え方に自然に繋がっている。つま り、(f1/N, . . . , fn/N )は確率分布となり、これについての期待値と見做すことができる。例えば、サイコ ロ投げで出た目を X とするとき、X の期待値 E(X) は E(X) = 1×1 6+ 2× 1 6+· · · + 6 × 1 6 = 21 6 = 7 2 = 3.5 であるが、離散一様分布 (1/6, . . . , 1/6) で期待値を考えていることになる ([3, p.53, 例 3.11])。式 (4) での ものが式 (1) の拡張として自然であるが、この考え方につなげるためには式 (5) を扱うことも意味がある。

(10)

J33には、これらの合計を計算しておく。つまり、J33 には=SUM(J28:J32) とする (値は 1600)。 4. 項目 3 と同様に、「階級値*相対度数」では、K28 に=I28*G28 と入力し、それを K28∼K32 にコピーする。K33 には、これらの合計を計算しておく。つまり、K33 には=SUM(K28:K32) とする (値は 53.3)。 5. F6,F7に「平均値3(度数)」「平均値4(相対度数)」と入力し、その横の G6, G7 にはそれぞれ=J33/G2, =K33 と入力する。 問 6 問 1 で用いた数学のデータに関して • 度数分布表から • 相対度数表から 平均値を計算せよ。

3.2

中央値

定義 3.3 (中央値 (メジアン)) データを大きさの順に並べたとき、その中央の値を中央 値またはメジアンという。データの大きさが偶数のときには中央の値はないが、その相加 平均をとるものを中央値として採用する。 babababababababababababababababababababab データの中に極端にとび離れた数値があると、平均値はその影響を大きく受ける が、中央値はその影響を受けない。このような場合には代表値として平均値より も中央値の方がすぐれていると言える。 例題 7 例題 1 の国語の成績に関して中央値を求めよ。 【解答】 1. A1∼A30 の値を B70∼B99 までにコピーする。B69 には「変量」と書く。 2. A70∼A99 には 1∼30 の数値を入力する。

(11)

3. B69∼B99 をドラッグして [ホーム] → [並べ替えとフィルター] → [フィルター] を選 択する。 4. B70に出てくる選択項目から [昇順] を選んで並べ替える。並べ替える前にどこを 並べ替えるか問われるので [現在選択している範囲] を選ぶ。 5. 中央値は 15 番目 54 と 16 番目の 55 の間である54 + 55 2 = 54.5となる。 6. A102に「中央値 (定義)」と入力し、B102 に 54.5 を入力する。また、Excel 2013 で は中央値として MEDIAN(配列) という関数が用意されている。これを用いて、C102 に「中央値 (関数)」と入力し、D102 に =MEDIAN(B70:B99) と入力すると 54.5 が 出力される。 なお、[ホーム] → [並べ替えとフィルター] → [フィルター] を選択すると並べ替える前の 状態に戻ることがわかる。 問 7 問 1 で用いた数学のデータに関して、上記の国語のデータと同様に中央値を並べ 替えより、計算せよ。

3.3

四分位数、四分位範囲、箱ひげ図

データを大きさの順に並べたとき、「4 等分する位置にくる」値を四分位数という。四 分位数は小さい方から第 1 四分位数、第 2 四分位数、第 3 四分位数という。 データを大きさの順に左から並べたとする。 • データの大きさが偶数のとき、左半分のデータを下位のデータ、右半分のデータを 上位のデータと呼ぶことにする。 • データの大きさが奇数のとき、中央の位置にくる値を含めず、左半分のデータを下 位のデータ、右半分のデータを上位のデータと呼ぶことにする。 ここで四分位数を以下のように定める。 定義 3.4 (四分位数) • 第 1 四分位数:下位データの中央値 • 第 3 四分位数:上位データの中央値

(12)

l Q1 l l Q3 l 図 1: 箱ひげ図の一例 また、データの分布を見るための図に箱ひげ図と呼ばれるものがある。箱ひげ図はデー タの最小値、第 1 四分位数、中央値、第 3 四分位数、最大値を箱と線 (ひげ) で表現する図 である。箱の長さは四分位範囲を表す。なお、箱ひげ図に平均値を記入することもある。 例題 8 データ 2,3,5,7 について中央値、第 1 四分位数、第 3 四分位数を求めよ。さら に箱ひげ図も書け。 【解答】 データの大きさが 4 であり偶数なので、中央値の定義 3.3 により 3+52 = 4で ある。また、上位のデータは 5,7 であり、下位のデータは 2,3 である。これにより、下位 のデータの中央値は 2.5 となり第 1 四分位数は 2.5 となる。同様に、第 3 四分位数は 6 と なる。まとめると以下のようになる。箱ひげ図は省略する。 最小値 第 1 四分位数 中央値 第 3 四分位数 最大値 2 2.5 4 6 7 (6)

(13)

babababababababababababababababababababab 1. 四分位数の定義は他にいくつかある。実際に [2, 67 ページ] では第 1 四分位 数の定義を「データを小さい方から数えて全体の 25% となる点あるいは 1 番近い点」としているが、例題 8 であれば全体の 25% となる点は「3」であ り、上で計算した第 1 四分位数「2.5」とは異なる。 2. 定義 3.4 は「データを大きさの順に並べたとき「4 等分する位置にくる」値」 とはなっていないケースがあるのが原因であり、定義 3.4 のことをヒンジ (蝶 番 (ちょうつがい)) と言って四分位数と区別する統計の専門書もある。 3. 細かなことは [1] を参照のこと。指導要領解説には四分位数の定義は明記さ れておらず、教科書の著者に委ねられている。ここでは、広く使用される可 能性の高い教科書 [4] から定義を引用している。現在の高等学校の教科書の (ほぼ) 全ては本文の記述と同じくヒンジを四分位数として扱っている事実は 注意すべきである。 また、Excel 2013 では四分位数として QUARTILE(配列, 戻り値) という関数が用意さ れている。ただし、「配列」には対象のデータが、「戻り値」には 0, 1, 2, 3, 4 が入り、それ ぞれ最小値、第 1 四分位数、第 2 四分位数=中央値、第 3 四分位数、最大値となる。ここ での定義と、Excel 2013 での QUARTILE の定義は異なるので違った値をかえすことがあ る。下記の例題ではそれを確かめることにする。 例題 9 例題 8 について QUARTILE という関数を用いて (6) に対応する表を作成せよ。 【解答】 1. 新しいシートを作成して、シートの名前を「四分位数」とする。 2. A1∼A4 にそれぞれ 2,3,5,7 を入力する。 3. A6∼A10 にそれぞれ「最小値」「第1四分位数」「中央値」「第 3 四分位数」「最大 値」を入力する。 4. B6に =QUARTILE($A$1:$A$4,0) と入力し、それを下にコピーして 2 番目の引数を それぞれ替えていく。

(14)

上記の手順では以下のようになる。 最小値 第 1 四分位数 中央値 第 3 四分位数 最大値 2 2.75 4 5.5 7 (7) この小文では (7) ではなく (6) を採用することにしている。 問 8 1. データ 1,2,3,4,5,6,7,8 について式 (6) に対応する表を書け。参考までに、(7) に対応 した表も書くこと。例題 9 で用意したシート「四分位数」の中で行うこと。 2. 例題 1 の成績に関して式 (6) に対応する表を書け。シート「例題」について • A103 ∼ A107 にそれぞれ「第0四分位数(定義)」∼ 「第4四分位数(定義)」 と書き、 • C103 ∼ C107 にそれぞれ「第0四分位数(関数)」∼ 「第4四分位数(関数)」 と書く。 その後、B103 ∼ A107 には定義から、D103 ∼ D107 には関数からそれぞれの四分 位数を記入すること。問 1 で用いた数学のデータに関してもシート「問」に同様に 行うこと。その結果以下を確かめること。 最小値 第 1 四分位数 中央値 第 3 四分位数 最大値 国語 (定義) 9 42 54.5 66 96 国語 (関数) 9 42.5 54.5 65.75 96 数学 (定義) 2 44 59.5 77 100 数学 (関数) 2 44.75 59.5 75.75 100 また、定義にもとづいて国語と数学の得点に関する箱ひげ図をそれぞれ各自のノー トに書くこと。 Excel 2013で箱ひげ図を作成する機能は直接なく、書くのに少し手間がかかる注 5. ので手 書きで十分である。 注 5.がんばれば Excel 2013 でも書けないこともない。例えば、総務省統計局の運営している「なるほど統計 学園高等部」にそれが書いてある。http://www.stat.go.jp/koukou/howto/process/graph/graph5.htm

(15)

babababababababababababababababababababab 1. 箱ひげ図は対称性や非対称性のチェックに用いられている。つまり、 「ヒストグラムが対称」⇐⇒「箱ひげ図が対称 」 (8) であることが大まかな意味で用いられている。 しかしながら、厳密な意味で (8) とは限らない。例えば、以下の例は「ヒス トグラムが非対称」かつ「箱ひげ図が対称」となる ([3, p.16, 章末問題 1.1])。 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 5 (9) 最小値 第 1 四分位数 中央値 第 3 四分位数 最大値 0 2 2.5 3 5 2. 左に偏った分布ではひげは右に伸び、中央値をあらわす線は箱の左側に寄 る。右に偏った分布は逆になる。 3. ひげが大変長い場合など平均は箱の外側にあることもある。

3.4

最頻値

定義 3.5 最頻値 (モード) データを度数分布表にまとめたとき、度数が最も大きい階級 の階級値を最頻値またはモードという。 例題 1 の国語の成績に関して言うと、40 点∼60 がもっとも多いので、最頻値は 50 点と なる。 問 9 問 1 で用いた数学のデータに関して最頻値を計算すること。

(16)

babababababababababababababababababababab • 厚生労働省による平成 21 年国民生活基礎調査の概況を見ると平均所得金額 は 549.6 万円となっている。ただし、「500 万円未満」である世帯の割合は 56.6%となっていることを考えると、「平均値」だけで判断するのは疑問が 残る。このことは、2000 万円以上の所得の世帯の中に 1 億円以上の所得が ある世帯が無視できない程含まれていることが理由として考えられる。 • 中央値は 438 万円で、平均所得とは 100 万円以上の差があるが、こちらの方 がより現実的であると考えられている。このように、データの中に極端にと び離れた数値 (外れ値) があると、平均値はその影響を大きく受けるが、中 央値はその影響を受けない。このような場合には代表値として平均値よりも 中央値の方がすぐれていると考えられる。 ただし、中央値はデータの並べかえを行って求めるので、平均値と違って求 めるのに手間がかかるという欠点もある。 • 最頻値も外れ値の影響を受けにくいが、頻度の高い値が複数ある場合には一 つに決めにくいという欠点がある。

4

データの散らばり

4.1

範囲

定義 4.1 (範囲) データの最大値と最小値の差を範囲という。 範囲はデータの散らばりを表す 1 つとして用いられている。 例題 10 例題 1 の国語の成績に関して、範囲を求めよ。 【解答】 B70∼B99 までデータが入っているものとする。 1. A110, A111 に「最大値」、「最小値」と入力する。 2. B110, B111にそれぞれ=MAX(B70:B99), =MIN(B70:B99) と入力する。このとき、 それぞれが第4四分位数、第0四分位数と一致していることが確かめられる。 3. F8に「範囲」と入力し、G8 に=B102-B103 と入力する。

(17)

問 10 問 1 で用いた数学のデータに関して範囲を計算すること。

4.2

偏差

定義 4.2 (偏差) 変量 x がとる N 個の値を x1,· · · , xN として、それらの平均値を ¯x と するとき、 x1− ¯x, x2− ¯x, · · · , xN − ¯x を偏差という。 例題 11 例題 1 の国語の成績に関して、偏差を求めよ。 【解答】 1. C69に「偏差」と書く。 2. 平均値は G4 で計算しているので、C70 には=B70-$G$4 と入力して B70 の偏差を C70に書く。 3. C70を C71∼C99 にコピーすると全ての偏差を求めることができる。 問 11 偏差の平均値 1 N Nk=1 (xk− ¯x) = 0 (10) となることを数学的に確かめよ。 一方で、例題 11 に関しても偏差を Excel 2013 で求めてみる。C100 に=AVERAGE(C70:C99) として式 (10) における偏差の合計がわかるが、式 (10) は ¯xを求める際に誤差が入ってい るため、0 にはなっていないと思われる。しかし、とても小さな値となっていることを確 かめておくこと。

4.3

分散、標準偏差

偏差の平均値は式 (10) においての計算で分かるとおり 0 なので、変量の散らばり具合 を表すことはできない。これに代わって偏差の 2 乗の平均値を考えることが多い。これを 分散と呼ぶ。通常は v や s2 という記号を用いる。

(18)

定義 4.3 (分散) データ x1, x2,· · · , xN の分散 s2を以下のように定義する。 s2 = 1 N Nk=1 (xk− ¯x)2 = 1 N { (x1− ¯x)2+ (x2− ¯x)2+· · · + (xN − ¯x)2 } (11) 定理 4.1 (分散の公式) (11) で定義された x1, x2,· · · , xN の分散 s2 は以下のように変形 される。 s2 = x2− (¯x)2 (12) [証明] 式 (12) は式 (11) を使って以下のように変形される。 s2 = 1 N Nk=1 { x2k− 2xkx + (¯¯ x)2 } = 1 N Nk=1 x2k− 2¯x1 N Nk=1 xk+ (¯x)2 = x2− 2¯x¯x + (¯x)2 = x2− (¯x)2 □ 定義式 (11) を見ると実数の 2 乗の和をとっているので分散はどのようなデータであろう ともマイナスになることはない。 問 12 s2(x) で式で定義された分散 s2 をあらわし、問 5 で与えられたデータ ax1 + b, ax2+ b,· · · , axN + b についての分散を s2(ax + b)とあらわすことにする。 1. 等式 s2(ax + b) = a2s2(x) (13) を示せ。これにより、データをすべて定数だけ平行移動しても分散は変化しない事 を説明せよ。 2. 1002, 1003, 998の分散を求めよ。その際に (13) で a = 1 を適用した場合と (11) ま たは (12) を適用した場合を行え。また、Excel 2013 を用いてそれぞれの計算を確 かめよ。 例題 12 5つの数 1,2,3,4,5 の分散を手計算により (11),(12) の両方の方法で求めよ。ま た、Excel 2013 を用いて同じ計算を行え。 【解答】 手計算では以下のようにする。 • (11) の方法:¯x = 1 5(1 + 2 +· · · + 5) = 15 5 = 3である。よって、(11) により、 s2 = 1 5{(1 − 3) 2 + (2− 3)2+· · · + (5 − 3)2} = 10 5 = 2

(19)

• (12) の方法: s2 = 1 5(1 2+ 22+· · · + 52)− 32 = 55 5 − 9 = 2 Excel 2013 では以下のようにする。Sheet3 を「分散」という名前に変更して、そ こで計算する。 1. A1∼D1 に「変量」「偏差」「偏差の 2 乗」「変量の 2 乗」と入力する。

2. A2∼A6 に 1, · · · , 5 を入力し、A7 に「和」と書いて A8 に=SUM(A2:A6) と入力 する。 3. F1∼F5 に「総数」「平均値」「分散1(定義)」「分散2(公式)」「分散3(関 数)」と入力し、G1, G2 には 5, =A8/G1 と入力し、平均値を求める。 4. B2に=A2-$G$2、C2 に=B2^2、D2 に=A2^2 と入力してそれらを B2 から D6 ま でコピーする。さらに、A8 を B8,C8,D8 にコピーして、それぞれの列の和を 求める。 5. G3には (11) に従って、=C8/G1 と入力する。 6. G4には (12) に従って、=D8/G1-G2^2 と入力する。 7. G5 に は Excel 2013 の 関 数 を 利 用 し て=VARP(A2:A6) と 入 力 す る 。 =VAR(A2:A6)とはしないことに注意すること。 問 13 5つの数 2,3,5,8,12 の分散を手計算により (11),(12) の両方の方法で求め、平均 値が 6, 分散が 13.2 となることを確かめよ。また、Excel 2013 を用いて同じ計算をせよ。

(20)

babababababababababababababababababababab 分散を計算する際に、データが母集団全体をさすときには問題なく (11) を用いて 計算する。ただし、データが 標本であれば注意が必要であり、(11) で計算しない 方が良い場合がある。つまり、不偏分散と呼ばれている u2 := 1 N − 1 Nk=1 (xk− ¯x)2 (14) で計算することもある。標本データの分散を計算する際は、推定の一般論の見地 に立つと数学的にうまくいくのは (11) ではなくむしろ (14) の方であり、こちらで 計算する方が統計学的に見て自然である。高等学校で習うものは (11) のみである が、(14) を使用しないのは混乱を避けるためであろうと思われる。

なお、Excel 2013 では、=VAR(A2:A6) などとすれば (14) が出力される。=VARP に ついての P は母集団を意味する Population の頭文字である。 分散 s2 は変量 (x− ¯x)2 の平均値なので、変量の計測単位が例えば km であれば分散の 単位は km2 となる。変量 x の測定単位と同じ単位をもつ散らばり具合を表す数量として 分散の正の平方根 s を用いることが多くある。この s を標準偏差と言う。 定義 4.4 (標準偏差) データ x1, x2,· · · , xN の標準偏差 s を以下のように定義する。 s = v u u t 1 N Nk=1 (xk− ¯x)2 = v u u t 1 N Nk=1 x2 k− (¯x)2 = √ x2− (¯x)2 (15) 例題 13 例題 1 の国語の成績に関して、(11),(12) の両方の方法ならびに Excel 2013 の関数を用いて分散、標準偏差を求めよ。 【解答】 1. D69, E69に「偏差の2乗」「変量の2乗」とそれぞれ書く。 2. D70, E70に=C70^2, =B70^2 と入力し、それらを D70∼E99 までコピーする。 3. B100に=AVERAGE(B70:B99) と入力し、それを C100, D100, E100 にそれぞれコピー する。

(21)

4. F9, F10, F11 には「分散1/標準偏差1(定義)」、「分散2/標準偏差2(公式)」、 「分散3/標準偏差3(関数)」と入力する。 5. G9には (11) に従って、=D100 とする。 6. G10には (12) に従って、=E100-G4^2 とする。 7. G11には関数を用いて=VARP(B70:B99) とする。 8. H9には=SQRT(G9) として、H10 にそれをコピーする。 9. H11には=STDEVP(B70:B99) として H9, H10 と同じ値となっていることを確かめる。 問 14 例題 13 と同様に、問 1 で用いた数学のデータに関して (11),(12) の両方の方法 ならびに Excel 2013 の関数を用いて分散、標準偏差を求めよ。 babababababababababababababababababababab 一般に、分散 (標準偏差) が小さいほど、(x1− ¯x)2, (x2− ¯x)2,· · · , (xN − ¯x)2 の値 は平均的にみて小さいから x1, x2,· · · , xN は ¯x の近くに集中して分布することが わかる。

4.4

相関係数

2つの変量の相関関係の正負と強弱を 1 つの数値で表すことを考える。例えば、同じ生 徒の表 1 の国語の得点と表 3 の数学の得点を考える。生徒は 30 人であるが、一般的に N 人いるとして、出席番号 k の生徒の国語の得点を xk 数学の得点を yk とすると、全体の 得点は以下のようになる。 (x1, y1), (x2, y2),· · · , (xN, yN) (16) なお、(16) の表記は回帰分析の節でも使用する。 2つの変量 x と y の平均値は、それぞれ ¯ x = 1 N Nk=1 xk, y =¯ 1 N Nk=1 yk (17)

(22)

となり、分散はそれぞれ s2x= 1 N Nk=1 (xk− ¯x)2, s2y = 1 N Nk=1 (yk− ¯y)2 (18) となり、分散に正の平方根をとると標準偏差となるが、それは sx= v u u t 1 N Nk=1 (xk− ¯x)2, sy = v u u t 1 N Nk=1 (yk− ¯y)2 (19) である。さらに、x と y の共分散と言われているものを定義する。 定義 4.5 (共分散) x と y の共分散を以下のように定義する。 sxy = 1 N Nk=1 (xk− ¯x)(yk− ¯y) (20) 問 15 共分散に関して sxy = 1 N ( Nk=1 xkyk− N ¯x¯y ) (21) であることを示せ。 主張 4.1 • 共分散が正のとき、2 つの変量 x と y の間には正の相関関係がある。 • 共分散が負のとき、2 つの変量 x と y の間には負の相関関係がある。 [証明] (20) が正のときには、(xk− ¯x)(yk− ¯y) > 0 となる k が多くなると考えられる。す なわち、xk, yk は同時に大きくなる、あるいは同時に小さくなるという傾向をもつ。 逆に、(20) が負のときには、(xk− ¯x)(yk− ¯y) < 0 となる k が多くなると考えられる。 すなわち、xk, yk は片方が大きくなるともう一方は小さくなるという傾向をもつ。□ 相関関係の強弱をより定量的にみるために、正規化した次の量を考える。 定義 4.6 (相関係数) 数列 {xk}Nk=1,{yk}Nk=1について相関係数を rxyと書いて以下のよう に定義する。また、r と簡易的に書くこともある。 r = rxy = sxy sxsy = 1 N Nk=1 (xk− ¯x)(yk− ¯y) v u u t 1 N Nk=1 (xk− ¯x)2 v u u t 1 N Nk=1 (yk− ¯y)2

(23)

= Nk=1 (xk− ¯x)(yk− ¯y) v u u t∑N k=1 (xk− ¯x)2 v u u t∑N k=1 (yk− ¯y)2 (22) 定理 4.2 (22) で定義された相関係数 r について、一般的に−1 ≦ r ≦ 1 である。 例題 14 下の表は 10 本の同じ種類の木の太さ x cm と高さ y m を図った結果であ る。x と y の散布図を書いた後に x と y の相関係数を求めよ。 表 6:木の太さと高さ 木の番号 1 2 3 4 5 6 7 8 9 10 木の太さ (cm) 20 22 18 21 20 16 24 15 18 20 木の高さ (m) 15 17 15 14 17 12 20 10 14 15 手計算で計算した後に Excel 2013 でも求めること。 【解答】 散布図を書いてみると x と y は強い正の相関があると予想される。 x, y の平均値は ¯ x = 194 10 = 19.4, y =¯ 149 10 = 14.9 となり、2 乗の和と積和は以下のようになる。 10 ∑ k=1 (xk− ¯x)2 = 0.36 + 6.76 +· · · + 0.36 = 66.40, 10 ∑ k=1 (yk− ¯y)2 = 0.01 + 4.41 +· · · + 0.01 = 68.90 10 ∑ k=1 (xk− ¯x)(yk− ¯y) = 0.06 + 5.46 + · · · + 0.06 = 61.40 よって、相関係数 r は r = 61.4 66.4× 68.9 ≒ 0.907 である。したがって、r は 1 に近く、木の太さと高さは強い正の相関があるといっても よい。

(24)

次に Excel 2013 で上記の事を確かめる。 1. 新しいシートにうつって、シートの名前を「相関係数」と変更する。 2. A1∼G1 にそれぞれ、「木の太さx」「木の高さy」「xの偏差」「yの偏差」「(xの 偏差)^2」「(yの偏差)^2」「偏差積」と入力する。 3. A2∼A11 と B2∼B11 に木の太さ、木の高さのデータを入力する。 4. A15∼A20 に「xの平均値」「yの平均値」「xの分散」「yの分散」「共分散」「相 関係数」と入力する。 5. B15, B16にはそれぞれ=SUM(A2:A11)/10, =SUM(B2:B11)/10 と入力して平均値を 求める。 6. C2には=A2-$B$15 としてそれを C3 から C11 までコピーして偏差を求める。 7. D2には=B2-$B$16 としてそれを D3 から D11 までコピーして偏差を求める。 8. E2には=C2^2 としてそれを E3 から E11 までコピーして偏差の 2 乗を求める。 9. F2には=D2^2 としてそれを F3 から F11 までコピーして偏差の 2 乗を求める。 10. G2には=C2*D2 としてそれを G3 から G11 までコピーして偏差積を求める。 11. C12には=SUM(C2:C11) として合計を計算してそれを D12∼G12 に横にコピーする。 12. B17, B18には=E12/10, =F12/10 として分散の定義どおり求める。 13. B19にも=G12/10 として共分散の定義どおり求める。 14. B20には=G12/SQRT(E12*F12) として相関係数の定義どおり求める。

15. A22, A23, A24には、それぞれ「関数から」「共分散」「相関係数」として B23, B24 にはそれぞれ=COVAR(A2:A11,B2:B11) =CORREL(A2:A11,B2:B11) と入力して、こ れらが B19, B20 と同じであることを確かめること。

問 16 例題 1 の表 1 であらわれた国語の得点と問 1 の表 3 であらわれた数学の得点の 共分散と相関係数を求めよ。

(25)

4.5

回帰分析

2種類の変量を同時に観測し、N 個のデータ (16) が得られたとする。前節で相関係数 に関して議論したが、国語の得点と数学の得点や車の右のタイヤの摩耗度と左のタイヤの 摩耗度などのように x と y のデータの関係 (相関) に関して調べるためのものである。 ここでは回帰に関して説明する。例えば、年齢のデータと血圧のデータを考えてみる。 年齢のデータを x と考えるが、基本的には誤差なく観測可能である。血圧のデータを y とするが、y の x への従属性、依存性を調べたいときに回帰分析が用いられる。y = f (x) となるような f をデータから求めることを目標とする。具体的には、{εi} を誤差として yi = f (xi) + εi, (i = 1, 2,· · · , N) と考える。一般的に f (x) をデータから求めるのは難しいので、最も扱い易い場合を考え る。つまり、f (x) が β0, β1 を定数として f (x) = β0+ β1xのような直線であることを仮定 する。その際に、最小 2 乗法を用いる。これは「直線を与えられた点との距離の 2 乗の和 を最小にするように定める」ということである。つまり、 l(β0, β1) = Nk=1 {yk− (β0+ β1xk)}2 とおいて、 l(b0, b1) = min β01 l(β0, β1) を達成する b0 = β0, b1 = β1 を考える。 f (x) = b0+ b1x (23) を線形単回帰における回帰直線と言う。 定理 4.3 データ (16) について、以下を仮定する。 s2x > 0. (24) このときの線形単回帰における回帰直線 (23) の係数 b0, b1 は以下のとおり: b1 = sxy s2 x , b0 = ¯y− b1x = ¯¯ y− sxy s2 x ¯ x. (25) ただし、s2xは分散 (18)、sxy は共分散 (20)、¯x, ¯yは平均値 (17) である。

(26)

例題 15 例題 14 について x と y の線形単回帰における回帰直線を求めよ。 手計算で計算した後に Excel 2013 でも求めること。さらに、散布図と回帰直線を図 示せよ。 【解答】 (25)により b1 = sxy s2 x = 61.4 66.4 ≒ 0.925, b0 = ¯y− sxy s2 x ¯ x = 14.9− b1· 19.4 ≒ −3.039. 次に Excel 2013 で上記の事を確かめる。 1. シート「相関係数」にうつって、シートの名前を「相関係数、回帰」と変更する。 2. D15∼D17 にそれぞれ、「回帰直線の係数」「b1(傾き)」「b0(切片)」と入力する。 3. E16, E17にはそれぞれ=B19/B17, =B16-E16*B15 と入力する (小数点 2 桁まで表示

するように書式を設定する)。

4. D22, D23, D24には、それぞれ「関数から」「b1(傾き)」「b0(切片)」として E23, E24にはそれぞれ=SLOPE(B2:B11,A2:A11) =INTERCEPT(B2:B11,A2:A11) と入力 して、これらが E19, E20 と同じであることを確かめること (小数点 2 桁まで表示 するように書式を設定する)。 5. 散布図を書くには以下のようにする。A1∼B11 をドラッグして [挿入] → [散布図] を 選択する (散布図の種類を選ぶことができるが左上の単純なものを選ぶ)。 6. データの分布がグラフの右端に偏っているのでそれを変更する。グラフの横軸をク リックした後に、右クリックして「軸の書式設定」を選び、「0.0」になっている「最 小値」を「10.0」にする。グラフが中央に寄った後に「軸の書式設定」のメニュー を閉じる。 7. グラフの右上隅にある「グラフ要素」(緑の十字のアイコン。現れなければグラフ エリアをクリックする) をクリックする。グラフ要素の最も下の項目が「近似曲線」 なのでそれを選択する。 8. 最後に [近似曲線] → [その他のオプション...] を選ぶと [近似曲線の書式設定] があ らわれるので、[グラフに数式を表示する] にチェックを入れると回帰直線がグラフ 内に表示される。

(27)

参考文献

[1] 何森仁, 『数学 I』の四分位数と箱ひげ図に悩む, 数学セミナー 2013 年 1 月号, 日本評 論社 [2] 前園, 概説確率統計, 第 2 版, サイエンス社 [3] 中田, 内藤, 確率・統計, 学術図書, 2017. [4] 大島利雄ほか 13 名, 数学 I, 数研出版, 平成 24 年発行 [5] 文部科学省, 中学校学習指導要領解説, 数学編, 平成 20 年 9 月.

参照

関連したドキュメント

[r]

(1) 会社更生法(平成 14 年法律第 154 号)に基づき更生手続開始の申立がなされている者又は 民事再生法(平成 11 年法律第

72 Officeシリーズ Excel 2016 Learning(入門編) Excel の基本操作を覚える  ・Excel 2016 の最新機能を理解する  ・ブックの保存方法を習得する 73

こうした状況を踏まえ、厚生労働省は、今後利用の増大が見込まれる配食の選択・活用を通じて、地域高

平成 28 年 7 月 4

一方、区の空き家率をみると、平成 15 年の調査では 12.6%(全国 12.2%)と 全国をやや上回っていましたが、平成 20 年は 10.3%(全国 13.1%) 、平成

非正社員の正社員化については、 いずれの就業形態でも 「考えていない」 とする事業所が最も多い。 一 方、 「契約社員」

育児・介護休業等による正社