• 検索結果がありません。

3 3.1 * *2 2

N/A
N/A
Protected

Academic year: 2021

シェア "3 3.1 * *2 2"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

データのプロットと要約について

第1回

Armitage

勉強会

土居正明

1

はじめに

本稿では、以下の例題を用いてデータのプロットとその要約について考えていきたいと思います。「問題をどのように解 くか」にはそれほど重点を置いていませんので、その点ご注意ください。

2

「例題1」

以下のデータは、各群11個で、平均10・標準偏差3.32*1である。このとき、以下の問いに答えよ。 第1群 第2群 第3群 第4群 第5群 第6群 9 5 5.757 3.3667 7.5 1 9 6 5.757 7 7.5 7.5 9 7 7 9 7.5 10 9 8 7 9 9 10 9 9 9 10 9 11 9 10 10 10 9 11 9 11 11 10 9 11 9 12 13 11 10 11 9 13 13 11 10 12.5 9 14 14.243 13 12.5 12.5 20 15 14.243 16.6333 19 12.5 (i) 第1群から第6群までを、歪度の小さい順に並べよ。 (ii) 第1群から第6群までを、尖度の小さい順に並べよ。 *1小数第3位四捨五入。

(2)

3

例題1の解説

3.1

データのプロット

各群のデータのプロットは以下の通りになります。各プロットの横軸はそろえてありますが、縦軸はバラバラです*2 図1 第1群のプロット 2 第2群のプロット 図3 第3群のプロット 4 第4群のプロット 図5 第5群のプロット 6 第6群のプロット *2縦軸もそろえると、図1の影響でそれ以外が全て小さくて見にくくなってしまいます。

(3)

最も注意しておいていただきたい点は、この6つのデータは全て平均・標準偏差が等しいということです。つまり、 平均・標準偏差が同じでもこれだけ色々な分布がありうる のです。そのため、「データの分布が知りたいときには、とりあ えず平均・標準偏差を求めるのではなく、まずプロットしてみるのが重要」ということがわかります。

3.2

要約統計量の計算と各群の傾向

とはいえ、プロットを見ているだけでは定量的なことは言えません。そこで次に「要約統計量」を考えて、これらの分布 の特徴を数値で捉えていくことにします。明らかに平均と標準偏差だけを示しても、この6つの分布は区別できません*3 したがって、それ以外の指標も考えてやりましょう。ここでは、「歪度(skewness)」「尖度(kurtosis)」「最大値」「75%点 (Q3)」「中央値(median)」「25%点(Q1)」「最小値」を求めていきます*4*5 表1 例題1のデータの要約統計量 例数 平均 標準偏差 歪度 尖度 最大値 75%点 中央値 25%点 最小値 第1群 11 10.00 3.32 3.32 11.00 20.0 9.00 9.00 9.00 9.0 第2群 11 10.00 3.32 0.00 −1.20 15.0 13.00 10.00 7.00 5.0 第3群 11 10.00 3.32 0.00 −1.71 14.2 13.00 10.00 7.00 5.8 第4群 11 10.00 3.32 0.00 1.95 16.6 11.00 10.00 9.00 3.4 第5群 11 10.00 3.32 2.32 6.02 19.0 10.00 9.00 7.50 7.5 第6群 11 10.00 3.32 −2.32 6.02 12.5 12.50 11.00 10.00 1.0 以下、表1 を見て図1∼図6の特徴がどのように数値化されているかを見ていきます。最初はデータも図も忘れて統計量 と下の文章だけを読んで、そのあとに図を見て、図の特徴がきちんと統計量に表れていることを確認してください。 (第1群) 第1群はとても特徴的です。まず、75%点から最小値までが全て同じ値です。これは相当な「データの偏り」を示して います。それから、尖度がとても大きくなっています。この2点からプロットは相当尖っている(さらに外れ値を含む)こ とが想像できます*6。また、歪度も正の大きな値をとっていますので、外れ値は正の方向にありそうなことまで分かります。 (第2群) 第2群は逆に大変規則的です。まず歪度が0であり、平均値と中央値が等しいことから左右対称性がうかがえます。さら に、最大値と75%点の距離が2で、これは最小値と25%点の距離に等しくなっています。また、75%点と中央値の距 離と中央値と25%点の距離も共に3で等しくなっています。さらに、尖度は0より少し小さく、どちらかというと尖って いないようなことが想像されます*7 (第3群) 第3群は、第2群と左右対称性などの点でほとんど同じ特徴がありますが、尖度がやや第2群より小さいです。これより、 「第2群と比較的似ているけれど、第2群よりさらに尖り方が少ない」ということが想像されます。 (第4群) 第4群も左右対称性などが第2群と第3群とよく似ていますが、今度は尖度が正で値がやや大きくなっています。これよ り、「第2群・第3群と似ているけれど、第2群よりもだいぶ尖っている」様子が伺えます。 (第5群) では第5群です。最小値と25%点が等しく、25%点から中央値まで1.5です。一方で、最大値と75%点は9離れて おり、75%点から中央値までは1となっています。さらに、中央値は平均値より小さいですので、平均値より小さい方向 にデータが密集しており、正の方向に外れているような気がします。また、歪度が2.32と正でやや大きいことからも、正の *3つまり、平均と標準偏差だけでは適切な「要約」になっていないことになります。 *4桁数は、簡単のため最大・最小は小数第1位まで、それ以外は小数第2位までとします。 *5計算は SAS ver9.13 の proc means で行っています。

*6尖度の解釈は実は結構大変ですので、後ほど「4尖度に関する注意」でご説明します。 *7引き続き、尖度の解釈は難しいことを注意しておきます。

(4)

方向に外れ値がありそうな様子が分かります。尖度は6.02と、第1群まではいかないものの大きいので、結構尖っている ようです。 (第6群) 最後に第6群です。第5群とは逆で、最大値と75%点が等しく、75%点から中央値まで1.5です。一方で、最小値と 25%点は9離れており、25%点から中央値までは1となっています。さらに中央値は平均値より大きいですので、平均 値より大きい方にデータが密集しており、小さいほうに外れ値があるような気がします。尖度は第5群と同じく6.02と大き いですので、尖っているようですし、歪度は−2.32と負でやや大きいですので、外れ値は負の方向にあるものと思われます。

3.3

「例題1」の解き方

3.3.1 準備 さて、今までは「計算やプロットはソフトにやってもらって、出てきた結果を解釈する」という立場で見てきました。せっ かくですので、「例題1」に出会ったときに「どう考えて解けばよいか」についても触れておきましょう*8 まず、尖度・歪度の定義は後ほど「4.2 尖度・歪度の定義」で述べますが、今平均10、標準偏差3.32より、第i群のj番 目のデータをxijとおくと (第i群の歪度)=3.3213 1 11 11 P j=1 (xij− 10)3 (第i群の尖度)=3.3214 1 11 11 P j=1 (xij− 10)4− 3 となります。これより、問題を解くために「データから平均10を引いた値」が分かっていると便利だと思われます。 従って、準備していただきたいものは2つで、 (a)最初に示したプロット6つ (b)データから平均値10を引いたもの です。プロットは先に示したものを見ていただくとして、(b)を計算しましょう。結果はこうなります。 表2 データから平均10を引いたもの(xij− 10) 第1群 第2群 第3群 第4群 第5群 第6群 −1 −5 −4.243 −6.6333 −2.5 −9 −1 −4 −4.243 −3 −2.5 −2.5 −1 −3 −3 −1 −2.5 0 −1 −2 −3 −1 −1 0 −1 −1 −1 0 −1 1 −1 0 0 0 −1 1 −1 1 1 0 −1 1 −1 2 3 1 0 1 −1 3 3 1 0 2.5 −1 4 4.243 3 2.5 2.5 10 5 4.243 6.6333 9 2.5 上の尖度と歪度の式を見ていただくと分かります通り、「データ数が同じ」「標準偏差は全群で等しい」ですので、どの群 の尖度・歪度が大きいか比較する際には分母の3.323や3.324や11や、尖度の−3は無視してかまわない、ということにな ります。従って、上の表2 のデータを3乗したもの¡P(xij− ¯x)3 ¢ 同士を比較すれば歪度の比較ができ、4乗したもの *8ただし、ここの解説については以下の「4 尖度に関する注意」の内容を利用します。事前にそちらを読まれてからのほうが、理解が深まると思いま す。

(5)

¡P (xij− ¯x)4 ¢ 同士を比較すれば尖度の比較ができる、ということがわかります。  以下で歪度と尖度の比較をしていきますが、ポイントは2点で ・グラフで大体目星をつける ・計算はできるだけ概算で済ませる です。 3.3.2 歪度の比較 では(i)歪度の比較に入りましょう。まず第一に「プロットが左右対称の場合、歪度は0」であるということに注目します。 これに当てはまりそうなのは図より「第2群」「第3群」「第4群」の3つです。表2を見ても、この3つの群は表の下半分の 値にマイナスをつけて折り返したら上半分と同じになりますので、左右対称です。したがって、この3群については歪度は0 であることが分かります。 次に、左右非対称な場合です。図より「第1群」「第5群」は正の方向にすそを引いています。一方、「第6群」は負の方 向にすそを引いています。歪度 は「右にすそを引くと正、左にすそを引くと負」ということが大体成り立ちますので、「第 6群」の歪度が負で最も値が小さくなるものと想像されます*9 さて、最後に正の方向にすそを引く「第1群」と「第5群」の比較です。まず「第1群」は簡単ですのできちんと3乗の 和を計算しますと、103+ (−1)3· 10 = 990です。一方、「第5群」は93= 728以下*10です。従って、「第5群」<「第1 群」であることが分かりました。以上をまとめますと(i)の答えは 「第6群」<「第2群」=「第3群」=「第4群」(= 0) <「第5群」<「第1群」 となります。 3.3.3 尖度の比較 次は(ii)尖度の比較です。尖度について、まず表2 から気がついていただきたいことがあります。それは、「第5群」の 値にマイナスをつけたら「第6群」になる、ということです。これがどう効いてくるのかと言いますと「4乗して足したら 同じ値」になる、つまり「第5群」と「第6群」の尖度は等しいということです。 さて、今回は標準偏差が等しいですので*11、プロットの尖り具合が大きい方が尖度が大きくなる傾向にあります*12。従っ て、まず最も極端な「第1群」の尖度が最も大きくなるでしょう。 次に、「第2群」を基準にしますと、「第3群」の尖度が小さく、それ以外は「第2群」よりも尖度が大きくなりそうで す*13。では残りの「第4群」と「第5群」(=「第6群」)の比較となります*14「第4群」で最も大きな値は6.6333です が、これを計算すると大変なので大きく見積もって7にする方が計算が楽でしょう。74 = 2, 401です。これが2つあり ますので、大体「第4群」は2· 744, 800と考えておきましょう*15。次に「第5群」の方ですが、最大値は9ですので 94= 6, 501となり、大体の計算で「第4群」<「第5群」(=「第6群」)であることが分かりました*16。以上より、 「第3群」<「第2群」<「第4群」<「第5群」=「第6群」<「第1群」 となります。ここで、尖度(尖り具合)の計算なのに、尖っている部分(平均値の近く)の値は計算せず、主に外れ値に注 目して計算したことは覚えておいてください。 *9この点について、少し雑な計算を示しますと (−9)3=−728 であり、2.53= 15.625 より、2.53が束になっても (−9)3の影響は打ち消せないこ とが分かります。 *109 以外は、「+ 2.5」4 つと「−2.5」4 つ、「−1」4 つですので、計算しなくても「3 乗して足し算したら負」になることは分かります。 *11後ほど述べますがこれは大変重要な注意点です。 *12後ほど述べますが、むしろ「外れ値が大きく外れている」=「尖度が大きい」という捉え方の方が、計算の際に本質的になります。 *13これで納得できる方はそれで結構です。納得できない方はきちんと 4 乗の計算をしないと仕方ありません。しかし、「第2群」「第3群」ともに左右 対称なので、正の方だけ計算して比較すれば十分です。正しい値が欲しければそれを 2 倍してください。 *14外れ値の外れ具合から「第4群」<「第5群」であることが予想されますので、それを確かめる方向で概算していきましょう。 *15ついでに、34= 81 < 100 くらいの概算はしておいてもよいでしょう。 *166.6333 を 7 にして計算すると「第4群」と「第5群」の違いはそれほど大きくありませんが、6.74· 2 ≒ 4, 000 の方で評価するともう少し違いが はっきりすると思います。

(6)

3.4

まとめとおまけ

3.4.1 「第1群」∼「第6群」の素性 では最後に、「第1群」∼「第5群」は一体どういうデータか、ということを示してまとめとしたいと思います。 第1群:ほぼ1ヶ所に密集+外れ値1点 第2群:一様分布 第3群:二峰性の分布*17 第4群:正規分布っぽい分布*18 第5群:対数正規分布っぽい分布(正の方向へすそを引く) 第6群:対数正規分布っぽい分布(負の方向へすそを引く) です。 3.4.2 おまけ おまけとして、箱ひげ図も載せておきましょう。 図7 箱ひげ図 *17本当はもう少し「二峰性」っぽくしたかったのですが、データ数が少なすぎて「間のへこんだ一様分布」みたいになってしまいました。 *18後ほど述べますが、「正規分布っぽいのに尖度が 0 でなくて 1.95 もある」のは、データが少なくて、端の2点が「外れ値」っぽくなっているからだ と思われます。

(7)

4

尖度に関する注意

「グラフが尖っているとき尖度が大きい」という風に言われることがあります。これを踏まえて、以下の問題を考えてみ てください。

4.1

例題2

「例題2」 以下の2つのプロットのうち、尖度が大きいのはどちらか(直感で)答えよ。なお、縦軸・横軸は2つともそろえてある。 図8 プロット1 9 プロット2

(8)

「解答」 両プロットの尖度は以下のようになっています。 表3 例題2のデータの尖度 N 平均 標準偏差 尖度 プロット1:N (0, 1) 10,000 0.00 1.00 0.11 プロット2:N (0,19) 10.000 0.00 0.33 -0.05 実は、先の図は「プロット1」がN (0, 1)から、「プロット2」がN (0,19)からそれぞれ1万個ずつの乱数を発生させて、 それをプロットしたものです。ご覧のとおり、見た目では「プロット2」の方が明らかに尖っているのに、尖度はむしろ (少し)小さくなっています。これはどうしたことなのでしょうか? それを知るためには、尖度の定義を見ていくことが必要になります。せっかくですので歪度もついでに見ておきましょう。

4.2

尖度・歪度の定義

尖度と歪度の定義は以下のようになります。f (x)を確率密度関数とし、その分布の平均をµ、標準偏差をσとするとき、 尖度・歪度の 真の値 は (尖度) = 1 σ4 Z −∞ (x− µ)4f (x)dx− 3 (歪度) = 1 σ3 Z −∞ (x− µ)3f (x)dx となります*19。しかし、これは確率密度関数が分かっていないと計算できません。そこで、実データから計算(推定)する ときは、データをx1,· · · , xnとし、標本平均をx =¯ 1n n P i=1 xi, 標本標準偏差をbσ = s 1 n−1 n P i=1 (xi− ¯x)2とおいたとき、 (尖度) = 1 4 1 n n X i=1 (xi− ¯x)4− 3 (歪度) = 1 3 1 n n X i=1 (xi− ¯x)3 とします*20

4.3

尖度・歪度の性質

さて、上の積分を計算していただくと分かるのですが、正規分布において尖度・歪度の真の値は常に0となります。これ は、正規分布の平均・分散がいくつであってもなりたつ性質です*21 実は、これが「例題2」の本質です。「正規分布」と一口に言っても、尖ったものから平べったいものまでたくさんあり ます。ですけれど、その どの正規分布に対しても尖度は0なわけですから、「『尖っている方が尖度が大きい』という言い 方は 一般的には 間違い」です。では、この言い方は「完全に間違っている」のでしょうか? *19尖度で 3 を引くのは、正規分布で 0 になるようにするためです。なお、3 を引かないで定義して「正規分布の尖度は 3」と書いてある本などもあり ます。 *20実際にソフトで計算する場合は、これらに対してある種の補正を行ったもの「尖度」「歪度」と呼んでいる場合が多いはずです。この式に「例題1」 のデータを当てはめた場合、上に示した出力と一致しない可能性があります。 *21といいますか、この性質があるからこそ、尖度や歪度を用いて「(平均や分散の値によらず)データが正規分布っぽいかどうか」の判断が可能にな るわけです。

(9)

 実はそうではありません。実は、データを適切に変換してやれば「尖っている方が尖度が大きい」という言い方がそこそこ 妥当 になるのです。では、その「適切な変換」とは何でしょうか? それはデータxに対する z = x− µ σ という変換で、標準化と呼ばれます*22。これはどういう変換かといいますと、一言で言うと「正規分布N (µ, σ2)を標準正 規分布N (0, 1)に変える変換」です。つまりこの変換をしてやると、正規分布はN (0, 1)1つになるわけです。上の「例題 2」の問題点は、「正規分布の中にも尖ったものと平べったいものの両方があり、その両方が尖度0」だったわけなのです が、標準化によって「正規分布は尖度0」といったときに、正規分布としてN (0, 1)だけを思い浮かべればよくなります。 別の表現をすれば、「分散(または標準偏差)が等しいのなら、尖度が大きい方が尖っている」という言い方もできます。

4.4

尖度・歪度の性質(つづき)

4.4.1 尖度 実は、式をよく見ていただくと分かるのですが、尖度の式には(xi− ¯x)4という風に4乗の計算が入っています。これよ り、平均値x¯から遠ざかれば遠ざかるほどこの値は大きくなります*23。したがって、この値を大きくするには、標準偏差一 定の状況では「平均から離れた値(≒外れ値)がある方が尖度は大きい」ということになります。実は、「尖度が大きい」と いうときは、尖っていることよりも平均から遠いところのデータがあることの方が本質的なのです。  では、これと尖っていることとどのような関係があるのでしょうか? 外れ値が1つ入ると、それだけでばらつきが大きく なるのが普通です。逆から見ると、標準偏差が同じで「外れ値が入っているデータ」と「入っていないデータ」を比べると、 「外れ値が入っているデータ」の方が「外れ値以外のデータは密集している」ことになります。実はこれがプロットの「尖り 具合」を生み出しているのです*24。問題1の「第1群」のデータで尖度が11.00と大きいのは、9のところにデータが密集 しているからではなくて、遠く離れた20の影響なのです。 「第5群」にも19のところに外れ値がありますが、こちらの尖度は6.02と「第1群」の半分強にしかなりません。こ れは、尖度の計算中で「4乗」もしているので、19と20の違い(平均10からの距離9と10の違い)が94 = 6, 561 104= 10, 000の、ほぼ倍の違いとなって表れるからなのです。 最後に、「例題2」の「プロット2」の各データを標準化して、ばらつきを「プロット1」とそろえてやった場合を考え てみましょう*25 図10 プロット1N (0, 1) 11 プロット2N (0,1 9)のデータを標準化したもの *22各データに対して計算するときは zi= xi−¯x b σ です。この変換の本質は、データのばらつきをそろえてやっていることです。本質的には平均値を引 く必要すらなく、標準偏差で割ってやりさえすれば十分です。変換後の標準偏差はデータに関わらず常に 1 となる、という点が最も重要です。 *23たとえば 2 の 4 乗は 16 ですが、5 の 4 乗は 625 です。 *24ですので、「プロット2」のように、外れ値がなくて全てのデータが密集して尖っていても、それを近似できる正規分布があれば尖度はあまり大き くはなりません。 *25「プロット1」はもともと標準偏差 1 ですので変換する必要がありません。

(10)

となり、大体同じくらいの尖り具合、あえて言うならこころもち「プロット2の標準化」の方が平べったい気がしなくも ありません。 4.4.2 歪度 次に歪度について見ていきます。尖度の計算は「4乗」なので、たとえば「10の4乗は(−10)の4乗と等しい」ように、 平均から大きい方向にずれているのか小さい方向にずれているのかがわかりません。 一方で、歪度の方は「3乗」ですので、たとえば「第5群」の外れ値19は平均10に対して(19−10)3= 287と正の数になるの に対して、「第6群」の外れ値1は(1−10)3=−287となり、外れ値が正の方向にあるのか負の方向にあるのかまで示してくれ ます。

(11)

5

中央値・25%点・75%点の求め方

次に、中央値・25%点・75%点の求め方について見ていきましょう。実は、25%点・75%点の求め方は、ソフトご とに異なる場合があります。そこで、SAS・R・Excelの3ソフトの計算方法を見ていくことにしましょう。データは、以 下のものを用います。 表4 データ 第1群 4 第2群 4 5 第3群 4 5 6 第4群 4 5 6 7 第5群 4 5 6 7 8 第6群 4 5 6 7 8 9 第7群 4 5 6 7 8 9 10 第8群 4 5 6 7 8 9 10 11

このデータに対して、25%点・中央値・75%点をそれぞれ計算していきます。なお、SASはver 9.13の”proc means” で、Rはver 2.12.1のquantile関数で、Excelは2003のquartile関数でそれぞれ計算しました*26

*26(2011 年 3 月修正) 修正前の版では R は fivenum 関数を用いていましたが、fivenum 関数で求まるのは25%点・75%点ではなく上側ヒンジ・

(12)

5.1

各ソフトの計算結果

表5 SASの25%点・中央値・75%点 25%点 中央値 75%点 第1群 4 4 4 第2群 4 4.5 5 第3群 4 5 6 第4群 4.5 5.5 6.5 第5群 5 6 7 第6群 5 6.5 8 第7群 5 7 9 第8群 5.5 7.5 9.5 表6 Rの25%点・中央値・75%点 25%点 中央値 75%点 第1群 4 4 4 第2群 4.25 4.5 4.75 第3群 4.5 5 5.5 第4群 4.75 5.5 6.25 第5群 5 6 7 第6群 5.25 6.5 7.75 第7群 5.5 7 8.5 第8群 5.75 7.5 9.25 表7 Excelの25%点・中央値・75%点 25%点 中央値 75%点 第1群 4 4 4 第2群 4.25 4.5 4.75 第3群 4.5 5 5.5 第4群 4.75 5.5 6.25 第5群 5 6 7 第6群 5.25 6.5 7.75 第7群 5.5 7 8.5 第8群 5.75 7.5 9.25 以上から、RとExcelが一致して、SASが異なる ようです。以下、この計算方法を見ていきましょう。

5.2

各ソフトの計算方法

では次に、上の3つのソフトがどのようなロジックで計算していっているかを見ていきましょう。まず中央値ですが、こ れは 全ソフトで同じ値 になります。つまり、 ・データが奇数個:真ん中の値 ・データが偶数個:真ん中はないので、真ん中に近い2つを足して2で割る*27 です。ところが、25%点や75%点には複数の考え方があるようです。それを以下見ていきましょう。 5.2.1 SAS まずSASです。SASの特徴は「可能な限りデータの値を25%点・75%点にする」です*28。考えるときのコツは「デー タの数を4で割った余りに注目する」ことです*29。基本的な考え方は、25%点は中央値より小さいデータの真ん中、75 %点は中央値より大きいデータの真ん中ということです。 *27つまり、たとえば「第6群」の場合、4, 5, 6| 7, 8, 9 ですので、(6+7)/2=6.5 が中央値となります。 *28つまり「足して 2 で割る」などをしたくない、ということです。 *29今回のデータは「第1群:データ1個」「第2群:データ2個」のように個数と群の番号を対応させています。

(13)

(i) 4で割って3余るとき*30 これが最も簡単です。たとえば第7群で見てみますと、 4, 5, 6, 7|{z} 中央値 , 8, 9, 10 です。そこで、中央値を除くと左右ともに奇数個なので「真ん中」があります。つまり、7より小さい方の真ん中5が25 %点であり、大きい方の真ん中9が75%点となります。 (ii) 4で割って2余るとき*31 次に簡単なのが4で割って2余るときです。たとえば「第6群」を見てみますと、 4, 5, 6| 7, 8, 9 となり、中央値は6.5ですが、左右が奇数個になるのは(i)と同じです。従って、それぞれの真ん中をとれば5が25%点、 8が75%点となります。 (iii) 4で割り切れるとき*32 さて、「可能な限りデータの値を利用する」という観点からは最も手の施しようがないのが4で割り切れるときです。「第 8群」で見てみますと 4, 5, 6, 7| 8, 9, 10, 11 より、中央値より大きい方も小さい方も偶数個ずつですので、25%点も75%点も2で割らないといけません。仕方ない ですが、それぞれ (25%点)=5 + 6 2 = 5.5, (75%点)= 9 + 10 2 = 9.5 となります。 (iv) 4で割って1余るとき*33 最も努力しているのが4で割って1余るときです。第5群で見ていきましょう。奇数個ですので、中央値は真ん中 4, 5, 6|{z} 中央値 , 7, 8 です。このとき、中央値「より大きい方」「より小さい方」に分けると、それぞれ偶数個ずつで足して2で割らないと求まら なくなります。そこで この場合だけ「中央値以上」「中央値以下」という分け方をしてやる のです。つまり、中央値を2 回書きますと 4, 5, 6 | {z } 中央値以下 | 6, 7, 8| {z } 中央値以上 となり、これなら奇数ですので「真ん中」を考えることが可能になります。したがって、5が25%点、7が75%点とな ります。 *30(4n + 3) と書けますので、中央値 1 つ除くと、中央値より小さい方と大きい方が (2n + 1) 個ずつで奇数なので、それぞれ「真ん中」があります。 *31(4n + 2) 個と書け、偶数ですので中央値は「足して2で割る」ようになりますが、中央値より大きい方と小さい方は (i) と同じく (2n + 1) 個ずつ ですので、同様な計算ができます。 *32(4n) 個と書け、偶数なので中央値は足して 2 で割らないといけません。中央値より大きい方も小さい方も 2n 個で偶数なので、25%点も75 %点ももう1回2で割らないといけません。 *33(4n + 1) 個と書け、奇数なので真ん中が中央値になるのですが、中央値「より大きい」「より小さい」はそれぞれ (2n) 個となります。

(14)

5.2.2 R・Excel

RとExcelでは、SASのような場合分けは必要ありません。SASではデータが「何番目か」を考えましたが、RとExcel ではむしろ「データとデータの間」に注目します。たとえば第4群で考えますと、データは4, 5, 6, 7より間は4− 1 = 3 個となります。この「間」に対して「隣のデータとの間の距離を1」とします。つまり、4と6では、間が2つありますので 「距離2」と考えるのです*34。そして、この距離を用いて25%・75%を考えます。すなわち最小値からの距離はそれぞれ (25%点)= 3×0.25 = 0.75, (75%点)= 3×0.75 = 2.25 となります。そこで 25%点(最小値からの距離が0.75)を「1番目と2番目を0.75 : 0.25 (= 3 : 1)に内分する点」とし、 75%点(最小値からの距離が2.25)を「3番目と4番目を0.25 : 0.75 (= 1 : 3)に内分する点」とします。このとき、 (25%点)= 4· 1 + 5 · 3 1 + 3 = 4.75, (75%点)= 6· 3 + 7 · 1 3 + 1 = 6.25 となります。

5.3

演習問題

(i)データを小さい順にa1, a2, a3,· · · とおく。データの数がそれぞれ4n個、(4n + 1)個、(4n + 2)個、(4n + 3)個のと きのそれぞれについて25%点・75%点のそれぞれをai(i = 1, 2, 3,· · · )を用いて表せ。それが正しいことを上の例で確 認せよ。 (ii)尖度や歪度についても、同様にこれらのソフトで「どのような値になるか?」を調べよ。結果が異なっている場合は「ど ういう計算方法か?」を考えよ。 *34この「距離」は値「6− 4」ではなくて「3 番目−1 番目」です。%点は順位に基づいた統計量ですので、値よりも順位を優先します。

参照

関連したドキュメント

第1董 緒  言 第2章 調査方法 第3章 調査成績

第2章 検査材料及方法 第3童 橡査成績及考按  第1節 出現年齢  第2節 出現頻度  第3節 年齢及性別頻度

 第1節 灸  第1項 膣  重  第2項 赤血球歎  第3項 血色素量  第4項色素指激  第5項 白血球数  第6項 血液比重  第7項血液粘稠度

12―1 法第 12 条において準用する定率法第 20 条の 3 及び令第 37 条において 準用する定率法施行令第 61 条の 2 の規定の適用については、定率法基本通達 20 の 3―1、20 の 3―2

画像 ノッチ ノッチ間隔 推定値 1 1〜2 約15cm. 1〜2 約15cm 2〜3 約15cm

区部台地部の代表地点として練馬区練馬第1観測井における地盤変動の概 念図を図 3-2-2 に、これまでの地盤と地下水位の推移を図

1月 2月 3月 4月 5月 6月 7月 8月 9月10月 11月 12月1月 2月 3月 4月 5月 6月 7月 8月 9月10月 11月 12月1月 2月 3月.

 次に、羽の模様も見てみますと、これは粒粒で丸い 模様 (図 3-1) があり、ここには三重の円 (図 3-2) が あります。またここは、 斜めの線