3 3.1 * *2 2

(1)

データのプロットと要約について

第１回

Armitage

勉強会

土居正明

1 はじめに

本稿では、以下の例題を用いてデータのプロットとその要約について考えていきたいと思います。「問題をどのように解くか」にはそれほど重点を置いていませんので、その点ご注意ください。

2 「例題１」

以下のデータは、各群11個で、平均10・標準偏差3.32*1_{である。このとき、以下の問いに答えよ。} 第１群第２群第３群第４群第５群第６群 9 5 5.757 3.3667 7.5 1 9 6 5.757 7 7.5 7.5 9 7 7 9 7.5 10 9 8 7 9 9 10 9 9 9 10 9 11 9 10 10 10 9 11 9 11 11 10 9 11 9 12 13 11 10 11 9 13 13 11 10 12.5 9 14 14.243 13 12.5 12.5 20 15 14.243 16.6333 19 12.5 (i) 第１群から第６群までを、歪度の小さい順に並べよ。 (ii) 第１群から第６群までを、尖度の小さい順に並べよ。 *1_{小数第３位四捨五入。}

(2)

3 例題１の解説

3.1 データのプロット

各群のデータのプロットは以下の通りになります。各プロットの横軸はそろえてありますが、縦軸はバラバラです*2_。図1 第１群のプロット _図₂ _{第２群のプロット} 図3 第３群のプロット _図₄ _{第４群のプロット} 図5 第５群のプロット _図₆ _{第６群のプロット} *2_{縦軸もそろえると、図１の影響でそれ以外が全て小さくて見にくくなってしまいます。}

(3)

最も注意しておいていただきたい点は、この６つのデータは全て平均・標準偏差が等しいということです。つまり、平均・標準偏差が同じでもこれだけ色々な分布がありうるのです。そのため、「データの分布が知りたいときには、とりあえず平均・標準偏差を求めるのではなく、まずプロットしてみるのが重要」ということがわかります。

3.2 要約統計量の計算と各群の傾向

とはいえ、プロットを見ているだけでは定量的なことは言えません。そこで次に「要約統計量」を考えて、これらの分布の特徴を数値で捉えていくことにします。明らかに平均と標準偏差だけを示しても、この６つの分布は区別できません*3_。したがって、それ以外の指標も考えてやりましょう。ここでは、「歪度(skewness)」「尖度(kurtosis)」「最大値」「７５％点 (Q3)」「中央値(median)」「２５％点(Q1)」「最小値」を求めていきます*4*5_。表1 例題１のデータの要約統計量例数平均標準偏差歪度尖度最大値７５％点中央値２５％点最小値第１群 11 10.00 3.32 3.32 11.00 20.0 9.00 9.00 9.00 9.0 第２群 11 10.00 3.32 0.00 −1.20 15.0 13.00 10.00 7.00 5.0 第３群 11 10.00 3.32 0.00 −1.71 14.2 13.00 10.00 7.00 5.8 第４群 11 10.00 3.32 0.00 1.95 16.6 11.00 10.00 9.00 3.4 第５群 11 10.00 3.32 2.32 6.02 19.0 10.00 9.00 7.50 7.5 第６群 11 10.00 3.32 −2.32 6.02 12.5 12.50 11.00 10.00 1.0 以下、表1 を見て図１∼図６の特徴がどのように数値化されているかを見ていきます。最初はデータも図も忘れて統計量と下の文章だけを読んで、そのあとに図を見て、図の特徴がきちんと統計量に表れていることを確認してください。 (第１群) 第１群はとても特徴的です。まず、７５％点から最小値までが全て同じ値です。これは相当な「データの偏り」を示しています。それから、尖度がとても大きくなっています。この２点からプロットは相当尖っている（さらに外れ値を含む）ことが想像できます*6_{。また、歪度も正の大きな値をとっていますので、外れ値は正の方向にありそうなことまで分かります。} (第２群) 第２群は逆に大変規則的です。まず歪度が0であり、平均値と中央値が等しいことから左右対称性がうかがえます。さらに、最大値と７５％点の距離が2で、これは最小値と２５％点の距離に等しくなっています。また、７５％点と中央値の距離と中央値と２５％点の距離も共に3で等しくなっています。さらに、尖度は0より少し小さく、どちらかというと尖っていないようなことが想像されます*7_。 (第３群) 第３群は、第２群と左右対称性などの点でほとんど同じ特徴がありますが、尖度がやや第２群より小さいです。これより、「第２群と比較的似ているけれど、第２群よりさらに尖り方が少ない」ということが想像されます。 (第４群) 第４群も左右対称性などが第２群と第３群とよく似ていますが、今度は尖度が正で値がやや大きくなっています。これより、「第２群・第３群と似ているけれど、第２群よりもだいぶ尖っている」様子が伺えます。 (第５群) では第５群です。最小値と２５％点が等しく、２５％点から中央値まで1.5です。一方で、最大値と７５％点は9離れており、７５％点から中央値までは1となっています。さらに、中央値は平均値より小さいですので、平均値より小さい方向にデータが密集しており、正の方向に外れているような気がします。また、歪度が2.32と正でやや大きいことからも、正の *3_{つまり、平均と標準偏差だけでは適切な「要約」になっていないことになります。} *4_{桁数は、簡単のため最大・最小は小数第１位まで、それ以外は小数第２位までとします。} *5_{計算は SAS ver9.13 の proc means で行っています。}

*6_{尖度の解釈は実は結構大変ですので、後ほど「4}_{尖度に関する注意」でご説明します。} *7_{引き続き、尖度の解釈は難しいことを注意しておきます。}

(4)

方向に外れ値がありそうな様子が分かります。尖度は6.02と、第１群まではいかないものの大きいので、結構尖っているようです。 (第６群) 最後に第６群です。第５群とは逆で、最大値と７５％点が等しく、７５％点から中央値まで1.5です。一方で、最小値と２５％点は9離れており、２５％点から中央値までは1となっています。さらに中央値は平均値より大きいですので、平均値より大きい方にデータが密集しており、小さいほうに外れ値があるような気がします。尖度は第５群と同じく6.02と大きいですので、尖っているようですし、歪度は−2.32と負でやや大きいですので、外れ値は負の方向にあるものと思われます。

3.3 「例題１」の解き方

3.3.1 準備さて、今までは「計算やプロットはソフトにやってもらって、出てきた結果を解釈する」という立場で見てきました。せっかくですので、「例題１」に出会ったときに「どう考えて解けばよいか」についても触れておきましょう*8_。まず、尖度・歪度の定義は後ほど「4.2 尖度・歪度の定義」で述べますが、今平均10、標準偏差3.32より、第i群のj番目のデータをxijとおくと (第i群の歪度)=_3.3213 1 11 11 P j=1 (xij− 10)3 (第i群の尖度)=_3.3214 1 11 11 P j=1 (xij− 10)4− 3 となります。これより、問題を解くために「データから平均10を引いた値」が分かっていると便利だと思われます。従って、準備していただきたいものは2つで、 (a)最初に示したプロット６つ (b)データから平均値10を引いたものです。プロットは先に示したものを見ていただくとして、(b)を計算しましょう。結果はこうなります。表2 データから平均10を引いたもの(xij− 10) 第１群第２群第３群第４群第５群第６群 −1 −5 −4.243 −6.6333 −2.5 −9 −1 −4 −4.243 −3 −2.5 −2.5 −1 −3 −3 −1 −2.5 0 −1 −2 −3 −1 −1 0 −1 −1 −1 0 −1 1 −1 0 0 0 −1 1 −1 1 1 0 −1 1 −1 2 3 1 0 1 −1 3 3 1 0 2.5 −1 4 4.243 3 2.5 2.5 10 5 4.243 6.6333 9 2.5 上の尖度と歪度の式を見ていただくと分かります通り、「データ数が同じ」「標準偏差は全群で等しい」ですので、どの群の尖度・歪度が大きいか比較する際には分母の3.323や3.324や11や、尖度の−3は無視してかまわない、ということになります。従って、上の表2 のデータを3乗したもの¡P(xij− ¯x)3 ¢ 同士を比較すれば歪度の比較ができ、4乗したもの *8_{ただし、ここの解説については以下の「4 尖度に関する注意」の内容を利用します。事前にそちらを読まれてからのほうが、理解が深まると思いま} す。

(5)

¡P (xij− ¯x)4 ¢ 同士を比較すれば尖度の比較ができる、ということがわかります。以下で歪度と尖度の比較をしていきますが、ポイントは２点で・グラフで大体目星をつける・計算はできるだけ概算で済ませるです。 3.3.2 歪度の比較では(i)歪度の比較に入りましょう。まず第一に「プロットが左右対称の場合、歪度は0」であるということに注目します。これに当てはまりそうなのは図より「第２群」「第３群」「第４群」の3つです。表2を見ても、この３つの群は表の下半分の値にマイナスをつけて折り返したら上半分と同じになりますので、左右対称です。したがって、この3群については歪度は0 であることが分かります。次に、左右非対称な場合です。図より「第１群」「第５群」は正の方向にすそを引いています。一方、「第６群」は負の方向にすそを引いています。歪度は「右にすそを引くと正、左にすそを引くと負」ということが大体成り立ちますので、「第６群」の歪度が負で最も値が小さくなるものと想像されます*9_。さて、最後に正の方向にすそを引く「第１群」と「第５群」の比較です。まず「第１群」は簡単ですのできちんと3乗の和を計算しますと、103+ (−1)3· 10 = 990です。一方、「第５群」は93= 728以下*10_{です。従って、}_{「第５群」}_<_「第１群」であることが分かりました。以上をまとめますと(i)の答えは「第６群」<「第２群」=「第３群」=「第４群」(= 0) <「第５群」<「第１群」となります。 3.3.3 尖度の比較次は(ii)尖度の比較です。尖度について、まず表2 から気がついていただきたいことがあります。それは、「第５群」の値にマイナスをつけたら「第６群」になる、ということです。これがどう効いてくるのかと言いますと「4乗して足したら同じ値」になる、つまり「第５群」と「第６群」の尖度は等しいということです。さて、今回は標準偏差が等しいですので*11_{、プロットの尖り具合が大きい方が尖度が大きくなる傾向にあります}*12_。従って、まず最も極端な「第１群」の尖度が最も大きくなるでしょう。次に、「第２群」を基準にしますと、「第３群」の尖度が小さく、それ以外は「第２群」よりも尖度が大きくなりそうです*13_{。では残りの「第４群」と「第５群」}_{（＝「第６群」}_{）の比較となります}*14_。_{「第４群」で最も大きな値は}_6.6333_ですが、これを計算すると大変なので大きく見積もって7にする方が計算が楽でしょう。74 _{= 2, 401}_{です。これが}₂_つありますので、大体「第４群」は2· 74_≒_{4, 800}_{と考えておきましょう}*15_{。次に「第５群」の方ですが、最大値は}₉_ですので 94_{= 6, 501}_{となり、大体の計算で「第４群」}_<_{「第５群」}₍₌_{「第６群」}₎_{であることが分かりました}*16_{。以上より、} 「第３群」<「第２群」<「第４群」<「第５群」=「第６群」<「第１群」となります。ここで、尖度（尖り具合）の計算なのに、尖っている部分（平均値の近く）の値は計算せず、主に外れ値に注目して計算したことは覚えておいてください。 *9_{この点について、少し雑な計算を示しますと (}−9)3₌_{−728 であり、2.5}3_{= 15.625 より、2.5}3_{が束になっても (}₋₉₎3_{の影響は打ち消せないこ} とが分かります。 *10_{9 以外は、}_{「＋ 2.5」4 つと「}−2.5」4 つ、「−1」4 つですので、計算しなくても「3 乗して足し算したら負」になることは分かります。 *11_{後ほど述べますがこれは大変重要な注意点です。} *12_{後ほど述べますが、むしろ「外れ値が大きく外れている」=「尖度が大きい」という捉え方の方が、計算の際に本質的になります。} *13_{これで納得できる方はそれで結構です。納得できない方はきちんと 4 乗の計算をしないと仕方ありません。しかし、}_{「第２群」}_{「第３群」ともに左右} 対称なので、正の方だけ計算して比較すれば十分です。正しい値が欲しければそれを 2 倍してください。 *14_{外れ値の外れ具合から「第４群」<「第５群」であることが予想されますので、それを確かめる方向で概算していきましょう。} *15_{ついでに、3}4_{= 81 < 100 くらいの概算はしておいてもよいでしょう。} *16_{6.6333 を 7 にして計算すると「第４群」と「第５群」の違いはそれほど大きくありませんが、6.7}4_{· 2 ≒ 4, 000 の方で評価するともう少し違いが} はっきりすると思います。

(6)

3.4 まとめとおまけ

3.4.1 「第１群」∼「第６群」の素性では最後に、「第１群」∼「第５群」は一体どういうデータか、ということを示してまとめとしたいと思います。第１群：ほぼ１ヶ所に密集+外れ値１点第２群：一様分布第３群：二峰性の分布*17 第４群：正規分布っぽい分布*18 第５群：対数正規分布っぽい分布（正の方向へすそを引く）第６群：対数正規分布っぽい分布（負の方向へすそを引く）です。 3.4.2 おまけおまけとして、箱ひげ図も載せておきましょう。図7 箱ひげ図 *17_{本当はもう少し「二峰性」っぽくしたかったのですが、データ数が少なすぎて「間のへこんだ一様分布」みたいになってしまいました。} *18_{後ほど述べますが、}_{「正規分布っぽいのに尖度が 0 でなくて 1.95 もある」のは、データが少なくて、端の２点が「外れ値」っぽくなっているからだ} と思われます。

(7)

4 尖度に関する注意

「グラフが尖っているとき尖度が大きい」という風に言われることがあります。これを踏まえて、以下の問題を考えてみてください。

4.1 例題２

「例題２」以下の２つのプロットのうち、尖度が大きいのはどちらか（直感で）答えよ。なお、縦軸・横軸は２つともそろえてある。図8 プロット１ _図₉ _{プロット２}

(8)

「解答」両プロットの尖度は以下のようになっています。表3 例題２のデータの尖度 N 平均標準偏差尖度プロット１：N (0, 1) 10,000 0.00 1.00 0.11 プロット２：N (0,1₉) 10.000 0.00 0.33 -0.05 実は、先の図は「プロット１」がN (0, 1)から、「プロット２」がN (0,1₉)からそれぞれ１万個ずつの乱数を発生させて、それをプロットしたものです。ご覧のとおり、見た目では「プロット２」の方が明らかに尖っているのに、尖度はむしろ（少し）小さくなっています。これはどうしたことなのでしょうか？それを知るためには、尖度の定義を見ていくことが必要になります。せっかくですので歪度もついでに見ておきましょう。

4.2 尖度・歪度の定義

尖度と歪度の定義は以下のようになります。f (x)を確率密度関数とし、その分布の平均をµ、標準偏差をσとするとき、尖度・歪度の真の値は (尖度) = 1 σ4 Z _∞ −∞ (x− µ)4f (x)dx− 3 (歪度) = 1 σ3 Z _∞ −∞ (x− µ)3f (x)dx となります*19_{。しかし、これは確率密度関数が分かっていないと計算できません。そこで、実データから計算（推定）する} ときは、データをx1,· · · , xnとし、標本平均をx =¯ 1_n n P i=1 xi, 標本標準偏差をbσ = s 1 n−1 n P i=1 (xi− ¯x)2とおいたとき、 (尖度) = 1 bσ4 1 n n X i=1 (xi− ¯x)4− 3 (歪度) = 1 bσ3 1 n n X i=1 (xi− ¯x)3 とします*20_。

4.3 尖度・歪度の性質

さて、上の積分を計算していただくと分かるのですが、正規分布において尖度・歪度の真の値は常に0となります。これは、正規分布の平均・分散がいくつであってもなりたつ性質です*21_。実は、これが「例題２」の本質です。「正規分布」と一口に言っても、尖ったものから平べったいものまでたくさんあります。ですけれど、そのどの正規分布に対しても尖度は0なわけですから、「『尖っている方が尖度が大きい』という言い方は一般的には間違い」です。では、この言い方は「完全に間違っている」のでしょうか？ *19_{尖度で 3 を引くのは、正規分布で 0 になるようにするためです。なお、3 を引かないで定義して「正規分布の尖度は 3」と書いてある本などもあり} ます。 *20_{実際にソフトで計算する場合は、これらに対してある種の補正を行ったもの「尖度」}_{「歪度」と呼んでいる場合が多いはずです。この式に「例題１」} のデータを当てはめた場合、上に示した出力と一致しない可能性があります。 *21_{といいますか、この性質があるからこそ、尖度や歪度を用いて「}_{（平均や分散の値によらず）データが正規分布っぽいかどうか」の判断が可能にな} るわけです。

(9)

実はそうではありません。実は、データを適切に変換してやれば「尖っている方が尖度が大きい」という言い方がそこそこ妥当になるのです。では、その「適切な変換」とは何でしょうか？それはデータxに対する z = x− µ σ という変換で、標準化と呼ばれます*22_{。これはどういう変換かといいますと、一言で言うと「正規分布}_{N (µ, σ}2₎_を標準正規分布N (0, 1)に変える変換」です。つまりこの変換をしてやると、正規分布はN (0, 1)１つになるわけです。上の「例題２」の問題点は、「正規分布の中にも尖ったものと平べったいものの両方があり、その両方が尖度0」だったわけなのですが、標準化によって「正規分布は尖度0」といったときに、正規分布としてN (0, 1)だけを思い浮かべればよくなります。別の表現をすれば、「分散（または標準偏差）が等しいのなら、尖度が大きい方が尖っている」という言い方もできます。

4.4 尖度・歪度の性質（つづき）

4.4.1 尖度実は、式をよく見ていただくと分かるのですが、尖度の式には(xi− ¯x)4という風に4乗の計算が入っています。これより、平均値x¯から遠ざかれば遠ざかるほどこの値は大きくなります*23_{。したがって、この値を大きくするには、標準偏差一} 定の状況では「平均から離れた値（≒外れ値）がある方が尖度は大きい」ということになります。実は、「尖度が大きい」というときは、尖っていることよりも平均から遠いところのデータがあることの方が本質的なのです。では、これと尖っていることとどのような関係があるのでしょうか？外れ値が１つ入ると、それだけでばらつきが大きくなるのが普通です。逆から見ると、標準偏差が同じで「外れ値が入っているデータ」と「入っていないデータ」を比べると、「外れ値が入っているデータ」の方が「外れ値以外のデータは密集している」ことになります。実はこれがプロットの「尖り具合」を生み出しているのです*24_{。問題１の「第１群」のデータで尖度が}_11.00_{と大きいのは、}₉_{のところにデータが密集} しているからではなくて、遠く離れた20の影響なのです。「第５群」にも19のところに外れ値がありますが、こちらの尖度は6.02と「第１群」の半分強にしかなりません。これは、尖度の計算中で「4乗」もしているので、19と20の違い(平均10からの距離9と10の違い)が94 _{= 6, 561}_と 104= 10, 000の、ほぼ倍の違いとなって表れるからなのです。最後に、「例題２」の「プロット２」の各データを標準化して、ばらつきを「プロット１」とそろえてやった場合を考えてみましょう*25_。図10 プロット１N (0, 1) _図₁₁ _{プロット２}_{N (0,}1 9)のデータを標準化したもの *22_{各データに対して計算するときは z}_i₌ xi−¯x b σ です。この変換の本質は、データのばらつきをそろえてやっていることです。本質的には平均値を引く必要すらなく、標準偏差で割ってやりさえすれば十分です。変換後の標準偏差はデータに関わらず常に 1 となる、という点が最も重要です。 *23_{たとえば 2 の 4 乗は 16 ですが、5 の 4 乗は 625 です。} *24_{ですので、}_{「プロット２」のように、外れ値がなくて全てのデータが密集して尖っていても、それを近似できる正規分布があれば尖度はあまり大き} くはなりません。 *25_{「プロット１」はもともと標準偏差 1 ですので変換する必要がありません。}

(10)

となり、大体同じくらいの尖り具合、あえて言うならこころもち「プロット２の標準化」の方が平べったい気がしなくもありません。 4.4.2 歪度次に歪度について見ていきます。尖度の計算は「4乗」なので、たとえば「10の4乗は(−10)の4乗と等しい」ように、平均から大きい方向にずれているのか小さい方向にずれているのかがわかりません。一方で、歪度の方は「３乗」ですので、たとえば「第５群」の外れ値19は平均10に対して(19−10)3= 287と正の数になるのに対して、「第６群」の外れ値1は(1−10)3₌₋₂₈₇_{となり、外れ値が正の方向にあるのか負の方向にあるのかまで示してくれ} ます。

(11)

5 中央値・２５％点・７５％点の求め方

次に、中央値・２５％点・７５％点の求め方について見ていきましょう。実は、２５％点・７５％点の求め方は、ソフトごとに異なる場合があります。そこで、SAS・R・Excelの３ソフトの計算方法を見ていくことにしましょう。データは、以下のものを用います。表4 データ第１群 4 第２群 4 5 第３群 4 5 6 第４群 4 5 6 7 第５群 4 5 6 7 8 第６群 4 5 6 7 8 9 第７群 4 5 6 7 8 9 10 第８群 4 5 6 7 8 9 10 11

このデータに対して、２５％点・中央値・７５％点をそれぞれ計算していきます。なお、SASはver 9.13の”proc means” で、Rはver 2.12.1のquantile関数で、Excelは2003のquartile関数でそれぞれ計算しました*26_。

*26_{(2011 年 3 月修正) 修正前の版では R は ﬁvenum 関数を用いていましたが、ﬁvenum 関数で求まるのは２５％点・７５％点ではなく上側ヒンジ・}

(12)

5.1 各ソフトの計算結果

表5 SASの２５％点・中央値・７５％点２５％点中央値７５％点第１群 4 4 4 第２群 4 4.5 5 第３群 4 5 6 第４群 4.5 5.5 6.5 第５群 5 6 7 第６群 5 6.5 8 第７群 5 7 9 第８群 5.5 7.5 9.5 表6 Rの２５％点・中央値・７５％点２５％点中央値７５％点第１群 4 4 4 第２群 4.25 4.5 4.75 第３群 4.5 5 5.5 第４群 4.75 5.5 6.25 第５群 5 6 7 第６群 5.25 6.5 7.75 第７群 5.5 7 8.5 第８群 5.75 7.5 9.25 表7 Excelの２５％点・中央値・７５％点２５％点中央値７５％点第１群 4 4 4 第２群 4.25 4.5 4.75 第３群 4.5 5 5.5 第４群 4.75 5.5 6.25 第５群 5 6 7 第６群 5.25 6.5 7.75 第７群 5.5 7 8.5 第８群 5.75 7.5 9.25 以上から、RとExcelが一致して、SASが異なるようです。以下、この計算方法を見ていきましょう。

5.2 各ソフトの計算方法

では次に、上の３つのソフトがどのようなロジックで計算していっているかを見ていきましょう。まず中央値ですが、これは全ソフトで同じ値になります。つまり、・データが奇数個：真ん中の値・データが偶数個：真ん中はないので、真ん中に近い2つを足して2で割る*27 です。ところが、２５％点や７５％点には複数の考え方があるようです。それを以下見ていきましょう。 5.2.1 SAS まずSASです。SASの特徴は「可能な限りデータの値を２５％点・７５％点にする」です*28_{。考えるときのコツは}_「データの数を4で割った余りに注目する」ことです*29_{。基本的な考え方は、}_{２５％点は中央値より小さいデータの真ん中、７５} ％点は中央値より大きいデータの真ん中ということです。 *27_{つまり、たとえば「第６群」の場合、4, 5, 6}| 7, 8, 9 ですので、(6+7)/2=6.5 が中央値となります。 *28_{つまり「足して 2 で割る」などをしたくない、ということです。} *29_{今回のデータは「第１群：データ１個」}_{「第２群：データ２個」のように個数と群の番号を対応させています。}

(13)

(i) 4で割って3余るとき*30 これが最も簡単です。たとえば第７群で見てみますと、 4, 5, 6, 7_|{z} 中央値 , 8, 9, 10 です。そこで、中央値を除くと左右ともに奇数個なので「真ん中」があります。つまり、7より小さい方の真ん中5が２５％点であり、大きい方の真ん中9が７５％点となります。 (ii) 4で割って2余るとき*31 次に簡単なのが4で割って2余るときです。たとえば「第６群」を見てみますと、 4, 5, 6| 7, 8, 9 となり、中央値は6.5ですが、左右が奇数個になるのは(i)と同じです。従って、それぞれの真ん中をとれば5が２５％点、 8が７５％点となります。 (iii) 4で割り切れるとき*32 さて、「可能な限りデータの値を利用する」という観点からは最も手の施しようがないのが4で割り切れるときです。「第８群」で見てみますと 4, 5, 6, 7| 8, 9, 10, 11 より、中央値より大きい方も小さい方も偶数個ずつですので、２５％点も７５％点も２で割らないといけません。仕方ないですが、それぞれ（２５％点）=5 + 6 2 = 5.5, （７５％点）= 9 + 10 2 = 9.5 となります。 (iv) 4で割って1余るとき*33 最も努力しているのが4で割って1余るときです。第５群で見ていきましょう。奇数個ですので、中央値は真ん中 4, 5, 6_|{z} 中央値 , 7, 8 です。このとき、中央値「より大きい方」「より小さい方」に分けると、それぞれ偶数個ずつで足して２で割らないと求まらなくなります。そこでこの場合だけ「中央値以上」「中央値以下」という分け方をしてやるのです。つまり、中央値を２回書きますと 4, 5, 6 | {z } 中央値以下 | 6, 7, 8_{| {z }} 中央値以上となり、これなら奇数ですので「真ん中」を考えることが可能になります。したがって、5が２５％点、7が７５％点となります。 *30_{(4n + 3) と書けますので、中央値 1 つ除くと、中央値より小さい方と大きい方が (2n + 1) 個ずつで奇数なので、それぞれ「真ん中」があります。} *31_{(4n + 2) 個と書け、偶数ですので中央値は「足して２で割る」ようになりますが、中央値より大きい方と小さい方は (i) と同じく (2n + 1) 個ずつ} ですので、同様な計算ができます。 *32_{(4n) 個と書け、偶数なので中央値は足して 2 で割らないといけません。中央値より大きい方も小さい方も 2n 個で偶数なので、２５％点も７５} ％点ももう１回２で割らないといけません。 *33_{(4n + 1) 個と書け、奇数なので真ん中が中央値になるのですが、中央値「より大きい」}_{「より小さい」はそれぞれ (2n) 個となります。}

(14)

5.2.2 R・Excel

RとExcelでは、SASのような場合分けは必要ありません。SASではデータが「何番目か」を考えましたが、RとExcel ではむしろ「データとデータの間」に注目します。たとえば第４群で考えますと、データは4, 5, 6, 7より間は4− 1 = 3 個となります。この「間」に対して「隣のデータとの間の距離を１」とします。つまり、4と6では、間が2つありますので「距離2」と考えるのです*34_{。そして、この距離を用いて２５％・７５％を考えます。すなわち最小値からの距離はそれぞれ} （２５％点）= 3×0.25 = 0.75, （７５％点）= 3×0.75 = 2.25 となります。そこで２５％点（最小値からの距離が0.75)を「１番目と２番目を0.75 : 0.25 (= 3 : 1)に内分する点」とし、７５％点（最小値からの距離が2.25)を「３番目と４番目を0.25 : 0.75 (= 1 : 3)に内分する点」とします。このとき、（２５％点）= 4· 1 + 5 · 3 1 + 3 = 4.75, （７５％点）= 6· 3 + 7 · 1 3 + 1 = 6.25 となります。

5.3 演習問題

(i)データを小さい順にa1, a2, a3,· · · とおく。データの数がそれぞれ4n個、(4n + 1)個、(4n + 2)個、(4n + 3)個のときのそれぞれについて２５％点・７５％点のそれぞれをai(i = 1, 2, 3,· · · )を用いて表せ。それが正しいことを上の例で確認せよ。 (ii)尖度や歪度についても、同様にこれらのソフトで「どのような値になるか？」を調べよ。結果が異なっている場合は「どういう計算方法か？」を考えよ。 *34_{この「距離」は値「6}− 4」ではなくて「3 番目−1 番目」です。％点は順位に基づいた統計量ですので、値よりも順位を優先します。