第1章 母集団と統計データ
第 1 章
母 集 団 と 統 計 デ ー タ
本章では,ビジネスのさまざまな場面において統計データを扱ううえで,もっとも基本的 事項となる母集団の概念と統計データの種類についてまとめています。母集団の統計的性質 を調べるためにとても重要な概念であるサンプリングについて述べるとともに,ランダムサ ンプリングの重要性についても説明します。1‐1
統計分析の考え方
ビジネスの多くの場面において,統計分析は重要です。この場合の統計分析とは,「意思 決定を行うためのさまざまな統計データをそろえること」であるほか,「統計データから重 要な知見を得るために,さまざまなデータを組み合わせたり,図や表で可視化すること」と いう意昧でも使われます。統計分析の重要性は「具体的な数字やデータを用いて,議論の対 象や問題点を客観的に把握すること」をもって語られることが多いものです。これは確かに 正しいですが,統計分析では,さらに「その数字やデータには,なんらかの偶発的な変動や ばらつきが含まれていること」を前提としている点に注意が必要です。観測された数字やデ ータは,観測値としては真であるかもしれませんが,たまたま観測された値であったり,そ もそも観測ミスによる誤差が入り込んでいたりするかもしれません。統計分析とは,このよ うな数字やデータの変動を前提とした分析を行うための体系であると言ってもいいでしょう。 まとめると,統計分析では次のような考え方に基づいて,観測された数字やデータを正し く読み解き,偶発的な変動に惑わされずに,データの持つ規則性や傾向を客観的に把握しよ うとする方法論であると言うことができます。 1. 具体的な数字やデータを用いて,議論の対象や問題点を客観的に把握する。 2. ただし,それらの数字やデータには偶発的な変動やばらつきが含まれていると考える。 観測される数字やデータが変動的なものであるということは,わたしたちの現実世界のあ らゆる事象を考えると,きわめて自然な前提です。たとえば,「高校生の 1 日の勉強時間」 を調べるために,高校生1,000人にアンケートを実施してデータを採取したとします。まず,1‐1
統計分析の考え方
1 1 1 母 集 団 と 1 1 1 1 1 1 知識編 第 1章 これら 1,000 人の回答自体がばらついています。1 日 10 時間勉強する生徒もいれば,1 日 30 分以下という生徒もいるかもしれません。また,別の 1,000 人を選んできて同じアンケ ートを実施したら,やはり回答は,先の 1,000 人とは異なるでしょう。このように統計分 析では,得られるデータが変動的なものであることを前提としつつ,そのなかに存在する規 則性や傾向を抽出することが最大の関心事ということになります。
1‐2
母集団とサンプリング
1-2-1 母集団と標本 統計分析を行う場面では,必ず分析の目的が存在するでしょう。データを用いた統計分析 を行うまえに,まず知りたい対象は何であるのかを明確に定義する必要があります。ある製 品に対する「日本の有権者全体の満足度」か,あるいは「日本の大学生の満足度」か何を知 りたいのかによって,調査の対象や方法もまったく変わってきます。このような分析対象の 集合全体を母集団といいます。たとえば,日本の有権者全体の意識調査を行うことが目的で あれば,この分析が対象としている母集団は「日本の有権者全体」になります。 一方,「日本の有権者全体」の意識を知りたいのであれば,全有権者のデータを採取すれ ばすむことですが,実際にはコスト面の制約から困難であることが多いものです。統計分析 では,母集団の統計的性質や傾向を把握するために,母集団から選んだ有限のデータを観測 し,その結果に基づいて母集団について推測を行います。このようにして,母集団からなん らかの方法で選んで抽出したデータのことを標本またはサンプルと呼びます。標本は,標本 データ,あるいは単にデータと呼ばれることもあります。また,統計分析のために抽出した 標本の数を標本数またはサンプルサイズといいます。 一方,標本データを集計・加工して得られる数値を統計量,あるいは統計データといいま す。たとえば,個々の顧客の 1 月の購買商品点数のデータを調査する際,ひとりひとりの 購買点数は標本であり,そこから計算した平均購買点数は統計量です。 1-2-2 サンプリング 母集団から標本を得る操作を標本抽出といいます。標本は母集団について調べるために採 取されるものであるため,母集団の統計的性質ができるかぎり失われないように抽出される べきです。そのためには,母集団の全体からランダムに標本が抽出される必要があります。 このような標本抽出をランダムサンプリング,または無作為抽出といい,それにより得られ た標本をランダムサンプル,または無作為標本といいます。 統計分析では,ランダムサンプリングによって無作為標本を得ることが基本的な考え方で1‐2
母集団とサンプリング
1‐2
母集団とサンプリング
1‐2
第1章 母集団と統計データ すが,実際には完全なランダムサンプリングが困難であることもよくあります。たとえば, 日本の有権者全体を母集団としたとき,母集団全体から完全にランダムにデータを抽出する ことは困難です。電話帳から任意の番号を選び,電話によるアンケートを実施したとしても, これが完全にランダムサンプリングであるという保証はありません。電話をかけた時間帯に 自宅にいる有権者のみの意見が抽出されるからです。一方,e メールによる回答を集めた場 合にも,e メールを使う有権者の意見が抽出されるので,これが有権者全体であるという保 証はありません。統計分析では,対象としている母集団からランダムサンプリングを行うこ とが基本であり,調査対象が偏かたよっていないかどうかについて,常に確認を行うべきでしょう。 また,社会調査などで行われる,人間を対象とした標本調査では,母集団を構成する全員 から完全にランダムに標本を抽出することが困難な場合も多くあります。母集団の構成員全 体のリストがあれば,そのなかからランダムに抽出することも可能ですが,そのようなリス トは存在しないことがほとんどです。そのため,社会調査では次のような方法がとられるこ とがよくあります。 ・集落抽出法 : まず調査を行う地域をランダムに選び,次にそれらの地域に含まれる調査 対象をすべて調べる方法。 ・二段階抽出法 : まず調査を行う地域をランダムに選び,次にその地域に含まれる調査対 象からランダムに標本を抽出する方法。 若者の意識調査,あるいは顧客への商品に関するアンケート調査といった設問形式の調査 では,回答にバイアスがかかるような設問になってはいけません。次のような設問は,悪い 設問の例です。 (1) わかりやすい設問文になっていない。 (2) 1 つの設問で 2 つ以上の内容をたずねている。 (3) 誘導尋問になっている。 (1) については,たとえば「観光開発とともに,環境破壊が進んだと思いますか?」とい う設問に,「はい」「いいえ」の二択で答えるものです。「環境破壊は進んだと思う。観光開 発が原因かはわからない」という意見のときに,「はい」と「いいえ」のどちらを選んでよ いのか迷う人がいるはずです。また,難しい専門用語を使っていたり,設問文が二重否定に なっていたりと,わかりにくい場合も含まれます。 (2) は「この製品は,高品質でかっこいいと思いますか?」といった設問です。1 つの設 問で複数の内容を含めて聞くと,被験者がこの設問をどのように解釈するかによって回答が ぶれてしまいます。 (3) については,ある仮説を裏付けるためのアンケート調査を行う場合に,回答にバイア スがかかりやすい設問になっている例がときどき見かけられます。「この規則は,各部署か
1 1 1 母 集 団 と 1 1 1 1 1 1 知識編 第 1章 らさまざまな問題があると指摘されています。この規則は改訂すべきと思いますか?」とい った設問では,何も意見を持っていない被験者は「はい」と答えるでしょう。 アンケート調査の場合には,しばしば択一式の回答欄の複数項目にチェックが入っていた り,読み取りにくい記述であったり,あるいは回答がなされていなかったりと,調査に対す る回答としては不適切なものが存在することがほとんどです。このような回答は無効回答と 呼ばれ,分析対象のデータからはずす必要があります。 無効回答以外の,分析の対象となり得る回答は,有効回答と呼ばれます。アンケート調査 の分析では,アンケート調査を依頼した人数に加え,有効回答数を示したうえで,その調査 結果を示すのが一般的です。 1-2-3 記述統計と推測統計 一般に,得られた有限の標本を加工し,グラフや表によって可視化することで,データの 統計的性質を明確にしようとする統計的手法を記述統計といいます。記述統計では,第 2 章で説明するヒストグラムなど,データをあらゆる角度からモニタリングするための手法を 適用することになります。 一方,得られた有限の標本から,ある精度のもとで母集団の性質を明らかにしようとする 統計的手法を推測統計といいます。得られた標本から母集団について統計的な推測を行うた めに,データがある種の確率分布1に従っているといった仮定をおく必要があります。 一般に,母集団が確率分布に従っているとき,有限個の観測データから,この母集団の真 の確率分布についてなんらかの推測を行うことが,推測統計の目的となります。そのために は,観測した標本データが,きちんと母集団を代表しているようにサンプリングすることが とても重要です。もし,調査コストなどの問題から e メールによる意識調査を実施するよう な場合には,調査法によるバイアスが存在し得ることを考慮にいれたうえで,結果を解釈す る必要があります。 1確率分布の詳細については,第 4 章を参照。
第1章 母集団と統計データ 図 1.1: 母集団とサンプリング
1‐3
統計データの種類
統計解析では,解析の対象により多種多様なデータが扱われます。統計解析を学ぶにあた り,まずこれらデータの分類を把握することが重要です。データはいくつかの種類に分類さ れ,分類ごとに適用できる統計手法が異なります。本節では,データの分類方法について説 明します。 1-3-1 質的データと量的データ データは大きく分けると,質的データと量的データの 2 つに分類できます。質的データ とは,性別や職業,血液型,所属会社,支持政党,国籍など,質的な分類を表すデータのこ とです。一方,量的データとは,身長や体重,金額,距離,速度,個数など,値が数値とし て表され,定量的に大きさが測れるデータを指します。量的データはさらに,連続的な値を とる連続データと離散的な値をとる離散データに分類できます。連続データは計量値データ とも呼ばれます。また,個数や回数のように,自然数で数えられるデータを計数値データと いいます。 質的データと量的データを分類するのは,これらの違いによって,データの加工や取り扱 いの方法が異なるためです。 1-3-2 尺度水準 実際の分析においては,質的データと量的データだけでなく,さらに細かい分類について 意識しなければなりません。そのため,データの尺度という概念が重要となります。 質的データの尺度は,名義尺度と順序尺度に分けられます。名義尺度は,性別や職業など,1‐3
統計データの種類
1‐3
統計データの種類
1‐3
章末問題 知識編 第 1章 所属するカテゴリの名前を表しているデータです。統計計算のために,男性を 1,女性を 0 と数値で置き換えることがありますが(このような変数をダミー変数といいます),その値 の大小は本質的な意昧を持ちません。それに対し,順序尺度は,「優」「良」「可」といった 成績やアンケートの 5 段階評価など,数値の大小が順序的な意昧のみを持ち,数値間の差 や比には意昧を持たないデータを表します。 また,量的データの尺度は,間隔尺度と比率尺度に分けられます。間隔尺度は,気温や偏 差値などのように,数値の差が意昧を持つデータの尺度を表します。一方,比率尺度は,身 長や体重のように,数値の差だけでなく,比率も意昧を持つデータの尺度を指します。たと えば,気温の場合,10℃と 15℃の差と 20℃と 25℃の差はともに 5℃で,この差の 5℃の 持つ意昧合いはどちらの場合も同じです。しかし,0℃は「温度がないこと」を表している わけではなく,単に水が凍る温度を 0℃と定義したための基準値です。したがって,20℃ は 10℃の 2 倍の温度であるかというと,物理的にはそのような説明は正しくありません。 それに対し,たとえば,体重 50㎏と 100㎏では比率が 2 ですが,これは「体重が 2 倍」と いうことを表しており,比率が意昧を持っていることがわかります。間隔尺度と比率尺度の 違いは一見わかりにくいものですが,0 が「何もないこと」を意昧する場合は比率尺度,そ うでない場合は間隔尺度だと言えます。間隔尺度のデータに対し,比率を計算して考察を行 うのは無意味でしょう。