Microsoft PowerPoint - 統計調査概論2010.ppt

(1)

1

国立保健医療科学院人材育成部

横山徹爾

保健・栄養統計学

～①統計調査概論～

音声を中断

するには、キーボードの

<ESC>キー

を押します。

再開するには、左上隅のスピーカーマークをクリックします。

次のスライドに進むには、画面下の矢印をクリックするか、

画面左側のリストをクリックして選択します。

統計とは

• 医学、栄養学、保健学研究は対象とする人々を観察

することから始まる。「観察する」とは、その人たちの

持つ様々な「特性」を調査、記録、分析することであ

る。

• 疫学・統計学は、これら調査、記録、分析をいかに行

うかについての「方法論」を提供する。

• 学習内容

– ①統計調査概論

• 社会生活を営む人々の特性を把握するために、

どのように調査を行ってデータを収集するか。

– ②統計学概論

• 収集したデータをどのように分析して解釈し、結

論を導くか。

調査統計の目的

• 総量の把握：

国勢調査人口

• 集団の構造や特性の把握：

年齢３区分人口割合、

死因別死亡率、栄養素摂取量

• 複数要因間に存在する法則、因果関係の探究：

年

齢と死亡率、塩分摂取量と血圧、血圧と脳卒中罹患

率。分析疫学の多くはこれを目的とする。

• 予測：

将来推計人口。

• 評価：

保健活動の量的な評価。実験疫学（介入研

究）の評価。

など。

常に対象集団を意識する

• 対象集団

：観察の対象として設定された集団。

• 全数調査（悉皆調査）

：対象集団の構成員全

員の調査。国勢調査など。

• 標本調査

：対象集団から（一部分）抽出した

標本の調査。対象集団全体のことを母集団と

呼ぶ。標本調査では標本から母集団の特性

を推測する。

(2)

標本調査の目的

• 母集団における

身長、体重、栄養摂取量の分布、

肥満、貧血、高脂血症の有病率、

を知りたい。

• 全員調べれば（悉皆調査）わかるが、と

うてい不可能である。

• そこで、一部の人たち（標本）を調べて、

母集団全体の様子を

推測

しよう！

母集団

（Ａ県）

標本

標本抽出

推測

人口

２０

２０ ０万人

０万人

朝食の欠食率

は？

母集団と標本

１０００人

朝食の欠食率

は

５

５ ％

％

これは調査でわかる

標本が母集団を代表していれば、

推測可能

どうやって？

何人？

7

標本 Sample

（調査対象者）

母集団 Population

（調査対象集団）

誰を調査するのか？

どうやってアクセスするのか？

どの集団を調べるのか？

誰が協力してくれたのか？

協力者 Responder

（慣習的に「調査対象者」と呼ぶ

ことも多いが曖昧な表現）

標本抽出台帳

Sampling frame

標本抽出の各段階

無作為抽出

• 調査対象としている人口全体のことを

母集団

と呼ぶ。

例えば、国民健康・栄養調査では日本人全体が母

集団である。

• 標本抽出を行う場合は、母集団をいくつかの

抽出単

位

（“

個人

”、“

世帯

”、“

国勢調査区

” など目的に応じて

決める）に分け、全ての

抽出単位

が選ばれる確率が

等しくなるように工夫する。

• これを

無作為抽出

といい、例えば、それぞれの抽出

単位に通し番号を付け、乱数によって標本を選び出

せばよい。

• 母集団の特性を推測するためには、無作為抽出を

用いなければならない。

教p.16, 75

「保健統計・疫学改訂４版」参照ページ⇒

(3)

主な無作為抽出法

• 単純無作為抽出法

• 層化無作為抽出法

• クラスター抽出法

など。

単純無作為抽出法

• Ａ市の全住民のうちから、住民基本台帳から乱数に

よって選んだ1000名を対象として調査を行う、という

ように、母集団を構成する

個人

（などの最小単位=

客体）

を抽出単位

として無作為抽出を行う方法。

• 抽出人数÷全人口を

抽出率

という。

• 住民アンケートなどで、広く用いられている。

• 乱数→コンピュータを用いるのが現実的

– 例）エクセルで1～1000の乱数を作るには、

=INT(RAND()*1000)+1

母集団

（Ａ市）

標本

単純無作為抽出

推測

人口１０万人

朝食欠食率は？

市民アンケート

１０００人

欠食率８％

12

無作為抽出の実際

• 例１）

– 標本抽出台帳に載っている全員に通し番号を付ける（1～M）。

– 乱数を必要な人数分(N)個作り、該当する人を選ぶ。ただし、重複し

た場合は乱数を作り直す。

• 例２）

– 標本抽出台帳に載っている全員に重複しない乱数を付ける（0～1の

一様乱数など：エクセルの=RAND()）。

– その乱数でソートして、上からＮ人分を選ぶ。

• 参考：等間隔サンプリング（近似的に無作為抽出）

– 標本抽出台帳に載っている個人に通し番号を付ける（1～M）。

– M÷N人ごとに１人選ぶ。

– 比較的簡単だが、標本抽出台帳に周期性があると無作為抽出とは

いえなくなる。

(4)

13

乱数でソートする

上からＮ施設採用

簡単な単純無作為抽出法

層化無作為抽出法

• Ｂ県をある特徴をもった複数のサブグループ＝

層

（二

次医療圏、市町村、性年齢階級など）に分け、各層

内では単純無作為抽出を行うというように、対象集

団をあらかじめ複数の層に分けてから無作為抽出す

る方法。

• 長所

– 特定の層に、偶然多人数が集まることを避けることができ

るので、特定の層での過大な負担を避け、推定精度向上

にも役立つ。

– 層ごとの解析に必要な人数を、計画的に割り当てることが

できる。

• 短所

– 集計が複雑になることがある。

クラスター抽出法

• Ｂ県内の国勢調査区から、乱数によって選んだ10

地区の住民全員を対象として調査を行う、というよう

に、母集団をいくつかの集落＝

クラスター

（国勢調

査区、単位区など）に分け、クラスターを抽出単位と

して無作為抽出を行い、選ばれたクラスター内の構

成員全員を調査対象とする方法。

• 長所：

– 調査地域が広い場合（例えば全県レベルの調査）の

訪問

調査

などでは、移動の手間を小さくすることができる。

• 短所：

– 単純無作為抽出と比べて、同じ客体数ならば推定

誤差が

大きい

。

16

層化クラスター抽出法

• 層化無作為抽出

の抽出単位を集落（

クラス

ター

）にしたもの。

• 国民健康・栄養調査はこの方法（に近い）。

– 都道府県（と政令指定都市）別に、国勢調査区を

分割した“単位区”（１５～３０世帯程度）を抽出単

位としてクラスター抽出を行う。（実際には、国民

生活基礎調査で選ばれた国勢調査区から再抽

出している）

(5)

母集団

Ｃ県

クラスター抽出

標本

推測

人口２００万人

各栄養素摂取量

は？

県民健康・栄養調査の標本抽出

単位区（１５～３０世帯）×９

18

保健所

管内人口（人）

_{占める割合(P)}

県の総人口に

A

80,000

3.3% 41×3.3%

≒

1 B

110,000

4.5% 41×4.5%

≒

2 C

560,000

23.0% 41×23.0%

≒

9 D

100,000

4.1% 41×4.1%

≒

2 E

360,000

14.8% 41×14.8%

≒

6 F

520,000

21.4% 41×21.4%

≒

9 G

430,000

17.7% 41×17.7%

≒

7 H

50,000

2.1% 41×2.1%

≒

1 I

220,000

9.1% 41×9.1%

≒

4 合計

2,430,000

100.0%

41 Kは調査単位区総数（=41）×Pを四捨五入。各単位区の世帯数は

約30以下でほぼ一定とする。国民生活基礎調査で設定した単位

区から無作為抽出するのが現実的であろう。

表１．県民栄養調査の調査対象地区を保健所管区によって層化ク

ラスター抽出する例

調査対象

単位区数(K)

人口構成に比例して抽出

19

・・・・・・・・・・・・・・・

第１層

第２層

第Ｌ層

○●

国勢調査区

（約90万地区）

・・・・・・・・・・・・・・・

第１層

第２層

第Ｌ層

層化クラスター抽出

・・・・・・・・・・・

第１層

第２層

第Ｌ層

国民生活基礎調査

（大規模年：5240地区）

（中間年：1048地区）

国民健康・栄養調査

（300単位区）

国勢調査区単位区（約20世帯）単位区（約20世帯）無作為抽出

国民健康・栄養調査の標本抽出の概略

標本調査と誤差・偏り

• 誤差

：真の値と、観察した値とのずれ。標本

調査ではつきもの。

• ランダム誤差

：偶然現象によって生じたずれ。

標本抽出による誤差を特に標本誤差という。

統計学である程度制御可能（誤差の大きさが

わかる）。

• 系統的誤差（偏り、バイアス）

：何らかの理由

により、一定方向（正または負）に生じたずれ。

統計学で制御不可能な悪性の誤差。

(6)

ランダム誤差（抽出誤差）

• ランダム誤差

偶然によっておこる。ランダム誤差の大きさ

は、標本数が多いほど小さい。正負方向に同

様におこり、平均するとゼロになる。

Ａ市

標本抽出

標本

標本の喫煙率は

偶然によってばら

つく

.

喫煙率は？

推定

ランダム誤差（抽出誤差）の概念

Ａ市

標本１の喫煙率

３８％

喫煙率＝４０％

標本３

３９％

標本４

４０％

無作為

抽出１０００人

標本２

４２％

系統的誤差（偏り）の概念

Ａ市

喫煙率＝４０％

喫煙率＝３０％

健診に来た人

１００００人

郵送調査

３００００人

返送率３０％

喫煙率＝２５％

ランダム誤差

を減らすには

• 調査人数を増やす。

系統的誤差（偏り）

を減らすには

• 無作為抽出法を用いる。

• 回収率を高める。

標本抽出の際に、

(7)

25

調査人数の決め方

• 調査前に統計の専門家に相談する！

– 相談のしかた

• ２０代男性の朝食欠食率を知りたい。おおむね１０％

程度だろうと思う。誤差率５％とすると何名調査したら

よいか？

• 市民のカルシウム摂取量の平均値を知りたい。過去

の調査では平均５５０ｍｇ、標準偏差は２９０ｍｇだった。

誤差率５％とすると何名調査したらよいか？

• 自分で決める場合は・・・

26

調査人数（客体数）

• あらかじめ定めた

誤差率

（例えば１％）を達成

するために必要な人数を調査する（ただし、

実際には予算・期間等の制約を受ける）。

• 誤差率は、“

標準誤差÷平均値（や割合）

”と

定義され、誤差率が小さいほど推定精度が

高い。一般に、調査人数が多いほど誤差率

は小さい。

• 必要以上に調査人数を増やすよりも、回収率

を向上させるために労力を投じるべきである。

27

• 母集団の真の値

は、

推定値から相対的に±２×誤

差率の範囲

にある可能性が非常に高い。

• 例えば、標本喫煙率40%、誤差率3%とすると、母

集団の真の値（母喫煙率）は、40%±（40%の

2×3%）=40%±2.4%の範囲にある可能性が非常

に高い（95%信頼区間）

• 割合Pの

誤差率

=√((1-P)÷(P×人数))

– 標本100人で喫煙率40%だと、

• 誤差率= √((1-0.4)÷(0.4×100))=

12.2%

• 95%信頼区間=

30～50%

調査人数（客体数）続き

28

調査設計時の誤差率（または標準誤

差）の考え方

• 例：食塩摂取量の平均値（現状値11ｇ）を５年後に10g未

満にする。

– 標本平均(や割合)の±誤差率

の範囲にある

可能性が高く

（70%の確からしさ）、

– 標本平均(や割合)の±２×誤差率

の範囲にある

可能性がとて

も高い

（95%の確からしさ）。

• 評価時（５年後）の調査で、平均値が9.4gだった場合、

– 誤差率3%： 9.4gの±2×3％は、8.8～

10.0ｇ

（目標達成）

– 誤差率10%： 9.4gの±2×10％は、7.5～

11.3ｇ

（評価困難）

• このように具体的な目標を考えると、どの程度の誤差率

が必要かが見えてくるはず。

(8)

29

簡単な例

• Ａ市40歳代男性の喫煙率Pを知りたい。Pは

40%と予想される。許容できる誤差率は（相

対的に）100×E%とする。調査人数Nは何人

にしたらよいか。

• E=√((1-P)÷(P×N))を変形して、

• N=(1-P)÷(P×E

2 ₎

_{=(1-0.4)÷(0.4×E}

2 ₎

• E=5%(0.05)とすると、N=600

• E=3%(0.03)とすると、N=1670

30

標準誤差

要因保有率客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%

誤差率

要因保有率客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%

客体数と標準誤差・誤差率との関係（単純無作為抽出の場合）

31

標準誤差

要因保有率客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%

誤差率

要因保有率客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%

例）

200人の調査を行ったところ、喫煙率は40%だった。

標準誤差は3.5%なので、母集団の喫煙率は

40±3.5%の範囲にあるある可能性が高く

（70%の確からしさ）

40±7.0%の範囲にある可能性がとても高い

（95%の確からしさ）

客体数と

標準誤差

との関係（単純無作為抽出の場合）

32

どちらの結果を信じる？

• 母集団の人口は５０万人。朝食欠食率を知り

たい。いずれも単純無作為抽出。

（１）郵送調査５万人（返送率３０％）。

（２）郵送調査１０００人（返送率９５％）。

(9)

33

都道府県等における健康・栄養調査

での標本抽出

• 必ず、

“無作為抽出”

を行う。

個人単位・・・単純無作為抽出

地区単位・・・クラスター抽出（←これが一般的）

• 無作為抽出を行わないと、

系統的誤差（偏り）

が生じ

る可能性が大！

→系統的誤差（偏り）のあるデータを用いて、地域間比

較や経年比較をするのは、

無意味

。

• 抽出人数（地区数）が少ないと、

ランダム誤差

が大

きくなる。

→ランダム誤差が大きいと、地域差や経年変化が

見

えにくい

。

34 県民栄養調査における単位区数と標準誤差率との関係（

食塩）

0% 5% 10% 15% 20% 25% 30% 0 5 10 15 20 25 30 35 40 45 単位区数標準誤差率実現値 80%予測値 50%予測値

都道府県健康・栄養調査における単位区数と誤差率との関係

35 項目仮定した_保有率性別誤差率_10% 誤差率_5% 誤差率_3% 脂肪エネルギー比率平均値男女 <5 8 18 野菜摂取量〃男女 7 20 60 日常生活における歩数〃男女 <5 16 35 運動習慣のある者（成人） 30% 男女 35 >100 >100 44% 男 35 >100 >100 11% 女 >100 >100 >100 睡眠による休養が不足している者 26% 男女 30 90 >100 8% 男 >100 >100 >100 肥満者の率（成人の内臓脂肪型肥満） 28% 男女 30 95 >100 糖尿病有病者・予備群の率 34% 男女 30 >100 >100 高血圧症有病者・予備群の率 59% 男女 14 45 >100 ＭＳ有病率 15% 男女 70 >100 >100 対象年齢３０～７５歳 80%の確率で目標誤差率を達成するために必要な単位区数誤差率＝標準誤差÷推定値なので、例えば有病率15%で誤差率10%ならば標準誤差は15%×10%=1.5%である。

項目別の誤差率と必要単位区数（要約）

喫煙率大量飲酒者 HbA1cや栄養素等の連続型変数は30単位区あればおおむね十分な精度が得られる「国民健康・栄養調査における各種指標の設定及び精度の向上に関する研究」（主任研究者：吉池信男）より

項目別の誤差率と必要単位区数（要約）

36 「国民健康・栄養調査における各種指標の設定及び精度の向上に関する研究」（主任研究者：吉池信男）より

不十分な標本数では、こんな誤解が！

(10)

37

母

集

団

健診データ２

健診データ１

国民（県民）健康

・栄養調査

無作為抽出

有意抽出

無作為抽出

高い協力率

低い協力率

偏り

高い受診率

低い受診率

偏り

高い受診率

低い受診率

偏り

（地域・職域を含む全

てからの無作為抽出、

または悉皆調査）

偏り×１

偏り×２

ＯＫ

偏り×１

健診データを使うことの問題点

38

“きちんと（正しく）測る”

• 統計調査では、社会生活を営む大勢の人々

を対象にデータ収集を行う。

→複数の施設、多くの調査員による面接や測

定。

• 身体計測や血圧測定といった、比較的単純

かつ基本的な測定項目であっても、

→本当に“きちんと測られているのか？”

• “きちんと（正しく）測る”

とは何か？

39

“測ったもの（測定値）”

測定値＝真の値＋誤差

• “きちんと（正しく）測る”とは、

→可能な限り

“誤差が小さくなるように”

測ること。

• 誤差が大きいと、例えば、

群間の差＜測定値の誤差・・・群間の比較不能

経時的変化＜測定値の誤差・・・経時的な比較不能

40

誤差を減らすには？

• 血圧、腹囲、食物摂取量など、健康・栄養調査では

これらの値を可能な限り“

誤差なく正確に

”測定する

ことが望まれるが、“

誤差のない測定はあり得ない

”

と言われるほど、一般の人々から医学・栄養学的な

データを得ることは難しく、測定値には様々な誤差

が入ってくる可能性がある。

• しかし、誤差を

減らすことは可能

である。そのために

は、まず、

誤差の種類と原因を理解

し、調査を計画・

実施する者は、それに基づいて可能な限り誤差が

小さくなるように配慮すべき。

(11)

41

誤差とは？

• 種類

によって、

測定誤差

・・・測定の段階で生じる誤差

標本誤差

・・・標本抽出の段階で生じる誤差

• 性質によって

系統的誤差・・・測定値が真の値から特定の

方向にずれている（偏り）

ランダム誤差・・・“ずれ”が、特定の方向に偏

らない（平均するとゼロ）

42

真の値

目盛り

ランダム誤差

測定値

真の値

目盛り

系統的誤差

（とランダム誤差）

測定値

一定方向に

ずれて

い

る

測定を多数繰り返せば

平均と真の値が一致

測定を繰り返しても

平均と真の値は

ずれたまま

教p.24

ランダム誤差と系統的誤差

43

真の値

目盛り

測定値

測定の

ランダム誤差の例

・日間変動、日内変動

被測定者のその日、その時々

の体調の微妙な変化によって、

測定時の血圧がたまたま（全く

の偶然に）いつもより高め、ある

いは低めだった

→複数回測定すれば、その平

均が真の値に近づく。

例えば、同じ人に血圧を２回

ずつ測定してその平均値をとる。

ランダム誤差

44

真の値

目盛り

測定値

一定方向に

ずれて

い

る

測定を繰り返しても

平均と真の値は

ずれたまま

測定の

系統的誤差の例

・被験者の測定条件

検査会場まで坂道を歩いてきた被験

者の血圧を、（休憩せず）すぐに測る

と、高めになる。

→一定時間、安静にした後に測定す

ればよい。

・測定者の“くせ”

血圧を高めに読む“くせ”のある人の

測定値は、真の値よりもいつも高め。

→ビデオテープ等による訓練を行う。

・測定機器の“くせ”

水銀血圧計のフィルターが目詰まり

していると高め、水銀が足りないと低

め、ガラス管が汚れていると・・・

→定期的にメンテナンスしてますか？

系統的誤差

（とランダム誤差）

(12)

45

データ処理・作表

基本事項

• 母集団の定義

• 調査対象人数、抽出率

• 回収人数、回収率

– 例）Ａ市50～79歳の男女（2008年7月1日現在人

口12345人）から、1000人を無作為抽出して(抽

出率8.1%)、郵送法により調査を行った。（・・・こ

こに調査の概要・・・）10月1日までに720人から

調査票が返送された（回収率72%）。うち、ほとん

ど未回答だった30人を除いた690名（69%）を解

析対象とした。

46

調査データの種類

• 質的

データ：

– ２値（例）性別の“男”と“女”

– カテゴリーが３つ以上

• 順序尺度ordinal scale：順序関係はあるが絶対量としての意味

はない測定値。

– （例）ある食品の嗜好：“とても好き”、“好き”、“どちらでも”、“嫌い”

• 名義尺度nominal scale：順序関係がない分類のための変数。

– （例）最もよく食べる肉類：“うし”、“ぶた”、“とり”、“その他”

• 数量

データ：量的に測定できる連続的な測定値

– 連続データ（例）身長、体重、血圧、血清総コレステロー

ル、栄養素摂取量

– 離散データ（例）う歯の本数

教p.76-77

質的データの整理

• 準備

– 単純に頻度を記述。欠損値の数、変な値が紛れ込んでい

ないかなどをチェック。

• 単純集計

– 地区・性・年齢階級別

頻度を整理する。

• 例：性・年齢階級別の高血圧の頻度

• クロス集計

– 二つの変数の関連

を調べるために行う（交絡変数に注意）。

• 例：果物摂取頻度と高血圧の頻度

教p.86-89

48

単純集計

• 性・年齢階級別頻度を整理する。

↑↑脚注は積極的に使って分かりやすくする。

表１．性・年齢階級別、高血圧者の割合人数高血圧者_割合男性 50-59歳 120 20% 60-69歳 110 30% 70-79歳 100 40% 計 330 29% 女性 50-59歳 130 10% 60-69歳 120 15% 70-79歳 110 25% 計 360 16% 未回答を除く。表２．性・年齢階級別、果物摂取頻度人数週１回未満週１～３回週４回以上男性 50-59歳 120 50% 30% 20% 60-69歳 110 47% 28% 25% 70-79歳 100 41% 29% 30% 計 330 46% 29% 25% 女性 50-59歳 130 32% 36% 32% 60-69歳 120 30% 34% 36% 70-79歳 110 25% 33% 42% 計 360 29% 34% 36% 未回答を除く。 ※値は行方向の割合である。果物摂取頻度※

教p.86-89

(13)

49

クロス集計

• 二つの変数の関連を調べるために行う（

交絡

変数に注意

）

– 検定：

二つの変数が関係しているように見えるが、

これは偶然だろうか？

という問いに答えるために

検定する。χ

２ _{検定など。}

図表はSelf-explanatoryに（それを見ただけで意味がわかるように）作る！

表３．野菜摂取頻度と高血圧の有無との関係（70-79歳男性）人数 % 人数 % 人数 % 週１回未満 22 54% 19 46% 41 100% 週１～３回 12 41% 17 59% 29 100% 週４回以上 6 20% 24 80% 30 100% 計 40 40% 60 60% 100 100% χ2_{=8.21, 自由度=2, P=0.017} 果物摂取頻度高血圧ありなし計

%の方向は、「原因」と

思われる方から、「結

果」の割合を示すと読

みやすい。

教p.86-89

量的データの整理

• 準備

– ヒストグラムを描き、分布の形を確認する。欠損値の数、変

な値が紛れ込んでいないかなどをチェック。

– カテゴリー型に変換する場合（BMIを肥満の有無で３群に分

けるなど）は、以後、質的データの整理と同様。

• 単純集計

– 地区・性・年齢階級別の要約統計量（代表値等）を記述。

• 正規分布の場合・・・平均と標準偏差

• 歪んだ分布の場合・・・中央値と２５，７５パーセント点など

• 群間比較

– 二つの要因の関連を調べるために行う（交絡変数に注意）。

• 例：Ａ地区とＢ地区でどちらが血圧が高いか？

– 平均値と標準偏差を群間で比較する。

– 検定

» 二つの地区間で血圧の平均値が異なるように見えるが、これは

偶然だろうか？という問いに答えるために検定する。ｔ検定など。

教p.90-103

51 図１　ヒストグラム 0 50 100 150 200 250 300 350 400 450 500 80　　　 100　　　120　　　140　　　160　　　180　　　200　　　収縮期血圧(mmHg) 度数（人）

• 階級数は、√標本数＋１前後を目安にすると形が分かりやす

い。区切りの良い値で分けることも多い。

• 分布の形を確認する。

– 左右対称

か？→右裾が長い場合、対数変換を考慮

– 外れ値

はないか？→標本として適切か検討

– 分布の

中心位置

はどのあたりか？→

代表値

（平均、中央値など）

– 分布の

ばらつき具合

は？→

散布度

（標準偏差、四分偏差など）

まずは、ヒストグラムを描いて確認

教p.90-92

52

ヒストグラムの例１

身長 (cm) 0 5 10 15 20 25 30 35 40 45 50 15 0. 0 -15 2. 0 -15 4. 0 -15 6. 0 -15 8. 0 -16 0. 0 -16 2. 0 -16 4. 0 -16 6. 0 -16 8. 0 -17 0. 0 -17 2. 0 -17 4. 0 -17 6. 0 -17 8. 0 -18 0. 0 -18 2. 0 -18 4. 0 -18 6. 0 -18 8. 0 -度数（人） BMI (kg/m2) 0 5 10 15 20 25 30 35 40 45 16 .5 -17 .4 -18 .3 -19 .1 -20 .0 -20 .9 -21 .8 -22 .6 -23 .5 -24 .4 -25 .3 -26 .1 -27 .0 -27 .9 -28 .8 -29 .6 -30 .5 -31 .4 -32 .3 -33 .1 -度数（人） SBP (mmHg) 0 10 20 30 40 50 60 86- 94- ₁02- ₁10- ₁17- 25-₁ ₁33- ₁41- ₁49- ₁57- 64-₁ ₁72- ₁80- ₁88- ₁96- ₂04- ₂11- ₂19- ₂27- ₂ 35-度数（人） DBP (mmHg) 0 10 20 30 40 50 60 70 51. 0-54. 4-57. 8-61. 3-64. 7-68. 1-71. 5-74. 9-78. 4-81. 8-85. 2-88. 6-92. 1-95. 5-98. 9-1 02. 3-1 05. 7-1 09. 2-1 12. 6-1 16. 0-度数（人）

(14)

53

ヒストグラムの例

２

血清総コレステロール (mg/dL) 0 10 20 30 40 50 60 1 13. 0-1 24. 6-1 36. 3-1 47. 9-1 59. 5-1 71. 2-1 82. 8-1 94. 4-2 06. 1-2 17. 7-2 29. 3-2 40. 9-2 52. 6-2 64. 2-2 75. 8-2 87. 5-2 99. 1-3 10. 7-3 22. 4-3 34. 0-度数（人） HDLコレステロール (mg/dL) 0 10 20 30 40 50 60 70 33. 0-37. 9-42. 8-47. 7-52. 6-57. 5-62. 4-67. 3-72. 2-77. 1-81. 9-86. 8-91. 7-96. 6-1 01. 5-1 06. 4-1 11. 3-1 16. 2-1 21. 1-1 26. 0-度数（人） 54

図３　対数正規分布

測定値

度

数

右に歪んでいる（対数正規分布）測定値を対数変換（横軸をlog[測定値]に）すると、左右対称になる

図２　正規分布

測定値

度

数

左右対称でベル形（正規分布）

典型例

・中性脂肪

・ビタミンＡ摂取量

右に裾が長い分布は、対数変換するとよいかも

55

ヒストグラムの例３

中性脂肪 (mg/dL) 0 20 40 60 80 100 120 34. 0-68. 3-1 02. 6-1 36. 9-1 71. 3-2 05. 6-2 39. 9-2 74. 2-3 08. 5-3 42. 8-3 77. 2-4 11. 5-4 45. 8-4 80. 1-5 14. 4-5 48. 7-5 83. 1-6 17. 4-6 51. 7-6 86. 0-度数（人） log 中性脂肪 (log mg/dL) 0 5 10 15 20 25 30 35 40 45 50 3. 5 -3. 7 -3. 8 -4. 0 -4. 2 -4. 3 -4. 5 -4. 6 -4. 8 -4. 9 -5. 1 -5. 3 -5. 4 -5. 6 -5. 7 -5. 9 -6. 1 -6. 2 -6. 4 -6. 5 -度数（人） γ-GTP (IU/L) 0 20 40 60 80 100 120 140 160 180 14. 0-45. 9-77. 8-1 09. 7-1 41. 6-1 73. 5-2 05. 4-2 37. 3-2 69. 2-3 01. 1-3 32. 9-3 64. 8-3 96. 7-4 28. 6-4 60. 5-4 92. 4-5 24. 3-5 56. 2-5 88. 1-6 20. 0-度数（人）

log γ-GTP (log IU/L)

0 5 10 15 20 25 30 35 40 45 50 2. 6 -2. 8 -3. 0 -3. 2 -3. 4 -3. 6 -3. 8 -4. 0 -4. 2 -4. 4 -4. 6 -4. 8 -5. 0 -5. 2 -5. 4 -5. 6 -5. 8 -6. 0 -6. 2 -6. 4 -度数（人） 56

代表値（中心位置の指標）

• 平均値・・・左右対称な場合に有用

– データの合計÷データ数

• 中央値・・・非対称等、歪んだ分布の場合

– データを小さい方から並べ替えて、ちょうど真ん中（50%）の値。

– 50%点ともいう。

　

幾何平均最頻値歪んだ分布（対数正規分布など）中央値平均値

図４　分布型と代表値

平均値中央値最頻値左右対称の分布（正規分布など）

教p.93-98

(15)

57

• 代表値（中心位置の指標）

と

散布度（バラツキ

の指標）

として、

– 「

平均と標準偏差

」

– 「

中央値と四分偏差（25%点と75%点）

」

の組合せがよく用いられる。

図５　標準偏差はバラツキの指標

0 20 40 60 80 100 120 140 160 180 200 測定値度数平均=100 標準偏差=20 平均=100 標準偏差=40 平均±1標準偏差（全体の68%）平均±2標準偏差（全体の95%）

箱ヒゲ図

上側

隣接値

75%点

中央値

25%点

下側

隣接値

教p.95-98, 118-119

58

単純集計

• 性・年齢階級別に平均と標準偏差等で要約

する。

強く歪んだ分布の場合

には、パーセント点を活

用する。

表１．性・年齢階級別、収縮期と中性脂肪の分布人数平均 ± 標準偏差中央値 (25, 75%点) 男性 50-59歳 120 138.5 ± 10.5 112 (76, 162) 60-69歳 110 143.2 ± 11.2 108 (76, 157) 70-79歳 100 147.3 ± 12.1 96 (70, 131) 計 330 142.7 ± 11.6 90 (65, 142) 女性 50-59歳 130 129.6 ± 10.1 124 (90, 169) 60-69歳 120 134.8 ± 10.3 134 (98, 186) 70-79歳 110 139.9 ± 10.5 124 (81, 164) 計 360 134.5 ± 10.4 136 (111, 176) 収縮期血圧, mmHg 中性脂肪, mg/dL 59

EAR, RDAと平均, 標準偏差

図１．成人1000人のたんぱく質必要量

（

● が1個人を表す）

0

5

10

15

20

25

30

35

40

45

50

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2 たんぱく質必要量

(g/体重kg/日)

頻

度

（

人

）

推定平均必要量

推奨量

2S.D.

Bさんの摂取量

（0.60g/kg/日）

Aさんの摂取量

（0.74g/kg/日）

Cさんの摂取量

（0.93g/kg/日）

値は日本人の食事摂取基準(2005年版)

血清総コレステロール (mg/dL)

0 10 20 30 40 50 60 113. 0-124. 6-136. 3-147. 9-159. 5-171. 2-182. 8-194. 4-206. 1-217. 7-229. 3-240. 9-252. 6-264. 2-275. 8-287. 5-299. 1-310. 7-322. 4-334. 0-度数（人）

平均193, 標準

偏差

20 (mg/dL)

平均193, 標準

誤差

3 (mg/dL)

血清総コレステロール (mg/dL)

標準

偏差

は、データのばらつき

標準

誤差

は、標本平均の確からしさ

どちらを使うかは、何を言いたいかによる

どちらを示したか、必ず明記する

教p.131

標準偏差と標準誤差を混同しない

(16)

61

• 総エネルギー、３大栄養素

– 正規分布のことが多い

• 平均と標準偏差が有用

• ビタミン等の微量栄養素の場合

– 対数正規分布のことが多い

• 幾何平均、中央値、パーセント点が有用

• その他

– 一定の規則はない。ヒストグラムで確認する。

• 中央値とパーセント点をもっと活用しよう

食事調査における栄養素等の分布型

（あくまでも目安）

62

練習問題

【問１】ある集団におけるたんぱく質の必要量は、平均0.7g/kg/日、

標準偏差0.1g/kg/日で、その分布の形は正規分布であることが

分かっている。この集団のほとんどの人（97.5%の人）が不足しな

いたんぱく質の摂取量はいくらか。

63

練習問題の答

【問１】ある集団におけるたんぱく質の必要量は、平均0.7g/kg/日、

標準偏差0.1g/kg/日で、その分布の形は正規分布であることが

分かっている。この集団のほとんどの人（97.5%の人）が不足しな

いたんぱく質の摂取量はいくらか。

【解説】RDAの定義そのものなので、（統計以前に）できないとま

ずい。

平均 + 2 x 標準偏差 = 0.9

答 0.9g/kg/日

調査結果の解析方法

• 調査が終わってから、

–「今回の調査結果をどうやって集計し

たらいいのだろうか？」

と考えるのでは遅すぎる。

＞保健医療従事者の仕事

この調査から何を知りたいのかを明確にする。

＞統計学者の仕事

そのために適切な解析方法を提供する。

○○を調査で明らかにしたいのですが、解析方法は？

このデータでどんな解析をしたら、何が分かりますか？

(17)

再び・・・統計の目的

• 総量の把握

：国勢調査人口

• 集団の構造や特性の把握：

年齢３区分人口割合、死因別死

亡率、栄養素摂取量

• 複数要因間に存在する法則、因果関係の探究：

年齢と死亡

率、塩分摂取量と血圧、血圧と脳卒中罹患率。分析疫学の

多くはこれを目的とする。

• 予測：

将来推計人口。

• 評価：

保健活動の量的な評価。実験疫学（介入研究）の評

価。

など。

これを頭に入れて、調査実施前にその調査から何

を知りたいのかを明確にして下さい。

例

• 集団の構造や特性の把握：

– 子ども達は何時頃に寝ているのだろう？

– 朝食を食べない子どもはどのくらいいるのだろう？

• 解析方法：（性）年齢階級別の単純集計

• 複数要因間に存在する法則、因果関係の探究

– 朝食を食べない子どもはどんな子だろう？（夜更かし？好き嫌いが

多い？夕食は一人？お菓子をよく食べる？）

• 解析方法：“欠食有無×要因”のクロス表を作り、χ

2

_{検定をする。}

• 要因が判明したら、そこにアプローチすれば欠食率低下に役立つかも。

• 評価

– 子どもの欠食率を現状７％から５年で３％まで下げるという目標を立

てた。

• 調査方法：欠食率調査を行い、５年後にも再び同じ調査を行う。

Microsoft PowerPoint - 統計調査概論2010.ppt

国立保健医療科学院 人材育成部

横山 徹爾

保健・栄養統計学

～①統計調査概論～

音声を中断

するには、キーボードの

<ESC>キー

を押します。

再開するには、左上隅のスピーカーマークをクリックします。

次のスライドに進むには、画面下の矢印をクリックするか、

画面左側のリストをクリックして選択します。

統計とは

• 医学、栄養学、保健学研究は対象とする人々を観察

することから始まる。「観察する」とは、その人たちの

持つ様々な「特性」を調査、記録、分析することであ

る。

• 疫学・統計学は、これら調査、記録、分析をいかに行

うかについての「方法論」を提供する。

• 学習内容

– ①統計調査概論

• 社会生活を営む人々の特性を把握するために、

どのように調査を行ってデータを収集するか。

– ②統計学概論

• 収集したデータをどのように分析して解釈し、結

論を導くか。

調査統計の目的

• 総量の把握：

国勢調査人口

• 集団の構造や特性の把握：

年齢３区分人口割合、

死因別死亡率、栄養素摂取量

• 複数要因間に存在する法則、因果関係の探究：

年

齢と死亡率、塩分摂取量と血圧、血圧と脳卒中罹患

率。分析疫学の多くはこれを目的とする。

• 予測：

将来推計人口。

• 評価：

保健活動の量的な評価。実験疫学（介入研

究）の評価。

など。

常に対象集団を意識する

• 対象集団

：観察の対象として設定された集団。

• 全数調査（悉皆調査）

：対象集団の構成員全

員の調査。国勢調査など。

• 標本調査

：対象集団から（一部分）抽出した

標本の調査。対象集団全体のことを母集団と

呼ぶ。標本調査では標本から母集団の特性

を推測する。

標本調査の目的

• 母集団における

身長、体重、栄養摂取量の分布、

肥満、貧血、高脂血症の有病率、

を知りたい。

• 全員調べれば（悉皆調査）わかるが、と

うてい不可能である。

• そこで、一部の人たち（標本）を調べて、

母集団全体の様子を

推測

しよう！

母集団

（Ａ県）

標本

標本抽出

推測

人口

人口

２０

２０

０万人

０万人

朝食の欠食率

朝食の欠食率

は？

は？

母集団と標本

国立保健医療科学院人材育成部

横山徹爾