• 検索結果がありません。

Microsoft PowerPoint - 統計調査概論2010.ppt

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - 統計調査概論2010.ppt"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

1

国立保健医療科学院 人材育成部

横山 徹爾

保健・栄養統計学

~①統計調査概論~

音声を中断

するには、キーボードの

<ESC>キー

を押します。

再開するには、左上隅のスピーカーマークをクリックします。

次のスライドに進むには、画面下の矢印をクリックするか、

画面左側のリストをクリックして選択します。

統計とは

• 医学、栄養学、保健学研究は対象とする人々を観察

することから始まる。「観察する」とは、その人たちの

持つ様々な「特性」を調査、記録、分析することであ

る。

• 疫学・統計学は、これら調査、記録、分析をいかに行

うかについての「方法論」を提供する。

• 学習内容

– ①統計調査概論

• 社会生活を営む人々の特性を把握するために、

どのように調査を行ってデータを収集するか。

– ②統計学概論

• 収集したデータをどのように分析して解釈し、結

論を導くか。

調査統計の目的

• 総量の把握:

国勢調査人口

• 集団の構造や特性の把握:

年齢3区分人口割合、

死因別死亡率、栄養素摂取量

• 複数要因間に存在する法則、因果関係の探究:

齢と死亡率、塩分摂取量と血圧、血圧と脳卒中罹患

率。分析疫学の多くはこれを目的とする。

• 予測:

将来推計人口。

• 評価:

保健活動の量的な評価。実験疫学(介入研

究)の評価。

など。

常に対象集団を意識する

• 対象集団

:観察の対象として設定された集団。

• 全数調査(悉皆調査)

:対象集団の構成員全

員の調査。国勢調査など。

• 標本調査

:対象集団から(一部分)抽出した

標本の調査。対象集団全体のことを母集団と

呼ぶ。標本調査では標本から母集団の特性

を推測する。

(2)

標本調査の目的

• 母集団における

身長、体重、栄養摂取量の分布、

肥満、貧血、高脂血症の有病率、

を知りたい。

• 全員調べれば(悉皆調査)わかるが、と

うてい不可能である。

• そこで、一部の人たち(標本)を調べて、

母集団全体の様子を

推測

しよう!

母集団

(A県)

標本

標本抽出

推測

人口

人口

20

20

0万人

0万人

朝食の欠食率

朝食の欠食率

は?

は?

母集団と標本

1000人

1000人

朝食の欠食率

朝食の欠食率

これは調査でわかる

標本が母集団を代表していれば、

推測可能

どうやって?

何人?

7

標本 Sample

(調査対象者)

母集団 Population

(調査対象集団)

誰を調査するのか?

どうやってアクセスするのか?

どの集団を調べるのか?

誰が協力してくれたのか?

協力者 Responder

(慣習的に「調査対象者」と呼ぶ

ことも多いが曖昧な表現)

標本抽出台帳

Sampling frame

標本抽出の各段階

無作為抽出

• 調査対象としている人口全体のことを

母集団

と呼ぶ。

例えば、国民健康・栄養調査では日本人全体が母

集団である。

• 標本抽出を行う場合は、母集団をいくつかの

抽出単

(“

個人

”、“

世帯

”、“

国勢調査区

” など目的に応じて

決める)に分け、全ての

抽出単位

が選ばれる確率が

等しくなるように工夫する。

• これを

無作為抽出

といい、例えば、それぞれの抽出

単位に通し番号を付け、乱数によって標本を選び出

せばよい。

• 母集団の特性を推測するためには、無作為抽出を

用いなければならない。

教p.16, 75

「保健統計・疫学 改訂4版」参照ページ⇒

(3)

主な無作為抽出法

• 単純無作為抽出法

• 層化無作為抽出法

• クラスター抽出法

など。

単純無作為抽出法

• A市の全住民のうちから、住民基本台帳から乱数に

よって選んだ1000名を対象として調査を行う、という

ように、母集団を構成する

個人

(などの最小単位=

客体)

を抽出単位

として無作為抽出を行う方法。

• 抽出人数÷全人口を

抽出率

という。

• 住民アンケートなどで、広く用いられている。

• 乱数→コンピュータを用いるのが現実的

– 例)エクセルで1~1000の乱数を作るには、

=INT(RAND()*1000)+1

母集団

(A市)

標本

単純無作為抽出

推測

人口10万人

人口10万人

朝食欠食率は?

朝食欠食率は?

市民アンケート

1000人

1000人

欠食率8%

欠食率8%

12

無作為抽出の実際

• 例1)

– 標本抽出台帳に載っている全員に通し番号を付ける(1~M)。

– 乱数を必要な人数分(N)個作り、該当する人を選ぶ。ただし、重複し

た場合は乱数を作り直す。

• 例2)

– 標本抽出台帳に載っている全員に重複しない乱数を付ける(0~1の

一様乱数など:エクセルの=RAND())。

– その乱数でソートして、上からN人分を選ぶ。

• 参考:等間隔サンプリング(近似的に無作為抽出)

– 標本抽出台帳に載っている個人に通し番号を付ける(1~M)。

– M÷N人ごとに1人選ぶ。

– 比較的簡単だが、標本抽出台帳に周期性があると無作為抽出とは

いえなくなる。

(4)

13

乱数でソートする

上からN施設採用

簡単な単純無作為抽出法

層化無作為抽出法

• B県をある特徴をもった複数のサブグループ=

(二

次医療圏、市町村、性年齢階級など)に分け、各層

内では単純無作為抽出を行うというように、対象集

団をあらかじめ複数の層に分けてから無作為抽出す

る方法。

• 長所

– 特定の層に、偶然多人数が集まることを避けることができ

るので、特定の層での過大な負担を避け、推定精度向上

にも役立つ。

– 層ごとの解析に必要な人数を、計画的に割り当てることが

できる。

• 短所

– 集計が複雑になることがある。

クラスター抽出法

• B県内の国勢調査区から、乱数によって選んだ10

地区の住民全員を対象として調査を行う、というよう

に、母集団をいくつかの集落=

クラスター

(国勢調

査区、単位区など)に分け、クラスターを抽出単位と

して無作為抽出を行い、選ばれたクラスター内の構

成員全員を調査対象とする方法。

• 長所:

– 調査地域が広い場合(例えば全県レベルの調査)の

訪問

調査

などでは、移動の手間を小さくすることができる。

• 短所:

– 単純無作為抽出と比べて、同じ客体数ならば推定

誤差が

大きい

16

層化クラスター抽出法

• 層化無作為抽出

の抽出単位を集落(

クラス

ター

)にしたもの。

• 国民健康・栄養調査はこの方法(に近い)。

– 都道府県(と政令指定都市)別に、国勢調査区を

分割した“単位区”(15~30世帯程度)を抽出単

位としてクラスター抽出を行う。(実際には、国民

生活基礎調査で選ばれた国勢調査区から再抽

出している)

(5)

母集団

C県

クラスター抽出

標本

推測

人口200万人

人口200万人

各栄養素摂取量

各栄養素摂取量

は?

は?

県民健康・栄養調査の標本抽出

単位区(15~30世帯)×9

18

保健所

管内人口(人)

占める割合(P)

県の総人口に

A

80,000

3.3% 41×3.3%

1

B

110,000

4.5% 41×4.5%

2

C

560,000

23.0% 41×23.0%

9

D

100,000

4.1% 41×4.1%

2

E

360,000

14.8% 41×14.8%

6

F

520,000

21.4% 41×21.4%

9

G

430,000

17.7% 41×17.7%

7

H

50,000

2.1% 41×2.1%

1

I

220,000

9.1% 41×9.1%

4

合計

2,430,000

100.0%

41

Kは調査単位区総数(=41)×Pを四捨五入。各単位区の世帯数は

約30以下でほぼ一定とする。国民生活基礎調査で設定した単位

区から無作為抽出するのが現実的であろう。

表1.県民栄養調査の調査対象地区を保健所管区によって層化ク

ラスター抽出する例

調査対象

単位区数(K)

人口構成に比例して抽出

19

・・・・・・・・・・・・・・・

第1層

第2層

第L層

○●

国勢調査区

(約90万地区)

・・・・・・・・・・・・・・・

第1層

第2層

第L層

層化 クラスター 抽出

・・・・・・・・・・・

第1層

第2層

第L層

国民生活基礎調査

(大規模年:5240地区)

(中間年:1048地区)

国民健康・栄養調査

(300単位区)

国勢調査区 単位区(約20世帯) 単位区(約20世帯) 無作為抽出

国民健康・栄養調査の標本抽出の概略

標本調査と誤差・偏り

• 誤差

:真の値と、観察した値とのずれ。標本

調査ではつきもの。

• ランダム誤差

:偶然現象によって生じたずれ。

標本抽出による誤差を特に標本誤差という。

統計学である程度制御可能(誤差の大きさが

わかる)。

• 系統的誤差(偏り、バイアス)

:何らかの理由

により、一定方向(正または負)に生じたずれ。

統計学で制御不可能な悪性の誤差。

(6)

ランダム誤差(抽出誤差)

• ランダム誤差

偶然によっておこる。ランダム誤差の大きさ

は、標本数が多いほど小さい。正負方向に同

様におこり、平均するとゼロになる。

A市

標本抽出

標本

標本の喫煙率は

偶然によってばら

つく

.

喫煙率は?

喫煙率は?

推定

ランダム誤差(抽出誤差)の概念

A市

標本1の喫煙率

38%

喫煙率=40%

喫煙率=40%

標本3

39%

標本4

40%

無作為

抽出1000人

標本2

42%

系統的誤差(偏り)の概念

A市

喫煙率=40%

喫煙率=40%

喫煙率=30%

健診に来た人

10000人

郵送調査

30000人

返送率30%

喫煙率=25%

ランダム誤差

を減らすには

• 調査人数を増やす。

系統的誤差(偏り)

を減らすには

• 無作為抽出法を用いる。

• 回収率を高める。

標本抽出の際に、

(7)

25

調査人数の決め方

• 調査前に統計の専門家に相談する!

– 相談のしかた

• 20代男性の朝食欠食率を知りたい。おおむね10%

程度だろうと思う。誤差率5%とすると何名調査したら

よいか?

• 市民のカルシウム摂取量の平均値を知りたい。過去

の調査では平均550mg、標準偏差は290mgだった。

誤差率5%とすると何名調査したらよいか?

• 自分で決める場合は・・・

26

調査人数(客体数)

• あらかじめ定めた

誤差率

(例えば1%)を達成

するために必要な人数を調査する(ただし、

実際には予算・期間等の制約を受ける)。

• 誤差率は、“

標準誤差÷平均値(や割合)

”と

定義され、誤差率が小さいほど推定精度が

高い。一般に、調査人数が多いほど誤差率

は小さい。

• 必要以上に調査人数を増やすよりも、回収率

を向上させるために労力を投じるべきである。

27

• 母集団の真の値

は、

推定値から相対的に±2×誤

差率の範囲

にある可能性が非常に高い。

• 例えば、標本喫煙率40%、誤差率3%とすると、母

集団の真の値(母喫煙率)は、40%±(40%の

2×3%)=40%±2.4%の範囲にある可能性が非常

に高い(95%信頼区間)

• 割合Pの

誤差率

=√((1-P)÷(P×人数))

– 標本100人で喫煙率40%だと、

• 誤差率= √((1-0.4)÷(0.4×100))=

12.2%

• 95%信頼区間=

30~50%

調査人数(客体数)続き

28

調査設計時の誤差率(または標準誤

差)の考え方

• 例:食塩摂取量の平均値(現状値11g)を5年後に10g未

満にする。

– 標本平均(や割合)の±誤差率

の範囲にある

可能性が高く

(70%の確からしさ)、

– 標本平均(や割合)の±2×誤差率

の範囲にある

可能性がとて

も高い

(95%の確からしさ)。

• 評価時(5年後)の調査で、平均値が9.4gだった場合、

– 誤差率3%: 9.4gの±2×3%は、8.8~

10.0g

(目標達成)

– 誤差率10%: 9.4gの±2×10%は、7.5~

11.3g

(評価困難)

• このように具体的な目標を考えると、どの程度の誤差率

が必要かが見えてくるはず。

(8)

29

簡単な例

• A市40歳代男性の喫煙率Pを知りたい。Pは

40%と予想される。許容できる誤差率は(相

対的に)100×E%とする。調査人数Nは何人

にしたらよいか。

• E=√((1-P)÷(P×N))を変形して、

• N=(1-P)÷(P×E

2

)

=(1-0.4)÷(0.4×E

2

)

• E=5%(0.05)とすると、N=600

• E=3%(0.03)とすると、N=1670

30

標準誤差

要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%

誤差率

要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%

客体数と標準誤差・誤差率との関係(単純無作為抽出の場合)

31

標準誤差

要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%

誤差率

要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%

例)

200人の調査を行ったところ、喫煙率は40%だった。

標準誤差は3.5%なので、母集団の喫煙率は

40±3.5%の範囲にあるある可能性が高く

(70%の確からしさ)

40±7.0%の範囲にある可能性がとても高い

(95%の確からしさ)

客体数と

標準誤差

との関係(単純無作為抽出の場合)

32

どちらの結果を信じる?

• 母集団の人口は50万人。朝食欠食率を知り

たい。いずれも単純無作為抽出。

(1)郵送調査5万人(返送率30%)。

(2)郵送調査1000人(返送率95%)。

(9)

33

都道府県等における健康・栄養調査

での標本抽出

• 必ず、

“無作為抽出”

を行う。

個人単位・・・単純無作為抽出

地区単位・・・クラスター抽出(←これが一般的)

• 無作為抽出を行わないと、

系統的誤差(偏り)

が生じ

る可能性が大!

→系統的誤差(偏り)のあるデータを用いて、地域間比

較や経年比較をするのは、

無意味

• 抽出人数(地区数)が少ないと、

ランダム誤差

が大

きくなる。

→ランダム誤差が大きいと、地域差や経年変化が

えにくい

34 県民栄養調査における単位区数と標準誤差率との関係 (

食塩)

0% 5% 10% 15% 20% 25% 30% 0 5 10 15 20 25 30 35 40 45 単位区数 標 準 誤 差 率 実現値 80%予測値 50%予測値

都道府県健康・栄養調査における単位区数と誤差率との関係

35 項目 仮定した保有率 性別 誤差率10% 誤差率5% 誤差率3% 脂肪エネルギー比率 平均値 男女 <5 8 18 野菜摂取量 〃 男女 7 20 60 日常生活における歩数 〃 男女 <5 16 35 運動習慣のある者(成人) 30% 男女 35 >100 >100 44% 男 35 >100 >100 11% 女 >100 >100 >100 睡眠による休養が不足してい る者 26% 男女 30 90 >100 8% 男 >100 >100 >100 肥満者の率(成人の内臓脂 肪型肥満) 28% 男女 30 95 >100 糖尿病有病者・予備群の率 34% 男女 30 >100 >100 高血圧症有病者・予備群の 率 59% 男女 14 45 >100 MS有病率 15% 男女 70 >100 >100 対象年齢30~75歳 80%の確率で目標誤差率を達 成するために必要な単位区数 誤差率=標準誤差÷推定値なので、例えば有病率15%で誤差率10%ならば標準誤差 は15%×10%=1.5%である。

項目別の誤差率と必要単位区数(要約)

喫煙率 大量飲酒者 HbA1cや栄養素等の連続型変数は30単位区あればおおむね十分な精度が得られる 「国民健康・栄養調査における各 種指標の設定及び精度の向上に 関する研究」 (主任研究者:吉池信男)より

項目別の誤差率と必要単位区数(要約)

36 「国民健康・栄養調査における各種指標の設定及び精度の向上に関する研究」(主任研究者:吉池信男)より

不十分な標本数では、こんな誤解が!

(10)

37

健診データ2

健診データ1

国民(県民)健康

・栄養調査

無作為抽出

有意抽出

無作為抽出

高い協力率

低い協力率

偏り

偏り

高い受診率

低い受診率

偏り

高い受診率

低い受診率

偏り

(地域・職域を含む全

てからの無作為抽出、

または悉皆調査)

偏り×1

偏り×1

偏り×2

OK

OK

偏り×1

健診データを使うことの問題点

38

“きちんと(正しく)測る”

• 統計調査では、社会生活を営む大勢の人々

を対象にデータ収集を行う。

→複数の施設、多くの調査員による面接や測

定。

• 身体計測や血圧測定といった、比較的単純

かつ基本的な測定項目であっても、

→本当に“きちんと測られているのか?”

• “きちんと(正しく)測る”

とは何か?

39

“測ったもの(測定値)”

測定値=真の値+誤差

• “きちんと(正しく)測る”とは、

→可能な限り

“誤差が小さくなるように”

測ること。

• 誤差が大きいと、例えば、

群間の差<測定値の誤差・・・群間の比較不能

経時的変化<測定値の誤差・・・経時的な比較不能

40

誤差を減らすには?

• 血圧、腹囲、食物摂取量など、健康・栄養調査では

これらの値を可能な限り“

誤差なく正確に

”測定する

ことが望まれるが、“

誤差のない測定はあり得ない

と言われるほど、一般の人々から医学・栄養学的な

データを得ることは難しく、測定値には様々な誤差

が入ってくる可能性がある。

• しかし、誤差を

減らすことは可能

である。そのために

は、まず、

誤差の種類と原因を理解

し、調査を計画・

実施する者は、それに基づいて可能な限り誤差が

小さくなるように配慮すべき。

(11)

41

誤差とは?

• 種類

によって、

測定誤差

・・・測定の段階で生じる誤差

標本誤差

・・・標本抽出の段階で生じる誤差

• 性質によって

系統的誤差・・・測定値が真の値から特定の

方向にずれている(偏り)

ランダム誤差・・・“ずれ”が、特定の方向に偏

らない(平均するとゼロ)

42

真の値

目盛り

ランダム誤差

測定値

真の値

目盛り

系統的誤差

(とランダム誤差)

測定値

一定方向に

ずれて

測定を多数繰り返せば

平均と真の値が一致

測定を繰り返しても

平均と真の値は

ずれたまま

教p.24

ランダム誤差と系統的誤差

43

真の値

目盛り

測定値

測定の

ランダム誤差の例

・日間変動、日内変動

被測定者のその日、その時々

の体調の微妙な変化によって、

測定時の血圧がたまたま(全く

の偶然に)いつもより高め、ある

いは低めだった

→複数回測定すれば、その平

均が真の値に近づく。

例えば、同じ人に血圧を2回

ずつ測定してその平均値をとる。

ランダム誤差

44

真の値

目盛り

測定値

一定方向に

ずれて

測定を繰り返しても

平均と真の値は

ずれたまま

測定の

系統的誤差の例

・被験者の測定条件

検査会場まで坂道を歩いてきた被験

者の血圧を、 (休憩せず)すぐに測る

と、高めになる。

→一定時間、安静にした後に測定す

ればよい。

・測定者の“くせ”

血圧を高めに読む“くせ”のある人の

測定値は、真の値よりもいつも高め。

→ビデオテープ等による訓練を行う。

・測定機器の“くせ”

水銀血圧計のフィルターが目詰まり

していると高め、水銀が足りないと低

め、ガラス管が汚れていると・・・

→定期的にメンテナンスしてますか?

系統的誤差

(とランダム誤差)

(12)

45

データ処理・作表

基本事項

• 母集団の定義

• 調査対象人数、抽出率

• 回収人数、回収率

– 例)A市50~79歳の男女(2008年7月1日現在人

口12345人)から、1000人を無作為抽出して(抽

出率8.1%)、郵送法により調査を行った。(・・・こ

こに調査の概要・・・)10月1日までに720人から

調査票が返送された(回収率72%)。うち、ほとん

ど未回答だった30人を除いた690名(69%)を解

析対象とした。

46

調査データの種類

• 質的

データ:

– 2値 (例)性別の“男”と“女”

– カテゴリーが3つ以上

• 順序尺度ordinal scale:順序関係はあるが絶対量としての意味

はない測定値。

– (例)ある食品の嗜好:“とても好き”、“好き”、“どちらでも”、“嫌い”

• 名義尺度nominal scale:順序関係がない分類のための変数。

– (例)最もよく食べる肉類:“うし”、“ぶた”、“とり”、“その他”

• 数量

データ:量的に測定できる連続的な測定値

– 連続データ (例)身長、体重、血圧、血清総コレステロー

ル、栄養素摂取量

– 離散データ (例)う歯の本数

教p.76-77

質的データの整理

• 準備

– 単純に頻度を記述。欠損値の数、変な値が紛れ込んでい

ないかなどをチェック。

• 単純集計

– 地区・性・年齢階級別

頻度を整理する。

• 例:性・年齢階級別の高血圧の頻度

• クロス集計

– 二つの変数の関連

を調べるために行う(交絡変数に注意)。

• 例:果物摂取頻度と高血圧の頻度

教p.86-89

48

単純集計

• 性・年齢階級別頻度を整理する。

↑↑脚注は積極的に使って分かりやすくする。

表1.性・年齢階級別、高血圧者の割合 人数高血圧者割合 男性 50-59歳 120 20% 60-69歳 110 30% 70-79歳 100 40% 計 330 29% 女性 50-59歳 130 10% 60-69歳 120 15% 70-79歳 110 25% 計 360 16% 未回答を除く。 表2.性・年齢階級別、果物摂取頻度 人数週1回未満 週1~3回 週4回以上 男性 50-59歳 120 50% 30% 20% 60-69歳 110 47% 28% 25% 70-79歳 100 41% 29% 30% 計 330 46% 29% 25% 女性 50-59歳 130 32% 36% 32% 60-69歳 120 30% 34% 36% 70-79歳 110 25% 33% 42% 計 360 29% 34% 36% 未回答を除く。 ※値は行方向の割合である。 果物摂取頻度※

教p.86-89

(13)

49

クロス集計

• 二つの変数の関連を調べるために行う(

交絡

変数に注意

– 検定:

二つの変数が関係しているように見えるが、

これは偶然だろうか?

という問いに答えるために

検定する。χ

検定など。

図表はSelf-explanatoryに(それを見ただけで意味がわかるように)作る!

表3.野菜摂取頻度と高血圧の有無との関係(70-79歳男性) 人数 % 人数 % 人数 % 週1回未満 22 54% 19 46% 41 100% 週1~3回 12 41% 17 59% 29 100% 週4回以上 6 20% 24 80% 30 100% 計 40 40% 60 60% 100 100% χ2=8.21, 自由度=2, P=0.017 果物摂取頻 度 高血圧 あり なし 計

%の方向は、「原因」と

思われる方から、「結

果」の割合を示すと読

みやすい。

教p.86-89

量的データの整理

• 準備

– ヒストグラムを描き、分布の形を確認する。欠損値の数、変

な値が紛れ込んでいないかなどをチェック。

– カテゴリー型に変換する場合(BMIを肥満の有無で3群に分

けるなど)は、以後、質的データの整理と同様。

• 単純集計

– 地区・性・年齢階級別の要約統計量(代表値等)を記述。

• 正規分布の場合・・・平均と標準偏差

• 歪んだ分布の場合・・・中央値と25,75パーセント点など

• 群間比較

– 二つの要因の関連を調べるために行う(交絡変数に注意)。

• 例:A地区とB地区でどちらが血圧が高いか?

– 平均値と標準偏差を群間で比較する。

– 検定

» 二つの地区間で血圧の平均値が異なるように見えるが、これは

偶然だろうか?という問いに答えるために検定する。t検定など。

教p.90-103

51 図1 ヒストグラム 0 50 100 150 200 250 300 350 400 450 500 80    100   120   140   160   180   200    収縮期血圧(mmHg) 度 数 ( 人 )

• 階級数は、√標本数+1前後を目安にすると形が分かりやす

い。区切りの良い値で分けることも多い。

• 分布の形を確認する。

– 左右対称

か?→右裾が長い場合、対数変換を考慮

– 外れ値

はないか?→標本として適切か検討

– 分布の

中心位置

はどのあたりか?→

代表値

(平均、中央値など)

– 分布の

ばらつき具合

は?→

散布度

(標準偏差、四分偏差など)

まずは、ヒストグラムを描いて確認

教p.90-92

52

ヒストグラムの例1

身長 (cm) 0 5 10 15 20 25 30 35 40 45 50 15 0. 0 -15 2. 0 -15 4. 0 -15 6. 0 -15 8. 0 -16 0. 0 -16 2. 0 -16 4. 0 -16 6. 0 -16 8. 0 -17 0. 0 -17 2. 0 -17 4. 0 -17 6. 0 -17 8. 0 -18 0. 0 -18 2. 0 -18 4. 0 -18 6. 0 -18 8. 0 -度数( 人 ) BMI (kg/m2) 0 5 10 15 20 25 30 35 40 45 16 .5 -17 .4 -18 .3 -19 .1 -20 .0 -20 .9 -21 .8 -22 .6 -23 .5 -24 .4 -25 .3 -26 .1 -27 .0 -27 .9 -28 .8 -29 .6 -30 .5 -31 .4 -32 .3 -33 .1 -度数( 人 ) SBP (mmHg) 0 10 20 30 40 50 60 86- 94- 102- 110- 117- 25-1 133- 141- 149- 157- 64-1 172- 180- 188- 196- 204- 211- 219- 227- 2 35-度数( 人 ) DBP (mmHg) 0 10 20 30 40 50 60 70 51. 0-54. 4-57. 8-61. 3-64. 7-68. 1-71. 5-74. 9-78. 4-81. 8-85. 2-88. 6-92. 1-95. 5-98. 9-1 02. 3-1 05. 7-1 09. 2-1 12. 6-1 16. 0-度数( 人)

(14)

53

ヒストグラムの例

血清総コレステロール (mg/dL) 0 10 20 30 40 50 60 1 13. 0-1 24. 6-1 36. 3-1 47. 9-1 59. 5-1 71. 2-1 82. 8-1 94. 4-2 06. 1-2 17. 7-2 29. 3-2 40. 9-2 52. 6-2 64. 2-2 75. 8-2 87. 5-2 99. 1-3 10. 7-3 22. 4-3 34. 0-度数( 人) HDLコレステロール (mg/dL) 0 10 20 30 40 50 60 70 33. 0-37. 9-42. 8-47. 7-52. 6-57. 5-62. 4-67. 3-72. 2-77. 1-81. 9-86. 8-91. 7-96. 6-1 01. 5-1 06. 4-1 11. 3-1 16. 2-1 21. 1-1 26. 0-度数( 人) 54

図3 対数正規分布

測定値

右に歪んでいる (対数正規分布) 測定値を対数変換(横軸 をlog[測定値]に)すると、 左右対称になる

図2 正規分布

測定値

左右対称でベル形 (正規分布)

典型例

・ 中性脂肪

・ ビタミンA摂取量

右に裾が長い分布は、対数変換するとよいかも

55

ヒストグラムの例3

中性脂肪 (mg/dL) 0 20 40 60 80 100 120 34. 0-68. 3-1 02. 6-1 36. 9-1 71. 3-2 05. 6-2 39. 9-2 74. 2-3 08. 5-3 42. 8-3 77. 2-4 11. 5-4 45. 8-4 80. 1-5 14. 4-5 48. 7-5 83. 1-6 17. 4-6 51. 7-6 86. 0-度数( 人 ) log 中性脂肪 (log mg/dL) 0 5 10 15 20 25 30 35 40 45 50 3. 5 -3. 7 -3. 8 -4. 0 -4. 2 -4. 3 -4. 5 -4. 6 -4. 8 -4. 9 -5. 1 -5. 3 -5. 4 -5. 6 -5. 7 -5. 9 -6. 1 -6. 2 -6. 4 -6. 5 -度数( 人) γ-GTP (IU/L) 0 20 40 60 80 100 120 140 160 180 14. 0-45. 9-77. 8-1 09. 7-1 41. 6-1 73. 5-2 05. 4-2 37. 3-2 69. 2-3 01. 1-3 32. 9-3 64. 8-3 96. 7-4 28. 6-4 60. 5-4 92. 4-5 24. 3-5 56. 2-5 88. 1-6 20. 0-度数 ( 人 )

log γ-GTP (log IU/L)

0 5 10 15 20 25 30 35 40 45 50 2. 6 -2. 8 -3. 0 -3. 2 -3. 4 -3. 6 -3. 8 -4. 0 -4. 2 -4. 4 -4. 6 -4. 8 -5. 0 -5. 2 -5. 4 -5. 6 -5. 8 -6. 0 -6. 2 -6. 4 -度数 ( 人 ) 56

代表値(中心位置の指標)

• 平均値・・・左右対称な場合に有用

– データの合計÷データ数

• 中央値・・・非対称等、歪んだ分布の場合

– データを小さい方から並べ替えて、ちょうど真ん中(50%)の値。

– 50%点ともいう。

 

幾 何 平 均 最 頻 値 歪んだ分布 (対数正規分布など) 中央値 平 均 値

図4 分布型と代表値

平 均 値 中 央 値 最 頻 値 左右対称の分布 (正規分布など)

教p.93-98

(15)

57

• 代表値(中心位置の指標)

散布度(バラツキ

の指標)

として、

– 「

平均と標準偏差

– 「

中央値と四分偏差(25%点と75%点)

の組合せがよく用いられる。

図5 標準偏差はバラツキの指標

0 20 40 60 80 100 120 140 160 180 200 測定値 度数 平均=100 標準偏差=20 平均=100 標準偏差=40 平均±1標準偏差 (全体の68%) 平均±2標準偏差 (全体の95%)

箱ヒゲ図

上側

隣接値

75%点

中央値

25%点

下側

隣接値

教p.95-98, 118-119

58

単純集計

• 性・年齢階級別に平均と標準偏差等で要約

する。

強く歪んだ分布の場合

には、パーセント点を活

用する。

表1.性・年齢階級別、収縮期と中性脂肪の分布 人数 平均 ± 標準偏差 中央値 (25, 75%点) 男性 50-59歳 120 138.5 ± 10.5 112 (76, 162) 60-69歳 110 143.2 ± 11.2 108 (76, 157) 70-79歳 100 147.3 ± 12.1 96 (70, 131) 計 330 142.7 ± 11.6 90 (65, 142) 女性 50-59歳 130 129.6 ± 10.1 124 (90, 169) 60-69歳 120 134.8 ± 10.3 134 (98, 186) 70-79歳 110 139.9 ± 10.5 124 (81, 164) 計 360 134.5 ± 10.4 136 (111, 176) 収縮期血圧, mmHg 中性脂肪, mg/dL 59

EAR, RDAと平均, 標準偏差

図1.成人1000人のたんぱく質必要量

が1個人を表す)

0

5

10

15

20

25

30

35

40

45

50

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

たんぱく質必要量

(g/体重kg/日)

推定平均必要量

推奨量

2S.D.

Bさんの摂取量

(0.60g/kg/日)

Aさんの摂取量

(0.74g/kg/日)

Cさんの摂取量

(0.93g/kg/日)

値は日本人の食事摂取基準(2005年版)

血清総コレステロール (mg/dL)

0 10 20 30 40 50 60 113. 0-124. 6-136. 3-147. 9-159. 5-171. 2-182. 8-194. 4-206. 1-217. 7-229. 3-240. 9-252. 6-264. 2-275. 8-287. 5-299. 1-310. 7-322. 4-334. 0-度数( 人 )

平均193, 標準

偏差

20 (mg/dL)

平均193, 標準

誤差

3 (mg/dL)

血清総コレステロール (mg/dL)

標準

偏差

は、データのばらつき

標準

誤差

は、標本平均の確からしさ

どちらを使うかは、何を言いたいかによる

どちらを示したか、必ず明記する

教p.131

標準偏差と標準誤差を混同しない

(16)

61

• 総エネルギー、3大栄養素

– 正規分布のことが多い

• 平均と標準偏差が有用

• ビタミン等の微量栄養素の場合

– 対数正規分布のことが多い

• 幾何平均、中央値、パーセント点が有用

• その他

– 一定の規則はない。ヒストグラムで確認する。

• 中央値とパーセント点をもっと活用しよう

食事調査における栄養素等の分布型

(あくまでも目安)

62

練習問題

【問1】ある集団におけるたんぱく質の必要量は、平均0.7g/kg/日、

標準偏差0.1g/kg/日で、その分布の形は正規分布であることが

分かっている。この集団のほとんどの人(97.5%の人)が不足しな

いたんぱく質の摂取量はいくらか。

63

練習問題の答

【問1】ある集団におけるたんぱく質の必要量は、平均0.7g/kg/日、

標準偏差0.1g/kg/日で、その分布の形は正規分布であることが

分かっている。この集団のほとんどの人(97.5%の人)が不足しな

いたんぱく質の摂取量はいくらか。

【解説】RDAの定義そのものなので、(統計以前に)できないとま

ずい。

平均 + 2 x 標準偏差 = 0.9

答 0.9g/kg/日

調査結果の解析方法

• 調査が終わってから、

–「今回の調査結果をどうやって集計し

たらいいのだろうか?」

と考えるのでは遅すぎる。

>保健医療従事者の仕事

この調査から何を知りたいのかを明確にする。

>統計学者の仕事

そのために適切な解析方法を提供する。

○○を調査で明らかにしたいのですが、解析方法は?

このデータでどんな解析をしたら、何が分かりますか?

(17)

再び・・・統計の目的

• 総量の把握

:国勢調査人口

• 集団の構造や特性の把握:

年齢3区分人口割合、死因別死

亡率、栄養素摂取量

• 複数要因間に存在する法則、因果関係の探究:

年齢と死亡

率、塩分摂取量と血圧、血圧と脳卒中罹患率。分析疫学の

多くはこれを目的とする。

• 予測:

将来推計人口。

• 評価:

保健活動の量的な評価。実験疫学(介入研究)の評

価。

など。

これを頭に入れて、調査実施前にその調査から何

を知りたいのかを明確にして下さい。

• 集団の構造や特性の把握:

– 子ども達は何時頃に寝ているのだろう?

– 朝食を食べない子どもはどのくらいいるのだろう?

• 解析方法:(性)年齢階級別の単純集計

• 複数要因間に存在する法則、因果関係の探究

– 朝食を食べない子どもはどんな子だろう?(夜更かし?好き嫌いが

多い?夕食は一人?お菓子をよく食べる?)

• 解析方法:“欠食有無×要因”のクロス表を作り、χ

2

検定をする。

• 要因が判明したら、そこにアプローチすれば欠食率低下に役立つかも。

• 評価

– 子どもの欠食率を現状7%から5年で3%まで下げるという目標を立

てた。

• 調査方法:欠食率調査を行い、5年後にも再び同じ調査を行う。

• 解析方法:χ

2

検定。

調査前に、

空っぽの表

を作ろう!(後で数字を埋めるだけ)。

参照

関連したドキュメント

(平成 29 年度)と推計され ているが、農林水産省の調査 報告 15 によると、フードバン ク 76 団体の食品取扱量の合 計は 2,850 トン(平成

(平成 28 年度)と推計され ているが、農林水産省の調査 報告 14 によると、フードバン ク 45 団体の食品取扱量の合 計は 4339.5 トン (平成

(2)工場等廃止時の調査  ア  調査報告期限  イ  調査義務者  ウ  調査対象地  エ  汚染状況調査の方法  オ 

(平成 28 年度)と推計され ているが、農林水産省の調査 報告 14 によると、フードバン ク 45 団体の食品取扱量の合 計は 4339.5 トン (平成

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..

トリクロロエチレン テトラクロロエチレン ジクロロメタン アクリロニトリル 塩化ビニルモノマー クロロホルム 1,2-ジクロロエタン

(79) 不当廉売された調査対象貨物の輸入の事実の有無を調査するための調査対象貨物と比較す

柱・梁取り外し 柱・梁改造、防風シート等取付 オペフロ調査 オペフロ調査 オペフロ調査 オペフロ調査