1
国立保健医療科学院 人材育成部
横山 徹爾
保健・栄養統計学
~①統計調査概論~
音声を中断
するには、キーボードの
<ESC>キー
を押します。
再開するには、左上隅のスピーカーマークをクリックします。
次のスライドに進むには、画面下の矢印をクリックするか、
画面左側のリストをクリックして選択します。
統計とは
• 医学、栄養学、保健学研究は対象とする人々を観察
することから始まる。「観察する」とは、その人たちの
持つ様々な「特性」を調査、記録、分析することであ
る。
• 疫学・統計学は、これら調査、記録、分析をいかに行
うかについての「方法論」を提供する。
• 学習内容
– ①統計調査概論
• 社会生活を営む人々の特性を把握するために、
どのように調査を行ってデータを収集するか。
– ②統計学概論
• 収集したデータをどのように分析して解釈し、結
論を導くか。
調査統計の目的
• 総量の把握:
国勢調査人口
• 集団の構造や特性の把握:
年齢3区分人口割合、
死因別死亡率、栄養素摂取量
• 複数要因間に存在する法則、因果関係の探究:
年
齢と死亡率、塩分摂取量と血圧、血圧と脳卒中罹患
率。分析疫学の多くはこれを目的とする。
• 予測:
将来推計人口。
• 評価:
保健活動の量的な評価。実験疫学(介入研
究)の評価。
など。
常に対象集団を意識する
• 対象集団
:観察の対象として設定された集団。
• 全数調査(悉皆調査)
:対象集団の構成員全
員の調査。国勢調査など。
• 標本調査
:対象集団から(一部分)抽出した
標本の調査。対象集団全体のことを母集団と
呼ぶ。標本調査では標本から母集団の特性
を推測する。
標本調査の目的
• 母集団における
身長、体重、栄養摂取量の分布、
肥満、貧血、高脂血症の有病率、
を知りたい。
• 全員調べれば(悉皆調査)わかるが、と
うてい不可能である。
• そこで、一部の人たち(標本)を調べて、
母集団全体の様子を
推測
しよう!
母集団
(A県)
標本
標本抽出
推測
人口
人口
20
20
0万人
0万人
朝食の欠食率
朝食の欠食率
は?
は?
母集団と標本
1000人
1000人
朝食の欠食率
朝食の欠食率
は
は
5
5
%
%
これは調査でわかる
標本が母集団を代表していれば、
推測可能
どうやって?
何人?
7標本 Sample
(調査対象者)
母集団 Population
(調査対象集団)
誰を調査するのか?
どうやってアクセスするのか?
どの集団を調べるのか?
誰が協力してくれたのか?
協力者 Responder
(慣習的に「調査対象者」と呼ぶ
ことも多いが曖昧な表現)
標本抽出台帳
Sampling frame
標本抽出の各段階
無作為抽出
• 調査対象としている人口全体のことを
母集団
と呼ぶ。
例えば、国民健康・栄養調査では日本人全体が母
集団である。
• 標本抽出を行う場合は、母集団をいくつかの
抽出単
位
(“
個人
”、“
世帯
”、“
国勢調査区
” など目的に応じて
決める)に分け、全ての
抽出単位
が選ばれる確率が
等しくなるように工夫する。
• これを
無作為抽出
といい、例えば、それぞれの抽出
単位に通し番号を付け、乱数によって標本を選び出
せばよい。
• 母集団の特性を推測するためには、無作為抽出を
用いなければならない。
教p.16, 75
「保健統計・疫学 改訂4版」参照ページ⇒主な無作為抽出法
• 単純無作為抽出法
• 層化無作為抽出法
• クラスター抽出法
など。
単純無作為抽出法
• A市の全住民のうちから、住民基本台帳から乱数に
よって選んだ1000名を対象として調査を行う、という
ように、母集団を構成する
個人
(などの最小単位=
客体)
を抽出単位
として無作為抽出を行う方法。
• 抽出人数÷全人口を
抽出率
という。
• 住民アンケートなどで、広く用いられている。
• 乱数→コンピュータを用いるのが現実的
– 例)エクセルで1~1000の乱数を作るには、
=INT(RAND()*1000)+1
母集団
(A市)
標本
単純無作為抽出
推測
人口10万人
人口10万人
朝食欠食率は?
朝食欠食率は?
市民アンケート
1000人
1000人
欠食率8%
欠食率8%
12無作為抽出の実際
• 例1)
– 標本抽出台帳に載っている全員に通し番号を付ける(1~M)。
– 乱数を必要な人数分(N)個作り、該当する人を選ぶ。ただし、重複し
た場合は乱数を作り直す。
• 例2)
– 標本抽出台帳に載っている全員に重複しない乱数を付ける(0~1の
一様乱数など:エクセルの=RAND())。
– その乱数でソートして、上からN人分を選ぶ。
• 参考:等間隔サンプリング(近似的に無作為抽出)
– 標本抽出台帳に載っている個人に通し番号を付ける(1~M)。
– M÷N人ごとに1人選ぶ。
– 比較的簡単だが、標本抽出台帳に周期性があると無作為抽出とは
いえなくなる。
13
乱数でソートする
上からN施設採用
簡単な単純無作為抽出法
層化無作為抽出法
• B県をある特徴をもった複数のサブグループ=
層
(二
次医療圏、市町村、性年齢階級など)に分け、各層
内では単純無作為抽出を行うというように、対象集
団をあらかじめ複数の層に分けてから無作為抽出す
る方法。
• 長所
– 特定の層に、偶然多人数が集まることを避けることができ
るので、特定の層での過大な負担を避け、推定精度向上
にも役立つ。
– 層ごとの解析に必要な人数を、計画的に割り当てることが
できる。
• 短所
– 集計が複雑になることがある。
クラスター抽出法
• B県内の国勢調査区から、乱数によって選んだ10
地区の住民全員を対象として調査を行う、というよう
に、母集団をいくつかの集落=
クラスター
(国勢調
査区、単位区など)に分け、クラスターを抽出単位と
して無作為抽出を行い、選ばれたクラスター内の構
成員全員を調査対象とする方法。
• 長所:
– 調査地域が広い場合(例えば全県レベルの調査)の
訪問
調査
などでは、移動の手間を小さくすることができる。
• 短所:
– 単純無作為抽出と比べて、同じ客体数ならば推定
誤差が
大きい
。
16層化クラスター抽出法
• 層化無作為抽出
の抽出単位を集落(
クラス
ター
)にしたもの。
• 国民健康・栄養調査はこの方法(に近い)。
– 都道府県(と政令指定都市)別に、国勢調査区を
分割した“単位区”(15~30世帯程度)を抽出単
位としてクラスター抽出を行う。(実際には、国民
生活基礎調査で選ばれた国勢調査区から再抽
出している)
母集団
C県
クラスター抽出
標本
推測
人口200万人
人口200万人
各栄養素摂取量
各栄養素摂取量
は?
は?
県民健康・栄養調査の標本抽出
単位区(15~30世帯)×9
18保健所
管内人口(人)
占める割合(P)
県の総人口に
A
80,000
3.3% 41×3.3%
≒
1
B
110,000
4.5% 41×4.5%
≒
2
C
560,000
23.0% 41×23.0%
≒
9
D
100,000
4.1% 41×4.1%
≒
2
E
360,000
14.8% 41×14.8%
≒
6
F
520,000
21.4% 41×21.4%
≒
9
G
430,000
17.7% 41×17.7%
≒
7
H
50,000
2.1% 41×2.1%
≒
1
I
220,000
9.1% 41×9.1%
≒
4
合計
2,430,000
100.0%
41
Kは調査単位区総数(=41)×Pを四捨五入。各単位区の世帯数は
約30以下でほぼ一定とする。国民生活基礎調査で設定した単位
区から無作為抽出するのが現実的であろう。
表1.県民栄養調査の調査対象地区を保健所管区によって層化ク
ラスター抽出する例
調査対象
単位区数(K)
人口構成に比例して抽出
19・・・・・・・・・・・・・・・
第1層
第2層
第L層
○●
国勢調査区
(約90万地区)
・・・・・・・・・・・・・・・
第1層
第2層
第L層
層化 クラスター 抽出・・・・・・・・・・・
第1層
第2層
第L層
国民生活基礎調査
(大規模年:5240地区)
(中間年:1048地区)
国民健康・栄養調査
(300単位区)
国勢調査区 単位区(約20世帯) 単位区(約20世帯) 無作為抽出国民健康・栄養調査の標本抽出の概略
標本調査と誤差・偏り
• 誤差
:真の値と、観察した値とのずれ。標本
調査ではつきもの。
• ランダム誤差
:偶然現象によって生じたずれ。
標本抽出による誤差を特に標本誤差という。
統計学である程度制御可能(誤差の大きさが
わかる)。
• 系統的誤差(偏り、バイアス)
:何らかの理由
により、一定方向(正または負)に生じたずれ。
統計学で制御不可能な悪性の誤差。
ランダム誤差(抽出誤差)
• ランダム誤差
偶然によっておこる。ランダム誤差の大きさ
は、標本数が多いほど小さい。正負方向に同
様におこり、平均するとゼロになる。
A市
標本抽出
標本
標本の喫煙率は
偶然によってばら
つく
.
喫煙率は?
喫煙率は?
推定
ランダム誤差(抽出誤差)の概念
A市
標本1の喫煙率
38%
喫煙率=40%
喫煙率=40%
標本3
39%
標本4
40%
無作為
抽出1000人
標本2
42%
系統的誤差(偏り)の概念
A市
喫煙率=40%
喫煙率=40%
喫煙率=30%
健診に来た人
10000人
郵送調査
30000人
返送率30%
喫煙率=25%
ランダム誤差
を減らすには
• 調査人数を増やす。
系統的誤差(偏り)
を減らすには
• 無作為抽出法を用いる。
• 回収率を高める。
標本抽出の際に、
25
調査人数の決め方
• 調査前に統計の専門家に相談する!
– 相談のしかた
• 20代男性の朝食欠食率を知りたい。おおむね10%
程度だろうと思う。誤差率5%とすると何名調査したら
よいか?
• 市民のカルシウム摂取量の平均値を知りたい。過去
の調査では平均550mg、標準偏差は290mgだった。
誤差率5%とすると何名調査したらよいか?
• 自分で決める場合は・・・
26調査人数(客体数)
• あらかじめ定めた
誤差率
(例えば1%)を達成
するために必要な人数を調査する(ただし、
実際には予算・期間等の制約を受ける)。
• 誤差率は、“
標準誤差÷平均値(や割合)
”と
定義され、誤差率が小さいほど推定精度が
高い。一般に、調査人数が多いほど誤差率
は小さい。
• 必要以上に調査人数を増やすよりも、回収率
を向上させるために労力を投じるべきである。
27• 母集団の真の値
は、
推定値から相対的に±2×誤
差率の範囲
にある可能性が非常に高い。
• 例えば、標本喫煙率40%、誤差率3%とすると、母
集団の真の値(母喫煙率)は、40%±(40%の
2×3%)=40%±2.4%の範囲にある可能性が非常
に高い(95%信頼区間)
• 割合Pの
誤差率
=√((1-P)÷(P×人数))
– 標本100人で喫煙率40%だと、
• 誤差率= √((1-0.4)÷(0.4×100))=
12.2%
• 95%信頼区間=
30~50%
調査人数(客体数)続き
28調査設計時の誤差率(または標準誤
差)の考え方
• 例:食塩摂取量の平均値(現状値11g)を5年後に10g未
満にする。
– 標本平均(や割合)の±誤差率
の範囲にある
可能性が高く
(70%の確からしさ)、
– 標本平均(や割合)の±2×誤差率
の範囲にある
可能性がとて
も高い
(95%の確からしさ)。
• 評価時(5年後)の調査で、平均値が9.4gだった場合、
– 誤差率3%: 9.4gの±2×3%は、8.8~
10.0g
(目標達成)
– 誤差率10%: 9.4gの±2×10%は、7.5~
11.3g
(評価困難)
• このように具体的な目標を考えると、どの程度の誤差率
が必要かが見えてくるはず。
29
簡単な例
• A市40歳代男性の喫煙率Pを知りたい。Pは
40%と予想される。許容できる誤差率は(相
対的に)100×E%とする。調査人数Nは何人
にしたらよいか。
• E=√((1-P)÷(P×N))を変形して、
• N=(1-P)÷(P×E
2
)
=(1-0.4)÷(0.4×E
2
)
• E=5%(0.05)とすると、N=600
• E=3%(0.03)とすると、N=1670
30標準誤差
要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%誤差率
要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%客体数と標準誤差・誤差率との関係(単純無作為抽出の場合)
31標準誤差
要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 2.2% 3.0% 4.0% 4.6% 4.9% 5.0% 4.9% 4.6% 4.0% 3.0% 2.2% 200 1.5% 2.1% 2.8% 3.2% 3.5% 3.5% 3.5% 3.2% 2.8% 2.1% 1.5% 300 1.3% 1.7% 2.3% 2.6% 2.8% 2.9% 2.8% 2.6% 2.3% 1.7% 1.3% 400 1.1% 1.5% 2.0% 2.3% 2.4% 2.5% 2.4% 2.3% 2.0% 1.5% 1.1% 500 1.0% 1.3% 1.8% 2.0% 2.2% 2.2% 2.2% 2.0% 1.8% 1.3% 1.0% 600 0.9% 1.2% 1.6% 1.9% 2.0% 2.0% 2.0% 1.9% 1.6% 1.2% 0.9% 700 0.8% 1.1% 1.5% 1.7% 1.9% 1.9% 1.9% 1.7% 1.5% 1.1% 0.8% 800 0.8% 1.1% 1.4% 1.6% 1.7% 1.8% 1.7% 1.6% 1.4% 1.1% 0.8% 900 0.7% 1.0% 1.3% 1.5% 1.6% 1.7% 1.6% 1.5% 1.3% 1.0% 0.7% 1000 0.7% 0.9% 1.3% 1.4% 1.5% 1.6% 1.5% 1.4% 1.3% 0.9% 0.7% 2000 0.5% 0.7% 0.9% 1.0% 1.1% 1.1% 1.1% 1.0% 0.9% 0.7% 0.5% 3000 0.4% 0.5% 0.7% 0.8% 0.9% 0.9% 0.9% 0.8% 0.7% 0.5% 0.4%誤差率
要因保有率 客体数 5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 95% 100 43.6% 30.0% 20.0% 15.3% 12.2% 10.0% 8.2% 6.5% 5.0% 3.3% 2.3% 200 30.8% 21.2% 14.1% 10.8% 8.7% 7.1% 5.8% 4.6% 3.5% 2.4% 1.6% 300 25.2% 17.3% 11.5% 8.8% 7.1% 5.8% 4.7% 3.8% 2.9% 1.9% 1.3% 400 21.8% 15.0% 10.0% 7.6% 6.1% 5.0% 4.1% 3.3% 2.5% 1.7% 1.1% 500 19.5% 13.4% 8.9% 6.8% 5.5% 4.5% 3.7% 2.9% 2.2% 1.5% 1.0% 600 17.8% 12.2% 8.2% 6.2% 5.0% 4.1% 3.3% 2.7% 2.0% 1.4% 0.9% 700 16.5% 11.3% 7.6% 5.8% 4.6% 3.8% 3.1% 2.5% 1.9% 1.3% 0.9% 800 15.4% 10.6% 7.1% 5.4% 4.3% 3.5% 2.9% 2.3% 1.8% 1.2% 0.8% 900 14.5% 10.0% 6.7% 5.1% 4.1% 3.3% 2.7% 2.2% 1.7% 1.1% 0.8% 1000 13.8% 9.5% 6.3% 4.8% 3.9% 3.2% 2.6% 2.1% 1.6% 1.1% 0.7% 2000 9.7% 6.7% 4.5% 3.4% 2.7% 2.2% 1.8% 1.5% 1.1% 0.7% 0.5% 3000 8.0% 5.5% 3.7% 2.8% 2.2% 1.8% 1.5% 1.2% 0.9% 0.6% 0.4%例)
200人の調査を行ったところ、喫煙率は40%だった。
標準誤差は3.5%なので、母集団の喫煙率は
40±3.5%の範囲にあるある可能性が高く
(70%の確からしさ)
40±7.0%の範囲にある可能性がとても高い
(95%の確からしさ)
客体数と
標準誤差
との関係(単純無作為抽出の場合)
32どちらの結果を信じる?
• 母集団の人口は50万人。朝食欠食率を知り
たい。いずれも単純無作為抽出。
(1)郵送調査5万人(返送率30%)。
(2)郵送調査1000人(返送率95%)。
33
都道府県等における健康・栄養調査
での標本抽出
• 必ず、
“無作為抽出”
を行う。
個人単位・・・単純無作為抽出
地区単位・・・クラスター抽出(←これが一般的)
• 無作為抽出を行わないと、
系統的誤差(偏り)
が生じ
る可能性が大!
→系統的誤差(偏り)のあるデータを用いて、地域間比
較や経年比較をするのは、
無意味
。
• 抽出人数(地区数)が少ないと、
ランダム誤差
が大
きくなる。
→ランダム誤差が大きいと、地域差や経年変化が
見
えにくい
。
34 県民栄養調査における単位区数と標準誤差率との関係 (食塩)
0% 5% 10% 15% 20% 25% 30% 0 5 10 15 20 25 30 35 40 45 単位区数 標 準 誤 差 率 実現値 80%予測値 50%予測値都道府県健康・栄養調査における単位区数と誤差率との関係
35 項目 仮定した保有率 性別 誤差率10% 誤差率5% 誤差率3% 脂肪エネルギー比率 平均値 男女 <5 8 18 野菜摂取量 〃 男女 7 20 60 日常生活における歩数 〃 男女 <5 16 35 運動習慣のある者(成人) 30% 男女 35 >100 >100 44% 男 35 >100 >100 11% 女 >100 >100 >100 睡眠による休養が不足してい る者 26% 男女 30 90 >100 8% 男 >100 >100 >100 肥満者の率(成人の内臓脂 肪型肥満) 28% 男女 30 95 >100 糖尿病有病者・予備群の率 34% 男女 30 >100 >100 高血圧症有病者・予備群の 率 59% 男女 14 45 >100 MS有病率 15% 男女 70 >100 >100 対象年齢30~75歳 80%の確率で目標誤差率を達 成するために必要な単位区数 誤差率=標準誤差÷推定値なので、例えば有病率15%で誤差率10%ならば標準誤差 は15%×10%=1.5%である。項目別の誤差率と必要単位区数(要約)
喫煙率 大量飲酒者 HbA1cや栄養素等の連続型変数は30単位区あればおおむね十分な精度が得られる 「国民健康・栄養調査における各 種指標の設定及び精度の向上に 関する研究」 (主任研究者:吉池信男)より項目別の誤差率と必要単位区数(要約)
36 「国民健康・栄養調査における各種指標の設定及び精度の向上に関する研究」(主任研究者:吉池信男)より不十分な標本数では、こんな誤解が!
37
母
集
団
健診データ2
健診データ1
国民(県民)健康
・栄養調査
無作為抽出
有意抽出
無作為抽出
高い協力率
低い協力率
偏り
偏り
高い受診率
低い受診率
偏り
高い受診率
低い受診率
偏り
(地域・職域を含む全
てからの無作為抽出、
または悉皆調査)
偏り×1
偏り×1
偏り×2
OK
OK
偏り×1
健診データを使うことの問題点
38“きちんと(正しく)測る”
• 統計調査では、社会生活を営む大勢の人々
を対象にデータ収集を行う。
→複数の施設、多くの調査員による面接や測
定。
• 身体計測や血圧測定といった、比較的単純
かつ基本的な測定項目であっても、
→本当に“きちんと測られているのか?”
• “きちんと(正しく)測る”
とは何か?
39“測ったもの(測定値)”
測定値=真の値+誤差
• “きちんと(正しく)測る”とは、
→可能な限り
“誤差が小さくなるように”
測ること。
• 誤差が大きいと、例えば、
群間の差<測定値の誤差・・・群間の比較不能
経時的変化<測定値の誤差・・・経時的な比較不能
40誤差を減らすには?
• 血圧、腹囲、食物摂取量など、健康・栄養調査では
これらの値を可能な限り“
誤差なく正確に
”測定する
ことが望まれるが、“
誤差のない測定はあり得ない
”
と言われるほど、一般の人々から医学・栄養学的な
データを得ることは難しく、測定値には様々な誤差
が入ってくる可能性がある。
• しかし、誤差を
減らすことは可能
である。そのために
は、まず、
誤差の種類と原因を理解
し、調査を計画・
実施する者は、それに基づいて可能な限り誤差が
小さくなるように配慮すべき。
41
誤差とは?
• 種類
によって、
測定誤差
・・・測定の段階で生じる誤差
標本誤差
・・・標本抽出の段階で生じる誤差
• 性質によって
系統的誤差・・・測定値が真の値から特定の
方向にずれている(偏り)
ランダム誤差・・・“ずれ”が、特定の方向に偏
らない(平均するとゼロ)
42真の値
目盛り
ランダム誤差
測定値
真の値
目盛り
系統的誤差
(とランダム誤差)
測定値
一定方向に
ずれて
い
る
測定を多数繰り返せば
平均と真の値が一致
測定を繰り返しても
平均と真の値は
ずれたまま
教p.24
ランダム誤差と系統的誤差
43真の値
目盛り
測定値
測定の
ランダム誤差の例
・日間変動、日内変動
被測定者のその日、その時々
の体調の微妙な変化によって、
測定時の血圧がたまたま(全く
の偶然に)いつもより高め、ある
いは低めだった
→複数回測定すれば、その平
均が真の値に近づく。
例えば、同じ人に血圧を2回
ずつ測定してその平均値をとる。
ランダム誤差
44真の値
目盛り
測定値
一定方向に
ずれて
い
る
測定を繰り返しても
平均と真の値は
ずれたまま
測定の
系統的誤差の例
・被験者の測定条件
検査会場まで坂道を歩いてきた被験
者の血圧を、 (休憩せず)すぐに測る
と、高めになる。
→一定時間、安静にした後に測定す
ればよい。
・測定者の“くせ”
血圧を高めに読む“くせ”のある人の
測定値は、真の値よりもいつも高め。
→ビデオテープ等による訓練を行う。
・測定機器の“くせ”
水銀血圧計のフィルターが目詰まり
していると高め、水銀が足りないと低
め、ガラス管が汚れていると・・・
→定期的にメンテナンスしてますか?
系統的誤差
(とランダム誤差)
45
データ処理・作表
基本事項
• 母集団の定義
• 調査対象人数、抽出率
• 回収人数、回収率
– 例)A市50~79歳の男女(2008年7月1日現在人
口12345人)から、1000人を無作為抽出して(抽
出率8.1%)、郵送法により調査を行った。(・・・こ
こに調査の概要・・・)10月1日までに720人から
調査票が返送された(回収率72%)。うち、ほとん
ど未回答だった30人を除いた690名(69%)を解
析対象とした。
46調査データの種類
• 質的
データ:
– 2値 (例)性別の“男”と“女”
– カテゴリーが3つ以上
• 順序尺度ordinal scale:順序関係はあるが絶対量としての意味
はない測定値。
– (例)ある食品の嗜好:“とても好き”、“好き”、“どちらでも”、“嫌い”
• 名義尺度nominal scale:順序関係がない分類のための変数。
– (例)最もよく食べる肉類:“うし”、“ぶた”、“とり”、“その他”
• 数量
データ:量的に測定できる連続的な測定値
– 連続データ (例)身長、体重、血圧、血清総コレステロー
ル、栄養素摂取量
– 離散データ (例)う歯の本数
教p.76-77
質的データの整理
• 準備
– 単純に頻度を記述。欠損値の数、変な値が紛れ込んでい
ないかなどをチェック。
• 単純集計
– 地区・性・年齢階級別
頻度を整理する。
• 例:性・年齢階級別の高血圧の頻度
• クロス集計
– 二つの変数の関連
を調べるために行う(交絡変数に注意)。
• 例:果物摂取頻度と高血圧の頻度
教p.86-89
48単純集計
• 性・年齢階級別頻度を整理する。
↑↑脚注は積極的に使って分かりやすくする。
表1.性・年齢階級別、高血圧者の割合 人数高血圧者割合 男性 50-59歳 120 20% 60-69歳 110 30% 70-79歳 100 40% 計 330 29% 女性 50-59歳 130 10% 60-69歳 120 15% 70-79歳 110 25% 計 360 16% 未回答を除く。 表2.性・年齢階級別、果物摂取頻度 人数週1回未満 週1~3回 週4回以上 男性 50-59歳 120 50% 30% 20% 60-69歳 110 47% 28% 25% 70-79歳 100 41% 29% 30% 計 330 46% 29% 25% 女性 50-59歳 130 32% 36% 32% 60-69歳 120 30% 34% 36% 70-79歳 110 25% 33% 42% 計 360 29% 34% 36% 未回答を除く。 ※値は行方向の割合である。 果物摂取頻度※教p.86-89
49
クロス集計
• 二つの変数の関連を調べるために行う(
交絡
変数に注意
)
– 検定:
二つの変数が関係しているように見えるが、
これは偶然だろうか?
という問いに答えるために
検定する。χ
2
検定など。
図表はSelf-explanatoryに(それを見ただけで意味がわかるように)作る!
表3.野菜摂取頻度と高血圧の有無との関係(70-79歳男性) 人数 % 人数 % 人数 % 週1回未満 22 54% 19 46% 41 100% 週1~3回 12 41% 17 59% 29 100% 週4回以上 6 20% 24 80% 30 100% 計 40 40% 60 60% 100 100% χ2=8.21, 自由度=2, P=0.017 果物摂取頻 度 高血圧 あり なし 計%の方向は、「原因」と
思われる方から、「結
果」の割合を示すと読
みやすい。
教p.86-89
量的データの整理
• 準備
– ヒストグラムを描き、分布の形を確認する。欠損値の数、変
な値が紛れ込んでいないかなどをチェック。
– カテゴリー型に変換する場合(BMIを肥満の有無で3群に分
けるなど)は、以後、質的データの整理と同様。
• 単純集計
– 地区・性・年齢階級別の要約統計量(代表値等)を記述。
• 正規分布の場合・・・平均と標準偏差
• 歪んだ分布の場合・・・中央値と25,75パーセント点など
• 群間比較
– 二つの要因の関連を調べるために行う(交絡変数に注意)。
• 例:A地区とB地区でどちらが血圧が高いか?
– 平均値と標準偏差を群間で比較する。
– 検定
» 二つの地区間で血圧の平均値が異なるように見えるが、これは
偶然だろうか?という問いに答えるために検定する。t検定など。
教p.90-103
51 図1 ヒストグラム 0 50 100 150 200 250 300 350 400 450 500 80 100 120 140 160 180 200 収縮期血圧(mmHg) 度 数 ( 人 )• 階級数は、√標本数+1前後を目安にすると形が分かりやす
い。区切りの良い値で分けることも多い。
• 分布の形を確認する。
– 左右対称
か?→右裾が長い場合、対数変換を考慮
– 外れ値
はないか?→標本として適切か検討
– 分布の
中心位置
はどのあたりか?→
代表値
(平均、中央値など)
– 分布の
ばらつき具合
は?→
散布度
(標準偏差、四分偏差など)
まずは、ヒストグラムを描いて確認
教p.90-92
52ヒストグラムの例1
身長 (cm) 0 5 10 15 20 25 30 35 40 45 50 15 0. 0 -15 2. 0 -15 4. 0 -15 6. 0 -15 8. 0 -16 0. 0 -16 2. 0 -16 4. 0 -16 6. 0 -16 8. 0 -17 0. 0 -17 2. 0 -17 4. 0 -17 6. 0 -17 8. 0 -18 0. 0 -18 2. 0 -18 4. 0 -18 6. 0 -18 8. 0 -度数( 人 ) BMI (kg/m2) 0 5 10 15 20 25 30 35 40 45 16 .5 -17 .4 -18 .3 -19 .1 -20 .0 -20 .9 -21 .8 -22 .6 -23 .5 -24 .4 -25 .3 -26 .1 -27 .0 -27 .9 -28 .8 -29 .6 -30 .5 -31 .4 -32 .3 -33 .1 -度数( 人 ) SBP (mmHg) 0 10 20 30 40 50 60 86- 94- 102- 110- 117- 25-1 133- 141- 149- 157- 64-1 172- 180- 188- 196- 204- 211- 219- 227- 2 35-度数( 人 ) DBP (mmHg) 0 10 20 30 40 50 60 70 51. 0-54. 4-57. 8-61. 3-64. 7-68. 1-71. 5-74. 9-78. 4-81. 8-85. 2-88. 6-92. 1-95. 5-98. 9-1 02. 3-1 05. 7-1 09. 2-1 12. 6-1 16. 0-度数( 人)53
ヒストグラムの例
2
血清総コレステロール (mg/dL) 0 10 20 30 40 50 60 1 13. 0-1 24. 6-1 36. 3-1 47. 9-1 59. 5-1 71. 2-1 82. 8-1 94. 4-2 06. 1-2 17. 7-2 29. 3-2 40. 9-2 52. 6-2 64. 2-2 75. 8-2 87. 5-2 99. 1-3 10. 7-3 22. 4-3 34. 0-度数( 人) HDLコレステロール (mg/dL) 0 10 20 30 40 50 60 70 33. 0-37. 9-42. 8-47. 7-52. 6-57. 5-62. 4-67. 3-72. 2-77. 1-81. 9-86. 8-91. 7-96. 6-1 01. 5-1 06. 4-1 11. 3-1 16. 2-1 21. 1-1 26. 0-度数( 人) 54図3 対数正規分布
測定値
度
数
右に歪んでいる (対数正規分布) 測定値を対数変換(横軸 をlog[測定値]に)すると、 左右対称になる図2 正規分布
測定値
度
数
左右対称でベル形 (正規分布)典型例
・ 中性脂肪
・ ビタミンA摂取量
右に裾が長い分布は、対数変換するとよいかも
55ヒストグラムの例3
中性脂肪 (mg/dL) 0 20 40 60 80 100 120 34. 0-68. 3-1 02. 6-1 36. 9-1 71. 3-2 05. 6-2 39. 9-2 74. 2-3 08. 5-3 42. 8-3 77. 2-4 11. 5-4 45. 8-4 80. 1-5 14. 4-5 48. 7-5 83. 1-6 17. 4-6 51. 7-6 86. 0-度数( 人 ) log 中性脂肪 (log mg/dL) 0 5 10 15 20 25 30 35 40 45 50 3. 5 -3. 7 -3. 8 -4. 0 -4. 2 -4. 3 -4. 5 -4. 6 -4. 8 -4. 9 -5. 1 -5. 3 -5. 4 -5. 6 -5. 7 -5. 9 -6. 1 -6. 2 -6. 4 -6. 5 -度数( 人) γ-GTP (IU/L) 0 20 40 60 80 100 120 140 160 180 14. 0-45. 9-77. 8-1 09. 7-1 41. 6-1 73. 5-2 05. 4-2 37. 3-2 69. 2-3 01. 1-3 32. 9-3 64. 8-3 96. 7-4 28. 6-4 60. 5-4 92. 4-5 24. 3-5 56. 2-5 88. 1-6 20. 0-度数 ( 人 )log γ-GTP (log IU/L)
0 5 10 15 20 25 30 35 40 45 50 2. 6 -2. 8 -3. 0 -3. 2 -3. 4 -3. 6 -3. 8 -4. 0 -4. 2 -4. 4 -4. 6 -4. 8 -5. 0 -5. 2 -5. 4 -5. 6 -5. 8 -6. 0 -6. 2 -6. 4 -度数 ( 人 ) 56
代表値(中心位置の指標)
• 平均値・・・左右対称な場合に有用
– データの合計÷データ数
• 中央値・・・非対称等、歪んだ分布の場合
– データを小さい方から並べ替えて、ちょうど真ん中(50%)の値。
– 50%点ともいう。
幾 何 平 均 最 頻 値 歪んだ分布 (対数正規分布など) 中央値 平 均 値
図4 分布型と代表値
平 均 値 中 央 値 最 頻 値 左右対称の分布 (正規分布など)教p.93-98
57
• 代表値(中心位置の指標)
と
散布度(バラツキ
の指標)
として、
– 「
平均と標準偏差
」
– 「
中央値と四分偏差(25%点と75%点)
」
の組合せがよく用いられる。
図5 標準偏差はバラツキの指標
0 20 40 60 80 100 120 140 160 180 200 測定値 度数 平均=100 標準偏差=20 平均=100 標準偏差=40 平均±1標準偏差 (全体の68%) 平均±2標準偏差 (全体の95%)箱ヒゲ図
上側
隣接値
75%点
中央値
25%点
下側
隣接値
教p.95-98, 118-119
58単純集計
• 性・年齢階級別に平均と標準偏差等で要約
する。
強く歪んだ分布の場合
には、パーセント点を活
用する。
表1.性・年齢階級別、収縮期と中性脂肪の分布 人数 平均 ± 標準偏差 中央値 (25, 75%点) 男性 50-59歳 120 138.5 ± 10.5 112 (76, 162) 60-69歳 110 143.2 ± 11.2 108 (76, 157) 70-79歳 100 147.3 ± 12.1 96 (70, 131) 計 330 142.7 ± 11.6 90 (65, 142) 女性 50-59歳 130 129.6 ± 10.1 124 (90, 169) 60-69歳 120 134.8 ± 10.3 134 (98, 186) 70-79歳 110 139.9 ± 10.5 124 (81, 164) 計 360 134.5 ± 10.4 136 (111, 176) 収縮期血圧, mmHg 中性脂肪, mg/dL 59EAR, RDAと平均, 標準偏差
図1.成人1000人のたんぱく質必要量
(
●
が1個人を表す)
0
5
10
15
20
25
30
35
40
45
50
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
たんぱく質必要量
(g/体重kg/日)
頻
度
(
人
)
推定平均必要量
推奨量
2S.D.
Bさんの摂取量
(0.60g/kg/日)
Aさんの摂取量
(0.74g/kg/日)
Cさんの摂取量
(0.93g/kg/日)
値は日本人の食事摂取基準(2005年版)
血清総コレステロール (mg/dL)
0 10 20 30 40 50 60 113. 0-124. 6-136. 3-147. 9-159. 5-171. 2-182. 8-194. 4-206. 1-217. 7-229. 3-240. 9-252. 6-264. 2-275. 8-287. 5-299. 1-310. 7-322. 4-334. 0-度数( 人 )平均193, 標準
偏差
20 (mg/dL)
平均193, 標準
誤差
3 (mg/dL)
血清総コレステロール (mg/dL)
標準
偏差
は、データのばらつき
標準
誤差
は、標本平均の確からしさ
どちらを使うかは、何を言いたいかによる
どちらを示したか、必ず明記する
教p.131
標準偏差と標準誤差を混同しない
61