したがってばらつきを表すには偏差の符号をなくしてから平均化する必要があるそのひとつの方法は 1 偏差の絶対値を用いることである偏差の絶対値の算術平均を平均偏差という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです偏差の2 乗の算

(1)

統計学テキストの６９ページに、平均偏差・分散・標準偏差・変動係数・標準誤差・信頼区間に関する記述がある。分布を考える分布の中心の位置（例）６５、５３、４４、７８、５０の数値の算術平均は（６５＋５３＋４４＋７８＋５０）／５＝５８である。（６５＋５３＋４４＋７８＋５０）／５＝５８である。此れだけでは、分布の状態がわからない。ばらつきの程度を表すには最大値と最小値との差（７８－４４）＝３４これをレンジ（範囲）と言う。しかし、両端の数字だけでは、その間にある分布状態は少しも反映されていない。すべての点の分布状態を反映させるには，各点の重心（算術平均）からの距離を測れば良い。しかし、それぞれの数値から算術平均を引いた値（『偏差』と言う）を加えるとゼロになってしまう。６５－５８＝７５３－５８＝－５５３－５８＝－５４４－５８＝－１４７８－５８＝２０５０－５８＝－８７＋（－５）＋（－１４）＋２０＋（－８）＝０

(2)

したがって、ばらつきを表すには、偏差の符号をなくしてから平均化する必要がある。そのひとつの方法は、 ①偏差の絶対値を用いることである。偏差の絶対値の算術平均を『平均偏差』という。（７＋５＋１４＋２０＋８）／５＝１０．８偏差の符号を取るもうひとつの方法は、 ②それを２乗することです。偏差の２乗の算術平均を計算し此れによりばらつきの程度を測ることが出きる。此れを『分散』という。此れを『分散』という。しかし，分散は２乗するためもとの数字より高い次元の量を表してしまう。 ③与えられた数字と同じ次元の量としてばらつきを表すためには分散の平方根を用いれば良い。『標準偏差』とは分散の平方根平均偏差＝偏差の絶対値の算術平均分散＝偏差の２乗の算術平均標準偏差＝分散の平方根計算してみると分散＝１４６．８標準偏差＝_√146.8＝12.1 計算してみると分散＝１４６．８標準偏差＝_√146.8＝12.1 偏差平方和（S）＝偏差の２乗の和分散（V）、s２＝S／（ｎ－１）標準偏差＝ｓ＝√Ｓ／（ｎ－１）なぜ、ｎでなく（ｎ－１）で割るのか。母集団と標本を区別する時、標本の分散は（ｎ－１）（自由度と言う）で割っておいたほうが母集団の分散の推定値としてより好ましい性質を持つからです。

(3)

正規分布（Normal distribution）正規分布は平均値と分散を決めれば、その形が決まる。平均値_{µを中心として左右対称である。} 標準偏差σは曲線の形を決める。 σの値が大きければ曲線は扁平になり、値が小さければ狭く高くなる。どの場合も、_{µ－σとµ＋σにおける曲線状の点は編曲点となる。} µ＋σ、µ―σの間の正規曲線下の面積は、全面積の約６８％。 ±２σ 約９５％ ±３_σ 約99.7％ ±３_σ 約99.7％標準誤差平均値のばらつきを示す推定値Ｘの標本分布が近似的に正規分布とみなされる時はこの標本の平均値，分散，標準偏差をＥ〔Ｘ〕、Ｖ〔Ｘ〕、δｘと表す。仮に、目指す母数ＡがＥ〔Ｘ〕に等しいか，其れにごく近いとすると、Ｘ－１．９６_{δｘ≦Ａ≦Ｘ＋１．９６δｘ此れがＡの信頼率９５％の} 信頼区間になる。信頼区間になる。つまり、信頼率９５％で、差（Ｘ－Ａ）の標本誤差はせいぜい±１．９６δｘであると言える。母数ＡとＥ〔Ｘ〕が等しいと言う仮定では、_{δｘの値を評価できれば、推計値Ｘ} の標本誤差の程度を知ることができる事になる。その意味でこの_{δｘのことを標準誤差とも言う。} 問題は・・・・標準誤差_{δｘ、その}2乗である分散Ｖ〔Ｘ〕をどう評価するかである。其れは抽出方式、推定方式によって異なる。

(4)

母集団と標本母集団標本

標本調査

母集団標本全数調査 _→← 標本調査標本抽出・・・母集団から標本を抽出することその際、母集団と等しい確率を持った標本を得るためにその際、母集団と等しい確率を持った標本を得るために無作為抽出（random sampling）などが用いられる

(5)

標本抽出法

①単純無作為抽出法母集団の対象を一連の番号化し、乱数表を用いる例題６００人から３０人の標本を作る場合６００人から３０人の標本を作る場合 ⅰ）６００人に番号をつける ⅱ）一様乱数表を用いる（０から９までの数字がどの数字も１０分の１の確率で無作為に出現している表デス） ⅲ）最初の番号を決める（正２０面体の乱数さいころなどを使う。３個）００行の００列と言う具合です００行の００列と言う具合です ⅳ）方向を決める（上でも下でも斜めでも良い・・・） ⅴ）たとえば、最初に第１０行第２１列と決まると、この場合は３桁の数字を読むとすれば、８６３を得る。ここを出発として下へ３０個拾い上げると、５６２，６０３，８１３・・と続く事になります。

(6)

②系統抽出法最初の数字を乱数表で決める（この場合、６００÷３０＝２０だから、１から２０までの数字になるように乱数表で決めると言うこと）次には最初の数字、例えば４なら２０づつ足して、２４、４４、６４，８４・・・・と３０人を選ぶ６４，８４・・・・と３０人を選ぶ ③集落抽出法事前に母集団に似たいくつかの小集団を作っておくその手段を無作為に抽出する方法 ④層別抽出法属性の似た者をいくつかの層に母集団を別けておき、その各層属性の似た者をいくつかの層に母集団を別けておき、その各層ごとに無作為抽出する例えば、２０歳代、３０歳代の年齢別の層など ⑤多段抽出法母集団を一定の抽出単位に別けておく例えば、日本を県単位・市町村単位・町内単位・各世帯に

(7)

度数分布

データの整理・・・内容を把握しやすくする度数分布が代表的度数分布が代表的データを小さいものから大きいものに順次並び替えるそれをいくつかの階級に別ける各階級にどのように分布するかを調べる度数・・・各階級に属するデータの数累積度数・・・最初から順番に足して・・・その階級のでの累積度数・・・最初から順番に足して・・・その階級のでの累積数をいうヒストグラム・・・縦軸に度数、横軸に階級とした図形階級の数は・・・・・１０こ前後が良い

(8)

•累積相対度数・相対度数

相対度数（％）・・

各階級の度数を総度数で割った値

累積相対度数（％）・・・・

各階級の累積度数を総度数で割った値

この累積相対度数をもとに縦に百分率、横に階級を取った図・・・・累積相対度数グラフにおいて横に階級を取った図・・・・累積相対度数グラフにおいて５０％にあたる当るデータは中央値となるこれを_{５０パーセンタイル値（percentile）}とよぶ２５、７５パーセンタイル値は４分位（quartile）具体的例題は歯科衛生統計テキストP６６表５－２，３

(9)

平均値

•中央値小さいほうから順位並べた時の中央値小さいほうから順位並べた時の中央値累積相対度数の５０パーセンタイル値 •最頻値度数分布においては・・・・度数の一番多い階級の中央値度数の一番多い階級の中央値

(10)

標準偏差（

_{standard deviation}

）

• データのちらばり方を表す代表的値前出（プリント参照）前出（プリント参照）標準偏差・・ √_Nで割ると・・・標準誤差・変異係数（_CV）二つのサンプルのばらつきを比較するとき通常は標準偏差で充分比較できるが・・・・・・通常は標準偏差で充分比較できるが・・・・・・平均値に大きな差があるときは標準偏差も差が生まれてくるので、このような場合は_CVの方が適している CV＝（標準偏差 / 平均）×１００（％）

(11)

カイ二乗検定

• この検定を採用するケース・・・のイメージ • ハイ・イイエとか・・・ • ハイ・イイエとか・・・１ _or ０とか・・・体重とか身長のようにある程度自由に変化する数字ではなく、２つまたは_3,4個くらいしか選べない中での、標本の検定に使うべない中での、標本の検定に使う

(12)

(13)

標本百分率標本百分率標本百分率標本百分率ののの差の差差の差のの検定の検定検定検定 A・B二つの工場の社員を対象にアンケート調査を実施した。歯磨きに関する項目で、時間をかけて丁寧に磨いているか否かを（ハイ、イイエ）形式で調べた結果が下記にある。両工場において差があるかを検定しなさい。２×２分割表とカイ二乗分布表を利用する。ハイイイエハイイイエ • A工場１０４０（① ５０） • B工場１５３５（② ５０） • ―――――――――――――――――――――――― • （③ ２５）（④ ７５）（⑤ １００） • • カイ二乗＝（⑥ １０×３５－⑦ ４０×１５）2 ×（⑧ １００）／（⑨ ２５・７５・５０・５０） • • ＝（⑩ １，３３） • 計算した結果を比較する・・カイ二乗分布表では、自由度１の有意水準５％と１％を見ると３，８４１と６，６３５であるので・・・・・・有意の差が（⑪ ない）となる。

(14)

このケースは有意の差がない・・ならば・・どのようになっていれば・・・有意の差がある？ • A工場１０４０（① ５０） • B工場１５３５（② ５０） • B工場１５３５（② ５０） • ―――――――――――――――――――――――― • （③ ２５）（④ ７５）（⑤ １００） • • カイ二乗＝（⑥ １０×３５－⑦ ４０×１５）2 ×（⑧ １００）／（⑨ ２５・７５・５０・５０） • ＝（⑩ １，３３）

(15)

一般式から

• 疾病（歯磨き）ありなし合計 • 要因 • 要因 • A工場 a b a＋b • B工場 c d c＋d • （a＋c）（b＋d）（a＋b＋c＋d） • カイ二乗＝ • カイ二乗＝（adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d） ①同じ率でもサンプル数が２倍なら？４倍なら？ ② （_adー_bc）２乗の値が大きくなるようにする

(16)

①人数を大きくする

• A～dを各２a～２dとする • A～dを各２a～２dとする • （adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d） ↓ • {（adーbc）・（２・２）}２乗（a＋b＋c＋d）・２／（_a＋_c）・（_b＋_d）・（_a＋_b）・（_c＋_d）・２・２・２・２結局１６×２／１６＝２結果の数字は２倍になるサンプル数が_N倍なら値も_N倍になるサンプル数が_N倍なら値も_N倍になる同じ比率でもこのままの比率で４倍の人数なら１．３３×４＝５，３２となり有意の差がある

(17)

②

_a

・ｄ－

_c

・ｂ）の値を大きくする

• （adーbc）２乗（a＋b＋c＋d）／（a＋c）・（b＋d）・（a＋b）・（c＋d） • ↓ • ↓ （_adー_bc）２乗を大きくすると言うことは aとｄが大きければいいつまり、a＝要因ありで疾病があるケースが多いことｂ＝要因なしで疾病がないケースが多いこと当たり前のことだが両極端に分かれた状態なら優位の差があるというこ当たり前のことだが両極端に分かれた状態なら優位の差があるということで、これは一目瞭然で検定する以前に直感的に察知できる。

(18)

大数の法則

• 調査する集団の特徴に関しては、調査量を大きくすれば（大標本）、より明確なもの調査量を大きくすれば（大標本）、より明確なものが得られる分散・平均値など・一方、大標本を前提としないで、小標本から母集団の知識を導こうとする推計的な手段がある。手段がある。 ex)標本からの母集団の平均・標本間の検定割合の差の検定・・・・など

(19)

１）度数分布（テキストの２０ページ）度数分布表の作り方 • １）最大値と最小値を求める • ２）範囲を算出する • ３）階級の数を決める普通は１０こ前後に・・・ ①シャリエの方法（大標本）階級の幅を標準偏差の₁／３に ②フィシャーの方法（小標本） ②フィシャーの方法（小標本）階級の幅を標準偏差の１／４に一般的には・・・小標本は標準偏差の値が大きく出るので、１／３だと幅が大きすぎる・・・・

(20)

２）代表値

• 平均値算術平均算術平均幾何平均（あまり使われない） • 中央値 • 最頻度(モード流行値 M0) • 百分位（パーセンタイル、 P）テキストの２１ページ

(21)

３）ばらつき・・

₄

・変異係数

• 分散や

標準偏差

を２つ以上の集団で比較するとき、平均値や単位が著しく異なっているとるとき、平均値や単位が著しく異なっているとき・・・・・変異係数を用いたほうが理解しやすい（表５－５）（例人のジャンプと蚤のジャンプ）

CV

＝標準偏差／平均値

CV

＝標準偏差／平均値

(22)

４）相関

テキストの２２ページ

• 二つの事象において、一方が変化すると他方も変化すると言う関係を表すもの。他方も変化すると言う関係を表すもの。例えば身長と体重勉強時間と試験の成績しかし、二つの事象の関係でも、その数量がしかし、二つの事象の関係でも、その数量が３とか４等と少なく、限られているものは、この方法には適さない

(23)

４）相関

• 二つの事象において、一方が変化すると他方も変化すると言う関係を表すもの。他方も変化すると言う関係を表すもの。例えば身長と体重勉強時間と試験の成績しかし、二つの事象の関係でも、その数量がしかし、二つの事象の関係でも、その数量が３とか４等と少なく、限られているものは、この方法には適さない

(24)

• 相関係数相関係数；

ｒ

は－１から＋１までの値をとる相関係数；

ｒ

は－１から＋１までの値をとる０から０，２・・・ほとんど相関がない０，２から０，４・・・やや関係あり０，４から０，７・・・かなり相関がある０，４から０，７・・・かなり相関がある０，７から１．０・・・強い相関がある

(25)

相関とカイ二乗分布検定

テキストの２４ページ相関に適さない場合・良い・悪いとか赤・白・黒などの性質が含まれると・良い・悪いとか赤・白・黒などの性質が含まれるとき・たとえ関係する二つの事象が数字であっても、その数量地が０・１．２等の３種類と少ない場合このような時はカイ二乗検定がふさわしいグラフにプロットすると・・・・可能性的には無限にプロットするポイントがあることが望ましい

(26)

５）回帰直線

• 図５－４のように

X

と

Y

の両者の関係において

(27)

第６章・推定と検定

推測統計

• 標本が正しく抽出されていれば • ①標本から母集団の値を推定することは可能 • ①標本から母集団の値を推定することは可能 • ②標本相互の値を比較することで母集団に差があるのかを比較することが可能 • しかし、正確な標本抽出ができないような場合は記述統計手段（度数分布・分散・相関・回帰直線など）で終わるほうが適切であるで終わるほうが適切である

(28)

差の検定（

超大切デス

）

• ①差はないという仮説を立てる •• ②実際に得られた差が偶然である確率を求める • ③その確率が５％以下なら、危険率５％で有意の差を認める

(29)

検定推計とは母数に対して何の予備知識もなく，その値はいくらであるかを知ろうとするものであるが、『検定』では母数に対して何らかの予想を持っていて，其れを仮説と言う形で表し、その真偽を標本（サンプル）に基づいて検証しようとするものである。母平均の検定大標本の場合大標本の場合母集団の分布が正規分布に近いと想定される時の検定サンプル数ｎ≧３０そうでない時でも、ｎ≧５０として良い。ｚ＝（ｘ－µ）／δ÷√ｎ値を求めて、正規分布表をみれば解る。そうでなくても危険率α＝０．０５になる値（２Sｄ）１．９６ α＝０．０１になる値（３Sｄ）２．５７６をあらかじめ知っておけば即，判定できる。小標本の場合小標本の場合母集団の標準偏差が未知で、かつ標本の数が小さい場合 t分布、ｔ検定を用いるｔ表を用いる分散に関する推定と検定（カイ2乗） χ2乗分布，χ2乗検定 χ２

(30)

推定・検定を行うとき

• 一般的には・・・ ① 平均値は正規分布かｔー分布を利用する ②割合・・カイ二乗分布 ③分散分析・・・_F－分布

(31)

①標本平均からの推定と検定

• 図６－１ • 正しい抽出法により得られた標本の平均値はおそらく母集団の平均値と非常に近い値はおそらく母集団の平均値と非常に近い値を示すだろうしかし必ず同一となるとは限らないそれでも図６－１のように、どのような母集団からでも標本の平均値は母集団の平均値を中心に一つの分布を形成する心に一つの分布を形成するこのとき、標本の数が３０以上の大標本は正規分布をする（中心極限定理）

(32)

②標準誤差

• 標本の標準偏差は特に標準誤差（SE）ともいう

もいう

(33)

③不偏分散（標本の分散）

• 母集団の母分散（σ二乗）は、実際にはわからないことが多いらないことが多いこのとき、標本の分散（_S二乗）をデータから得て使用する。不偏分散という σとSの違いは nで割るか（nー１）で割るかの違い nで割るか（nー１）で割るかの違いこの（_nー１）をｄ、ｆ（_{degree of freedom}）という

(34)

• １)標本平均からの推定と検定 ①標本平均からの母平均の推定母分散が解っている場合の母平均の推定母分散がわからない場合の推定母分散がわからない場合の推定 ②標本平均の差の検定大標本平均と母平均の差の検定二つの大標本の検定小標本平均と母平均との差の検定対応ある二つの小標本平均の差の検定対応のない二つの小標本平均の差の検定対応のない二つの小標本平均の差の検定 • ２）標本百分率からの推定と検定（テスト） • ３）実験計画法

(35)

標本平均からの母平均の推定

• 母分散がわかっている場合正規分布を使う

(36)

信頼限界９５％９９％

• 一般的に、信頼限界は９５％または９９％で推計することが多いすることが多い • 大雑把に±２ＳＥの範囲は９５，４％だから、２ＳＥを使っても良いが・・・正確には９５％信頼限界は母集団の平均値＝標本平均±１，９６ＳＥ９９％信頼限界は９９％信頼限界は母集団の平均＝標本平均±２，５８ＳＥテキストの７１ページ・・・信頼区間を参照

(37)

標本平均から母平均の推定

• 母分散が分からない場合 tー分布を使う

(38)

t

分布

• 母分散がわかる場合は正規分布 • 例 P91 • 母分散がわからない場合はｔ分布 • t-分布は正規分布とよく似た形態をとるｎが３０以上になるとほとんど正規分布となる

(39)

ｔー分布で

自由度 n＝∞・・・正規分布と同じ

(40)

(41)

P

９６例題実習

• 1)歯肉の良い者指導を受けた者では４５／５３受けない者１８／５５ • ２）２×２分割表を作る • ３）仮説を立てる（関係がない、差はないとする） • ４）仮説どおりなら・・・期待値理論値を求める（表６－６）

(42)

５

• ５）教科書のように計算すると・・・・表を二つ作る必要がある •• それで、一般式を用いることにする • ΧΧ＝（_ad-bc）_(ad-bc)(a＋_b＋_c＋_{d)/ (a}＋_c)(b＋ d)(a ＋b)(c d)(a ＋b)(c ＋_d)

(43)

• （４５×３７－８×１８）二乗×１０８／６３×４５×５３×５５６３×４５×５３×５５＝₁₅₂₁×１５２１×１０８／８５２６３７５＝２４９８５１６２８／８５２６３７５＝２９，３０

(44)

• 表を読むと２９、３は危険率１％の値１０，８２７７をはるかに超えているつまり、この仮説（関係がない、差がない）は実際は起こりえない事象であるといえるということは、関係がある差があると言うことになるとになる試験問題は。。_P２１４の例題４から出します実際にやってみましょう！

(45)

(46)

(47)

(48)

(49)

(50)

(51)

(52)

(53)

重要です

第三４分位・・・第三４分位・・・

(54)

(55)

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)

(65)

(66)

(67)

標本調査

標本抽出法

度数分布

相対度数（％）・・

各階級の度数を総度数で割った値

累積相対度数（％）・・・・

各階級の累積度数を総度数で割った値

平均値

標準偏差（

standard deviation

）

カイ二乗検定

一般式から

①人数を大きくする

②

a

・ｄ－

c

・ｂ）の値を大きくする

大数の法則

２）代表値

３）ばらつき・・

4

・変異係数

標準偏差

CV

＝標準偏差／平均値

CV

＝標準偏差／平均値

４）相関

テキストの２２ページ

４）相関

ｒ

ｒ

相関とカイ二乗分布検定

５）回帰直線

•

図５－４ のように

X

と

Y

の両者の関係において

第６章・推定と検定

推測統計

差の検定（

超大切デス

）

推定・検定を行うとき

①標本平均からの推定と検定

②標準誤差

③不偏分散（標本の分散）

標本平均からの母平均の推定

信頼限界９５％ ９９％

標本平均から母平均の推定

t

分布

P

９６例題 実習

５

_{standard deviation}

_a

_c

₄

図５－４のように

信頼限界９５％９９％

９６例題実習