3 地域統計の加工分析の方法
兵庫県企画県民部
(統計課・ビジョン課) 芦 谷 恒 憲
講義のあらまし
1 兵庫県統計課の情報提供の現状 2 統計データのとらえ方 3 統計データの加工分析の方法 4 標本調査と標本誤差 5 統計分析レポートの作成の方法 6 標本調査に関する例題1 兵庫県統計課の情報提供の現状
1提供内容・方法 報告書:県民情報センター、県民局、公立図書 館等 「兵庫県ホームページ(統計のページ)」:PDF、 EXCELファイル 2提供情報の用途 政策立案、推進の基礎資料、マーケティング、統計調査実施状況
統計課所管の統計調査実施年度一覧表 調 査 の 実 施 年 度 所 管 区分 統 計 調 査 名 周期 平 成 14 15 16 17 18 19 20 2122 23 24 25 基幹 国勢調査 5年 ● ● ● 〃 経済センサス-基礎調査 5年 ● 経済センサス-活動調査 5年 ● 〃 住宅・土地統計調査 5年 ● ● ● ● 〃 就業構造基本調査 5年 ● ● ● 〃 全国消費実態調査 5年 ● ● 〃 全国物価統計調査 5年 ● ● 中止 総務省 (統計局) 〃 社会生活基本調査 5年 ● ●統計調査実施状況の把握
1毎月調査:速報、確報(速報値は改定の場合 有) 2四半期調査:速報(4四半期計で年次) 3毎年調査:年次データ、調査実施日の確認 4周期調査:5年に1回、5年に2回(中間年は簡 易調査:調査項目が異なる) 大規模調査は調査年次がずらされている2統計データのとらえ方
1データのとらえ方 使えないデータ データの確認 データの出所、調査方法の確認 2異常値の検出とデータの補修データのとらえ方
1使えないデータ: 尐ない標本、偏りのあるサンプル 2データの確認:定義、調査期間、調査時点 3データの出所、調査方法の確認: 全数調査かサンプル調査か異常値の検出とデータの補修
1異常値の検出:統計量でチェック(一定誤差範囲から はずれた値を集計等から除外) 平均(μ)±2σ の間の曲線下の面積約95.4%→は ずれ値チェック 平均(μ)±3σ の間の曲線下の面積約99.7% →はずれ値 チェック 2データの補修: 類似項目平均値の代用(内訳値の推計) 中立値の代用(前年同月値、前年固定値、県・国平 均値による推計値)四半期予測値の作成例
データ欠落の状態 推計方法例 1 ヶ月欠落 前年比を当該四半期の前年同期の伸びとして補外推計 2 ヶ月欠落 前年同月比を当該四半期の前年同期の伸びとして補外推計 3 ヶ月欠落 同系列の国値の前年同期値を当該期値とする その他 最新月のほぼ該当する系列の前月比で補外推計3統計データの加工・分析の方法
1データの見方
2データの加工分析の方法 3データ加工の留意点
データ加工の方法
1 比率:2つの統計値の相互割合を求めた値 2 対立比率:比率の標準化(1人当たり県民所得) 3 構成比:全体に対する内訳の割合 4 特化係数:県生産額構成比/国生産額構成比 5 変化率:基準時点から比較時点までの時間的変動 6 寄与度・寄与率:項目別変化要因3.1比率
2つの統計値の相互割合を求めた値 使用例:性比=男性人口/女性人口
平均世帯人員=世帯人員/世帯数 人口密度=人口/面積
3.2対立比率
一つの統計集団を他の集団に対応させて比例 関係を観察する
使用例:1人当たり県民所得(=県民所得/総人口) 就業者1人当たりGDP(=GDP/就業者数)
3.3構成比
全体に対する内訳の割合 使用例:第一次産業の産業全体に対する割合 (=第一次産業GDP/GDP合計) エンゲル係数(=食費/消費支出)3.4特化係数
ある地域の産業構造が全国平 均と比べどの程度偏りを 持っているか 使用例:特化係数=兵庫県内 生産額構成比/全国生産 額構成比 《 産業部門別特化係数(国=1) 》 0.00 0.50 1.00 1.50 農業 林業 漁業 鉱業 基礎素材型 加工組立型 生活関連・その他型 建設 電力・ガス・水道 商業 金融・保険 不動産 運輸 情報通信 公務 サービス 平成17年 平成12年3.5変化率
基準時点から比較時点までの時間的な変動 前年同月比:比較時点の指標の1年前との比較(原指数) 前期比:比較時点の指標の前期との比較(季節値) 兵庫県鉱工業指数(平成24年2月) 平成17年=100 生 産 97.7 ▲ 1.2 98.1 1.2 出 荷 95.4 ▲ 0.2 94.6 ▲ 2.3 原指数 季節調整済 指数 対前月比 増減(%) 対前年同月 比増減(%)3.6寄与度と寄与率
寄与度:ウェイトの大きさを加味した影響度合 寄与率:全体の変化に対し内訳分の変化の貢献度 経済活動別県内総生産(名目) 寄与度(%) 項 目 平成 平成 平成 平成 20年度 21年度 20年度 21年度 20年度 21年度 20年度 21年度 1 産業 174,420 162,936 ▲ 1.8 ▲ 6.6 91.7 91.4 ▲ 1.69 ▲ 5.96 (1) 農業 683 718 4.3 5.0 0.4 0.4 0.01 0.02 (2) 林業 69 65 ▲ 6.9 ▲ 6.2 0.0 0.0 0.00 0.00 (3) 水産業 214 217 ▲ 17.0 1.2 0.1 0.1 ▲ 0.02 0.00 (第1次産業 (1)~(3)計) 967 1,000 ▲ 2.1 3.4 0.5 0.6 ▲ 0.01 0.02 (4) 鉱業 164 80 ▲ 36.8 ▲ 51.4 0.1 0.0 ▲ 0.05 ▲ 0.04 (5) 製造業 45,406 37,781 ▲ 3.5 ▲ 16.8 23.9 21.2 ▲ 0.86 ▲ 3.96 (6) 建設業 9,731 7,457 14.3 ▲ 23.4 5.1 4.2 0.63 ▲ 1.18 (第2次産業 (4)~(6)計) 55,300 45,318 ▲ 1.0 ▲ 18.1 29.1 25.4 ▲ 0.28 ▲ 5.18 (7) 電気・ガス・水道業 5,113 5,415 3.5 5.9 2.7 3.0 0.09 0.16 (8) 卸売・小売業 20,007 17,789 ▲ 3.0 ▲ 11.1 10.5 10.0 ▲ 0.32 ▲ 1.15 (9) 金融・保険業 8,939 8,789 ▲ 17.7 ▲ 1.7 4.7 4.9 ▲ 1.00 ▲ 0.08 (10) 不動産業 29,107 29,589 1.6 1.7 15.3 16.6 0.23 0.25 (11) 運輸・通信業 13,912 13,035 ▲ 2.2 ▲ 6.3 7.3 7.3 ▲ 0.16 ▲ 0.46 (12) サ-ビス業 41,076 42,001 ▲ 1.1 2.3 21.6 23.6 ▲ 0.24 0.48 2 政府サービス生産者 17,841 17,273 ▲ 1.4 ▲ 3.2 9.4 9.7 ▲ 0.13 ▲ 0.29 3 対家計民間非営利サービス生産者 4,639 4,558 2.2 ▲ 1.8 2.4 2.6 0.05 ▲ 0.04 (第3次産業 (7)~(12),2,3 計) 140,634 138,449 ▲ 2.0 ▲ 1.6 73.9 77.7 ▲ 1.48 ▲ 1.13 4 小計 196,901 184,767 ▲ 1.7 ▲ 6.2 103.5 103.7 ▲ 1.77 ▲ 6.30 5 輸入品に課される税・関税 2,264 1,678 5.0 ▲ 25.9 1.2 0.9 0.06 ▲ 0.30 (控除)総資本形成に係る消費税 1,391 1,075 ▲ 6.3 ▲ 22.7 0.7 0.6 ▲ 0.05 ▲ 0.16 (控除)帰属利子 7,472 7,111 ▲ 11.2 ▲ 4.8 3.9 4.0 ▲ 0.49 ▲ 0.19 県内総生産(市場価格表示) 190,301 178,259 ▲ 1.2 ▲ 6.3 100.0 100.0 ▲ 1.18 ▲ 6.25 構成比(%) 金額(億円) 増加率(%)データ加工の留意点
1 統計データの地域属性の検討 2 統計データの定義の検討
3 統計データの時間的属性 4 統計データの加工の方法
統計データの加工の方法
1 概念及び定義の統一 2 暦年値、年度値の転換 3 指数値の統合 4 地域データの推計 5 時系列データの補間、補外推計 6 補助系列による延長推計 7 残差推計 8 リンク係数による指数の接続概念・定義の統一
例 常用雇用者数(SNA)=常用雇用者数(国 勢調査)×二重雇用比率(国民経済計算資 料) 国勢調査:1人の仕事は1つ SNA:2つ以上の仕事に従事し事業所も異なる 場合は、それぞれ一つでカウントするデータのとらえ方(就業者の把握)
1ふだんの状態で把握(有業者方式) 定義に曖昧さが残る(回答者の意識に左右さ れる) 2調査時(月末1週間)における活動状態で把 握(労働力方式) 定義が厳密であるが、調査時期、偶発的状 況に左右される。暦年・年度転換
1 統計指標を用いた転換 年度転換比率=年度指数/暦年指数 転換指標例:賃金指数、鉱工業指数 2 四分の一移動法による転換 t期年度値=t期暦年値×3/4+t-1期暦年値 ×1/4指数の統合
生産指数=Σ (ウェイト×指数)/Σ ウェイト 例 鉱工業指数電気3業種の統合(合計ウェイト 1606.9) ①電気機械(ウェイト857.8) ②情報通信機械(同436.8) ③電子部品・デバイス工業(同312.3)地域データの推計
地域値=①全国当該係数×②分割比率 分割比率資料:GDP、従業者数(事業所・企業 統計) 分割指標例:売上高、契約数、自動車保有台 数等時系列データの補間、補外推計
国勢調査(95年、00年データ)による就業者数推計 補間推計(96年~99年データ) 両側にデータあり 補外推計(01年~04年データ)片側のみにデータあり 100 150 200 250 95 96 97 98 99 00 01 02 03 04 例1 例2補助系列による延長推計
当該年度年間販売額 =①ベンチマーク値×②補助系列増減率 ①年間販売額(商業統計)年次データ(全数) 周期データ ②商業販売額(商業動態統計)月次データ(標本) 年次データ残差推計
推計資料がなく、概念恒等関係が成り立つ場合、 定義式から残差を推計値とする。(この項目の寄 与等は説明できない) 例 統計上の不突合(GDP)=生産系列-支出系 列(2面等価)リンク係数による指数の接続
対象期間を超えてデータが遡及改訂される場合、 接続係数(リンク係数)により接続する 例 サンプル調査のデータが遡及修正する場合 物価指数の採用データが基準改定される場合 月次統計が新たに整備された場合30
統計表の単位
各種統計表の金額単位は異なっているので注意 1 国民経済計算(10億円)、県民経済計算(100万円) 2 工業統計・製造品出荷額等(万円)、商業統計・年間 販売額(万円) 3 県・市町決算書(千円) 統計表によっては単位未満四捨五入の関係で合計と内 訳が一致しない場合がある。4標本調査と標本誤差
1 統計調査における標本調査 2 標本設計と統計上の誤差 3 標本抽出法の概要 4 統計上の誤差 5 標本誤差を求める算式 6 標本の大きさの推定32
標本調査
1標本の偏り(誤差) 標本誤差:標本数で精度が決まる 非標本誤差:調査票の不備、実施時の不正、集計ミス 2標準誤差率 全数調査をすれば得られる真の値の存在の目安統計調査における標本調査例
1 労働力調査(世帯名簿から抽出) 国勢調査区からサンプリング 兵庫県 毎月約1600世帯を調査 2 毎月勤労統計調査(事業所名簿から抽出) 事業所・統計調査名簿からサンプリング 兵庫県(地方調査)第1種640事業所、第2種510事業 所標本抽出法の概要
1 有意抽出法:調査実施者の主観により抽出 2 無作為抽出法:抽出確率を等しくするように抽出 3 系統抽出法:出発点から一定間隔ごとに抽出 4 集落抽出法:抽出単位が集落 5 層化抽出法:抽出単位を一定基準(市町、男女 等)により抽出 6 多段抽出法:調査区→第1次標本→第2次標本 (世帯)国勢調査1%抽出の方法
世帯名簿(1基本単位区約50世帯) 2基本単位区で約100世帯であるから2基本単位区 で1世帯抽出すれば1/100で、1%抽出となる。 1 基本単位区の抽出:調査区番号が奇数か偶数か で抽出 2 世帯の抽出:世帯番号で抽出(例えば15番目の 抽出)系統抽出法
抽出の出発点から一定間隔ごとに標本を抽出す る方法 メリット:抽出方法が簡単で実用的 抽出の出発点と間隔の選択により隔たりの縮 小、精度向上が期待できる集落抽出法
集落を抽出単位とする
メリット:調査能率が向上、費用も割安
デメリット:集落間、集落の大きさにばらつきがあ る
層化抽出法
フレームの抽出単位を一定の基準で層別に分け、 層ごとに標本を抽出する方法 例)個人:男女別、職業別、年齢別など 都市:人口規模、産業特性など メリット:精度が比較的高く層間の比較分析に適 している デメリット:層作成に必要な情報が得られるとは多段抽出法
1段:人口規模(市区町の抽出) 2段:地方性(投票区の抽出) 3段:投票区選挙人名簿(サンプリングによる抽出) メリット:調査地域限定により費用が尐ない デメリット:精度は単純無作為抽出法よりも悪い非標本誤差
全数調査で発生する誤差 回収率による偏り→督促
調査誤差→調査票の設計、調査員指導 集計誤差→審査の充実、機械化促進
標本の大きさの推定
必要される標本数の計算 統計上の誤差3%の場合 1100サンプル 5%の場合 400サンプル 回収率を20%とすると3%の場合 5500サンプル 母集団が小さいとき(サンプル1万以下)は修正係 数で補正する標本の大きさの推定2
母集団が小さいときの修正:サンプル1万以下 例 サンプル数2000 誤差5%以内 400×0.643=257 母集団と修正係数 母集団(N) 修正係数 母集団(N) 修正係数 2000 3000 4000 5000 0.643 0.732 0.783 0.818 8000 9000 10000 12000 0.878 0.891 0.900 0.9165統計分析レポートの作成
収集データの選定 地域、時間、定義の検討 データの加工・分析 統計データのまとめ(グラフ、統計表の作成) コメントの作成(共通点や相違点の検討)データの見方
1 層別(年齢、性別等)に分けてみる 2 複数の機関のデータを比べる
データ加工の留意点
1 統計データの地域属性の検討 市部、郡部、町丁字(国勢調査) 2 統計データの定義の検討 全数、裾切(4人以上調査:工業統計) 3 統計データの時間的属性 月次、四半期次、年次(年度、暦年)標本調査に関する例題
Q1 世帯調査 Q2 消費者調査 Q3 視聴率調査 Q4 世論調査
例題1 世帯調査の方法(家族構成調査)
調査対象:高校の生徒世帯は,世帯主が概ね 40歳代以上 偏りのある家族構成:子供の年齢の小さい世 帯、子供のいない世帯、老人だけの世帯は調 査対象外となる →調査に偏りがある例題2 消費者調査の方法(郵送調査)
郵送調査の問題点:その問題に関心を寄せる人が回 答 →消費者一般の意見を代表してしるとは言えない 製品購入者の回答 →製品について意見を持つ場合がある 使用上の欠陥や改良を要する点の発見に役立つ 消費者の一般的評価を知ることに役立たない例題3 視聴率調査の方法
A番組の視聴率は22.5%(標本数は300本)
標本誤差を有意水準95%で求める 標本誤差の計算 計算式2