第3週のまとめ
比較と傾向の分析
5,000
6,000
7,000
8,000
9,000
10,000
11,000
12,000
13,000
1,600 1,800 2,000 2,200 2,400
収穫量(千t)
作付面積(千ha)
・可視化が重要
・時系列は分解して考える
変数の関係性の把握
外れ値の除外
クロス集計 / 散布図 / 相関 / 時系列
解釈が容易に
将来予測が可能
6
第4週のまとめ
Analysis応用編
y = 2.8152x - 59.694
R² = 0.9605
5
10
15
20
25
30
35
40
45
24 27 30 33 36
特製アイスの注文数(杯)
最高気温(℃)
明日の予想最高
気温は30℃
予測注文数は25個
予測 / 分析結果の報告 / 機械学習
・分析報告の落とし穴
機械学習の応用先は幅広い
・単回帰での将来予測
概念とエクセルでの実施
前提や指標を適切に提示
8
店舗の
売上拡大
購入点数を
増やす
商品単価
をあげる
既存顧客の
来店頻度の向上
新規顧客の
獲得
購入単価の
向上
顧客数の
拡大
第5週のまとめ Plan(ロジックツリー)
第5週のケーススタディのロジックツリーは下記のとおり。
ロジックツリーがMECE(抜けもれなく)に分解できているかは、要素間で掛け算、足し算
の式を入れることで確認できる。
+
×
×
12
第5週のまとめ Data(データチェック)
データを収集したら、内容を確認し、外れ値や、欠損値が含まれていないかを確認する。
次のような場合、どのような原因が考えられるでしょうか。
■欠損値が無いことを確認し、回帰分析のモデルを作成したが精度が悪い
外れ値
外れ値
全体的な傾向から
大きく離れている
外れ値を含んだままモデルを作成してしまった可能性
がある。回帰分析に限らず、外れ値があると分析
の精度が落ちるので、あらかじめ除くよう注意する。
■気温で売上を予測するモデルを作成。
気温データの一部が欠損していたので平均値で補完したところ期待したほどの精度が
上がらなかった
月
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
売上 10 8 15 20 120 200 280 320 220 140 40 50
気温 5.8 5.7 10.3 14.5 21.1 22.1 26.7 22.6 18.4 13.9 9.3
全体の平均ではなく、前後の値の平均
など適切な値で埋める。
24.4
13
第5週のまとめ Analysis(分布と代表値)
問題:日本人の平均貯蓄額はいくらでしょうか?
答え:1,798万円
「そんなに貯金はしてないよ」と思った人が多いはず・・・
そういうときは分布を確認してみることが必要。
貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年)
0
2
4
6
8
10
12
14
16
18
平均値 = 1,798万円
貯蓄額 (円)
割合
(%)
出典:家計調査結果(総務省)
http://www.stat.go.jp/data
/kakei/family/05.htm
14
第5週のまとめ Analysis (分布と代表値)
分布から、少数の高額貯蓄者が平均値を引き上げていることが判明。
平均値では分布の特徴を捉えられないと考え、中央値を確認。
中央値は1,052万円。
それでもやはり、「そんなに貯金はしてないよ」という人が多いはず・・・
貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年)
0
2
4
6
8
10
12
14
16
18
平均値 = 1,798万円
割合
(%) 中央値 = 1,052万円
貯蓄額 (円)
出典:家計調査結果(総務省)
http://www.stat.go.jp/data
/kakei/family/05.htm
15
第5週のまとめ Analysis (分布と代表値)
最後に、最頻値を確認。
最頻値は200万円未満。
ぐっと現実感が出てきたのではないでしょうか。
分布の形状の確認と適切な代表値の選択が重要
貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年)
0
2
4
6
8
10
12
14
16
18
平均値 = 1,798万円
割合
(%) 中央値 = 1,052万円
最頻値 = 200万円未満
貯蓄額 (円)
出典:家計調査結果(総務省)
http://www.stat.go.jp/data
/kakei/family/05.htm
16
第5週のまとめ Analysis(比較)
さて、ここで、ひとつあらたな疑問が・・・ 貯蓄額は年代や地域によっても違うのでは?
どうやって調べるのがよいでしょうか。
30代の貯蓄額分布 60代の貯蓄額分布
●●●
・・・
平均値○○円
中央値△△円
最頻値□□円
平均値××円
中央値○△円
最頻値△□円
30代 ・・・ 60代
A県 ○×円 □×円
・・・
B県 △□円 ○□円
・・・
30代 60代 30代 60代
A県 B県
■年代ごとに分布と代表値を比較
■年代×地域で集計・可視化
17
データ説明①家計簿スマホアプリReceRecoの概要
21
サービスの特長
ReceRecoとは「家計簿をリデザインする」を
コンセプトに、レシートのデータ化から、分析、外部
連携までを無料で提供する「家計簿/支出管理アプリ
(iOS/Android対応)」であり、料理レシピや電子チ
ラシの閲覧などのお得で便利な機能も充実している。
http://www.brainpad.co.jp/recereco/
分析における応用例
データ説明②ReceRecoのデータ取得の流れ
22
①ダウンロード
②ユーザ登録
③レシート登録1
③レシート登録2
・
・
・
アプリから取得可能なユーザ情報、レシート情報、レシートアイテム情報のデータを利用。
今回は研修用にユーザ別にレシート情報を集約し、1つのデータセットに加工。
(個人が特定されない形にデータ加工。本講義内で用いているデータは、登録されたレシートデータを個人が
特定されない範囲で二次利用することは全ユーザ承諾済)
データの説明③データ定義
23
大項目 中項目 項目名(変数名) 尺度 データの種類 コメント
ユーザー
属性
user_id 名義 文字列 ユーザを特定するためのID
性別 名義 文字列 男性、女性
年代 名義 文字列 10代、20代、30代、40代、50代、60代以上
都道府県 名義 文字列 47都道府県。不明の場合は空欄
購買
行動
費目合計 合計レシート枚数 合計金額 連続 連続 数値 数値 ユーザーごとの合計レシート枚数 ユーザーごとの合計支払金額
合計アイテム点数 連続 数値 ユーザーごとの購入した商品点数の合計
費目別
アイテム
点数
日用品費_アイテム点数 連続 数値 費目で日用品費に分類される商品の購入点数
: 被服費、食費、美容健康費、交際費、教養娯
楽、養育費、その他、ギフト等商品費も同様
費目別
合計金額
日用品費_合計金額 連続 数値 費目で日用品費に分類される商品の購入金額
: 被服費、食費、美容健康費、交際費、教養娯
楽、養育費、その他、ギフト等商品費も同様
データ期間 :2014年7月1日~2015年6月30日までの1年間
抽出条件 :コンビニA(自社)、B(競合)のレシート登録者
データ件数 :コンビニA(自社) 14,602件、コンビニB(競合) 16,100件
ファイル名 :対面学習課題データ.xlsx (コンビニA(自社)、コンビニB(競合))