• 検索結果がありません。

対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1

N/A
N/A
Protected

Academic year: 2021

シェア "対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1"

Copied!
26
0
0

読み込み中.... (全文を見る)

全文

(1)

各週の振り返りとPPDACサイクルの注意点

社会人のためのデータサイエンス演習

対面学習:講義

(2)

対面学習の学習目標

「データ分析のケーススタディ」の講義と演習を通じて、以下の

理解を深め、実践できるようになることを目標とする。

分析の設計

データから現状の把握

現状から、課題の抽出

課題に対する解決のための分析設計

1

(3)

コンテンツ

2

1

2

3

第1週~第4週の振り返り

第5週の振り返り

PPDACサイクルに沿ったケーススタディ

演習課題説明

(4)

コンテンツ

3

1

2

3

第1週~第4週の振り返り

第5週の振り返り

PPDACサイクルに沿ったケーススタディ

演習課題説明

(5)

第1週のまとめ

ビジネスのネット化・IoT

ビッグデータ収集・活用の考え方が変化

データ活用が企業競争力になる時代へ

データに基づく課題解決能力が求められている

データの利活用でビジネスにおける新たな価値を創出

4

(6)

第2週のまとめ

Analysisの具体的手法

KGIとそれに関連する要因の関係を分析する

分布 / 比較 / 傾向

傾向

サ イト閲覧時間 文章量

散布図

来客数 時間

時系列

連続

vs

連続

比較

来客数

クロス集計

名義

vs

名義

男 女

サイト

A 18

3

サイト

B

4 16

ヒストグラム

名義

vs

連続

サイト閲覧時間 来客数 サイトA サイトB 5

(7)

第3週のまとめ

比較と傾向の分析

5,000 6,000 7,000 8,000 9,000 10,000 11,000 12,000 13,000 1,600 1,800 2,000 2,200 2,400 収穫量(千t) 作付面積(千ha)

・可視化が重要

・時系列は分解して考える

変数の関係性の把握

外れ値の除外

クロス集計 / 散布図 / 相関 / 時系列

解釈が容易に

将来予測が可能

6

(8)

※補足.相関と因果の違い(息抜きクイズ)

答え : c.相関関係があるとはいいきれない

解説 :

家庭のしつけなどの擬似相関が指摘されている。

他にも“ゲームをやる子はキレやすい”、“凶悪少年事件の原因

はジャンク・ファストフード”など、類似例多数。

7

(9)

第4週のまとめ

Analysis応用編

y = 2.8152x - 59.694 R² = 0.9605 5 10 15 20 25 30 35 40 45 24 27 30 33 36 特製アイスの注文数(杯) 最高気温(℃) 明日の予想最高 気温は30℃ 予測注文数は25個

予測 / 分析結果の報告 / 機械学習

・分析報告の落とし穴

機械学習の応用先は幅広い

・単回帰での将来予測

 概念とエクセルでの実施

前提や指標を適切に提示

8

(10)

コンテンツ

9

1

2

3

第1週~第4週の振り返り

第5週の振り返り

PPDACサイクルに沿ったケーススタディ

演習課題説明

(11)

第5週のまとめ

PPDACサイクルに沿ったケーススタディ

・ロジックツリーによる分析設計

・計画に基づいた分析

抜けもれなく要素を把握

課題の優先順位付け

問題の発見 / 計画 / データ / 分析 / 結論

現状把握

分析対象のしぼりこみ

分析結果と次のアクション

10

(12)

第5週のまとめ PPDACサイクル

P

lan

roblem

C

onclusion

A

nalysis

ata

D

問題の発見 調査の計画 分析 結論

P

データ収集・加工 11

(13)

店舗の 売上拡大 購入点数を 増やす 商品単価 をあげる 既存顧客の 来店頻度の向上 新規顧客の 獲得 購入単価の 向上 顧客数の 拡大

第5週のまとめ Plan(ロジックツリー)

第5週のケーススタディのロジックツリーは下記のとおり。 ロジックツリーがMECE(抜けもれなく)に分解できているかは、要素間で掛け算、足し算 の式を入れることで確認できる。

+

×

×

12

(14)

第5週のまとめ Data(データチェック)

データを収集したら、内容を確認し、外れ値や、欠損値が含まれていないかを確認する。 次のような場合、どのような原因が考えられるでしょうか。 ■欠損値が無いことを確認し、回帰分析のモデルを作成したが精度が悪い 外れ値 外れ値 全体的な傾向から 大きく離れている 外れ値を含んだままモデルを作成してしまった可能性 がある。回帰分析に限らず、外れ値があると分析 の精度が落ちるので、あらかじめ除くよう注意する。 ■気温で売上を予測するモデルを作成。 気温データの一部が欠損していたので平均値で補完したところ期待したほどの精度が 上がらなかった 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 売上 10 8 15 20 120 200 280 320 220 140 40 50 気温 5.8 5.7 10.3 14.5 21.1 22.1 26.7 22.6 18.4 13.9 9.3 全体の平均ではなく、前後の値の平均 など適切な値で埋める。 24.4 13

(15)

第5週のまとめ Analysis(分布と代表値)

問題:日本人の平均貯蓄額はいくらでしょうか? 答え:1,798万円 「そんなに貯金はしてないよ」と思った人が多いはず・・・ そういうときは分布を確認してみることが必要。 貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年) 0 2 4 6 8 10 12 14 16 18 平均値 = 1,798万円 貯蓄額 (円) 割合 (%) 出典:家計調査結果(総務省) http://www.stat.go.jp/data /kakei/family/05.htm 14

(16)

第5週のまとめ Analysis (分布と代表値)

分布から、少数の高額貯蓄者が平均値を引き上げていることが判明。 平均値では分布の特徴を捉えられないと考え、中央値を確認。 中央値は1,052万円。 それでもやはり、「そんなに貯金はしてないよ」という人が多いはず・・・ 貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年) 0 2 4 6 8 10 12 14 16 18 平均値 = 1,798万円 割合 (%) 中央値 = 1,052万円 貯蓄額 (円) 出典:家計調査結果(総務省) http://www.stat.go.jp/data /kakei/family/05.htm 15

(17)

第5週のまとめ Analysis (分布と代表値)

最後に、最頻値を確認。 最頻値は200万円未満。 ぐっと現実感が出てきたのではないでしょうか。

分布の形状の確認と適切な代表値の選択が重要

貯蓄現在高階級別世帯分布 (二人以上の世帯) (平成26年) 0 2 4 6 8 10 12 14 16 18 平均値 = 1,798万円 割合 (%) 中央値 = 1,052万円 最頻値 = 200万円未満 貯蓄額 (円) 出典:家計調査結果(総務省) http://www.stat.go.jp/data /kakei/family/05.htm 16

(18)

第5週のまとめ Analysis(比較)

さて、ここで、ひとつあらたな疑問が・・・ 貯蓄額は年代や地域によっても違うのでは? どうやって調べるのがよいでしょうか。 30代の貯蓄額分布 60代の貯蓄額分布 ●●● ・・・ 平均値○○円 中央値△△円 最頻値□□円 平均値××円 中央値○△円 最頻値△□円 30代 ・・・ 60代 A県 ○×円 □×円 ・・・ B県 △□円 ○□円 ・・・ 30代 60代 30代 60代 A県 B県 ■年代ごとに分布と代表値を比較 ■年代×地域で集計・可視化 17

(19)

ビジネスでの活用に向けて

オンライン講座で、皆様は様々なことを学んできました。

後は、ビジネスでの活用に向けて、実践あるのみです。

それでは、次からの課題で、第5週のケーススタディのように

データサイエンスによる問題解決を一緒に実践してみましょう。

第1週:ビジネスのネット化・IOT 第2週:Analysisの具体的手法(分布 / 比較 / 傾向) 第3週:比較と傾向の分析(クロス集計 / 散布図 / 相関 / 時系列) 第4週:Analysis応用編(予測 / 分析結果の報告 / 機械学習) 第5週:PPDACサイクルに沿ったケーススタディ 18

(20)

コンテンツ

19

1

2

3

第1週~第4週の振り返り

第5週の振り返り

PPDACサイクルに沿ったケーススタディ

演習課題説明

(21)

課題の状況設定

あなたは大手コンビニチェーンA社の既存顧客向けのマーケティ

ング担当です。

マーケティング部の部長から、来年度の販売促進施策立案

の基礎資料として、自社の販売状況を分析し、現状と課題

点をまとめて報告するように指示を受けました。

⇒上記課題について

コンビニA(自社)とコンビニB(競合)

の販売データを提供します。

まず、分析の設計、次に設計に従い分析を行い、

報告用資料を作成してください。

20

(22)

データ説明①家計簿スマホアプリReceRecoの概要

21 サービスの特長 ReceRecoとは「家計簿をリデザインする」を コンセプトに、レシートのデータ化から、分析、外部 連携までを無料で提供する「家計簿/支出管理アプリ (iOS/Android対応)」であり、料理レシピや電子チ ラシの閲覧などのお得で便利な機能も充実している。 http://www.brainpad.co.jp/recereco/ 分析における応用例

(23)

データ説明②ReceRecoのデータ取得の流れ

22 ①ダウンロード ②ユーザ登録 ③レシート登録1 ③レシート登録2 アプリから取得可能なユーザ情報、レシート情報、レシートアイテム情報のデータを利用。 今回は研修用にユーザ別にレシート情報を集約し、1つのデータセットに加工。 (個人が特定されない形にデータ加工。本講義内で用いているデータは、登録されたレシートデータを個人が 特定されない範囲で二次利用することは全ユーザ承諾済)

(24)

データの説明③データ定義

23 大項目 中項目 項目名(変数名) 尺度 データの種類 コメント ユーザー 属性 user_id 名義 文字列 ユーザを特定するためのID 性別 名義 文字列 男性、女性 年代 名義 文字列 10代、20代、30代、40代、50代、60代以上 都道府県 名義 文字列 47都道府県。不明の場合は空欄 購買 行動 費目合計 合計レシート枚数 合計金額 連続 連続 数値 数値 ユーザーごとの合計レシート枚数 ユーザーごとの合計支払金額 合計アイテム点数 連続 数値 ユーザーごとの購入した商品点数の合計 費目別 アイテム 点数 日用品費_アイテム点数 連続 数値 費目で日用品費に分類される商品の購入点数 : 被服費、食費、美容健康費、交際費、教養娯楽、養育費、その他、ギフト等商品費も同様 費目別 合計金額 日用品費_合計金額 連続 数値 費目で日用品費に分類される商品の購入金額 : 被服費、食費、美容健康費、交際費、教養娯楽、養育費、その他、ギフト等商品費も同様 データ期間 :2014年7月1日~2015年6月30日までの1年間 抽出条件 :コンビニA(自社)、B(競合)のレシート登録者 データ件数 :コンビニA(自社) 14,602件、コンビニB(競合) 16,100件 ファイル名 :対面学習課題データ.xlsx (コンビニA(自社)、コンビニB(競合))

(25)

課題1:分析の設計

コンビニチェーンの既存顧客の売上拡大のロジックツリーを作成

してください。

⇒上記課題について

今回のデータセットにあわせて作成してください。

ロジックツリーがMECE(抜けなくもれなく)

にできているか、作成後に検証してみましょう。

24

(26)

課題2:現状把握と課題抽出

分析設計に従い、自社/競合の現状を把握し、自社の課題

を抽出してください。

⇒上記課題について

課題1で作成した売上拡大のロジックツリーに基づき

代表値や分布を確認し、現状を把握していきましょう。

次に、自社と競合を比較し、自社の課題を抽出

しましょう。

(時間に余裕がある方は)自社課題の解決に向け、分析

を行い、課題解決に繋がる施策の方向性を提案してください。

25

参照

関連したドキュメント

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

が前スライドの (i)-(iii) を満たすとする.このとき,以下の3つの公理を 満たす整数を に対する degree ( 次数 ) といい, と書く..

このため、都は2021年度に「都政とICTをつなぎ、課題解決を 図る人材」として新たに ICT職

本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根

「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

具体的な取組の 状況とその効果 に対する評価.