• 検索結果がありません。

ビッグデータ利活用入門

N/A
N/A
Protected

Academic year: 2021

シェア "ビッグデータ利活用入門"

Copied!
74
0
0

読み込み中.... (全文を見る)

全文

(1)

データ分析手法とツール

(2)

目的

 統計の理論ではなく、その使い方や意義を学習する

モノとして、データ分析のニーズに応じたデータの性

質、および代表的な統計的手法を学習すること

(3)

目標

 データ利活用の方針とシナリオに整合したデータ分

析の運用を計画することができる

 データ分析の目的に応じた分析手法の選択を行う

ことができる

 データ分析の目的との整合を検討することができる

 データの特性を理解した分析手法を選択すること

ができる

 データ利活用を行うツールの特徴を説明することが

できる

(4)

前提

 数値データを使用した分析を行うために、中学校数

学程度の四則演算知識を有すること

 Microsoft Excel等の集計・表計算ソフトの使用経験

を有すること

(5)

目次(データ分析手法とツール)

1.

なぜデータ分析が必要なのか

2.

目的にあったデータ分析を選ぶには

3.

全体像を把握する分析手法

4.

比較して判断する分析手法

5.

仮説検証を使った分析手法

6.

知識を発見する分析手法

7.

データ分析とICT

8.

まとめ

9.

その他、参考

(6)

目標

1. なぜデータ分析が必要なのか

ビッグデータを利活用するためには、データ分析手法

とツールの使い方や意義が大切であることを認識する

データを用いた分析の結果が意思決定に与える影響

を説明することができる

(7)

1.

なぜデータ分析が必要なのか

1.1.

データ分析の使い方と意義

1.2.

データ分析する背景

(8)

ビジネス展開(運用) ビジネスでの実行 ビジネスへのデータ利活用の導入(企画・計画) 目的の 明確化 シナリオ の立案 シナリオ の有効 性評価 環境準備 オペレー ション の設計 実行 判断 ICT データ の収集 データ の蓄積 データ の分析 データ の棚卸 施策の検討 結果の確認 業務の実施 施策の実行 データ の収集 データ の蓄積 データ の分析 施策 判断

1.1. データ分析の使い方と意義

ビジネスを成功

させるためには、

裏付けとなる

データが必要

データだけを集めても

ビジネスに利用できる

データにはならない

分析手法・ツールの使 い方を知ることが大切

分析手法・ツールの使

い方を知ることが大切

(9)

方策の決定

1.2. データ分析をする背景

 データ分析が決定を促す

いくつか案がある

適切な情報がない

と決められない

適切な情報を得る

には、データ分析

が必要

データ分析手法

解決すべき問題・課題

(10)

戦略的意思決定 トップ・マネジメント • 経営職層が決定すべき、企業目標や自社ドメインの選択等が挙 げられる • 企業全体に関わる重要なテーマが対象となる • 決定が企業に与える影響が大きい 管理的意思決定 ミドル・マネジメント • 管理職層が決定すべき組織構造の決定や経営資源の調達等が 挙げられる • 経営層が決定した方針を受けて、担当する部門での実行を行う ための意思決定を行う • 戦略的意思決定と業務的意思決定の中間に位置する 業務的意思決定 ロアー・マネジメント • 現場に近い層が決定すべき、経営資源の配分や日常の業務方 針の決定等が挙げられる • 実際に業務を遂行する際の問題が対象となる • 日常的に繰り返され、対応も定型的であることが多い • 決定が企業に与える影響は小さい

1.2.1. (参考)意思決定モデル

アンゾフの意思決定モデル どのような考え方で意思決定がなされるのかを知ることで、 意思決定に必要な情報が理解ができ、データ分析手法を選択しやすくなる

(11)

1.2.2. 考えてみましょう

(12)

目標

2. 目的にあったデータ分析を選ぶには

(13)

2.

目的にあったデータ分析を選ぶには

2.1.

データ分析の用途

(14)

2.1. データ分析の用途

全体像を把握する

比較して判断する

仮説を検証する

A

B

知識を発見する

(15)

2.2. 目的とデータ分析手法との関係(1/4)

全体像を把握する

フォーカスしたいところを特定する

度数分布とヒストグラム

どのような状況になっているかを特定する

平均と標準偏差

統計的なデータから、 どのような予測が立つかを特定する

正規分布

一部のデータ(標本)から全体像を把握する

標本調査

(全体像の推測)

一部のデータ(標本)の平均から、 全体の平均を推測する

標本平均

(16)

2.2. 目的とデータ分析手法との関係(2/4)

比較して判断する

複数のデータの関係性から、

隠れた特徴を抽出する

相関関係

(17)

2.2. 目的とデータ分析手法との関係(3/4)

仮説を検証する

相関関係のある一部のデータから、 全体像を推測する

散布図と回帰分析

2つ以上の複合した相関関係の ある一部のデータから、全体像を推測する

重回帰分析

そのままでは計算できない質を表したデータを 分析する

質的データの取扱い

(18)

2.2. 目的とデータ分析手法との関係(4/4)

知識を発見する

テキスト情報から一定の知見や発想を得る

テキストマイニング

(19)

2.2.1. 確認テスト

データの分析用途として大きく4つに分類され

ます。以下の空欄をうめてください。

を把握する

比較して判断する

仮説を検証する

知識を

する

(20)

目標

3. 全体像を把握する分析手法

全体像を把握する分析手法にどのようなモノがあるか

(21)

3. 全体像を把握する分析手法

3.1.

全体像を把握する分析手法の紹介

3.2.

度数分布とヒストグラム

3.3.

平均と標準偏差

3.4.

正規分布

3.5.

標本調査と標本平均

(22)

3.1. 全体像を把握する分析手法の紹介

度数分布とヒストグラム

平均と標準偏差

正規分布

標本調査(全体像の推測)

標本平均

(23)

3.2. 度数分布とヒストグラム

 度数分布とは

データを一定のルールで整理し、データがどのような値を中心にし

てどのようなばらつき方をしているのかを調べることで、全体データ

の特徴や性質などを理解する手法です。

 ヒストグラムとは

ばらつきの分布状態(度数分布)を棒グラフで表示したもの。

他の表現方法として、幹葉図や箱ひげ図があります。

1 4 9 16 21 5 3 1 0 5 10 15 20 25 23 28 33 38 43 48 53 58 年齢(中央値) 人数 21~25(23) 1 26~30(28) 4 31~35(33) 9 36~40(38) 16 41~45(43) 21 46~50(48) 5

度数分布表

ヒストグラム

(24)

0 5 10 15 20 25 30 35 8 時 9時 10 時 11 時 12 時 13 時 14 時 15 時 16 時 17 時 18 時 19 時

3.2.1.

度数分布とヒストグラムの利用イメージ

データ 購入履歴 (金額、販売日時) 販売日時 金額 4/1 8:10 ¥500 4/1 8:12 ¥750 ・・・ 4/1 12:28 ¥800 4/1 12:32 ¥900 ・・・ 4/1 19:54 ¥570 4/1 19:58 ¥720 1日にピークが2回あり、 それぞれの客単価平均は、 12時:812円、18時:843円 利用イメージ

フォーカスしたいところを特定する

度数分布表 900 800 700 600 500 400 300 時間帯 人数 平均金額 8時 14 ¥323 9時 12 ¥356 10時 8 ¥460 11時 13 ¥656 12時 33 ¥812 13時 12 ¥788 14時 10 ¥566 15時 10 ¥702 16時 6 ¥763 17時 9 ¥772 18時 21 ¥843 19時 11 ¥615 ヒストグラム

(25)

3.3. 平均と標準偏差

 平均とは

データ全体を代表する値です。 他に、最頻値、中央値でも表す方法もあります。

 分散とは

データのバラツキを表します。

 標準偏差とは

「データのバラツキ度合いを異なるデータ間で比較できる」 「平均値からのバラツキの幅を測定できる」という特徴 を用いて、データが示す傾向や性質を把握できます。

平均

「平均との差の

2乗」の平均

分散の平方根

平均値 =データの値の総計 データ数 標準偏差 = データの値 − 平均 2 の総計 データの数

(26)

3.3.1. 平均と標準偏差の利用イメージ

データ 利用イメージ

どのような状況になっているかを特定する

月日 A店 B店 C店 D店 6月1日 40 90 60 90 6月2日 40 90 70 60 6月3日 50 80 50 50 6月4日 40 110 80 80 6月5日 300 120 100 110 6月6日 260 120 90 70 6月7日 40 80 70 40 6月8日 50 90 70 30 6月9日 50 100 50 90 6月10日 40 90 60 80 6月前半の来店者数 A店 B店 C店 D店 平均 106.0 100.0 71.3 70.0 標準偏差 104.3 16.9 16.8 21.4 平均と標準偏差から分かる状況は、

平均

高い

低い

バラツキ 小さい B店 C店 大きい A店 D店 来店者数の平均をみるとA店がトップだが、 バラツキも考慮するとB店が優れていると わかった

(27)

3.4. 正規分布

 正規分布とは

発生確率の高い平均値(中央値)を中心として、左右対象に確率が

低くなっていく確率分布のことです。正規分布の分布図は、下図のよ

うな釣鐘状になります。

データが正規分布をしていることが想定できる場合、

平均値と標準偏差値がわかれば、

データの範囲を推定することができます。

y 平均値 (中心値) x y 平均値 (中心値) x 標準偏差が大きい =バラツキが大きい 標準偏差が小さい =バラツキが小さい 標準偏差 標準偏差

(28)

3.4.1. 正規分布の利用イメージ

製品Aの納期日数 10日 8日 12日 10日 15日 ・・・ 偏差値 50 60 率 50% 16% 納期 10日 14日

84%が14日以内

使用するデータ 利用イメージ

過去実績の納期日数を正規分布にあてはめると、

偏差値60以上(16%)で、4日以上遅れるとわかった。

14日(平均10日+バッファ4日)あれば8割以上の確

率で納品できると特定できた。

統計的なデータから、どのような予測が立つかを特定する 過去実績の納入日数 正規分布を利用して、過去実績の納入日数から、 8割以上の確率で納品できるバッファ期間を特定したい 正規分布曲線

(29)

 標本調査とは

大量データから一部を入手、観測した場合に、その背後にある大量データ

を推測する手段として仮説検定の考え方による統計的推定の手法です。

 標本平均とは

標本調査から得られた情報から母集団の傾向を推測する手法の1つ。母

集団の平均を推測するために標本データの平均値を利用する方法です。

標本平均=

(抽出した標本データの合計)÷(抽出した標本データ数)

3.5. 標本調査と標本平均

母集団 (調査対象となる全体) 無作為抽出 標本(サンプル) 統計的推測

(30)

3.5.1. 標本調査の利用イメージ

市在住のモニターへの アンケート結果

モニターへのアンケート結果をもとにした推測から、

スポーツジムの見込み顧客を把握できた

標本(サンプル) アンケート結果 市在住モニター=500人 母集団

一部のデータ(標本)から全体像を把握する

データ 利用イメージ

無作為抽出

統計的推測

ジムに興味のある モニター 市在住者=15万人 標本の取り出し方で 結果は変わるため、 誤差が含まれる 見込み顧客

(31)

3.5.2. 確認テスト

全体像を把握する分析手法には何があるか、

(32)

目標

4. 比較して判断する分析手法

比較して判断する分析手法にどのようなモノがあるか

(33)

4.

比較して判断する分析手法

4.1.

比較して判断する分析手法の紹介

4.2.

相関関係

(34)

4.1. 比較して判断する分析手法の紹介

相関関係

(35)

4.2. 相関関係

正の相関(右上がり)

負の相関(右下がり)

無相関

 相関関係とは・・・

一方の値が変化すれば、他方の値も変化するという、2つの値の関連性

 正の相関

2つのデータのうち一方が 増加 すると、もう一方も 増加

 負の相関

2つのデータのうち一方が 増加 すると、もう一方が 減少

y y x x y x 増 増 増 減

(36)

 相関係数とは

相関係数は-1から1までの値を取り、0に近いほど相関が弱く、1に近

いほど相関が強くなります。共分散を一方の標準偏差と他方の標準

偏差をかけあわせた値で割った値のことです。

4.2.1. 相関係数

0

1.0

-1.0

相関がない 完全な 正の相関がある 完全な 負の相関がある y x y x y x y x y x

(37)

4.2.2. 相関関係の利用イメージ(1/2)

顧客満足度アンケートの結果 (全体と項目別の5段階評価) 「総合満足度と相関が強い、かつ満足度が低い」項目 =「効果が出そうな」項目を見つけることができる 総合 満足度 アクセス 案内図 開催曜日 開始時間 終了時間 設備 (電源等) 設備 (スクリーン) 回答者1 4 4 3 4 3 3 4 3 回答者2 3 3 2 3 4 3 4 3 回答者3 5 4 4 4 3 3 5 3 回答者4 3 4 2 3 4 3 2 3 回答者5 4 4 3 4 5 5 2 2 回答者6 2 2 3 3 3 3 1 1 回答者7 2 3 2 2 2 3 2 2 回答者8 4 5 4 3 3 3 4 4 回答者9 4 4 3 3 4 4 3 4 回答者10 5 4 4 4 4 4 5 5 平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3 総合 満足度 アクセス 案内図 開催曜日 開始時間 終了時間 設備 (電源等) 設備 (スクリーン) 回答者1 4 4 3 4 3 3 4 3 回答者2 3 3 2 3 4 3 4 3 回答者3 5 4 4 4 3 3 5 3 回答者4 3 4 2 3 4 3 2 3 回答者5 4 4 3 4 5 5 2 2 回答者6 2 2 3 3 3 3 1 1 回答者7 2 3 2 2 2 3 2 2 回答者8 4 5 4 3 3 3 4 4 回答者9 4 4 3 3 4 4 3 4 回答者10 5 4 4 4 4 4 5 5 平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3 総合 満足度 アクセス 案内図 開催曜日 開始時間 終了時間 設備 (電源等) 設備 (スクリーン) 回答者1 4 4 3 4 3 3 4 3 回答者2 3 3 2 3 4 3 4 3 回答者3 5 4 4 4 3 3 5 3 回答者4 3 4 2 3 4 3 2 3 回答者5 4 4 3 4 5 5 2 2 回答者6 2 2 3 3 3 3 1 1 回答者7 2 3 2 2 2 3 2 2 回答者8 4 5 4 3 3 3 4 4 回答者9 4 4 3 3 4 4 3 4 回答者10 5 4 4 4 4 4 5 5 平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 使用するデータ 利用イメージ 複数のデータの関係性から、隠れた特徴を抽出する 相関係数の絶対値 相関係数の解釈 1.0 完全に相関がある 0.7~1.0 強い相関がある 0.4~0.7 相関がある 0.2~0.4 低い相関がある 0~0.2 ほとんど相関がない 0 相関がない

(38)

複数のデータの関係性から、隠れた特徴を抽出する

4.2.2. 相関関係の利用イメージ(2/2)

店舗改善の項目について、4つの領域に分けて整理することで、 対応すべき事項の優先度や実行判断の検討がしやすくなった 総 合 満 足 度 相関係数 ◆アクセス ◆開始時間 ◆設備 領域①:重点的に維持 領域②:早急に改善 領域④:現状の維持 領域③:改善 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 相関係数 満足度 0.73 3.7 0.76 3.0 0.80 3.3 0.36 3.5 0.38 3.4 0.80 3.2 0.72 3.0 0.65 3.30 g. 会場設備(スクリーン、椅子等) 平均 a. 会場へのアクセス b. 会場内案内 c. セミナーの開催曜日 d. セミナーの開始時間 e. セミナーの終了時間 f. 会場設備(電源・ネットワーク等) 総合満足度と各項目の相関、 各項目の満足度の平均 使用するデータ 利用イメージ

(39)

4.3. 相関関係と因果関係

 相関関係とは

一方の値が変化すれば、他方の値も変化するという、2つの値の関連性

 因果関係とは

2つ以上の事柄の間に原因と結果の関係があると言い切れる関係

 相関があっても因果があるとは限らない

「相関関係」=「因果関係」ではない

相関関係

因果関係

原因

結果

変化

変化

時間的先行性

変数間の結びつきの強さ

関連の普遍性

関連の整合性

連動

(40)

4.3.1. 考えてみましょう

相関関係があると思われる事例を1つ挙げてく

(41)

目標

5. 仮説検証を使った分析手法

仮説検証を使った分析手法にどのようなモノがあるか

(42)

5.

仮説検証を使った分析手法

5.1.

仮説検証を使った分析手法の紹介

5.2.

仮説検証の特徴

5.3.

回帰分析と重回帰分析

5.4.

質的データの取扱い

(43)

5.1. 仮説検証を使った分析手法の紹介

散布図と回帰分析

重回帰分析

(44)

5.2. 仮説検証の特徴

仮説がないとデータ分析

手法が決まらない

量的データ or 質的データ

を理解する

データ分析から類推する

仮説の正しさを証明するには、

統計的推測などのデータ分析

から類推することが必要です。

どのような結果を求めるのか(仮

説)を立てないと、データ分析手

法を決定することは、困難です。

取り扱うデータの性質(量的デ

ータ or 質的データ)を理解す

ることが重要です。

(45)

5.3. 回帰分析と重回帰分析

 回帰分析とは

「原因となる数値」と「結果となる数値」の関連性を、統計的手法を用いて調べる 方法のことです。原因となる数値(説明変数)の変化によって、結果となる数値 (目的変数)が変化することを推測できます。これによって仮説を立てることが可 能になります。

Y = a + bX

 重回帰分析とは

1つの目的変数を複数の説明変数で予測しようとする統計的手法のことです。

Y = a + b1X + b2X + b3X + … +bnX

Y = a +bX

a:切片、b:傾き

回帰直線

Y (結果となる数値) x(原因となる数値) a

データの分布を、直線に

近似すると、他のデータの

推測が可能になる

回帰線の誤差を最

小にするには、

差を最小にする

(46)

5.3.1. 散布図と回帰分析の利用イメージ

昨年度の入場者数の実績データ 日別の気温データ 日付 気温(℃) 入場者 8月1日 26 210 8月2日 29 225 8月3日 28 224 8月4日 29 227 8月5日 30 230 8月6日 28 222 8月7日 31 238 8月8日 27 215 8月9日 30 235 8月10日 29 230 8月11日 32 250 8月12日 31 235 8月13日 32 245 8月14日 34 260 8月15日 32 242 y = 5.9797x + 53.939 R² = 0.961 150 170 190 210 230 250 270 25 27 29 31 33 35 入場者 気温(℃) 入場者数(人) 気温(℃) 気温と入場者数の散布図 をつくると、直線上にデータ が並んだ 263 使用するデータ 利用イメージ

相関関係のある一部のデータから、全体像を推測する

気温とプール入場者数の相関を検証して、 関連を直線で表し、気温から入場者数の予測ができた

仮説: 気温が上がれば、涼を求めてプールの入場者数が増えるのでは

(47)

5.3.2. 重回帰分析の利用イメージ

昨年度の入場者数の実績データ 日別の気温データ、降雨確率 降雨確率(%) Z 気温(℃) X 入場者数(人) Y 35 30 260 気温と降雨確率と入場者数 の3次元の散布図をつくると 、面上にデータを近似できた イメージです

2つ以上の複合した相関関係のある一部のデータから、全体像を推測する

使用するデータ 利用イメージ 気温・降雨確率・入場者数の相関を検証して、関連を面で表し、入場者数の予測ができた

仮説: 気温と降雨確率によって、入場者数が増減するのでは

(48)

5.4. 質的データの取扱い

飲料別の、テレビCMの有無、 ウェブ広告の有無、売り上げ本数

量的データ

質的データ

数値の大きさが意味をもつデータ 例)売上高、人数、時間 数値の大きさが意味を持たないデータ 例)性別、業種、天気 テレビCM ウェブ広告 売上本数 テレビCM ウェブ広告 売上本数 飲料A あり なし 4,500 飲料A 1 0 4,500 飲料B なし あり 3,900 飲料B 0 1 3,900 飲料C あり あり 5,800 ⇒ 飲料C 1 1 5,800 飲料D あり なし 4,000 飲料D 1 0 4,000 飲料E なし なし 3,000 飲料E 0 0 3,000 飲料F なし なし 2,800 飲料F 0 0 2,800 飲料G なし あり 3,800 飲料G 0 1 3,800 テレビCM ウェブ広告 売上本数 テレビCM ウェブ広告 売上本数 飲料A あり なし 4,500 飲料A 1 0 4,500 飲料B なし あり 3,900 飲料B 0 1 3,900 飲料C あり あり 5,800 ⇒ 飲料C 1 1 5,800 飲料D あり なし 4,000 飲料D 1 0 4,000 飲料E なし なし 3,000 飲料E 0 0 3,000 飲料F なし なし 2,800 飲料F 0 0 2,800 飲料G なし あり 3,800 飲料G 0 1 3,800

データ

使用するデータ 利用イメージ 質的データから量的データへ変換し、 統計分析ができるデータにした

そのままでは計算できない質を表したデータを分析する

(49)

5.4.1. 考えてみましょう

仮説分析において、データ分析手法を決定す

(50)

目標

6. 知識を発見する分析手法

知識を発見する分析手法にどのようなモノがあるかを、

(51)

6.

知識を発見する分析手法

6.1.

知識を発見する分析手法の紹介

6.2.

テキストマイニング

(52)

6.1. 知識を発見する分析手法の紹介

テキストマイニング

外れ値の取扱い

(53)

6.2. テキストマイニング

 テキストマイニング

とは

テキストマイニングとは、大量のテキストデータから、役に立つ知識や情

報を見つけ出す分析技術のことです。

膨大に蓄積されたテキストデータを単語やフレーズに分解して、これらの

関係を一定のルールにそって分析することにより、出現頻度や相関関係

を把握し、単語の関係や時系列の変化などを抽出することによって、客

観的な分析に利用できます。

出典:「テキストマイニングによる国土政策評価手法の研究」国土交通省、P11

(54)

6.2.1. テキストマイニングの利用イメージ

検索ワード SNSの口コミ 自社/他社の評判を分析(比較)し、新たな気づきが得られた 単語の関係や時系列の変化などを抽出することで、さらなる気づきも おいしい 自社 既に取り組んで いる 37.0% 今後取り組む予 定である 40.7% 取り組む予定は ない 19.8% 無回答 2.5% 既に取り組んで いる 16.2% 今後取り組む予 定である 56.8% 取り組む予定は ない 24.3% 無回答 2.7% 競合 検索ワード(自社・競合)と 共に特徴的なキーワードを 抽出し、出現頻度の高いキ ーワードを比較 おいしい 友達とおいしいメンチカツを・・・

テキスト情報から一定の知見や発想を得る

使用するデータ 利用イメージ

(55)

6.2.2. テキストマイニングの事例

国土交通省の「テキストマイニングによる国土政策評価手法の研究」

国土に関する社会的心理状態(センチメント)の可視化や、地域や時間軸において 特徴的に現れるキーワードの抽出等を行い、リアルタイムに国土や土地・不動産市 場の情報を捉える手法の可能性が検討された。

(56)

せっかくデータ分析を行ったとしても、「あたりまえ」や「想定範 囲内」というような反応を受けることがあります。 そのような場合は、「想定範囲外」となった値に着目して、その 値の背景となる事象をとらえることで、新たな仮説を導き出す ことにつながることがあります。 「想定範囲外」となった値のことを「外れ値」と呼びます。

外れ値

6.3. 外れ値の取扱い

他の値とくらべて、 外れている値がある なぜだろう?

突出したデータに着目し、想定外を特定する

(57)

6.3.1. 考えてみましょう

外れ値を分析することの利点には、何が考え

(58)

目標

7. データ分析とICT

情報の活用を目的とするツールの特徴を説明するこ

(59)

7.

データ分析とICT

7.1.

データ分析におけるICTの位置づけ

7.2.

代表的な分析ツール

(60)

ビジネス展開(運用) ビジネスでの実行 ビジネスへのデータ利活用の導入 (企画・計画) 目的の 明確化 シナリオ の立案 シナリオ の有効性 評価 環境準備 オペレー ション の設計 実行 判断 ICT データの 収集 データの 蓄積 データの 分析 データの 棚卸 施策の検討 結果の確認 業務の実施 施策の実行 データの 収集 データの 蓄積 データの 分析 施策 判断

7.1. データ分析におけるICTの位置づけ

(61)

7.2. 代表的な分析ツール

集計をメインとするツール

分析がメインで、パターン化された分析を行うツール

分析がメインで、独自の分析プログラムを開発できるツール

• 表計算ツールのような数値データの集計・分析、グラフ作成を行うアプリケーション • 代表的なツ-ル: Microsoft Excel(Microsoft) • データベースからデータを検索、抽出、加工してレポートにまとめることができるア プリケーション。プログラミング知識がなくともデータ集計や分析を行うことができる

• 代表的なツ-ル: Business Objects(SAP)、Dr. Sum EA(ウイングアーク)

• 統計解析の専門ツールであり、高度な統計手法の実行が可能であり、分析結果 の信頼性も高い • GUIが発達したソフトも存在するが、高度な分析や独自手法を用いた分析を行う場 合には、プログラミング知識を必要とする • 代表的なツ-ル: SPSS(IBM)、SAS(SAS Institute)、 MINITAB(MINITAB)、R(オープンソフトウェア)

(62)

7.3. データ分析業務の外部委託

データ分析業務の委託契約時に検討する事項の例

データの提供と返却

分析委託金の支払

受託者における

結果の利用

成果の帰属

分析の追加・修正

個人情報の取扱い

(63)

7.3.1. 考えてみましょう

自社で、データ分析するICTツールを、どのよう

(64)

8.

まとめ(1/2)

データ分析の目的に応じた分析手法の選択を行うことができる

データ分析の目的との整合を検討することができる

データの特性を理解した分析手法を選択することができる

(65)

8.

まとめ(2/2)

発展学習への誘い

今回紹介したデータ分析手法は、基本的な分析手

法です。

データ分析について更に深く学習したい方は、統計

解析のトレーニングを受講されることをお勧め致し

ます。

(66)

9.

その他、参考

用語

用語 解説 仮説検証 仮説の真偽を、事実情報に基づいた実験や観察などを通じて 確かめること。 統計解析 統計処理ともいう。 統計学の手法で、データを解析して客観的に説明する方法。

(67)

1.2.2. 考えてみましょう

データ分析は、なぜ必要なのでしょうか?

適切な情報がないと決められず、適切な情報

(68)

2.2.1. 確認テスト

データの分析用途として大きく4つに分類され

ます。以下の空欄をうめてください。

全体

を把握する

比較して判断する

仮説を検証する

知識を

発見

する

(69)

3.5.2. 確認テスト

全体像を把握する分析手法には何があるか、

1つ答えてください。

(70)

4.3.1. 確認テスト

相関関係があると思われる事例を1つ挙げてく

ださい。

(71)

5.4.1. 考えてみましょう

仮説分析において、データ分析手法を決定す

る際は、何をもとに検討するとよいでしょうか?

(72)

6.3.1. 考えてみましょう

外れ値を分析することの利点には、何が考え

えられますか?

想定範囲外となった値に着目して、その値の

背景となる事象をとらえることで、新たな仮説

を導き出すことにつながる。

(73)

7.3.1. 考えてみましょう

自社で、データ分析するICTツールを、どのよう

に活用して行くのが良いと考えますか?

例)まずはExcelから。効果の見込みが持てた

(74)

参考文献

Copyright (c) 2014 Ministry of Internal Affairs and Communications All Rights Reserved

このテキスト(又はカリキュラム)は、総務省の『高度ICT利活用テキスト(実践編 科目データ分析手法とツール)』に改変を加えたものです。

参照

関連したドキュメント

この度は「Bizメール&ウェブ エコノミー」を

セキュアで大容量のクラウドストレージがビジネスを加速 Working

高効率熱源機器の導入(1.1) 高効率照明器具の導入(3.1) 高効率冷却塔の導入(1.2) 高輝度型誘導灯の導入(3.2)

(今後の展望 1) 苦情解決の仕組みの活用.

• 熱負荷密度の高い地域において、 開発の早い段階 から、再エネや未利用エネルギーの利活用、高効率設 備の導入を促す。.

ペットボトルや食品トレイ等のリサイクル の実施、物流センターを有効活用した搬入ト

利用者 の旅行 計画では、高齢 ・ 重度化 が進 む 中で、長 距離移動や体調 に考慮した調査を 実施 し20名 の利 用者から日帰

自動車環境管理計画書及び地球温暖化対策計 画書の対象事業者に対し、自動車の使用又は