• 検索結果がありません。

33

データの整理 データの可視化

度数分布表や統計表の作成 グラフの作成

・階級・相対度数

・累積度数

・代表値や散布度

○質的データの場合:

円グラフ、帯グラフ、ヒストグラム等

○量的データの場合:

折れ線グラフ、散布図等

■数値的要約(要約統計量)

代表値:最小値、最大値、平均値、中央値(メジアン)、最頻値(モード)

散布度:標準偏差(平均値)、四分位偏差(中央値)

分析前のデータ準備

 データ分析を行う前の作業について、呼び方はさまざま

データクレンジング、データクリーニング、データの前処理、・・・

34

データクレンジング(data cleansing)

データベースの中から誤りや重複を洗い出し、異質なデータを取り除いて整理するこ と。データベースの精度を高めることにより、経営やマーケティングに有用な相関関係 やパターンを探り出すデータマイニングなどに役立てることができる。データクリーニング

■コトバンク

https://kotobank.jp/word/データクレンジング

 主な作業として、以下のものがある。

表記ゆれの統一

エラー値や外れ値の確認

欠損データの補填

重複データ(行)の削除

複数のデータを組み合わせる(結合する)

分析前のデータ準備

文字列の場合 数値の場合

空白

全角・半角

大文字・小文字

漢字の新旧体・異体字

句読点や記号(カンマ等)

日付のフォーマット

郵便番号、住所、電話番号、

略語等の表記ゆれ

改行コード(CR、LF、CRLF)

空白(Nullも含む)

0(ゼロ)

想定範囲外の数値

数値の文字列型

35

 表計算ソフトによる主な処理方法

検索・置換機能による変換

フィルター機能による変換

関数による変換

分析前のデータ準備

 表計算ソフト Excel ® の関数による主な変換

36

対象 変換方法 関数

空白 余分なスペース(空白)を削除する

TRIM関数

スペースを全て削除する

SUBSTITUTE関数

全角・半角 全角文字を半角に変換する

ASC関数

半角文字を全角に変換する JIS関数

大文字・小文字 大文字を小文字に変換する

LOWER関数

小文字を大文字に変換する

UPPER関数

数値の文字列型 文字列として表示された数値を変換する

※エラーチェック機能(!マーク)でも変換可

VALUE関数

分析前のデータ準備

 表計算ソフトによるエラー値や外れ値の確認

フィルター機能によるチェック

グラフ作成によるチェック

1つのデータの場合:ヒストグラム、箱ひげ図

2つのデータの場合:散布図

ピボットテーブル(クロス集計)によるチェック

 複数のデータを組み合わせる(結合する)

 VLOOKUP関数によるデータ結合:ある範囲の中から数値や文字列

のデータを検索し、それに対応した値を取りだす[Excel®

リレーションシップ:重複しない数値を主キー(プライマリキー)として、

表(テーブル)同士を関連付ける[Access®

37

分析前のデータ準備

 データ変形とは(藤原、2017)

BI(Business Intelligence)ツール等の分析ソフトが利用できるように、

データの形式を変換すること

 主なデータ形式

ワイド(Wide)型:横に長く、直感的に理解しやすい

公開データはワイド型が多い

ロング(Long)型:縦に長く、分析ソフト等で扱いやすい

 BIツールを使うにはロング型のデータが必要

38

ワイド型の例

番号 性別 英語 数学

001

女性

95 80

002

男性

78 86

… … … …

ロング型の例

番号 性別 科目 点数

001

女性 英語

95

001

女性 数学

80

002

男性 英語

78

002

男性 数学

86

(Reshape)変形

【問題】散布図 ~データを俯瞰し、分類する

A学科カリキュラム委員会では,初年次の必修科目の影響 を確認することにしました。

39

この図で、異常値や外れ値等、

解釈を始める前に確認すべき

ところは何でしょうか?

分析前のデータ準備

関連したドキュメント