33
データの整理 データの可視化
度数分布表や統計表の作成 グラフの作成
・階級・相対度数
・累積度数
・代表値や散布度
○質的データの場合:
円グラフ、帯グラフ、ヒストグラム等
○量的データの場合:
折れ線グラフ、散布図等
■数値的要約(要約統計量)
代表値:最小値、最大値、平均値、中央値(メジアン)、最頻値(モード)
散布度:標準偏差(平均値)、四分位偏差(中央値)
分析前のデータ準備
データ分析を行う前の作業について、呼び方はさまざま
データクレンジング、データクリーニング、データの前処理、・・・
34
データクレンジング(data cleansing)
データベースの中から誤りや重複を洗い出し、異質なデータを取り除いて整理するこ と。データベースの精度を高めることにより、経営やマーケティングに有用な相関関係 やパターンを探り出すデータマイニングなどに役立てることができる。データクリーニング
■コトバンク
https://kotobank.jp/word/データクレンジング
主な作業として、以下のものがある。
表記ゆれの統一
エラー値や外れ値の確認
欠損データの補填
重複データ(行)の削除
複数のデータを組み合わせる(結合する)分析前のデータ準備
文字列の場合 数値の場合
空白
全角・半角
大文字・小文字
漢字の新旧体・異体字
句読点や記号(カンマ等)
日付のフォーマット
郵便番号、住所、電話番号、略語等の表記ゆれ
改行コード(CR、LF、CRLF)
空白(Nullも含む)
0(ゼロ)
想定範囲外の数値
数値の文字列型35
表計算ソフトによる主な処理方法
検索・置換機能による変換
フィルター機能による変換
関数による変換分析前のデータ準備
表計算ソフト Excel ® の関数による主な変換
36
対象 変換方法 関数
空白 余分なスペース(空白)を削除する
TRIM関数
スペースを全て削除する
SUBSTITUTE関数
全角・半角 全角文字を半角に変換するASC関数
半角文字を全角に変換する JIS関数
大文字・小文字 大文字を小文字に変換する
LOWER関数
小文字を大文字に変換するUPPER関数
数値の文字列型 文字列として表示された数値を変換する※エラーチェック機能(!マーク)でも変換可
VALUE関数
分析前のデータ準備
表計算ソフトによるエラー値や外れ値の確認
フィルター機能によるチェック
グラフ作成によるチェック•
1つのデータの場合:ヒストグラム、箱ひげ図•
2つのデータの場合:散布図
ピボットテーブル(クロス集計)によるチェック 複数のデータを組み合わせる(結合する)
VLOOKUP関数によるデータ結合:ある範囲の中から数値や文字列
のデータを検索し、それに対応した値を取りだす[Excel®]
リレーションシップ:重複しない数値を主キー(プライマリキー)として、表(テーブル)同士を関連付ける[Access®]
37
分析前のデータ準備
データ変形とは(藤原、2017)
BI(Business Intelligence)ツール等の分析ソフトが利用できるように、
データの形式を変換すること
主なデータ形式
ワイド(Wide)型:横に長く、直感的に理解しやすい
公開データはワイド型が多い
ロング(Long)型:縦に長く、分析ソフト等で扱いやすい BIツールを使うにはロング型のデータが必要
38
ワイド型の例
番号 性別 英語 数学
001
女性95 80
002
男性78 86
… … … …
ロング型の例
番号 性別 科目 点数
001
女性 英語95
001
女性 数学80
002
男性 英語78
002
男性 数学86
(Reshape)変形