• 検索結果がありません。

高次元データの回帰分析結果検証のための可視化手法

N/A
N/A
Protected

Academic year: 2021

シェア "高次元データの回帰分析結果検証のための可視化手法"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 F4-6

高次元データの回帰分析結果検証のための可視化手法

鈴木 千絵

伊藤 貴之

††

梅津 圭介

本橋 洋介

‡‡

†お茶の水女子大学大学院 人間文化創成科学研究科 〒112-8610 東京都文京区大塚 2-1-1

‡日本電気株式会社 〒211-8666 神奈川県川崎市中原区下沼部 1753

E-mail: †[email protected], ††[email protected],

[email protected],

‡‡[email protected]

あらまし 回帰分析は予測を必要とするデータ分析の用途で幅広く研究が進んでいる.例えば健康状態予測など

の医療問題,天災予測やエネルギー需要予測などの環境問題,経済予測や販売予測などの社会問題など,

その用途は非常に広い.しかしこれらの予測のために用いる回帰分析の入力情報の中には,予測結果に

大きく関与する情報と関連性が薄い情報が混在している場合が多い.本報告では回帰分析による予測値

と実績値の誤差を可視化し,その誤差の要因となる説明変数を特定する前処理とユーザインタフェース

について論じる.本報告では商品販売に関する予測値と実績値の誤差を適用事例として紹介する.

キーワード 可視化,回帰分析,AIC

1. は じ め に

回 帰 分 析 を 用 い た 予 測 は 自 然 科 学 や 社 会 科 学 に 関 す る 非 常 に 幅 広 い 学 術 分 野 や 産 業 分 野 で 活 用 さ れ て い る . 複 数 の 説 明 変 数 を 入 力 情 報 と す る 重 回 帰 分 析 や , 複 数 の 回 帰 式 を 導 入 し た 混 合 モ デ ル な ど の 導 入 に よ り , そ の 分 析 工 程 は 複 雑 化 し て い る . 特 に 重 回 帰 分 析 に お い て , 予 測 に 大 き く 寄 与 す る 説 明 変 数 と 大 き く 寄 与 し な い 説 明 変 数 , ま た 予 測 値 と 実 測 値 の 誤 差 に つ な が る 説 明 変 数 を 特 定 す る こ と が , 回 帰 分 析 の 性 能 を 向 上 す る た め に 重 要 で あ る . 以 下 , 小 売 店 で の 商 品 の 日 々 の 販 売 を 例 題 と し て 議 論 す る .日 常 的 に 販 売 さ れ る 商 品 の 売 上 は 往 々 に し て , そ の 日 の 気 温 や 曜 日 ,ま た 周 辺 で の イ ベ ン ト 開 催 な ど , さ ま ざ ま な 要 因 に 左 右 さ れ る . 販 売 競 争 の 激 し い 近 年 に お い て , 過 剰 発 注 に よ る 廃 棄 ・ 処 分 を 減 ら し た り , 多 く の 在 庫 を 抱 え る こ と を 抑 え た り , ま た 完 売 を 防 い だ り す る た め に , 適 切 な 在 庫 数 を 保 つ こ と が 必 要 不 可 欠 と な っ て い る . そ の た め に 商 品 の 販 売 数 や そ の 日 の 気 象 情 報 等 の 販 売 デ ー タ を 毎 日 入 力 ・ 蓄 積 し て い る 企 業 は 少 な く な い . 取 得 し た デ ー タ を 解 析 す る こ と で 将 来 の 販 売 数 を あ る 程 度 予 測 す る こ と が で き る か ら で あ る . し か し 取 得 す る デ ー タ は 膨 大 に な っ て き て お り , そ れ ら の 中 に は 予 測 結 果 に ほ と ん ど 影 響 し な い 要 因 や , 逆 に 予 測 す る た め に 不 可 欠 な 要 因 が 同 時 に 存 在 し て い る .予 測 結 果 に 影 響 し な い 要 因 を 予 測 に 用 い る こ と が , 逆 に ノ イ ズ を 生 む こ と に な り , 予 測 値 と 実 測 値 と の 誤 差 の 要 因 に な る こ と が あ る . よ っ て , 予 測 の た め の 入 力 情 報 が ど の よ う に 予 測 値 に 寄 与 し て い る か を 理 解 す る こ と は 重 要 で あ る が , 情 報 の 複 雑 化 に よ っ て そ の 理 解 が 難 し く な っ て い る 場 合 も 多 い . そ こ で 本 報 告 で は , 回 帰 分 析 に よ る 予 測 値 と 実 績 値 と の 誤 差 を 可 視 化 す る 一 手 法 を 提 案 す る . 本 手 法 で は 回 帰 分 析 の 対 象 と な る 標 本 群 の 可 視 化 に 3 次元 散布図 を 採 用 し て お り , 説 明 変 数 群 の う ち 2 つを 選んで X,Y 軸 に 割 り 当 て ,予 測 値 ま た は 実 測 値 を Z 軸 に割 り当て て 各 標 本 を プ ロ ッ ト す る . さ ら に 予 測 値 と 実 測 値 の 誤 差 を プ ロ ッ ト の 色 に 割 り 当 て る こ と で , 誤 差 が 大 き く な る 標 本 が 3 次元 空間 中の どこ に 集中 して いる かを 視 認 し や す く す る . こ こ で 説 明 変 数 が 非 常 に 多 い 問 題 の 場 合 , ど の 説 明 変 数 を X,Y 軸に割 り当 てる かに よって 可視 化の 効果は 大 き く 変 わ っ て し ま う . そ こ で 前 処 理 と し て , 各 説 明 変 数 に つ い て 予 測 値 へ の 寄 与 や 誤 差 へ の 要 因 を 評 価 し , 各 説 明 変 数 の 興 味 深 さ を 定 量 的 に ユ ー ザ に 提 示 す る こ と が 有 用 で あ る と 考 え ら れ る . そ の 定 量 評 価 手 段 の 一 例 と し て 本 報 告 で は , 赤 池 情 報 量 基 準(Akaike’s Information Criterion; AIC) を も と に 各 説 明 変 数 を 評 価 し た 例 を 紹 介 す る .

2. 関 連 研 究

回 帰 分 析 や 予 測 問 題 の 研 究 ツ ー ル と し て 可 視 化 は 有 用 で あ る と 考 え ら れ る が , そ れ を 目 的 と し て 新 し い 可 視 化 シ ス テ ム を 開 発 し た 研 究 事 例 は ま だ 少 な い . 代 表 的 な 例 と し て Thomas ら[1]は ,複雑 さが 最小 限 に抑 え ら れ る モ デ ル お よ び そ れ に 寄 与 す る 説 明 変 数 を 推 薦 し , そ の 選 択 が 精 度 の 高 い 回 帰 分 析 に つ な が る こ と を 視 覚 的 に 表 現 す る 可 視 化 シ ス テ ム を 提 案 し て い る . 予 測 問 題 の 評 価 基 準 と し て AIC を 用い てい る事例 も い く つ か 発 表 さ れ て い る .加 藤 ら [2]は 説明 変数 の選択 の た め に AIC を 採用 して いる.山口 ら [3]は 飲食 店の売 上 げ デ ー タ の 解 析 に お い て モ デ ル 選 択 の 際 に AIC を用 い て お り ,現 実 の 売 上 デ ー タ に お い て も AIC が 有効で

(2)

あ る こ と を 示 し て い る .

3. 提 案 手 法

本 章 で は 我 々 が 提 案 す る 可 視 化 手 法 と , そ の 説 明 変 数 評 価 手 段 の 一 例 と し て の AIC の利 用方 法を示 す .図 1 に 我 々 が 開 発 中 の 可 視 化 ツ ー ル の 画 面 キ ャ プ チ ャ を 示 す . 図 1 本 報 告 で 提 案 す る 可 視 化 ツ ー ル 3.1 デ ー タ 構 造 本 研 究 で は 以 下 の デ ー タ 構 造 を 想 定 す る .

こ こ で X は 標本 群,n は標本 数,xiは i 番 目の 標本 を 表 す .ま た m は説 明変 数の 個 数,vijは i 番 目の 標本に お け る j 番目 の説 明変数 値 ,l は 後述す るカ テゴ リ変数 の 個 数 , cijは i 番 目の標 本に おけ る j 番目 のカ テゴリ 変 数 値 ,piは i 番 目の 標本に おけ る予 測値 ,aiは i 番目 の 標 本 に お け る 実 測 値 で あ る . 商 品 販 売 情 報 の 回 帰 分 析 を 例 に す る と , 販 売 個 数 や 販 売 日 の 気 温 な ど , 実 数 で 表 現 さ れ る 情 報 を 説 明 変 数 と し て 扱 う . そ れ に 対 し て 曜 日 や 物 品 属 性 な ど , 実 数 値 で 表 さ れ な い 情 報 を カ テ ゴ リ 変 数 と す る . 3.2 3 次 元 散 布 図 に よ る 可 視 化 前 節 で 示 し た デ ー タ 構 造 を 可 視 化 す る た め に , 我 々 の 実 装 で は 3 次元 散布 図を 採用 してい る . この 可視化 ツ ー ル で は , m 個 の説 明変数 群の 中か ら 2 個を 選んで x 軸 お よ び y 軸 に 割 り 当 て , 実 績 値 ま た は 予 測 値 を z 軸 に 割 り 当 て る こ と で , 3 次元散 布図 を 実 現す る .ま た , 各 標 本 に お け る 予 測 値 と 実 測 値 の 誤 差 を 色 で 表 現 す る . 我 々 の 実 装 で は , 誤 差 の 大 き い 標 本 を 赤 に 近 い 暖 色 系 の 色 相 で , 誤 差 の 小 さ い 要 素 を 青 に 近 い 寒 色 系 の 色 相 で 描 画 す る . ま た ア フ ィ ン 変 換 に よ る 拡 大 縮 小 ・ 回 転 ・ 平 行 移 動 の 各 操 作 を 搭 載 し て お り , 可 視 化 結 果 を ど の 角 度 か ら も 描 画 す る こ と が で き る . 可 視 化 ツ ー ル の 画 面 左 側 に は 4 つ のタ ブに GUI 部 品 が 搭 載 さ れ て い る . 1 つ目 のタブ には ファ イル 操作 や 描 画 調 節 の た め の GUI 部 品が 搭載さ れ ,2 つ目 のタブ に は x,y,z 軸に 割 り当 てる 変数 を選 択す るた めの ラジ オ ボ タ ン が m 行 にわ たっ て 搭載 され てい る (図 2). 図 2 説 明 変 数 選 択 タ ブ 3 つ 目 お よ び 4 つ 目 の タ ブ に は カ テ ゴ リ 変 数 選 択 の た め の ラ ジ オ ボ タ ン お よ び チ ェ ッ ク ボ ッ ク ス を 搭 載 し て い る (図 3).3 つ 目の タブ には カテゴ リ変 数の 種類を 選 択 す る ラ ジ オ ボ タ ン が l 列に わたっ て 搭 載さ れる . ユ ー ザ が そ の う ち の 1 個を 選択 すると ,4 つ目 のタブ に は そ の カ テ ゴ リ 変 数 の 選 択 肢 と な り え る 変 数 値 を 選 択 す る チ ェ ッ ク ボ ッ ク ス が 搭 載 さ れ る . 例 え ば 3 つ目 の タ ブ で「 曜 日 」と い う カ テ ゴ リ 変 数 を 選 択 す る と ,4 つ 目 の タ ブ に は 「 日 曜 」 か ら 「 土 曜 」 ま で の 7 個のチ ェ ッ ク ボ ッ ク ス が 搭 載 さ れ る . 4 つ 目 の タ ブ に 搭 載 さ れ た チ ェ ッ ク ボ ッ ク ス 群 の う ち , い く つ か は チ ェ ッ ク さ れ , 残 り は チ ェ ッ ク さ れ て い な い と す る . こ の と き , チ ェ ッ ク さ れ て い る カ テ ゴ リ 変 数 値 を も つ 標 本 は 彩 度 の 高 い 色 で 描 画 さ れ , チ ェ ッ ク さ れ て い な い カ テ ゴ リ 変 数 値 を 持 つ 標 本 は 灰 色 で 描 画 さ れ る . こ の 機 能 に よ り , 誤 差 分 布 と カ テ ゴ リ 変 数 値 の 関 係 を 表 現 可 能 に し て い る . 3.3 AIC に よ る 説 明 変 数 の 評 価 AIC は , デ ー タ と モ デ ル の 当 て は ま り の 悪 さ を 数 値 化 し た も の で , 次 の 公 式 で 表 さ れ る . AIC = -2 log L + 2 k 上 式 に お い て L は最大 尤度 , kは自 由 パ ラ メ ー タ の 数 で あ る . AIC 値 が最 小の もの を選択 する こと で,多 く の 場 合 , 良 質 な 予 測 を 実 現 で き る モ デ ル が 選 択 で き る こ と が 知 ら れ て い る .

(3)

図 3 カ テ ゴ リ 変 数 選 択 タ ブ

4. 実 行 結 果

本 章 で は 販 売 情 報 の 回 帰 分 析 結 果 に つ い て 本 手 法 を 適 用 し た .入 力 デ ー タ に は ,実 績 値 と 予 測 値 に 加 え , 12 個 の 説 明 変 数 ,8 個 の カ テ ゴ リ 変 数 が 含 ま れ て い た . 入 力 デ ー タ に 対 し て AIC 値を 求め ,AIC 値が 小さく な る モ デ ル を 選 択 し た 結 果 を 表 1 に 示し た. AIC 値が 小 さ く な る 3 つの説 明変 数 ( 説明変 数 A~ C) から任 意 の 2 軸を 選択し ,そ れらを x 軸 および y 軸 に 割り当 て て 可 視 化 し た .図 4~6 にそ の可 視化 結果を 示す .い ず れ の 可 視 化 結 果 に お い て も 実 績 値 が 小 さ い 方 に 寒 色 点 が 多 く あ り , 暖 色 点 は 寒 色 点 の 集 合 か ら 離 れ た 位 置 に プ ロ ッ ト さ れ て い る . 表 1 各 説明変 数を 用い たモデ ルの AIC 値 説 明 変 数 AIC 値 説 明 変 数 A のみ 113.76 説 明 変 数 A~ B(2 個 ) 115.76 説 明 変 数 A~ C(3 個 ) 117.84 説 明 変 数 A~ D(4 個) 119.88 説 明 変 数 A~ E(5 個 ) 121.92 説 明 変 数 A~ F(6 個 ) 123.93 説 明 変 数 A~ G(7 個) 125.96 説 明 変 数 A~ H(8 個) 127.96 説 明 変 数 A~ I( 9 個) 129.95 説 明 変 数 A~ J(10 個 ) 131.95 説 明 変 数 A~ K(11 個 ) 133.95 説 明 変 数 A を x 軸に ,説 明変数 B を y 軸 に 割り当 て た 可 視 化 結 果 を 図 4 に 示す .こ の結果 から ,説 明変数 A と 説 明 変 数 B の 双 方 が 大 き い と き に 誤 差 が 大 き く な り , ま た 実 績 値 は 大 き い と き に 誤 差 が 大 き い 傾 向 が あ る こ と が わ か る .説 明 変 数 A を x 軸に ,説明 変数 C を y 軸 に 割 り 当 て た 可 視 化 結 果( 図 5)か ら も 同 様 に ,説 明 変 数 の 双 方 が 大 き い と き に 誤 差 が 大 き く な る 傾 向 が 観 察 さ れ た . 説 明 変 数 B を x 軸に ,説 明変数 C を y 軸 に 割り当 て た 可 視 化 結 果 を 図 6 に 示す .こ の結果 にお いて も暖色 系 の 点 と 寒 色 系 の 点 は あ る 程 度 分 離 し て 見 え る が , 図 4,5 に 比 べ る と xy 平 面 全 体 に 渡 っ て 暖 色 系 お よ び 寒 色 系 の 点 が 広 く 分 布 し て い る の が わ か る . よ っ て , 説 明 変 数 B,C を 2 軸と した とき の誤 差の説 明性 は 下 がる こ と が 示 唆 さ れ る .以 上 よ り ,説 明 変 数 A が 回帰 分析 に よ る 予 測 に お い て 特 に 重 要 な 説 明 変 数 で あ る と 考 え ら れ る . 図 4 説 明 変 数 A,B を 用 い た 可 視 化 結 果 図 5 説 明 変 数 A,C を 用 い た 可 視 化 結 果

(4)

図 6 説 明 変 数 B,C を 用 い た 可 視 化 結 果

5. ま と め と 今 後 の 課 題

本 報 告 で は , 回 帰 分 析 の 結 果 検 証 の た め の 3 次元 散 布 図 ツ ー ル を 提 案 し た . 本 手 法 で は 説 明 変 数 の う ち 2 つ を 選 ん で x 軸と y 軸 に割 り当 て ,予 測値 また は実測 値 を z 軸 に割り 当て るこ とで 3 次 元散 布図を 実現 する . そ し て 予 測 値 と 実 測 値 の 誤 差 を 色 で 表 現 す る こ と で , 誤 差 の 大 き い 標 本 が ど の よ う に 分 布 す る か を 視 覚 的 に 観 察 で き る . こ こ で x 軸と y 軸 に割り 当て る説 明変数 を 選 択 す る た め の 一 手 段 と し て ,我 々 は AIC を 用いて 説 明 変 数 の 評 価 を 実 施 し た . そ の 結 果 と し て 有 用 な 説 明 変 数 を 選 択 し て 3 次 元散 布図 に用い るこ とで ,誤差 の 小 さ い 要 素 と 誤 差 の 大 き い 要 素 を 視 覚 的 に 分 離 で き る よ う な 3 次元散 布図 を実 現でき た . 今 後 の 課 題 と し て ま ず , AIC を用 いた 説明 変数評 価 手 法 の 改 善 が あ げ ら れ る . AIC には現 在 も 多く の課題 が 残 っ て い る .特 に 非 線 形 性 を 有 す る 標 本 群 に 対 し て , 非 線 形 性 ゆ え の 数 値 特 性 を 誤 差 と し て 扱 っ て し ま い , 複 雑 な モ デ ル を 選 択 し て し ま う 場 合 が あ る . そ こ で 深 田 ら の 提 唱 す る モ デ ル 次 数 決 定 手 法 [4]を 適 用 し た 可 視 化 結 果 や , ベ イ ズ 情 報 量 基 準 (Schwarz's Bayesian Information Criterion ; BIC) [5] と い っ た 他 の モ デ ル 選 択 基 準 を 適 用 し た 可 視 化 結 果 を 比 較 し , よ り 精 度 の 高 い 結 果 が 得 ら れ る 手 法 を 適 用 す る こ と も 検 討 す る . ま た 説 明 変 数 の 選 択 基 準 と し て , AIC 以外 の評価 手 法 を 適 用 す る こ と も 考 え ら れ る . 一 例 と し て , 誤 差 の 大 き い 要 素 が 散 布 図 上 で よ り 固 ま る 2 軸を 選ぶ 手法を 開 発 し た い .こ れ を 実 現 す る た め に 我 々 は ,xy 平 面を 格 子 状 に 分 割 し , 各 区 画 に お け る 誤 差 の 傾 向 を 統 計 的 に 解 釈 す る 手 法 を 実 装 す る 予 定 で あ る . 説 明 変 数 の 選 択 だ け で な く , 興 味 深 い 誤 差 分 布 を 発 見 す る た め の カ テ ゴ リ 変 数 評 価 手 法 の 開 発 も 課 題 と し て あ げ ら れ る . カ テ ゴ リ 変 数 値 を 効 果 的 に 選 択 で き る よ う に な れ ば , 誤 差 の 要 因 や 各 変 数 間 の 関 係 を さ ら に 詳 細 に 理 解 で き る と 期 待 さ れ る .

参 考 文 献

[1] Thomas Muhlbacher and Harald Piringer, “ A Partition-Based Framework for Building a nd Validating Regression Models”, IEEE Trans Vis Comput Graph 125, pp. 1962-1971, 2013. [2] 加 藤 昇 平 , 鈴 木 祐 太 , 小 林 朗 子 ,小 島 敏 昭 ,伊 藤 英 則 ,本 間 昭 ,“ 高 齢 者 音 声 韻 律 特 徴 を 用 い た HDS —R ス コア との相 関分 析 音 声を 用いた 認知 症の 早 期 ス ク リ ー ニ ン グ を め ざ し て ”, 人 工 知 能 学 会 論 文 誌 26 巻 2 号 SP-H,pp. 347-352,2011. [3] 山 口 類 , 土 屋 映 子 , 樋 口 知 之 ,“ 状 態 空 間 モ デ ル を 用 い た 飲 食 店 売 上 の 要 因 分 解 ”, オ ペ レ ー シ ョ ン ズ ・ リ サ ー チ vol.49 No.5,pp. 316-324,2004. [4] 深 田 健 太 , 鷲 尾 隆 , 矢 田 勝 俊 , 元 田 浩 ,“ 広 告 ・ 販 促 効 果 に 関 す る 外 部 入 力 付 自 己 回 帰 モ デ ル 解 析 ”, The 20th Annual Conference of the Japanese Society for Artificial Intelligence, 2006 .

[5] 山 口 健 太 郎 ,“ 統 計 学 に お け る モ デ ル : 情 報 量 基 準 の 観 点 か ら ”,科 学 哲 学 科 学 史 研 究 ,pp. 43-59, 2008.

図 3  カ テ ゴ リ 変 数 選 択 タ ブ 4. 実 行 結 果  本 章 で は 販 売 情 報 の 回 帰 分 析 結 果 に つ い て 本 手 法 を 適 用 し た .入 力 デ ー タ に は ,実 績 値 と 予 測 値 に 加 え , 12 個 の 説 明 変 数 , 8 個 の カ テ ゴ リ 変 数 が 含 ま れ て い た .   入 力 デ ー タ に 対 し て AIC 値 を 求 め ,AIC 値 が 小 さ く な る モ デ ル を 選 択 し た 結 果 を 表 1
図 6  説 明 変 数 B,C を 用 い た 可 視 化 結 果 5.  ま と め と 今 後 の 課 題 本 報 告 で は , 回 帰 分 析 の 結 果 検 証 の た め の 3 次 元 散 布 図 ツ ー ル を 提 案 し た . 本 手 法 で は 説 明 変 数 の う ち 2 つ を 選 ん で x 軸 と y 軸 に 割 り 当 て , 予 測 値 ま た は 実 測 値 を z 軸 に 割 り 当 て る こ と で 3 次 元 散 布 図 を 実 現 す る . そ し て 予

参照

関連したドキュメント

地震による自動停止等 福島第一原発の原子炉においては、地震発生時点で、1 号機から 3 号機まで は稼働中であり、4 号機から

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

約3倍の数値となっていた。),平成 23 年 5 月 18 日が 4.47~5.00 (入域の目 的は同月

Abstract:  Conventional  practice  in  recording  information  on  archaeological  remains  is  to  take 

今回工認モデルの妥当性検証として,過去の地震観測記録でベンチマーキングした別の 解析モデル(建屋 3 次元

今回のアンケート結果では、本学の教育の根幹をなす事柄として、

 学年進行による差異については「全てに出席」および「出席重視派」は数ポイント以内の変動で

3.3 液状化試験結果の分類に対する基本的考え方 3.4 試験結果の分類.. 3.5 液状化パラメータの設定方針