早稲田大学大学院 創造理工学研究科
博 士 論 文 概 要
論 文 題 目
正則化に基づく計量距離学習手法と 自動分類への応用に関する研究 Distance Metric Learning Based on Regularization and Its Application for
Automatic Classification
申 請 者
三川 健太 Kenta MIKAWA
経営システム工学専攻 情報数理応用研究
2015 年 10 月
近 年 の 情 報 技 術 の 発 展 に 伴 い ,多 様 な デ ー タ が 膨 大 に 蓄 積 さ れ る よ う に な っ た . こ れ ら の デ ー タ を 人 手 に よ り 分 析 す る こ と は 物 理 的 に 不 可 能 と な っ て い る た め , そ の 自 動 分 析 手 法 が 広 く 研 究 さ れ て い る . こ の よ う な 得 ら れ た 膨 大 な 量 の デ ー タ か ら 電 算 機 を 用 い て 知 識 発 見 を 行 う , も し く は 有 用 な 情 報 を 抽 出 す る 為 の 手 法 は デ ー タ マ イ ニ ン グ , テ キ ス ト マ イ ニ ン グ と 呼 ば れ , 広 く 普 及 し て い る .
こ れ ら の 知 識 発 見 手 法 は 機 械 学 習 に 基 づ く 手 法 が ベ ー ス と な っ て い る . 本 研 究 で は あ ら か じ め デ ー タ に 付 与 さ れ た 正 解(カ テ ゴ リ)を 基 に , 新 規 デ ー タ の カ テ ゴ リ を 予 測 す る た め の 規 則 を 発 見 , 予 測 を 行 う 教 師 あ り 学 習 に 着 目 す る . 加 え て , 本 研 究 で は , 入 力 デ ー タ 間 の 距 離 構 造 に 着 目 し , そ の 関 係 性 を 検 討 す る ベ ク ト ル 空 間 モ デ ル に よ る ア プ ロ ー チ に 着 目 す る . こ の よ う な ベ ク ト ル 空 間 モ デ ル を 用 い た 手 法 に は k- N N 法 や テ ン プ レ ー ト マ ッ チ ン グ 法 な ど の 手 法 が 存 在 し て い る が , こ れ ら の 手 法 で は 用 い る 距 離 尺 度 に よ り そ の 性 能 が 変 化 す る こ と が 知 ら れ て い る . こ れ ら の 性 能 を 向 上 さ せ る た め , 機 械 学 習 の 分 野 で は メ ト リ ッ ク ラ ー ニ ン グ と 呼 ば れ る 手 法 が 提 案 さ れ て い る .
メ ト リ ッ ク ラ ー ニ ン グ は , 距 離 尺 度 と し て マ ハ ラ ノ ビ ス 距 離 を 仮 定 し , 任 意 の 制 約 条 件 の も と , 新 規 入 力 デ ー タ に 対 す る 予 測 精 度 を 向 上 さ せ る よ う な 距 離 構 造
( マ ハ ラ ノ ビ ス 距 離 に お け る 計 量 行 列 ) を 学 習 す る た め の 方 法 で あ り , 既 に 様 々 な 手 法 が 提 案 さ れ て い る . メ ト リ ッ ク ラ ー ニ ン グ は 正 解 デ ー タ が 与 え ら れ た も と で 予 測 を 行 う 教 師 あ り 学 習 に 基 づ く メ ト リ ッ ク ラ ー ニ ン グ と , 正 解 デ ー タ が 得 ら れ て い な い 状 況 で 新 規 入 力 デ ー タ の ク ラ ス タ リ ン グ や 次 元 削 減 を 行 う た め の 教 師 な し 学 習 に 基 づ く メ ト リ ッ ク ラ ー ニ ン グ に 大 別 さ れ る . 本 研 究 で は , こ の う ち 教 師 あ り 学 習 に 基 づ く メ ト リ ッ ク ラ ー ニ ン グ 手 法 に 着 目 す る .
一 般 的 に , 教 師 あ り メ ト リ ッ ク ラ ー ニ ン グ で は す べ て の 学 習 デ ー タ の ペ ア 間 の 類 似/非 類 似 の 情 報 が 事 前 に 与 え ら れ て い る と い う 問 題 設 定 の も と ,そ れ ら の 情 報 , な ら び に 分 析 の 精 度 を 向 上 さ せ る と 想 定 さ れ る 制 約 条 件 を 用 い て 最 適 な 計 量 行 列 を 学 習 す る . こ の 際 に , 計 量 行 列 を 用 い た マ ハ ラ ノ ビ ス 距 離 が 距 離 の 公 理 を 満 た す こ と を 保 証 す る た め , 計 量 行 列 の 半 正 定 値 性 を 制 約 条 件 と し , 繰 り 返 し 処 理 を 用 い る こ と で そ の 学 習 を 行 う .
他 方 , 最 適 な 計 量 行 列 を 解 析 的 に 得 る こ と が で き る 手 法 と し て 持 橋 ら の 手 法 が 存 在 す る . こ の 手 法 で は , カ テ ゴ リ の 代 表 元 を 用 い る こ と で , 繰 り 返 し 処 理 を 用 い ず に 最 適 な 計 量 行 列 を 導 出 す る こ と が 可 能 と な る . こ の た め , 繰 り 返 し 処 理 を 用 い た 手 法 と 比 較 し , 計 算 量 の 面 で 優 れ て い る こ と が 知 ら れ て い る .
一 方 で , 今 日 の 情 報 技 術 の 発 展 に 伴 い , 取 り 扱 う デ ー タ も 多 様 化 し て い る . 特 に , デ ー タ の 高 次 元 化 , 大 量 化 は 著 し く , 従 来 の メ ト リ ッ ク ラ ー ニ ン グ 手 法 を 直 接 的 に 用 い て は , 現 実 的 な 時 間 で 最 適 な 計 量 行 列 を 学 習 す る こ と は 難 し い . こ の よ う な 場 合 , 計 量 行 列 の 学 習 を 現 実 的 な 計 算 量 で 行 う こ と は 重 要 な 課 題 で あ る と 考 え ら れ る .
上 記 の 議 論 よ り , 多 様 な デ ー タ へ の 適 用 可 能 性 を 考 え , 本 論 文 で は 計 算 量 の 面 で 他 の 手 法 と 比 較 し 優 位 性 の あ る 持 橋 ら の 手 法 に 着 目 す る . し か し な が ら , こ の 手 法 に は 扱 う デ ー タ の 特 性 に よ り , 以 下 に 示 す 問 題 点 が 存 在 す る .
( 1 ) 学 習 デ ー タ の 次 元 数 に 対 し , 使 用 可 能 な 学 習 デ ー タ 数 が 著 し く 少 な い 場 合 ,
最 適 な 計 量 行 列 の 存 在 が 保 証 さ れ て い な い .
( 2 ) 学 習 デ ー タ の 成 分 間 の 一 部 に 関 係 性 が な い と 想 定 さ れ る デ ー タ を 対 象 と し
た 場 合 , 導 出 さ れ た 最 適 な 計 量 行 列 で は こ れ を 適 切 に 表 現 で き な い .
( 3 ) 学 習 デ ー タ の カ テ ゴ リ 毎 に 統 計 的 特 徴 が 異 な る デ ー タ を 対 象 と し た 場 合 ,
そ の 局 所 的 構 造 を 表 現 で き な い .
上 記 の 問 題 点( 1 )は ,ベ ク ト ル 表 現 し た 学 習 デ ー タ の 次 元 数 が 学 習 デ ー タ 数 よ り も 多 い 時 に , 分 散 共 分 散 行 列 の 階 数 が 落 ち て し ま う こ と に 起 因 す る . こ の た め , 特 に 高 次 元 な デ ー タ , も し く は 学 習 デ ー タ の 次 元 数 に 対 し 著 し く デ ー タ 数 が 少 な い 場 合 に は 最 適 な 計 量 行 列 の 存 在 が 保 証 さ れ な い .
ま た , 計 量 行 列 の 各 要 素 は 学 習 に 使 用 し た デ ー タ の 成 分 間 の 相 関 関 係 を 表 現 し て い る と 解 釈 す る こ と が で き る . 問 題 点( 2)は ,持 橋 ら の 手 法 で 導 出 し た 計 量 行 列 が 学 習 デ ー タ の 成 分 間 に 関 係 性 が な い も の が 存 在 し て い る 場 合 で も 各 要 素 へ 微 小 な 値 を 付 与 し て し ま う こ と に よ り 生 じ る . こ れ に よ り , 学 習 デ ー タ の 成 分 間 の 関 係 性 に 過 度 に 適 合 し て し ま う こ と と な り , 上 記 の よ う な 構 造 を 持 つ デ ー タ の 関 係 性 を 適 切 に 表 現 で き な い .
問 題 点( 3 )は ,カ テ ゴ リ 毎 に そ の 統 計 的 特 徴 が 大 き く 異 な る 場 合 ,す な わ ち カ テ ゴ リ 毎 の 学 習 デ ー タ で 特 徴 量 の 分 布 が 大 き く 異 な る よ う な 場 合 に 大 域 的 な 計 量 行 列 を 学 習 し て い る こ と に 起 因 す る . こ れ に よ り , 学 習 デ ー タ の 局 所 的 な 構 造 を 相 殺 し て し ま い , そ の 特 徴 を 正 し く 捉 え ら れ な い 可 能 性 が あ る .
上 記 の 議 論 よ り , 本 研 究 で は デ ー タ の 特 性 に よ り 生 じ る 前 述 の 問 題 点 を 改 善 す る 以 下 の 手 法 を 構 築 し , デ ー タ の 自 動 分 類 に お け る 分 類 精 度 を 向 上 さ せ る こ と を 目 的 と す る .
1. 正 則 化 項 を 付 与 し た 最 適 化 問 題 の 定 式 化 と 計 量 行 列 の 学 習 方 法 . 2. ス パ ー ス な 計 量 行 列 の 学 習 方 法 .
3. 複 数 の 計 量 行 列 の 学 習 方 法 .
上 記 の 1 .は , 計 量 行 列 の 存 在 が 常 に 保 障 さ れ て い な い と い う 持 橋 ら の 手 法 に 対 し , 正 則 化 を 用 い る こ と で 計 量 行 列 が 解 析 的 に 得 ら れ る こ と を 示 す と 共 に , そ れ が 必 ず 一 意 に 定 ま る こ と を 示 す .
上 記 の 2 .で は ,不 要 な 計 量 行 列 の 要 素 を 0 と す る ス パ ー ス な 計 量 行 列 の 導 出 手 法 に つ い て 提 案 を 行 う . 具 体 的 に は , 計 量 行 列 の l1 ノ ル ム を 正 則 化 項 と し て 付 与 し た 最 適 化 問 題 を 解 く こ と に よ り ,ス パ ー ス な 計 量 行 列 が 導 出 で き る こ と を 示 す . ま た , 得 ら れ た 計 量 行 列 を 用 い る こ と で , 新 規 入 力 デ ー タ の 分 類 時 に 必 要 な 計 算 量 を 少 な く で き る こ と を 示 す .
最 後 に 3 .で は , カ テ ゴ リ 毎 に 計 量 行 列 の 存 在 を 仮 定 し , 各 カ テ ゴ リ の 統 計 的 特 徴 を 考 慮 し た 距 離 構 造 の 学 習 方 法 を 検 討 す る . こ こ で 提 案 す る 手 法 に つ い て も , 従 来 の 持 橋 ら の 手 法 同 様 に 解 析 的 に 最 適 解 を 得 る こ と が で き る こ と を 示 す . さ ら に , 学 習 し た 複 数 の 計 量 行 列 を 用 い た デ ー タ 間 の 距 離 算 出 法 , 識 別 規 則 の 提 案 を 行 う .
本 論 文 は 6 章 か ら 構 成 さ れ て い る . 各 章 の 内 容 は 以 下 の 通 り で あ る . 第 1 章 で は 本 研 究 の 背 景 と 目 的 に つ い て 述 べ る .
第 2 章 で は 本 研 究 に お け る 問 題 設 定 と 従 来 研 究 に つ い て 述 べ , マ ハ ラ ノ ビ ス 距 離 を 始 め と す る 距 離 尺 度 や 用 い る 変 数 の 定 義 を 与 え る . そ の 後 , 本 研 究 で 対 象 と す る メ ト リ ッ ク ラ ー ニ ン グ に つ い て 説 明 を 行 う と 共 に , 持 橋 ら の 手 法 , な ら び に 繰 り 返 し 処 理 を 用 い た 計 量 行 列 学 習 手 法 の う ち , 代 表 的 な 手 法 で あ る I TM L ( I nf o r m at i o n - T h e o r e t i c M e t r i c L e ar n i n g) , L M N N ( L a r ge M a r g i n N e ar e s t N e i g h b o r ) , X i n g ら の 手 法 の そ れ ぞ れ に つ い て 説 明 を 行 う .
第 3 章 で は 代 表 元 を 用 い た メ ト リ ッ ク ラ ー ニ ン グ に 対 し , 最 適 な 計 量 行 列 が 解 析 的 に 得 ら れ る と い う 特 性 を 活 か し た ま ま , 正 則 化 を 行 う 手 法 に つ い て 示 す . ま た , こ の 手 法 に よ っ て 得 ら れ た 計 量 行 列 が 持 つ 特 性 に つ い て も 解 析 を 行 う . 提 案 し た 手 法 の 有 効 性 を 新 聞 記 事 デ ー タ を 用 い た 分 類 実 験 に よ り 示 す .
第 4 章 で は 上 記 の 正 則 化 手 法 と は 異 な る , ス パ ー ス な 計 量 行 列 を 導 出 す る 手 法 に つ い て 述 べ る . ス パ ー ス な 計 量 行 列 の 導 出 の 際 に は , 通 常 の メ ト リ ッ ク ラ ー ニ ン グ 手 法 と 同 様 に 繰 り 返 し 処 理 を 用 い た 計 算 が 必 要 で あ る が , AD M M ( Al t e r n a t i n g D i r e c t i o n M e t ho d f o r M u l t i p l i e r )と 呼 ば れ る 最 適 化 手 法 を 用 い る こ と で そ の 最 適 化 が 可 能 と な る こ と を 示 す . 加 え て , こ の ス パ ー ス な 計 量 行 列 の 導 出 が 統 計 学 の 一 手 法 で あ る s p ar s e i n v e r s e c o v ar i a n c e s e l e c t i o n( ス パ ー ス 共 分 散 選 択 ) の 特 殊 な 場 合 で あ る こ と を 示 す .
第 5 章 で は , カ テ ゴ リ 毎 の 局 所 的 な 統 計 的 特 徴 を 表 現 可 能 な 計 量 行 列 の 導 出 方 法 に つ い て 述 べ る と 共 に , 提 案 し た 手 法 を 用 い る こ と で 従 来 の 代 表 元 を 用 い た メ ト リ ッ ク ラ ー ニ ン グ 手 法 同 様 ,解 析 的 に 最 適 な 計 量 行 列 を 求 め ら れ る こ と を 示 す . さ ら に , 導 出 し た 複 数 の 計 量 行 列 を 用 い る こ と で k- N N 法 と 同 等 の デ ー タ 間 の 距 離 測 定 を 行 う 手 法 が 構 成 で き る こ と を 示 す .
最 後 に 第 6 章 は 結 論 で あ り , 本 研 究 に よ り 得 ら れ た 考 察 を 述 べ , 成 果 を ま と め る と と も に , 今 後 の 展 望 に つ い て 述 べ る .
N o . 3
No.1
早稲田大学 博士(工学) 学位申請 研究業績書
氏 名 三川 健太 印
(2016 年 2 月 5 日現在)
種 類 別 題名、 発表・発行掲載誌名、 発表・発行年月、 連名者(申請者含む)
論文
講演
その他
(論文)
[1] K. Mikawa and M.Goto, “Regularized Distance Metric Learning for the Document Classification and its Application,”日本経営工学会論文誌,vol. 66, no. 2E, pp.
190-203, (2015-7)
[2] 三川健太,小林学,後藤正幸,“教師あり学習に基づくl1正則化を用いた計量行列の 学習法に関する一考察,”日本経営工学会論文誌,vol. 66, no. 3, pp. 230-239, (2015-11)
[3] 三川健太,後藤正幸,“カテゴリ毎に異なる計量行列を用いた計量距離学習に関する 一考察,”日本経営工学会論文誌,vol.66, no.4, pp. 335-347, (2016-1)
(国際会議)
[1] K. Mikawa, T. Ishida, M. Goto and S. Hirasawa, “Regularized Distance Metric Learning and its Application to Knowledge Discovery,”14th Asia Pacific Industrial Engineering and Management Society (14th APIEMS), (2013-12)
[2] K. Mikawa, M. Kobayashi, M. Goto and S. Hirasawa, “A Proposal of l1 Regularized Distance Metric Learning for High Dimensional Sparse Vector Space,”2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC2014), (2014-10)
(講演)
[1] 三川健太,小林学,後藤正幸,平澤茂一,“高次元かつスパースなベクトル空間にお けるl1正則化に基づく計量距離学習に関する一考察,”第 36 回情報理論とその応用シ ンポジウム予稿集,pp. 703-706, (2013-11)
[2] 三川健太,石田崇,後藤正幸,平澤茂一,“l1正則化を用いた計量距離学習による特 徴選択に関する一考察,”日本経営工学会平成 25 年度秋季大会予稿集,pp. 194-195, (2013-11)
[3] 三川健太,後藤正幸,“カテゴリの統計的特徴を利用した適応的計量距離学習に関す る一考察,”日本経営工学会平成 26 年度秋季大会予稿集,pp. 232-233, (2014-11)
(論文)
[1] 三川健太,高橋勉,後藤正幸,“テキストデータに基づく顧客ロイヤルティの構造分 析手法に関する一考察,”日本経営工学会論文誌, vol. 58, No. 3, pp. 182-192, (2007-8)
[2] 三川健太,増井忠幸,後藤正幸,“顧客ロイヤルティ構造図に基づく重要要因の定量 化手法に関する一考察,”日本経営工学会論文誌, vol. 59, No. 5, pp. 365-375, (2008-12)
No.2
早稲田大学 博士(工学) 学位申請 研究業績書
種 類 別 題名、 発表・発行掲載誌名、 発表・発行年月、 連名者(申請者含む)
[3] K. Mikawa, T. Ishida and M. Goto, “An Optimal Weighting Method in Supervised Learning of Linguistic Model for Text Classification,” Industrial Engineering
& Management Systems, vol. 11, no. 1, pp. 87-93, (2012-1)
[4] 荒川貴紀,三川健太,後藤正幸,“未観測カテゴリを含む文書データの自動分類手法 に関する研究,”電子情報通信学会論文誌 D, vol.J96-D, no. 8, pp. 1955-1959, (2013-8)
[5] 井沢祐介,三川健太,後藤正幸,“エージェントベースシミュレーションによる確率 潜在空間モデルを用いた推薦システムの評価,”経営情報学会論文誌, vol. 22, no. 2, pp. 1-22, (2013-9)
[6] T. Ogihara, K. Mikawa, G. Hosoya, and M. Goto, “Multi-valued Document Classication based on coding theory,” China-USA Business Reviw, vol. 12, no.
9, pp. 911-917, (2013-9)
[7] T. Suzuki, G. Kumoi, K. Mikawa, and M. Goto, “A Design of Recommendation Based on Flexible Mixture Model Considering Purchasing Interest and Post-Purchase Satisfaction,” 日本経営工学会論文誌, vol. 64, no. 4E, pp. 570-578, (2014-1) [8] 下村良,三川健太,後藤正幸,“大規模テキストデータの分類体系化のための機械学
習に基づく半自動分類法の提案,” 日本経営工学会論文誌, vol. 65, no. 2, pp.
51-60, (2014-7)
[9] 大井貴裕,三川健太,後藤正幸,“評価と購買の両履歴データの学習による確率的潜 在クラスモデルの推定精度向上に関する一考察,” 日本経営工学会論文誌, vol. 65, no. 4, pp. 286-293, (2015-1)
(国際会議)
[1] K. Mikawa, T. Ishida, and M. Goto, “A Proposal of Extended Cosine Measure for Distance Metric Learning in Text Classification,” 2011 IEEE International Conference on Systems, Man, and Cybernetics (SMC2011), pp. 1741-1746, (2011-10)
[2] K. Mikawa, T. Ishida, and M. Goto, “An Optimal Weighting Method in Supervised Learning of Linguistic Model for Text Classification,” 12th Asia Pacific Industrial Engineering and Management Society (12th APIEMS), ID-141 (2011-10)
[3] K. Mikawa, G. Kumoi, K. Suzuki, and M. Goto, “A Proposal of Extracting Unknown Information from Customer Review for SWOT Analysis,” 2011 Asian Conference of Management Science & Applications, ID-167 (2011-10)
No.3
早稲田大学 博士(工学) 学位申請 研究業績書
種 類 別 題名、 発表・発行掲載誌名、 発表・発行年月、 連名者(申請者含む)
[4] K. Mikawa, T. Ishida, M. Goto, and S. Hirasawa, “An Optimal Weighting Method by Using the Category Information in Text Classification based on Metric Learning,” 13th Asia Pacic Industrial Engineering and Management Society (13th APIEMS), No. 25-1 (2012-12)
[5] K. Mikawa, T. Ishida, M. Goto, and S. Hirasawa, “A Proposal of Adaptive Metric Learning to Each Category Characteristics for Text Classification,” 2013 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, pp. 544-547, (2013-3)
その他国際会議 38 件
(講演)
[1] 三川健太,石田崇,後藤正幸,“満足度を考慮したユーザレビューの分析に関する一 考察,” 日本経営工学会, 平成 22 年度度秋季大会予稿集, pp. 206-207, (2010-11) [2] 三川健太,石田崇,後藤正幸,“拡張余弦尺度を用いた距離学習に関する一考察,”日
本経営工学会, 平成 23 年度度春季大会予稿集, pp. 56-57, (2011-5)
[3] 三川健太,石田崇,後藤正幸,“文書分類問題におけるカテゴリ情報を用いた適応的 重み学習に関する一考察,” 日本経営工学会, 平成 24 年度度秋季大会予稿集,pp.
206-207, (2012-10)
[4] 三川健太,石田崇,後藤正幸,平澤茂一,“テキスト分類問題におけるカテゴリ情報 を用いた適応的距離学習に関する一考察,”電子情報通信学会技術研究報告,情報論 的学習理論と機械学習(IBISML), pp. 83-88, (2012-11)
[5] 三川健太,小林学,後藤正幸,平澤茂一,“代表元の距離構造に着目した計量距離学 習に関する一考察,” 第 37 回情報理論とその応用シンポジウム(SITA2014) 予稿集,
pp. 703-706, (2014-12)
[6] 榮枝隼人,三川健太,後藤正幸,“宿泊施設を対象とした評価サイトにおけるユーザ レビュー分析に関する一考察,”日本経営工学会 平成 22 年度秋季大会予稿集,pp.
192-193, (2010-10)
[7] 井沢祐介,榮枝隼人,三川健太,後藤正幸,“アイテム評価値の高低を考慮した混合 メンバーシップブロックモデルによる推薦システム,” 日本経営工学会 平成 23 年 度秋季大会予稿集,pp. 36-37, (2011-5)
その他講演 55 件