1.は じ め に
不動産 Web サイトには買い手,借り手に有用なさま ざまな情報が提示されている.家賃,間取り,部屋数, 室内画像や最寄り駅など,これらの大量の情報はディー プラーニング手法にとって格好の学習データである.例 えば,100 万戸の物件に付属している,台所,寝室,ダ イニングの画像をディープラーニング手法に学習させる ことで,画像に写っている部屋のタイプの自動識別を行 うシステムを容易に構築することができる. 不動産データがディープラーニング研究にとって特に 面白いのはその多形態さ(multi-modal)にある.一つ の物件に対して,数値情報(家賃,広さ),位置情報(住 所)や画像情報(間取り,室内画像)などのさまざまなデー タが存在し,このような異なる形態のデータの相関関係 をコンピュータが学習できるかというのは機械学習にお いて根源的な問題である.画像だけに絞ってみても間取 りと室内画像は非常に形態の異なるものである.まず, 間取りは幾何学的な模様で人工的に描かれた建築物構造 を表すもので,実画像とは見た目が大きく異なる.次に, 間取りと室内画像は一対一の対応関係にはない.1 枚の 室内画像にはほぼ一部屋しか写っていないため,1 枚の 間取りと対応するのは複数枚の室内画像(例えば,台所, 寝室,入り口,ダイニングの写真)となる. 本稿ではこのように大きな差異のある間取りと室内 画像群の対応関係を,LIFULL HOME’S データセッ ト [homes] 内の 100 万物件のデータを使用しディープ ニューラルネットワーク(以下,本稿ではディープネッ トワークと表記)に学習させる.図 1 がその具体的な例 で,右の 4 枚の浴室の画像の中から左の間取り図に対応 したものを四者択一で選ぶという問題になる.この例以 外にもさまざまな多形態画像の対応関係を答える問題を 考え,ディープネットワークの有効性を検証する.我々 の実験結果からわかったのは,まずディープネットワー クが人よりもはるかに高い精度で対応関係を答えること ができるということである.さらに,面白いのは,この 多形態画像対応問題が他のコンピュータビジョンの典型 的な問題と異なり,人間が答えるために 30 秒から 1 分 ほどの時間を必要とするのに対し,ディープネットワー クは他のコンピュータビジョンの問題と同様に瞬時に正 解を導くことができるという点である.2.従 来 の 手 法
画像の対応計算はコンピュータビジョンの中でも最 も歴史の古い問題である.SIFT [Lowe 99] に代表され る,特徴点周りのディスクリプタを用いた画像対応の手不動産画像データセットを利用した
ディープ多形態画像対応学習
Deep Multi-Modal Image Correspondence Learning Using a Real Estate
Image Data Set
古川 泰隆
ワシントン大学セントルイスYasutaka Furukawa Washington University in St. Louis.
[email protected], http://www.cse.wustl.edu/~furukawa/
Keywords:
deep learning, multi-modal, image correspondence. 「不動産と AI」 A B C D 図 1 右の 4 枚の浴室の画像の中で,どれが左の間取りに対応した画像かを四者択一で選択するというのが,本稿に記述される 多形態画像対応学習問題である. 答えは(c)である法は,物体認識や三次元復元アルゴリズムにおいて大き な成功を収めている [Agarwal 11, Fei-Fei 05].最近で はディープネットワークを用いた画像の対応学習が盛ん になっており,サイアミーズネットワーク [Bromley 93] と呼ばれる手法は,見た目が大きく異なる画像間の対応 も可能になる.多形態データの対応計算の研究も近年活 発になっており,コンピュータビジョンの分野でいう と“Visual Question Answering”[Antol 15] が良い例 で,画像と自然言語からなる質問に対して自然言語で答 えを導き出す問題である.本稿と最も近い関係にあるの が Castrejón らによる論文 [Castrejón 16] で,多形態の 画像(クリップアート,スケッチ,写真,テキスト)から 共通の表現法をディープネットワークで学習するというも のである.Castrejón らの手法は多形態の画像を用いたシー ン(scene)の識別が課題であるが,我々の手法は異なる 形態の画像間の対応推定が課題である.
3.ディープ多形態画像マッチング
多形態画像マッチング問題の基本形である図 1 を見る とわかるように,この問題は我々にとってもけっして簡 単ではない.まず,画像が浴室であるということから, 間取りの中で浴室に対応する場所を探さなければならな い.そのうえで,浴室内の浴槽や洗面台を認識し,その 位置関係などが合致している画像を四者択一で選ぶとい うプロセスになる. この基本形から二つのパラメータで問題の構造を変え る.一つ目のパラメータは浴室画像の候補の数(α)で ある.上記の例では 4 であったが,我々の実験では,1, 2, 4, 8を試す.α= 1 では候補が一つなので,間取りと 室内画像が対応するか否かの是非を答える問題になる (図 3 左参照).二つ目のパラメータは室内画像を 1 枚か ら複数枚(β)のグループにするというものである.例 えば,上記の例では室内画像は常に浴室のもの 1 枚で あったが,(β= 3)の場合は浴室,寝室,台所の 3 枚の 室内画像グループが一つの候補と考える(図 3 右参照). 次にこれらの多形態画像マッチング問題を解くディー プネットワークの構造を見ていく.図 1 の基本形の問題 を解くディープネットワークが図 2 になる.台形で表示 されるのが畳込みニューラルネットワーク(CNN)と 呼ばれるもので,画像を決まったサイズの特徴ベクトル に変換する.最後にすべての変換された特徴ベクトルを 通常のニューラルネットワークの入力とし,α個の候補 のうちのどれを選ぶかを表示するためαビットを出力す る(one-hot エンコーディング).例えば,3 番目の候補 が答えの場合は 3 ビット目だけが 1 でそれ以外が 0 のベ クトルが出力となる.候補が一つだけの場合は(β= 1) 答えが是か非なので,対応するか,の類似性スコアを回 帰する.最もネットワークが複雑になるのがα,βとも に 2 以上になる場合で,例えばα= 4,β= 3 だと入力 の画像は 12 枚の画像と 1 枚の間取り図の合計 13 枚にな る.β= 1 の場合は hinge loss,それ以外の場合は cross entropy lossを使用する. 図 3 左:入力画像が間取り図と画像の 2 枚である場合は,対応するかどうかの是か非かを 0 から 1 の値で返す問題になる. 右:入力画像を 1 種類(例えば浴槽)から複数種類(例えば浴槽,台所,寝室)に拡張した場合は,1 枚の間取りと複 数種類の画像を入力とし,画像群が間取りに対応したものかを同じように是か非かで返す問題となる 図 2 図 1 の基本形の問題を解くディープネットワーク構造. 出力は K ビットで K 枚の画像のうち対応するビットが 1になるようにデータ設定される4.実 験 結 果
LIFULL HOME’sデータセットから 100 000 レコー ドの物件情報を無作為抽出し,99 000 レコードをトレー ニングデータ,1 000 レコードをテストデータとして選 び,それぞれの多形態画像マッチング問題用のデータを 作成する.CNN はすでにトレーニング済みの VGG16 [Simonyan 14]で初期化する.間取り画像は224×224に, 実画像は 128×128 にサイズを変更し,CNN の後の特 徴マップのサイズは 8 096=4×4×512,全結合ネット ワークの後の特徴ベクタのサイズは 512 になる.ニュー ラルネットワークは Torch7 で実装し NVIDIA Titan X を使用し約 3 日間(50 エポック)トレーニングした.ディープネットワーク性能の比較評価のため,同じ多 形態画像マッチング問題を Amazon Mechanical Turk
のワーカに対しても出題した.それぞれの問題設定(α とβのコンビネーション)に対して 100 の問題を作成し 10個 1 組にする.スパムワーカを避けるため,それぞ れの組に対し,最初の二つの問題を最後に再び繰り返し (12 問 1 組),最初と最後の二つの問題の答えが一致す るワーカのデータだけを使用した.主な実験結果を表 1 に示す.多形態画像対応学習は人間にとって非常に難し い問題であることは推測できていたが,驚くべきことに ディープネットワークはワーカを 20 ∼ 30 ポイントも上 回る精度を達成している.しかも,ワーカは一つの問題 を解くのに平均で 30 秒から 40 秒ほど時間がかかるのに 対し,ディープネットワークは 1 秒間に 20 ∼ 30 の問題 を解くことができる.ディープネットワークの驚くべき 性能をこの問題に対しても見ることができる. 異なるαとβの値によりさまざまな多形態画像対応 問題を学習させたが,根本的には間取り図と室内画像の 相関関係という非常に似たものを学習しているはずであ る.そこで,ある問題設定で学習されたネットワークを 使い,異なる設定の問題を解いてみた(表 2 参照).例 えば,pair(1-way)の問題に対してトレーニングされ たネットワークを使い 4-way の問題を解くには,ネッ トワークで間取りと 4 枚の室内画像の相関関係を 4 回評 価し,その中で最大の相関スコアを記録した画像を対応 するものと決定する.また,4-way の問題でトレーニン グされたネットワークを用い 2-way の問題を解くには, 2枚の画像を複製して入力を 4 枚にすることで可能にな る.興味深いことに,どの問題を用いてトレーニングし ても精度には大差ないことが表 2 からわかる.8-way の トレーニングはより大きなネットワーク,つまり大量の メモリが必要になるため,トレーニングにはコンパクト な問題(例えば 1-way の問題)を使用したほうがよいと いえる.
5.モ デ ル 分 析
ディープネットワークが高精度でしかも高速に多形 態画像対応問題を解けることはわかった.では,どのよ うにしてこの難解な問題を解いているのか,学習された ネットワークの可視化を通して分析してみた.ニューラ ルネットワークの可視化の研究 [Zeiler 14] は盛んに行わ れており,本稿では Zhou ら [Zhou 15] の手法を拡張し, pair(1-way)の問題で学習されたネットワークの可視 化を行う. 図 4 はディープネットワークが間取り図中のどの領域 の情報を主に利用し,室内画像(浴室)との対応関係推 定を行っているかを可視化している.簡単にいうと,間 取りの一部に SlidingWindow の方式でノイズを加え, ネットワークが出力する浴室画像との相関スコアの変化 を記録する.浴室と関係ない間取りの一部にノイズが加 わったときは相関スコアの変化があまりないのに対し, 浴室部分にノイズが加えたときにはスコアが大幅に下が るはずである.図 4 に示されているように,浴室,リビ ング,台所のどの例においても,ネットワークは間取り 表 1 ネットワーク精度.列は使用した実画像の種類を示す. 例えば「浴室」の列は浴室の画像のみを実画像として使用し(α= 1),「全 3 種類」は浴室,台所, リビングの 3 枚の実画像を使用した(β= 3).行はマッチングの候補の数で「pair(1-way)」は実 画像 1 枚と間取り 1 枚の問題.「8-way」は 8 枚の実画像と間取り 1 枚の対応問題である.それぞれ テストデータを五つのグループに分け,計算した精度の平均と標準偏差を表示した.括弧内の数字は 同じテストを Amazon Mechanical Truk のワーカに対して行った場合の精度.当て推量の精度はそ れぞれの行で 50%,50%,25%,12.5%である 候補の数(α) 実画像の種類(β) 浴 室 台 所 リビング 全 3 種類 pair(1-way) 82:31:6(51.7) 81:82:1(58.9) 77:81:8(59.5) 85:33:4(61.5) 2-way 86:21:4(64.1) 84:83:5 81:21:6 91:01:5 4-way 72:43:6(43.0) 72:41:8 66:51:7 77:82:5 8-way 56:91:8(42.0) 59:31:9 54:03:9 61:42:5 表 2 異なる問題で学習させたモデルの精度. 行が学習するのに用いた多形態対応学習問題で,列がその モデルを用いて精度を計算した問題 学習用の問題 評価用の問題2-way 4-way 8-way pair 87:82:6 73:43:6 57:03:3 2-way 86:21:4 N/A N/A 4-way 87:41:7 72:43:6 N/A 8-way 86:31:0 71:82:9 56:91:8
中の正しい部屋の場所を理解していることがわかる.50 枚に対して同じような実験を行ってみた結果,全体の 40%の例に対して図のような結果が得られた. 最後に表 1 から気付くことは,台所とリビングよりも 浴室の室内画像を使用した場合のほうが常にネットワー クの精度が良いという点である.浴室は画像に見えてい る範囲は狭いが,バスタブや洗面器など常に決まって同 じ物体が存在する.可能性として考えられるのは,ネッ トワークが物体を画像から認識し,物体レベルでの比較 を通して対応関係を推定しているのではないかというこ とである.この仮説を実証するため実画像と間取り図か ら洗面台に対応する部分を手動で消去し,相関スコアが どう変わるのかを分析した(図 5 参照).図から見て取 れるように,洗面器が浴室画像と間取り図の両方に一貫 して存在するかもしくはないときに,相関スコアが高く なっていることがわかる.
6.アプリケーション
実画像と間取り図の対応計算だけでなく,学習された ネットワークは新しいアプリケーションも可能にする. まず,Receptive Field(図 4)は室内画像が間取り図中 のどの領域に対応するかを表していると考えられる.そ れぞれの室内画像に対し,間取り図中で Receptive Field の値が最大の点を画像が対応する場所とすることで,例 えば不動産情報サイトなどで図 6 のように,実画像を間 取り中の位置関係とともに表示することが可能になる. また,pair(1-way)で学習されたネットワークを用い れば,間取りだけからその物件がどのような見た目であ図 6 現在の不動産 Web サイトのほとんどは画像を単にリストにして表示をしているだけであるが,Receptive Field の可視化 の結果を用いることにより,室内画像を間取り内の位置関係とともに表示することが可能になる 図 4 間取りと実画像の相関スコアを計算するに際し,間取り図 の中のどの部分の情報を利用しているかを可視化した. 間取り図の赤い部分が左の室内画像との対応計算をすると きにより使われている.浴室,台所,リビングのそれぞれ の画像に対してネットワークが間取りの中の対応した領域 を正しく理解できていることが確認できる 図 5 ネットワークが物体の有無により対応関係の評価をしてい るという仮説を確認するため,洗面台(アイコン)をそれ ぞれ画像と間取りから削除し,相関スコアがどう変わるか を確認した. 間取りと画像それぞれに物体が存在,もしくは消去された ときのみ相関スコアが高いことがわかる
るかを画像検索を通して推測できる(図 7).例えば,浴 室がどのような見た目かを推測するには,pair のネット ワークを使い,間取りとの相関スコアが最大の浴室画像 をデータベースから探せばよい(図 7 参照).
7.ま と め
本稿では多形態画像対応学習という人間の視覚システ ムにとっても難解な新しい問題を提案し,ディープネッ トワークの有効性を検証した.驚くべきことにディープ ネットワークは人よりもはるかに精度が高くしかも高速 にこの問題を解けることがわかった.学習されたネット ワークはデータベース内のエラー検出(例えば,間取りに 対応していない画像が載っている)にそのまま利用でき るほか,本稿ではその他の有効なアプリケーションへの 使用例も示した.多形態画像対応学習はまだまだ未開拓 の分野で今後さらなる研究が行われることが期待される. 謝 辞This research is partially supported by National Science Foundation under grant IIS 1540012 and IIS 1618685, Google Faculty Research Award, and Microsoft Azure Research Award. We thank Nvidia for a generous GPU donation. The author thank Chen Liu, Jiajun Wu, and Pushmeet Kohli for conducting the original work published at https://arxiv.org/ abs/1612.01225.本研究では,( 株 )LIFULL が国 立情報学研究所の協力により研究目的で提供している 「LIFULL HOME’S データセット」を利用した.
◇ 参 考 文 献 ◇
[Agarwal 11] Agarwal, S., Furukawa, Y., Snavely, N., Simon, I., Curless, B., Seitz, S. M. and Szeliski, R.: Building rome in a day, Commun. ACM, Vol. 54, No. 10, pp. 105-112(2011) [Antol 15] Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D.,
Zitnick, C. L. and Parikh, D.: Vqa: Visual question answering,
Proc. IEEE Int. Conf. on Computer Vision, pp. 2425-2433
(2015)
[Bromley 93] Bromley, J., Bentz, J. W., Bottou, L., Guyon, I., Le- Cun, Y., Moore, C., Säckinger, E. and Shah, R.: Signature verification using a “Siamese” time delay neural network,
IJPRAI, Vol. 7, No. 4, pp. 669-688(1993)
[Castrejon 16] Castrejon, L., Aytar, Y., Vondrick, C., Pirsiavash, H. and Torralba, A.: Learning aligned cross-modal represen-tations from weakly aligned data, Proc. IEEE Conf. on
Computer Vision and Pattern Recognition, pp. 2940-2949
(2016)
[Fei-Fei 05] Fei-Fei, L. and Perona, P.: A Bayesian hierarchical model for learning natural scene categories, IEEE Computer
Society Conf. on Computer Vision and Pattern Recognition, CVPR 2005, Vol. 2, pp. 524-531, IEEE(2005)
[homes] HOME’S Dataset, http://www.nii.ac.jp/dsc/idr/ next/homes.html
[Lowe 99] Lowe, D. G.: Object recognition from local scale-invariant features, Proc. 7th IEEE Int. Conf. on Computer
Vision 1999, Vol. 2, pp. 1150-1157, IEEE(1999)
[Simonyan 14] Simonyan, K. and Zisserman, A.: Very deep convolutional networks for large-scale image recognition, arXiv preprint, arXiv:1409.1556(2014)
[Zeiler 14] Zeiler, M. D. and Fergus, R.: Visualizing and understanding convolutional networks, European Conf. on
Computer Vision, pp. 818-833, Springer(2014)
[Zhou 15] Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. and Torralba, A.: Object detectors emerge in deep scene cnns, ICLR (2015) 2017年 4 月 27 日 受理 図 7 学習されたネットワークを用いることで,与えられた間取り図の物件がどのような見た目かを画像検索を通して推測 することができる. 具体的には pair(1-way)で学習したネットワークで,間取りとの相関スコアを高い室内画像を検索する.左から, 入力の間取り図,答えの浴室画像,検索して得られた相関スコアが上位 6 位の浴室画像になる