不動産画像データセットを利用したディープ多形態画像対応学習

(1)

1．はじめに

不動産 Web サイトには買い手，借り手に有用なさまざまな情報が提示されている．家賃，間取り，部屋数，室内画像や最寄り駅など，これらの大量の情報はディープラーニング手法にとって格好の学習データである．例えば，100 万戸の物件に付属している，台所，寝室，ダイニングの画像をディープラーニング手法に学習させることで，画像に写っている部屋のタイプの自動識別を行うシステムを容易に構築することができる．不動産データがディープラーニング研究にとって特に面白いのはその多形態さ（multi-modal）にある．一つの物件に対して，数値情報（家賃，広さ），位置情報（住所）や画像情報（間取り，室内画像）などのさまざまなデータが存在し，このような異なる形態のデータの相関関係をコンピュータが学習できるかというのは機械学習において根源的な問題である．画像だけに絞ってみても間取りと室内画像は非常に形態の異なるものである．まず，間取りは幾何学的な模様で人工的に描かれた建築物構造を表すもので，実画像とは見た目が大きく異なる．次に，間取りと室内画像は一対一の対応関係にはない．1 枚の室内画像にはほぼ一部屋しか写っていないため，1 枚の間取りと対応するのは複数枚の室内画像（例えば，台所，寝室，入り口，ダイニングの写真）となる．本稿ではこのように大きな差異のある間取りと室内画像群の対応関係を，LIFULL HOME’S データセット [homes] 内の 100 万物件のデータを使用しディープニューラルネットワーク（以下，本稿ではディープネットワークと表記）に学習させる．図 1 がその具体的な例で，右の 4 枚の浴室の画像の中から左の間取り図に対応したものを四者択一で選ぶという問題になる．この例以外にもさまざまな多形態画像の対応関係を答える問題を考え，ディープネットワークの有効性を検証する．我々の実験結果からわかったのは，まずディープネットワークが人よりもはるかに高い精度で対応関係を答えることができるということである．さらに，面白いのは，この多形態画像対応問題が他のコンピュータビジョンの典型的な問題と異なり，人間が答えるために 30 秒から 1 分ほどの時間を必要とするのに対し，ディープネットワークは他のコンピュータビジョンの問題と同様に瞬時に正解を導くことができるという点である．

2．従来の手法

画像の対応計算はコンピュータビジョンの中でも最も歴史の古い問題である．SIFT [Lowe 99] に代表される，特徴点周りのディスクリプタを用いた画像対応の手

不動産画像データセットを利用した

ディープ多形態画像対応学習

Deep Multi-Modal Image Correspondence Learning Using a Real Estate

Image Data Set

古川泰隆

ワシントン大学セントルイス

Yasutaka Furukawa Washington University in St. Louis.

[email protected], http://www.cse.wustl.edu/~furukawa/

Keywords:

deep learning, multi-modal, image correspondence. 「不動産と AI」 A B C D 図 1 右の 4 枚の浴室の画像の中で，どれが左の間取りに対応した画像かを四者択一で選択するというのが，本稿に記述される多形態画像対応学習問題である．答えは（c）である

(2)

法は，物体認識や三次元復元アルゴリズムにおいて大きな成功を収めている [Agarwal 11, Fei-Fei 05]．最近ではディープネットワークを用いた画像の対応学習が盛んになっており，サイアミーズネットワーク [Bromley 93] と呼ばれる手法は，見た目が大きく異なる画像間の対応も可能になる．多形態データの対応計算の研究も近年活発になっており，コンピュータビジョンの分野でいうと“Visual Question Answering”[Antol 15] が良い例で，画像と自然言語からなる質問に対して自然言語で答えを導き出す問題である．本稿と最も近い関係にあるのが Castrejón らによる論文 [Castrejón 16] で，多形態の画像（クリップアート，スケッチ，写真，テキスト）から共通の表現法をディープネットワークで学習するというものである．Castrejón らの手法は多形態の画像を用いたシーン（scene）の識別が課題であるが，我々の手法は異なる形態の画像間の対応推定が課題である．

3．ディープ多形態画像マッチング

多形態画像マッチング問題の基本形である図 1 を見るとわかるように，この問題は我々にとってもけっして簡単ではない．まず，画像が浴室であるということから，間取りの中で浴室に対応する場所を探さなければならない．そのうえで，浴室内の浴槽や洗面台を認識し，その位置関係などが合致している画像を四者択一で選ぶというプロセスになる．この基本形から二つのパラメータで問題の構造を変える．一つ目のパラメータは浴室画像の候補の数（α）である．上記の例では 4 であったが，我々の実験では，1, 2, 4, 8を試す．α＝ 1 では候補が一つなので，間取りと室内画像が対応するか否かの是非を答える問題になる（図 3 左参照）．二つ目のパラメータは室内画像を 1 枚から複数枚（β）のグループにするというものである．例えば，上記の例では室内画像は常に浴室のもの 1 枚であったが，（β＝ 3）の場合は浴室，寝室，台所の 3 枚の室内画像グループが一つの候補と考える（図 3 右参照）．次にこれらの多形態画像マッチング問題を解くディープネットワークの構造を見ていく．図 1 の基本形の問題を解くディープネットワークが図 2 になる．台形で表示されるのが畳込みニューラルネットワーク（CNN）と呼ばれるもので，画像を決まったサイズの特徴ベクトルに変換する．最後にすべての変換された特徴ベクトルを通常のニューラルネットワークの入力とし，α個の候補のうちのどれを選ぶかを表示するためαビットを出力する（one-hot エンコーディング）．例えば，3 番目の候補が答えの場合は 3 ビット目だけが 1 でそれ以外が 0 のベクトルが出力となる．候補が一つだけの場合は（β＝ 1）答えが是か非なので，対応するか，の類似性スコアを回帰する．最もネットワークが複雑になるのがα，βともに 2 以上になる場合で，例えばα＝ 4，β＝ 3 だと入力の画像は 12 枚の画像と 1 枚の間取り図の合計 13 枚になる．β＝ 1 の場合は hinge loss，それ以外の場合は cross entropy lossを使用する．図 3 左：入力画像が間取り図と画像の 2 枚である場合は，対応するかどうかの是か非かを 0 から 1 の値で返す問題になる．右：入力画像を 1 種類（例えば浴槽）から複数種類（例えば浴槽，台所，寝室）に拡張した場合は，1 枚の間取りと複数種類の画像を入力とし，画像群が間取りに対応したものかを同じように是か非かで返す問題となる図 2 図 1 の基本形の問題を解くディープネットワーク構造． 出力は K ビットで K 枚の画像のうち対応するビットが 1になるようにデータ設定される

(3)

4．実験結果

LIFULL HOME’sデータセットから 100 000 レコードの物件情報を無作為抽出し，99 000 レコードをトレーニングデータ，1 000 レコードをテストデータとして選び，それぞれの多形態画像マッチング問題用のデータを作成する．CNN はすでにトレーニング済みの VGG16 [Simonyan 14]で初期化する．間取り画像は224×224に，実画像は 128×128 にサイズを変更し，CNN の後の特徴マップのサイズは 8 096＝4×4×512，全結合ネットワークの後の特徴ベクタのサイズは 512 になる．ニューラルネットワークは Torch7 で実装し NVIDIA Titan X を使用し約 3 日間（50 エポック）トレーニングした．

ディープネットワーク性能の比較評価のため，同じ多形態画像マッチング問題を Amazon Mechanical Turk

のワーカに対しても出題した．それぞれの問題設定（α とβのコンビネーション）に対して 100 の問題を作成し 10個 1 組にする．スパムワーカを避けるため，それぞれの組に対し，最初の二つの問題を最後に再び繰り返し（12 問 1 組），最初と最後の二つの問題の答えが一致するワーカのデータだけを使用した．主な実験結果を表 1 に示す．多形態画像対応学習は人間にとって非常に難しい問題であることは推測できていたが，驚くべきことにディープネットワークはワーカを 20 ∼ 30 ポイントも上回る精度を達成している．しかも，ワーカは一つの問題を解くのに平均で 30 秒から 40 秒ほど時間がかかるのに対し，ディープネットワークは 1 秒間に 20 ∼ 30 の問題を解くことができる．ディープネットワークの驚くべき性能をこの問題に対しても見ることができる．異なるαとβの値によりさまざまな多形態画像対応問題を学習させたが，根本的には間取り図と室内画像の相関関係という非常に似たものを学習しているはずである．そこで，ある問題設定で学習されたネットワークを使い，異なる設定の問題を解いてみた（表 2 参照）．例えば，pair（1-way）の問題に対してトレーニングされたネットワークを使い 4-way の問題を解くには，ネットワークで間取りと 4 枚の室内画像の相関関係を 4 回評価し，その中で最大の相関スコアを記録した画像を対応するものと決定する．また，4-way の問題でトレーニングされたネットワークを用い 2-way の問題を解くには， 2枚の画像を複製して入力を 4 枚にすることで可能になる．興味深いことに，どの問題を用いてトレーニングしても精度には大差ないことが表 2 からわかる．8-way のトレーニングはより大きなネットワーク，つまり大量のメモリが必要になるため，トレーニングにはコンパクトな問題（例えば 1-way の問題）を使用したほうがよいといえる．

5．モデル分析

ディープネットワークが高精度でしかも高速に多形態画像対応問題を解けることはわかった．では，どのようにしてこの難解な問題を解いているのか，学習されたネットワークの可視化を通して分析してみた．ニューラルネットワークの可視化の研究 [Zeiler 14] は盛んに行われており，本稿では Zhou ら [Zhou 15] の手法を拡張し， pair（1-way）の問題で学習されたネットワークの可視化を行う．図 4 はディープネットワークが間取り図中のどの領域の情報を主に利用し，室内画像（浴室）との対応関係推定を行っているかを可視化している．簡単にいうと，間取りの一部に SlidingWindow の方式でノイズを加え，ネットワークが出力する浴室画像との相関スコアの変化を記録する．浴室と関係ない間取りの一部にノイズが加わったときは相関スコアの変化があまりないのに対し，浴室部分にノイズが加えたときにはスコアが大幅に下がるはずである．図 4 に示されているように，浴室，リビング，台所のどの例においても，ネットワークは間取り表 1 ネットワーク精度．列は使用した実画像の種類を示す．例えば「浴室」の列は浴室の画像のみを実画像として使用し（α＝ 1），「全 3 種類」は浴室，台所，リビングの 3 枚の実画像を使用した（β＝ 3）．行はマッチングの候補の数で「pair（1-way）」は実画像 1 枚と間取り 1 枚の問題．「8-way」は 8 枚の実画像と間取り 1 枚の対応問題である．それぞれテストデータを五つのグループに分け，計算した精度の平均と標準偏差を表示した．括弧内の数字は同じテストを Amazon Mechanical Truk のワーカに対して行った場合の精度．当て推量の精度はそれぞれの行で 50％，50％，25％，12.5％である候補の数（α）実画像の種類（β）浴室台所リビング全 3 種類 pair（1-way） 82：31：6（51.7） 81：82：1（58.9） 77：81：8（59.5） 85：33：4（61.5） 2-way 86：21：4（64.1） 84：83：5 81：21：6 91：01：5 4-way 72：43：6（43.0） 72：41：8 66：51：7 77：82：5 8-way 56：91：8（42.0） 59：31：9 54：03：9 61：42：5 表 2 異なる問題で学習させたモデルの精度．行が学習するのに用いた多形態対応学習問題で，列がそのモデルを用いて精度を計算した問題学習用の問題評価用の問題

2-way 4-way 8-way pair 87：82：6 73：43：6 57：03：3 2-way 86：21：4 N/A N/A 4-way 87：41：7 72：43：6 N/A 8-way 86：31：0 71：82：9 56：91：8

(4)

中の正しい部屋の場所を理解していることがわかる．50 枚に対して同じような実験を行ってみた結果，全体の 40％の例に対して図のような結果が得られた．最後に表 1 から気付くことは，台所とリビングよりも浴室の室内画像を使用した場合のほうが常にネットワークの精度が良いという点である．浴室は画像に見えている範囲は狭いが，バスタブや洗面器など常に決まって同じ物体が存在する．可能性として考えられるのは，ネットワークが物体を画像から認識し，物体レベルでの比較を通して対応関係を推定しているのではないかということである．この仮説を実証するため実画像と間取り図から洗面台に対応する部分を手動で消去し，相関スコアがどう変わるのかを分析した（図 5 参照）．図から見て取れるように，洗面器が浴室画像と間取り図の両方に一貫して存在するかもしくはないときに，相関スコアが高くなっていることがわかる．

6．アプリケーション

実画像と間取り図の対応計算だけでなく，学習されたネットワークは新しいアプリケーションも可能にする．まず，Receptive Field（図 4）は室内画像が間取り図中のどの領域に対応するかを表していると考えられる．それぞれの室内画像に対し，間取り図中で Receptive Field の値が最大の点を画像が対応する場所とすることで，例えば不動産情報サイトなどで図 6 のように，実画像を間取り中の位置関係とともに表示することが可能になる．また，pair（1-way）で学習されたネットワークを用いれば，間取りだけからその物件がどのような見た目であ

図 6 現在の不動産 Web サイトのほとんどは画像を単にリストにして表示をしているだけであるが，Receptive Field の可視化の結果を用いることにより，室内画像を間取り内の位置関係とともに表示することが可能になる図 4 間取りと実画像の相関スコアを計算するに際し，間取り図の中のどの部分の情報を利用しているかを可視化した．間取り図の赤い部分が左の室内画像との対応計算をするときにより使われている．浴室，台所，リビングのそれぞれの画像に対してネットワークが間取りの中の対応した領域を正しく理解できていることが確認できる図 5 ネットワークが物体の有無により対応関係の評価をしているという仮説を確認するため，洗面台（アイコン）をそれぞれ画像と間取りから削除し，相関スコアがどう変わるかを確認した．間取りと画像それぞれに物体が存在，もしくは消去されたときのみ相関スコアが高いことがわかる

(5)

るかを画像検索を通して推測できる（図 7）．例えば，浴室がどのような見た目かを推測するには，pair のネットワークを使い，間取りとの相関スコアが最大の浴室画像をデータベースから探せばよい（図 7 参照）．

7．まとめ

本稿では多形態画像対応学習という人間の視覚システムにとっても難解な新しい問題を提案し，ディープネットワークの有効性を検証した．驚くべきことにディープネットワークは人よりもはるかに精度が高くしかも高速にこの問題を解けることがわかった．学習されたネットワークはデータベース内のエラー検出（例えば，間取りに対応していない画像が載っている）にそのまま利用できるほか，本稿ではその他の有効なアプリケーションへの使用例も示した．多形態画像対応学習はまだまだ未開拓の分野で今後さらなる研究が行われることが期待される．謝辞

This research is partially supported by National Science Foundation under grant IIS 1540012 and IIS 1618685, Google Faculty Research Award, and Microsoft Azure Research Award. We thank Nvidia for a generous GPU donation. The author thank Chen Liu, Jiajun Wu, and Pushmeet Kohli for conducting the original work published at https://arxiv.org/ abs/1612.01225．本研究では，( 株 )LIFULL が国立情報学研究所の協力により研究目的で提供している「LIFULL HOME’S データセット」を利用した．

◇ 参考文献 ◇

[Agarwal 11] Agarwal, S., Furukawa, Y., Snavely, N., Simon, I., Curless, B., Seitz, S. M. and Szeliski, R.: Building rome in a day, Commun. ACM, Vol. 54, No. 10, pp. 105-112（2011） [Antol 15] Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D.,

Zitnick, C. L. and Parikh, D.: Vqa: Visual question answering,

Proc. IEEE Int. Conf. on Computer Vision, pp. 2425-2433

（2015）

[Bromley 93] Bromley, J., Bentz, J. W., Bottou, L., Guyon, I., Le- Cun, Y., Moore, C., Säckinger, E. and Shah, R.: Signature verification using a “Siamese” time delay neural network,

IJPRAI, Vol. 7, No. 4, pp. 669-688（1993）

[Castrejon 16] Castrejon, L., Aytar, Y., Vondrick, C., Pirsiavash, H. and Torralba, A.: Learning aligned cross-modal represen-tations from weakly aligned data, Proc. IEEE Conf. on

Computer Vision and Pattern Recognition, pp. 2940-2949

（2016）

[Fei-Fei 05] Fei-Fei, L. and Perona, P.: A Bayesian hierarchical model for learning natural scene categories, IEEE Computer

Society Conf. on Computer Vision and Pattern Recognition, CVPR 2005, Vol. 2, pp. 524-531, IEEE（2005）

[homes] HOME’S Dataset, http://www.nii.ac.jp/dsc/idr/ next/homes.html

[Lowe 99] Lowe, D. G.: Object recognition from local scale-invariant features, Proc. 7th IEEE Int. Conf. on Computer

Vision 1999, Vol. 2, pp. 1150-1157, IEEE（1999）

[Simonyan 14] Simonyan, K. and Zisserman, A.: Very deep convolutional networks for large-scale image recognition, arXiv preprint, arXiv:1409.1556（2014）

[Zeiler 14] Zeiler, M. D. and Fergus, R.: Visualizing and understanding convolutional networks, European Conf. on

Computer Vision, pp. 818-833, Springer（2014）

[Zhou 15] Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. and Torralba, A.: Object detectors emerge in deep scene cnns, ICLR （2015） 2017年 4 月 27 日受理図 7 学習されたネットワークを用いることで，与えられた間取り図の物件がどのような見た目かを画像検索を通して推測することができる．具体的には pair（1-way）で学習したネットワークで，間取りとの相関スコアを高い室内画像を検索する．左から，入力の間取り図，答えの浴室画像，検索して得られた相関スコアが上位 6 位の浴室画像になる

著者紹介

古川泰隆東京大学理学部情報科学科を卒業．Illinois 大学 Urbana-Champaign校にて2008年にPh. D. を取得． University of Washingtonでのポスドク後，Google 社のソフトウェアエンジニアとして Google Maps チームに所属．2013 年よりワシントン大学セントルイスにて Assitant Professor．Zillow Group の principal research scientistも務めている．Computer Vision分野を専門とし，ECCV Best Student Paper Award（2012）， NSF CAREER AWARD（2015），Google Faculty Research Award（2016， 2017），3DV Best Paper Award（2013）など，多数の賞を受賞．

不動産画像データセットを利用したディープ多形態画像対応学習

1．は じ め に

2．従 来 の 手 法