不動産情報ポータルサイトSUUMO でのデータ活用

(1)

1．はじめに

近年，車の購入や，不動産契約などの耐久消費財の商取引において，ユーザが Web 上の情報をもとにして購買の意思決定を行う機会は増加している．一方で，不動産契約は頻繁に行う取引ではないため，消費者であるユーザが十分な知識をもっていないことも多い．その結果，適切な探し方や知識がないことによる購入検討の停滞，実際に住んでみると期待していた住み心地を得られないといった契約後の不満などを招く場合がある．このような不利益をなくすために，不動産情報ポータルサイトでは不動産会社から提供された情報を蓄積し，ユーザが比較検討を行えるように表示している．本稿では情報の蓄積と表示だけではなく，ユーザがより適切な検討を促せるような，不動産情報ポータルサイト SUUMO でのデータ分析の活用の事例について述べる．まず， SUUMOに蓄積されているデータの概要を説明する．その後，SUUMO 内で取り組んでいるデータを活用した事例（リコメンデーション・接客ログ分析・査定）について述べ，その後に今後の取り組んでいきたい実験的な施策についても述べる．

2．SUUMO について

SUUMOとは，株式会社リクルート住まいカンパニーが運営を行う，日本最大級の住まい探しのためのポータルサイトである．賃貸住宅，新築マンション，新築一戸建て，土地，中古マンション，中古一戸建て，注文住宅，リフォームに関する情報を提供している． 2･1　SUUMO に蓄積されているデータ不動産情報ポータルサイトである SUUMO にはさまざまなデータが蓄積されている．各企業から提供される物件情報や施工事例といった不動産データを始めとして，各不動産会社のデータ，ユーザが SUUMO の Web サイトやスマートフォンアプリケーションを利用した際の行動履歴データ，SUUMO 独自で収集を行っている街情報や，住みたい街ランキングに代表されるアンケートなどの調査データをはじめ，さまざまなデータが存在している．本稿では，上記のうち不動産データと行動履歴についてそれぞれ簡単に紹介する． § 1　不動産データ本稿における不動産データとは，主に不動産会社から提供される物件情報や施工事例などのデータのことを指す．例えば物件の緯度経度や最寄り駅などの地理情報や，その物件が何階に所在し，どのくらいの広さをもち，どんな設備をもっているかといったスペックの情報，どのような物件かを視覚的に確認できる画像情報，そして現在から過去にかけていくらで掲載されていたのか，という価格情報など多岐にわたった情報が蓄積されている． § 2　ユーザの行動履歴行動履歴とは，ユーザが SUUMO の Web サイトやスマートフォンアプリケーションを利用した際のアクセスログを指す．cookie ごとにどのページにいつアクセスし，どんな検索を行い，どんな物件を比較し，どの不動産会社に問い合わせたのか，などの情報が含まれている．また本稿では，ユーザとクライアントの SUUMO 上でのチャットを用いた対話ログも含んでいる．

不動産情報ポータルサイト SUUMO での

データ活用

Utilization of Data at SUUMO, a Real Estate Information Portal Site

李　石映雪

株式会社リクルート住まいカンパニー

Shiyingxue Li RECRUIT Sumai Company.

[email protected], http://suumo.jp/

野村　眞平

（同上）

Shimpei Nomura _{[email protected], http://suumo.jp/}

Keywords:

machine learning, recommender systems, natural language processing, real-estate price assessment, image analysis.

(2)

3．リコメンドシステム

不動産情報ポータルサイトの掲載量が増え続けている一方で，利用者に占めるスマートフォンユーザの割合の上昇が著しくなってきている中，平均的な画面のサイズは小さくなっている．数百万∼数千万物件から，自分に見合う物件を選び出すことをより快適にするために， SUUMOではさまざまなページで，リコメンド機能を配置し，ユーザが納得して物件を選べるよう注力した． 3･1　問　題　設　定訪問ユーザに対して，「資料請求」や「見学予約」などのアクション（コンバージョン，CV とも呼ばれる）を行うユーザの比率を高めることをリコメンドシステムの目的とする． 3･2　従来アプローチ他領域の同じ問題と比べるとき，ユーザ当たりの不動産購買は数少ないうえ，購買周期が長いので，利用できるサンプル数が極めて少ない．従来は，リターゲティング，コンテンツベースやアソシエーション分析が不動産リコメンドの主なアプローチだった．図 1 に典型的なリコメンドコンテンツを表している．過去の AB テストでは，リコメンド理由（「広さが似ている」など）を追加することで，クリックレートを 25％程度向上させることができた． § 1　コンテンツベースフィルタリング最も直感的なのは，ユーザが閲覧している物件に近しいものを出す手法である．値段や面積などの連続値に対して，標準化し Euclidean Distance などで類似度を測り，閲覧物件との類似順で表出する．各属性の重みを調整する場合は，オフラインテストにより事前にログから推測することもできるが，オンラインテストの結果に応じて変更する場合が多い．間取りなど，カテゴリー変数を取り入れる場合，類似度を直接に算出できないため，ログから同時検索される確率を類似度として用いている． § 2　インクリメンタル協調フィルタリング Wang らの論文 [Wang 12] の中で紹介された手法を利用して，ユーザとアイテムの関係性をフェロモン構造として表現することができる．最も類似したフェロモン構造をもっているユーザの閲覧情報を使って，リコメンドを生成することができる．

§ 3　Frequency & Recency

岩永ら [岩永 14] によるもう一つの発想は，経験的にオンライン効果の高いリターゲティングの改良である．直感的に，最近閲覧した最も閲覧回数の多い物件はユーザの関心度が高い物件だと思われる．単調増加制約をもった関数を定義することで，ユーザの最も関心度の高い（≒再閲覧，再来訪につながる）物件を算出し表示する．単純な履歴表示と比べた際に，50％以上の CV 率（CVR）の増加が見られた． 3･3　新規アプローチ（機械学習ベース）従来の手法では，バッチ処理で静的コンテンツを計算することが前提となっていることが多いので，新規ユーザや新しく掲載された物件に対してリコメンドすることは難しい．そうすると，特に初期訪問ユーザに対して，効果的なリコメンドをつくれない．このような状況を解決するために，最近では，リアルタイムにクリックログなどの暗黙的な情報を取り入れた機械学習によるモデリングが主流となっている．このセクションでは，[Li 17] に記載された一例を紹介する． § 1　モデル設計 SUUMOのログや物件データから，下記 3 種類の変数 を作成する．ul：ユーザの検索クエリ，ur：ユーザの閲 覧情報，ps：リコメンド対象物件の属性情報．リコメンドの目的は，これらを入力とし，物件が CV される確率 をマッピングできる下記式の関数 F を探すことである． {ul, ur, ps} → F R サンプル i に対して，yiというラベルが付与されてい るとし，データ {ul, ur, ps}を xiとして書き換える．モデルのトレーニングは下記のように定義される． arg min loss

F i d yj,F xi ( ( )) モデルの簡潔さのために，ユーザが CV する・しないという二値分類問題として扱い，損失関数はログロスを採用している．具体的には，Gradient Boosting Model や Factorization Machine など，いくつかの手法が上記フレームワークに当てはまるが，ユーザの嗜好をよく捉

(3)

えるためには，アンサンブル手法が好ましい．さらに，検索条件を入力として利用しているので，パターンが多く外れ値が混じりやすいデータを扱えるツリーベースの手法がシステムメンテナンス観点でも使いやすい．

したがって，今回は Gradient Boosting Decision Tree

で，バイナリログロスを選択し，正則化には L2を取り入れた． § 2　データ作成先述のとおり，不動産ポータルサイトではポジティブサンプル（CV する＝ 1）数が少ないため，閲覧物件の中でも CV しないサンプルが圧倒的に多い．日常消費財の分野では，このようなサンプルデータをそのまま利用することが多いが，不動産領域においては，CV する直前で類似した物件を大量に閲覧し，そのうちの一つや二つに対して CV するパターンが多い．そのため，ユーザの閲覧物件から CV を予測するような問題設定にすると，分類器の性能が制限されてしまう．実験を繰り返していくなか，ユーザの未閲覧物件から，ネガティブサンプルを作成することで分類器精度が上がることが確認された． § 3　カスケーディング今回利用しているデータの中には，連続値とカテゴリー変数両方が含まれている．特にエリアや駅などのカテゴリー変数に関しては，ダミー変数を作成してしまうと，データがスバースであるという問題が発生する．また，連続値を平滑化するために複雑な木構造となってしまい，カテゴリー変数を反映できないといった問題も発 生する．そのため，カテゴリー変数のみの関数 fcと，連 続値のみの関数 flをそれぞれ作成し，最終的なスコア関数を合成関数として定義する． Φ(fc(xcat), fl(xnum)) F(x) = このプロセスのモチベーションは，正しくユーザのエリア情報（カテゴリカル変数）を評価すること．つまり，不動産においては，地理情報（≒住みたい場所）の重要度が高いので，単純なダミー化でその作用が薄まることを回避するためである． § 4　結　果オンラインテストでは，同じ駅・エリアからランダムにリコメンドを生成するシステム（RPSA）や，PV ベースのランキング（PVR）をベンチマークとし，従来手法としていたコンテンツベースフィルタリング（CBM），最後に今回紹介したモデル（GBDT）の効果を比較した．その結果を表 1 に示す．GBDT は CBM と比べると 2.5 倍の CVR を実現できた．最も性能が悪かったのは予想どおり，同駅・エリア物件をランダムに選出しただけの RPSAであった．

4．チャット分析

SUUMOでは，ユーザが来店する前に，気軽に物件の最新情報を直接に不動産会社へ問い合わせことができるチャットツールを提供している．不動産会社の対応によって，その後来店して実際に賃貸借契約を締結するユーザもいれば，サービスから離脱してしまうユーザもいる．こういった対話ログを分析することによって，接客品質の向上につながることを目指している． 4･1　自動来店判定来店の要因分析や，接客品質評価の前に，まずは対話ログから自動的にユーザが来店するかどうかを判定する必要がある． § 1　問題定義ユーザから不動産会社への 1 回の問合せごとに，1 個 の会話スレッド（チャネル）Xi＝ {x1, x2, x3, …} が生成され，チャネル内では複数回のやり取りが発生している． 自動来店判定の目的は，会話 xtをカスタマーの来店確率にマッピングすることである． § 2　モデル設計 テキストデータ xtの扱い方に関しては，形態素解析を行い単語へ分割した後，Bag-Of-Words として扱う手法も多いが，今回は単語の有無だけでなく，会話順序も考慮できる Recurrent Neural Network を採用する．

[Medsker 01]で紹介された Elman ネットワークで， 状態空間は下記のように定義する．xtは入力層（会話か ら抽出された単語），ytは出力層（最終的なユーザの来 店状況），stは中間層，W はそれぞれの層の結合荷重を 表している． st＋1＝ f（st, xt, Wh, Win） yt＋1＝ g（st＋1, Wout）入力層では，ユーザと不動産会社がそれぞれのノードを利用し，片方の発言ではもう片方のノードが設定されない状態となる．会話の長さで時系列の長さを対応しているので，会話の分だけ階層が深くなっていく．会話テキストデータのほか，例えば不動産会社の返信表 1　各手法の CVR の比較図 2　RNN は中間層の出力を再帰的に入力として利用

(4)

スピードなども来店に影響を与えることが考えられるので，前回の会話までの時間間隔などのメタデータも入力として利用されている． § 3　実験結果今回ノード数を 40 と設定し，中間層では tanh 関数を，出力層では sigmoid 関数を利用した．SUUMO の 2 か月分のチャットデータに対して来店の有無をラベルとして学習し，テストデータに対して，正確度を 0.915， F-score 0.444，AUC 0.967 という性能を出せた．会話ごとに，状態推定ができるので，モデルアウトプットを利用して，会話のどこで離脱可能性が高まったかという分析も可能となっている．現在では，SUUMO の会話分析チームの運用ツールとして利用されており，95％という高い精度を達成している．

5．査定分析

最近の不動産情報分析では，Zillow の Zestimate や HouseCanaryに代表されるように，物件の価格の分析が盛んに行われている．SUUMO でも，賃料・中古物件価格・土地価格などさまざまな物件相場の予測を行っている． 5･1　SUUMO での相場の算出要件 SUUMOでは相場の算出要件として，1：該当エリアの価格を代表する数値であり，かつ同一条件であれば他エリアと比較可能な数値でもあること（代表性）．2：相場算出に使用するデータ数にしきい値を設け，相場として信頼できるサンプルサイズを確保する（サンプルサイズによる安定性）．3：増税や天変地異などの例外を除き，時間の経過とともに滑らかに推移する数値（時間的安定性）を満たしたものとしている．これらの要件を満たしつつ，実際の価格との乖離が少ない（Median Error Rateで評価）ものを相場として算出している． 5･2　相場の算出方法相場の算出には，時間的安定性の担保のために推定期間を 1 時点ごとにずらしながら逐次的に予測を行う， Rolling Window 法を用いている．また，住宅の取引は，地域や築年数，駅徒歩などの物件属性が全く同じ物件はほとんど存在しない．そのため，属性を説明変数として価格を目的変数とする推計モデルを用いており，線形モデルが一般に用いられていることが多い．SUUMO でも多くの分析では上記の方法を組み合わせて相場を算出している．ただし，推計モデルに関しては線形モデルの場合，非線形性への対応や交互作用の対応はエリアごとの固有の傾向が強いため網羅的に考慮することは難しい．そのため高い精度を出すことが難しい場合がある．一方で，過去からの大量の掲載データを保持している SUUMO では機械学習のアプローチ（Random Forest，Gradient Boosting Tree，Deep Neural Network など）を使うことにより精度は高くなる一方，人間の感覚とは不一致となる結果が出てしまう（面積以外の属性が同一にもかかわらず面積が増えた場合に価格は安くなる）．このような現象を解決するために，機械学習に最適化の手法を加味することにより，精度が高くかつ人間的な肌感覚も備えたものも提供している．表 2 に示すとおり，交差検証の結果，特にサンプルサイズの大きくない地域においては，通常の機械学習と比較しても精度が上がることが確認できている．

6．画像分析

SUUMOでは外観や内観写真，近隣エリアの景色や高層マンションの眺望，部屋の 360 度がわかるパノラマ画像まで，さまざまな種類の画像が掲載されている．画像はユーザにとって，直感的に物件の雰囲気がわかる情報ソースであり，画像データを活用する試みが多数行われている． 6･1　自動タグ付け特に賃貸領域においては，同じ物件を複数の不動産会社が扱うことがある．そういった場合，どういった順番でどの不動産会社から入稿された物件情報を提示するかという基準がいくつか決められている．例えば，ユーザができるだけ多くの情報を入手できるように，品質の高い画像がたくさんあげられている物件情報を優先的に提示することもある．図 3 　テストデータにおける精度曲線表 2 2016 年のデータを利用した価格推定の精度（市区郡×属性）．テストデータに対する平均絶対パーセント誤差（MAPE）で評価

(5)

その一方，画像のカテゴリーやキャプションは不動産会社からの手動入力のため，間違ったラベルが付与されることも多い．画像入稿の品質を高めるために．自動的なタグ付けを試みた． § 1　問題定義 自動タグ付けの問題は，画像 i をインプットとし，ラ ベルの集合 L ＝ { l1, …, ln}へのマルチクラス分類問題である． § 2　モデルと実験結果一般に物体認識やシーン分類に有効な手法として知られている，Convolutional Neural Networks（CNN）を採用した．今回のラベルは，SUUMO サイトの既存画像カテゴリーを採用し，20 クラス分類問題とした．ベースモデルに，22 層の Inception を採用し，SUUMO 賃貸領域の約 4 万枚画像で学習を行った．学習に使われていない画像に対して，全クラスにおける平均正答率は 87.4％となっている．間取りや洗面所，トイレなどのカテゴリーに関しては 99％以上の正答率を出せるが，その他部屋など，元より定義が曖昧なカテゴリーにおいては正答率が比較的に低い． 6･2　画　像　生　成 SUUMOのみならず，現在の不動産情報ポータルサイトでは，希望の間取りや築年数など，条件ベースで自分の要望を整理して検索することがほとんどである．「明るく窓の大きい部屋」など，より直感的な部屋探しができないかを試すべく，色などの指定から部屋の画像を生成できないかの実験を行った． § 1　実験概要

[Zhu 16]で紹介された iGAN（Interactive Generative Adversarial Networks）を利用して，GUI から色や形

状を描くことで，学習用の画像データセットを参考にしてそれに近い画像を生成することができる．

§ 2　モデルとパラメータ

iGANの利用しているモデル DCGAN（Deep Convolu-tional Generative Adversarial Networks）は，画像生成用のネットワークと，画像判別用のネットワークの二つで構成されている．DCGAN の場合，この両方のネットワークとも CNN を利用している． 入力画像 i に対して，判別ネットワークは i が実際の 画像データセット I に含まれているかどうかを判定する． 生成ネットワークは，ランダムに与えられた潜在変数か ら，データセット I に含まれていそうな画像 G（z）を生 成する． CNN だけでも，畳込み層の数をはじめ，チューニングが必要なパラメータがたくさん存在している．DCGAN の場合，それらに加えて判別ネットワークと生成ネットワークの訓練比率や，収束までのエポック数などのパラメータが大きく性能に影響する．経験則上の訓練時トリックはあるものの，データセットによってかなりの手動調整が必要とされている． § 3　実験結果 SUUMOの賃貸画像を利用して学習した結果，単純な部屋構造で窓を設置したり，床の色を変更したりするレベルは実現可能だが，複雑な家具やシステムキッチンなどを表現するのはまだ難しい．

7．今後の課題

これまで，SUUMO での不動産データを用いた分析の事例を述べてきたが，現状ではアメリカなどと比較すると，分析に十分なデータが整備されているとはいいがたい状況である．今後，データサイエンスを用いた不動産業界の活性のためには，過去の Transaction Price を整備するなど，業界全体としてデータの活用に取り組んでいく必要があると考えている．図 4　クラス別の正解状況図 5 iGAN を使って床の色を変更する

(6)

◇ 参考文献 ◇

[岩永 14] 岩永二郎，鍋谷昴一，梶原悠，五十嵐健太：関心度と忘却度に基づくレコメンド手法─単調性制約付きレコメンドモデルの構築─，オペレーションズ・リサーチ：経営の科学，Vol. 59, pp. 72-80（2014）

[Li 17] Li, S., Nomura, S., Kikuta, Y. and Arin, K.: Web-scale personalized real-time recommender system on Suumo,

PAKDD 2017（2017）

[Medsker 01] Medsker, L. R. and Jain, L. C.: Recurrent Neural

Networks: Design and Applications, CRC Press（2001） [Wang 12] Wang, Y., Liao, X., Wu, H. and Wu, J.: Incremental

collaborative filtering considering temporal effects, arXiv preprint arXiv:1203.5415（2012）

[Zhu 16] Zhu, J., Krähenbühl, P., Shechtman, E. and Efros, A. A.: Generative visual manipulation on the natural image manifold, ECCV 2016（2016）

2017年 5 月 29 日受理

著者紹介

李　石映雪

2013年 6 月に北京大学卒業（School of Electronics Engineering and Computer Science），以降は株式会社リクルート住まいカンパニーへ新卒入社し， 2016年よりデータソリューショングループでリーダーとして分析・開発を行っている．主な研究分野はリコメンドシステムと画像解析．野村　眞平株式会社リクルート住まいカンパニー NB 統括部データソリューション G マネージャー．2012 年株式会社リクルートに入社．データ分析者として SUUMOのリコメンデーションや需要予測などの分析を行う．現在は株式会社リクルート住まいカンパニーのマネージャーとして，データを活用した意思決定や CRM 施策の立案・実施を行っている．

不動産情報ポータルサイトSUUMO でのデータ活用

1．は じ め に

2．SUUMO について

不動産情報ポータルサイト SUUMO での

データ活用

Utilization of Data at SUUMO, a Real Estate Information Portal Site

李 石映雪

野村 眞平

Keywords:

3．リコメンドシステム

4．チ ャ ッ ト 分 析

5．査 定 分 析

6．画 像 分 析

7．今 後 の 課 題

◇ 参 考 文 献 ◇

著 者 紹 介

1．はじめに

李　石映雪

野村　眞平

4．チャット分析

5．査定分析

6．画像分析

7．今後の課題

◇ 参考文献 ◇

著者紹介