1.は じ め に
近年,車の購入や,不動産契約などの耐久消費財の 商取引において,ユーザが Web 上の情報をもとにして 購買の意思決定を行う機会は増加している.一方で,不 動産契約は頻繁に行う取引ではないため,消費者である ユーザが十分な知識をもっていないことも多い.その結 果,適切な探し方や知識がないことによる購入検討の停 滞,実際に住んでみると期待していた住み心地を得られ ないといった契約後の不満などを招く場合がある.この ような不利益をなくすために,不動産情報ポータルサイ トでは不動産会社から提供された情報を蓄積し,ユー ザが比較検討を行えるように表示している.本稿では情 報の蓄積と表示だけではなく,ユーザがより適切な検討 を促せるような,不動産情報ポータルサイト SUUMO でのデータ分析の活用の事例について述べる.まず, SUUMOに蓄積されているデータの概要を説明する.そ の後,SUUMO 内で取り組んでいるデータを活用した事 例(リコメンデーション・接客ログ分析・査定)につい て述べ,その後に今後の取り組んでいきたい実験的な施 策についても述べる.2.SUUMO について
SUUMOとは,株式会社リクルート住まいカンパニー が運営を行う,日本最大級の住まい探しのためのポータ ルサイトである.賃貸住宅,新築マンション,新築一戸 建て,土地,中古マンション,中古一戸建て,注文住宅, リフォームに関する情報を提供している. 2・1 SUUMO に蓄積されているデータ 不動産情報ポータルサイトである SUUMO にはさま ざまなデータが蓄積されている.各企業から提供され る物件情報や施工事例といった不動産データを始めとし て,各不動産会社のデータ,ユーザが SUUMO の Web サイトやスマートフォンアプリケーションを利用した際 の行動履歴データ,SUUMO 独自で収集を行っている街 情報や,住みたい街ランキングに代表されるアンケート などの調査データをはじめ,さまざまなデータが存在し ている.本稿では,上記のうち不動産データと行動履歴 についてそれぞれ簡単に紹介する. § 1 不動産データ 本稿における不動産データとは,主に不動産会社から 提供される物件情報や施工事例などのデータのことを指 す.例えば物件の緯度経度や最寄り駅などの地理情報や, その物件が何階に所在し,どのくらいの広さをもち,ど んな設備をもっているかといったスペックの情報,どの ような物件かを視覚的に確認できる画像情報,そして現 在から過去にかけていくらで掲載されていたのか,とい う価格情報など多岐にわたった情報が蓄積されている. § 2 ユーザの行動履歴 行動履歴とは,ユーザが SUUMO の Web サイトやス マートフォンアプリケーションを利用した際のアクセス ログを指す.cookie ごとにどのページにいつアクセスし, どんな検索を行い,どんな物件を比較し,どの不動産会 社に問い合わせたのか,などの情報が含まれている.ま た本稿では,ユーザとクライアントの SUUMO 上での チャットを用いた対話ログも含んでいる.不動産情報ポータルサイト SUUMO での
データ活用
Utilization of Data at SUUMO, a Real Estate Information Portal Site
李 石映雪
株式会社リクルート住まいカンパニーShiyingxue Li RECRUIT Sumai Company.
[email protected], http://suumo.jp/
野村 眞平
(同 上)Shimpei Nomura [email protected], http://suumo.jp/
Keywords:
machine learning, recommender systems, natural language processing, real-estate price assessment, image analysis.3.リコメンドシステム
不動産情報ポータルサイトの掲載量が増え続けてい る一方で,利用者に占めるスマートフォンユーザの割合 の上昇が著しくなってきている中,平均的な画面のサイ ズは小さくなっている.数百万∼数千万物件から,自分 に見合う物件を選び出すことをより快適にするために, SUUMOではさまざまなページで,リコメンド機能を配 置し,ユーザが納得して物件を選べるよう注力した. 3・1 問 題 設 定 訪問ユーザに対して,「資料請求」や「見学予約」な どのアクション(コンバージョン,CV とも呼ばれる) を行うユーザの比率を高めることをリコメンドシステム の目的とする. 3・2 従来アプローチ 他領域の同じ問題と比べるとき,ユーザ当たりの不動 産購買は数少ないうえ,購買周期が長いので,利用でき るサンプル数が極めて少ない.従来は,リターゲティン グ,コンテンツベースやアソシエーション分析が不動産 リコメンドの主なアプローチだった. 図 1 に典型的なリコメンドコンテンツを表している. 過去の AB テストでは,リコメンド理由(「広さが似 ている」など)を追加することで,クリックレートを 25%程度向上させることができた. § 1 コンテンツベースフィルタリング 最も直感的なのは,ユーザが閲覧している物件に近し いものを出す手法である. 値 段 や 面 積 な ど の 連 続 値 に 対 し て, 標 準 化 し Euclidean Distance などで類似度を測り,閲覧物件との 類似順で表出する.各属性の重みを調整する場合は,オ フラインテストにより事前にログから推測することもで きるが,オンラインテストの結果に応じて変更する場合 が多い. 間取りなど,カテゴリー変数を取り入れる場合,類似 度を直接に算出できないため,ログから同時検索される 確率を類似度として用いている. § 2 インクリメンタル協調フィルタリング Wang らの論文 [Wang 12] の中で紹介された手法を利 用して,ユーザとアイテムの関係性をフェロモン構造と して表現することができる.最も類似したフェロモン構 造をもっているユーザの閲覧情報を使って,リコメンド を生成することができる.§ 3 Frequency & Recency
岩永ら [岩永 14] によるもう一つの発想は,経験的に オンライン効果の高いリターゲティングの改良である. 直感的に,最近閲覧した最も閲覧回数の多い物件はユー ザの関心度が高い物件だと思われる.単調増加制約を もった関数を定義することで,ユーザの最も関心度の高 い(≒再閲覧,再来訪につながる)物件を算出し表示する. 単純な履歴表示と比べた際に,50%以上の CV 率 (CVR)の増加が見られた. 3・3 新規アプローチ(機械学習ベース) 従来の手法では,バッチ処理で静的コンテンツを計算 することが前提となっていることが多いので,新規ユー ザや新しく掲載された物件に対してリコメンドすること は難しい.そうすると,特に初期訪問ユーザに対して, 効果的なリコメンドをつくれない.このような状況を解 決するために,最近では,リアルタイムにクリックログ などの暗黙的な情報を取り入れた機械学習によるモデリ ングが主流となっている.このセクションでは,[Li 17] に記載された一例を紹介する. § 1 モデル設計 SUUMOのログや物件データから,下記 3 種類の変数 を作成する.ul:ユーザの検索クエリ,ur:ユーザの閲 覧情報,ps:リコメンド対象物件の属性情報.リコメン ドの目的は,これらを入力とし,物件が CV される確率 をマッピングできる下記式の関数 F を探すことである. {ul, ur, ps} → F R サンプル i に対して,yiというラベルが付与されてい るとし,データ {ul, ur, ps}を xiとして書き換える.モデ ルのトレーニングは下記のように定義される. arg min loss
F i d yj,F xi ( ( )) モデルの簡潔さのために,ユーザが CV する・しない という二値分類問題として扱い,損失関数はログロスを 採用している.具体的には,Gradient Boosting Model や Factorization Machine など,いくつかの手法が上記 フレームワークに当てはまるが,ユーザの嗜好をよく捉
えるためには,アンサンブル手法が好ましい.さらに, 検索条件を入力として利用しているので,パターンが多 く外れ値が混じりやすいデータを扱えるツリーベースの 手法がシステムメンテナンス観点でも使いやすい.
したがって,今回は Gradient Boosting Decision Tree
で,バイナリログロスを選択し,正則化には L2を取り 入れた. § 2 データ作成 先述のとおり,不動産ポータルサイトではポジティブ サンプル(CV する= 1)数が少ないため,閲覧物件の 中でも CV しないサンプルが圧倒的に多い.日常消費財 の分野では,このようなサンプルデータをそのまま利用 することが多いが,不動産領域においては,CV する直 前で類似した物件を大量に閲覧し,そのうちの一つや二 つに対して CV するパターンが多い.そのため,ユーザ の閲覧物件から CV を予測するような問題設定にすると, 分類器の性能が制限されてしまう. 実験を繰り返していくなか,ユーザの未閲覧物件から, ネガティブサンプルを作成することで分類器精度が上が ることが確認された. § 3 カスケーディング 今回利用しているデータの中には,連続値とカテゴ リー変数両方が含まれている.特にエリアや駅などのカ テゴリー変数に関しては,ダミー変数を作成してしまう と,データがスバースであるという問題が発生する.ま た,連続値を平滑化するために複雑な木構造となってし まい,カテゴリー変数を反映できないといった問題も発 生する.そのため,カテゴリー変数のみの関数 fcと,連 続値のみの関数 flをそれぞれ作成し,最終的なスコア関 数を合成関数として定義する. Φ(fc(xcat), fl(xnum)) F(x) = このプロセスのモチベーションは,正しくユーザのエ リア情報(カテゴリカル変数)を評価すること.つまり, 不動産においては,地理情報(≒住みたい場所)の重要 度が高いので,単純なダミー化でその作用が薄まること を回避するためである. § 4 結 果 オンラインテストでは,同じ駅・エリアからランダム にリコメンドを生成するシステム(RPSA)や,PV ベー スのランキング(PVR)をベンチマークとし,従来手法 としていたコンテンツベースフィルタリング(CBM), 最後に今回紹介したモデル(GBDT)の効果を比較した. その結果を表 1 に示す.GBDT は CBM と比べると 2.5 倍の CVR を実現できた.最も性能が悪かったのは予想 どおり,同駅・エリア物件をランダムに選出しただけの RPSAであった.
4.チ ャ ッ ト 分 析
SUUMOでは,ユーザが来店する前に,気軽に物件 の最新情報を直接に不動産会社へ問い合わせことができ るチャットツールを提供している.不動産会社の対応に よって,その後来店して実際に賃貸借契約を締結する ユーザもいれば,サービスから離脱してしまうユーザも いる.こういった対話ログを分析することによって,接 客品質の向上につながることを目指している. 4・1 自 動 来 店 判 定 来店の要因分析や,接客品質評価の前に,まずは対話 ログから自動的にユーザが来店するかどうかを判定する 必要がある. § 1 問題定義 ユーザから不動産会社への 1 回の問合せごとに,1 個 の会話スレッド(チャネル)Xi= {x1, x2, x3, …} が生成 され,チャネル内では複数回のやり取りが発生している. 自動来店判定の目的は,会話 xtをカスタマーの来店確率 にマッピングすることである. § 2 モデル設計 テキストデータ xtの扱い方に関しては,形態素解析を 行い単語へ分割した後,Bag-Of-Words として扱う手法 も多いが,今回は単語の有無だけでなく,会話順序も考 慮できる Recurrent Neural Network を採用する.[Medsker 01]で紹介された Elman ネットワークで, 状態空間は下記のように定義する.xtは入力層(会話か ら抽出された単語),ytは出力層(最終的なユーザの来 店状況),stは中間層,W はそれぞれの層の結合荷重を 表している. st+1= f(st, xt, Wh, Win) yt+1= g(st+1, Wout) 入力層では,ユーザと不動産会社がそれぞれのノード を利用し,片方の発言ではもう片方のノードが設定され ない状態となる.会話の長さで時系列の長さを対応して いるので,会話の分だけ階層が深くなっていく. 会話テキストデータのほか,例えば不動産会社の返信 表 1 各手法の CVR の比較 図 2 RNN は中間層の出力を再帰的に入力として利用
スピードなども来店に影響を与えることが考えられるの で,前回の会話までの時間間隔などのメタデータも入力 として利用されている. § 3 実験結果 今回ノード数を 40 と設定し,中間層では tanh 関数 を,出力層では sigmoid 関数を利用した.SUUMO の 2 か月分のチャットデータに対して来店の有無をラベル として学習し,テストデータに対して,正確度を 0.915, F-score 0.444,AUC 0.967 という性能を出せた. 会話ごとに,状態推定ができるので,モデルアウトプッ トを利用して,会話のどこで離脱可能性が高まったかと いう分析も可能となっている.現在では,SUUMO の会 話分析チームの運用ツールとして利用されており,95% という高い精度を達成している.
5.査 定 分 析
最近の不動産情報分析では,Zillow の Zestimate や HouseCanaryに代表されるように,物件の価格の分析 が盛んに行われている.SUUMO でも,賃料・中古物件 価格・土地価格などさまざまな物件相場の予測を行って いる. 5・1 SUUMO での相場の算出要件 SUUMOでは相場の算出要件として,1:該当エリア の価格を代表する数値であり,かつ同一条件であれば他 エリアと比較可能な数値でもあること(代表性).2:相 場算出に使用するデータ数にしきい値を設け,相場とし て信頼できるサンプルサイズを確保する(サンプルサイ ズによる安定性).3:増税や天変地異などの例外を除 き,時間の経過とともに滑らかに推移する数値(時間的 安定性)を満たしたものとしている.これらの要件を満 たしつつ,実際の価格との乖離が少ない(Median Error Rateで評価)ものを相場として算出している. 5・2 相場の算出方法 相場の算出には,時間的安定性の担保のために推定 期間を 1 時点ごとにずらしながら逐次的に予測を行う, Rolling Window 法を用いている.また,住宅の取引は, 地域や築年数,駅徒歩などの物件属性が全く同じ物件は ほとんど存在しない.そのため,属性を説明変数として 価格を目的変数とする推計モデルを用いており,線形モ デルが一般に用いられていることが多い.SUUMO でも 多くの分析では上記の方法を組み合わせて相場を算出し ている. ただし,推計モデルに関しては線形モデルの場合,非 線形性への対応や交互作用の対応はエリアごとの固有の 傾向が強いため網羅的に考慮することは難しい.そのた め高い精度を出すことが難しい場合がある.一方で,過 去からの大量の掲載データを保持している SUUMO で は機械学習のアプローチ(Random Forest,Gradient Boosting Tree,Deep Neural Network など)を使うこ とにより精度は高くなる一方,人間の感覚とは不一致と なる結果が出てしまう(面積以外の属性が同一にもかか わらず面積が増えた場合に価格は安くなる).このよう な現象を解決するために,機械学習に最適化の手法を加 味することにより,精度が高くかつ人間的な肌感覚も備 えたものも提供している.表 2 に示すとおり,交差検証 の結果,特にサンプルサイズの大きくない地域において は,通常の機械学習と比較しても精度が上がることが確 認できている.6.画 像 分 析
SUUMOでは外観や内観写真,近隣エリアの景色や高 層マンションの眺望,部屋の 360 度がわかるパノラマ画 像まで,さまざまな種類の画像が掲載されている.画像 はユーザにとって,直感的に物件の雰囲気がわかる情報 ソースであり,画像データを活用する試みが多数行われ ている. 6・1 自 動 タ グ 付 け 特に賃貸領域においては,同じ物件を複数の不動産会 社が扱うことがある.そういった場合,どういった順番 でどの不動産会社から入稿された物件情報を提示するか という基準がいくつか決められている.例えば,ユーザ ができるだけ多くの情報を入手できるように,品質の高 い画像がたくさんあげられている物件情報を優先的に提 示することもある. 図 3 テストデータにおける精度曲線 表 2 2016 年のデータを利用した価格推定の精度 (市区郡×属性). テストデータに対する平均絶対パーセント誤差 (MAPE)で評価その一方,画像のカテゴリーやキャプションは不動産 会社からの手動入力のため,間違ったラベルが付与され ることも多い.画像入稿の品質を高めるために.自動的 なタグ付けを試みた. § 1 問題定義 自動タグ付けの問題は,画像 i をインプットとし,ラ ベルの集合 L = { l1, …, ln}へのマルチクラス分類問題で ある. § 2 モデルと実験結果 一般に物体認識やシーン分類に有効な手法として知ら れている,Convolutional Neural Networks(CNN)を 採用した.今回のラベルは,SUUMO サイトの既存画像 カテゴリーを採用し,20 クラス分類問題とした.ベー スモデルに,22 層の Inception を採用し,SUUMO 賃 貸領域の約 4 万枚画像で学習を行った. 学習に使われていない画像に対して,全クラスにおけ る平均正答率は 87.4%となっている.間取りや洗面所, トイレなどのカテゴリーに関しては 99%以上の正答率 を出せるが,その他部屋など,元より定義が曖昧なカテ ゴリーにおいては正答率が比較的に低い. 6・2 画 像 生 成 SUUMOのみならず,現在の不動産情報ポータルサイ トでは,希望の間取りや築年数など,条件ベースで自分 の要望を整理して検索することがほとんどである.「明 るく窓の大きい部屋」など,より直感的な部屋探しがで きないかを試すべく,色などの指定から部屋の画像を生 成できないかの実験を行った. § 1 実験概要
[Zhu 16]で紹介された iGAN(Interactive Generative Adversarial Networks)を利用して,GUI から色や形
状を描くことで,学習用の画像データセットを参考にし てそれに近い画像を生成することができる.
§ 2 モデルとパラメータ
iGANの利用しているモデル DCGAN(Deep Convolu-tional Generative Adversarial Networks)は,画像生 成用のネットワークと,画像判別用のネットワークの二 つで構成されている.DCGAN の場合,この両方のネッ トワークとも CNN を利用している. 入力画像 i に対して,判別ネットワークは i が実際の 画像データセット I に含まれているかどうかを判定する. 生成ネットワークは,ランダムに与えられた潜在変数か ら,データセット I に含まれていそうな画像 G(z)を生 成する. CNN だけでも,畳込み層の数をはじめ,チューニング が必要なパラメータがたくさん存在している.DCGAN の場合,それらに加えて判別ネットワークと生成ネット ワークの訓練比率や,収束までのエポック数などのパ ラメータが大きく性能に影響する.経験則上の訓練時ト リックはあるものの,データセットによってかなりの手 動調整が必要とされている. § 3 実験結果 SUUMOの賃貸画像を利用して学習した結果,単純な 部屋構造で窓を設置したり,床の色を変更したりするレ ベルは実現可能だが,複雑な家具やシステムキッチンな どを表現するのはまだ難しい.
7.今 後 の 課 題
これまで,SUUMO での不動産データを用いた分析の 事例を述べてきたが,現状ではアメリカなどと比較する と,分析に十分なデータが整備されているとはいいがた い状況である.今後,データサイエンスを用いた不動産 業界の活性のためには,過去の Transaction Price を整 備するなど,業界全体としてデータの活用に取り組んで いく必要があると考えている. 図 4 クラス別の正解状況 図 5 iGAN を使って床の色を変更する◇ 参 考 文 献 ◇
[岩永 14] 岩永二郎,鍋谷昴一,梶原 悠,五十嵐健太:関心度と忘 却度に基づくレコメンド手法─単調性制約付きレコメンドモデ ルの構築─,オペレーションズ・リサーチ:経営の科学,Vol. 59, pp. 72-80(2014)
[Li 17] Li, S., Nomura, S., Kikuta, Y. and Arin, K.: Web-scale personalized real-time recommender system on Suumo,
PAKDD 2017(2017)
[Medsker 01] Medsker, L. R. and Jain, L. C.: Recurrent Neural
Networks: Design and Applications, CRC Press(2001) [Wang 12] Wang, Y., Liao, X., Wu, H. and Wu, J.: Incremental
collaborative filtering considering temporal effects, arXiv preprint arXiv:1203.5415(2012)
[Zhu 16] Zhu, J., Krähenbühl, P., Shechtman, E. and Efros, A. A.: Generative visual manipulation on the natural image manifold, ECCV 2016(2016)
2017年 5 月 29 日 受理
著 者 紹 介
李 石映雪
2013年 6 月に北京大学卒業(School of Electronics Engineering and Computer Science), 以 降 は 株 式会社リクルート住まいカンパニーへ新卒入社し, 2016年よりデータソリューショングループでリー ダーとして分析・開発を行っている.主な研究分野 はリコメンドシステムと画像解析. 野村 眞平 株式会社リクルート住まいカンパニー NB 統括部 データソリューション G マネージャー.2012 年 株式会社リクルートに入社.データ分析者として SUUMOのリコメンデーションや需要予測などの分 析を行う.現在は株式会社リクルート住まいカンパ ニーのマネージャーとして,データを活用した意思 決定や CRM 施策の立案・実施を行っている.