商品キーワードの類似性を用いたレコメンド機能の実装
An Imprementation of a Recommendation Sevice on a Web Site by
Using Similarities of Keywords for Items
三條 知美
1∗櫻井 彰人
2Tomomi SANJO
1Akito SAKURAI
21
株式会社ネクスト
1
NEXT Co., Ltd.
2
慶應義塾大学
2
Keio University
Abstract: On a real estate portal site, the recommendation of items, i.e., newly built houses or apartments for sale or rent, is difficult because the real estates are basically unique and moreover the newly built ones in Japan tend to be under construction at the time of recommendatoin and specifying descriptions are not available. We extract keywords from the texts to describe the real estate, used Latent Semantic Indexing to obtain their vector representations, ranked similarity of items by their distance between the vectors, and recommend similar items. The implemented recommendation showed four times increase of click rates on the recommended items than previous recommendation system.
1
はじめに
近年、どのような分野の web サイトにおいても、レ コメンデーション機能が用意されている。また、レコ メンドエンジンのみを開発し、その機能を利用するた めの API を提供している会社も存在する。 そのような ASP のレコメンド機能を利用しているサ イトも存在するが、それらの会社によって提供される レコメンドの主なロジックは、ユーザの閲覧したアイ テムに特性の似たアイテムをレコメンドしたり、同じ ようなアイテムを閲覧するユーザが閲覧したアイテム をレコメンドしたりする協調フィルタリングや、前日 までのアイテムの閲覧回数順によってアイテムランキ ングを作成して提供したりするコンテンツフィルタリ ングである。 しかし、HOME’S (http://www.homes.co.jp/) のよ うな不動産ポータルサイトを見てみると、レコメンド 対象となりうる物件は厳密には同一の物が存在しない こと、また個人によって優先する条件が異なることな どの理由から、既存のレコメンド手法では十分にユー ザの嗜好を反映した物件のレコメンドを行うことは難 しい。 また、その中でも注文住宅という市場は、すでに建 ∗連絡先:株式会社ネクスト HOME’S 事業本部 〒 108-0074 東京都港区港南 2-3-13 品川フロントビル E-mail: [email protected] 設済み、もしくは建設予定のものでも完成させる建物 の間取りが決まっているような、賃貸・売買のマンショ ンなどとも異なり、まだ実態の無いデータを用いると いう特殊なアイテムを取り扱っている。 2012 年当時、HOME’S の注文住宅サイトでも、他社 の提供するレコメンドエンジンを利用して、ユーザに アイテムの推薦を行っていた。このエンジンは、主に 協調フィルタリングとユーザの閲覧履歴からのみレコ メンドを行っていたと推測されるが、ユーザの反応は 良くなかった。 そのため、HOME’S の注文住宅サイトに特化したレ コメンド手法を提案する必要があった。そこで、本研 究では HOME’S 注文住宅サイトに適したレコメンド手 法を提案するとともに、その手法でアイテムを推薦す る機能を実装し、ユーザの実利用に供した。 注文住宅サイトに掲載されているアイテム(物件) は、アイテムの特徴を説明するための文章と、そのア イテムがどういう特性を持っているのかを示すキーワー ドが付与されている。そこで、アイテムと複数のキー ワードが紐づいているという特性を活かし、トピック モデル解析を適用したアイテムレコメンドの手法を提 案する。 本論文では、さらに、この手法に基づいたアイテム レコメンド機能を実装しリリースした結果について報 告する。 人工知能学会研究会資料 SIG-FPAI-504-052
関連研究
トピックモデルに関しては、最近さまざまな分野で 応用されるようになってきており、研究も数多くなさ れている [1][2][3][4]。 web ページに関するレコメンドの多くは、ユーザの web ページの閲覧履歴をクラスタリングし、各ユーザ クラスタ毎に適した情報推薦内容を推定しようとする ものであり、トピックモデルの利用のし方は、各研究 によって工夫を凝らしている [5][6]。 たとえば、あるレシピサイトを対象としてユーザの 行動を確率モデルで表現するという研究がおこなわれ ている [5]。この研究では、web の行動履歴にユーザ属 性としてデモグラフィック属性と価値観をそれぞれアン ケート、インタビューによって取得し、ユーザ属性と行 動履歴をクラスタリングしたうえで、レシピをレコメ ンドするという方法を提案している。あらかじめレシ ピ名とレシピの属するカテゴリを用いてレシピ間の距 離を計算しておき。あるレシピが閲覧されると、レシ ピ距離が近い順に 3 件推薦する仕組みになっている。さ らに、pLSI(probabilistic Latent Semantic Indexing) により、アンケートによりレシピとユーザ属性、およ び生活パターンと閲覧傾向の関係をクラスタリングし、 同クラスタ内のレシピからレコメンドを行うという工 夫を行っている。同クラスタ内からレコメンドを行う 場合と、クラスタには無関係にレシピをレコメンドす る場合を比較した結果、この研究ではクラスに無関係 にレコメンドを行ったほうが精度が良かったと報告さ れているが、課題にも述べられているようにデータ量 を増やせば精度が変わることが予想される。 HOME’S 注文住宅サイトにおいては、レシピ名に材 料名が含まれるように、物件名などが物件の特徴を直 接的に表現する名前になっているとは考えにくいため、 同手法の適用は難しい。 また、マイクロブログの投稿を推薦するためにトピッ クモデル解析を利用した研究がある [6]。この研究では、 LDA (Latent Dirichlet Allocation) を用いてユーザ投 稿のトピックを推定したうえで、生起確率の高いトピッ クはその値をそのまま評価値として用いている。一方、 生起確率が閾値に満たない投稿の少ないトピックにつ いては、得られたトピックのベクトル表現を用いて、他 の全ユーザとのコサイン類似度の累積を評価値として 用い、評価値の高いトピックはユーザの興味があるト ピックであると推定する手法を提案している。ユーザ の以前の投稿から得られているトピックに新規の投稿 を割り当てる際にその精度を上げる工夫を行い、新規 の投稿が、ユーザの興味のあるトピックであった場合に はその投稿をレコメンドするというように、未知デー タにも対応できるシステムを実装している。この研究 では提案手法と LDA のみによる興味推定、情報推薦を 行った場合について、それぞれ、被験者に興味の有り 無しを付与してもらったデータを正解として用いて比 較を行っている。その結果、LDA のみによる推薦より も提案手法のほうが有効であったことを示している。 ユーザ自身の投稿情報からユーザの嗜好を推定でき るため非常に精度の高いレコメンドが可能であると考 えられるが、HOME’S サイトでは、現在、アイテムに 対してユーザの嗜好を付与するために必要な情報が無 いため、実現が難しい。3
提案
先に述べたように、HOME’S 注文住宅サイトでは ASP によって提供されるレコメンドエンジンの機能で は不十分であった。 そのため、本件研究では注文住宅サイトで選択可能 なアイテムと、それらが持つ特徴キーワードから、ユー ザに、閲覧中のアイテムと類似したアイテムをレコメ ンドするための機能を提案する。 HOME’S 注文サイトでは、扱うアイテムは次の 4 つ のカテゴリに分類される(図 1)。 図 1: HOME’S 注文住宅サイトの検索トップページ 住宅カタログ(カタログ)、住宅メーカー(会社)、 施工事例(事例)、見学会・住宅イベントである。しか し、見学会・イベントのカテゴリからは物件の情報が 得られないため除外し、カタログ、会社、事例の 3 つ のカテゴリを本研究の対象とした。どのカテゴリから 検索を行うのかをユーザが選択し、次にユーザが家を 建てたいエリアにさらに絞り込んでアイテム検索を進 めていく。 HOME’S 注文住宅サイトでは、検索時に絞り込み可 能な図 2 のようなサブカテゴリ(性能、エコロジーな ど)が存在し、ユーザが選択可能なキーワード(高気 密・高断熱住宅、省エネ住宅など)がサブカテゴリに 分類されている。これらのキーワードがアイテムに付 与されている。 以上の状況から、個々のアイテムが持っているキー ワードを利用して、トピックモデルによりアイテムの図 2: HOME’S 注文住宅サイト、検索サブカテゴリ・ キーワード抜粋 縮約ベクトル表現を求め、ベクトル間の距離により、閲 覧されたアイテムと距離が近いアイテムをレコメンド するという方法を提案する。 なお、実際にこの手法に従ってアイテムをレコメン ドする機能を実装し、既存のサービスとの置き換えを 行った結果についても後述する。
3.1
提案詳細
カテゴリ、会社・カタログ・事例に属する個々のアイ テムは、それぞれ最大 5 つのキーワードを持つ。キー ワードは全 49 個(2012 年 12 月現在)である。それら を表 1 に示す。 各アイテムとキーワードの関係をアイテムを文書、 キーワードを単語とみなして、LSI(Latent Semantic Indexing)によりトピックモデル解析を行う。 全キーワードをダミー変数として、各アイテムがそ のキーワードを含む場合 1、含まない場合 0 という 49 次元のベクトル表現を用いる。 カテゴリが会社の場合の会社・キーワード行列はおお よそ 2,200×49、カタログの場合のカタログ・キーワー ド行列はおおよそ 57,00×49、事例の場合の事例・キー ワード行列はおおよそ 3,600×49 次元であった。 こうして得られた行列を LSI を用いて 10 次元に圧縮 し、カテゴリごとの全アイテム数×10 次元のベクトル を得ておく。 この 10 次元のベクトルを用いて、アイテム間のコサ イン類似度を計算し、ユーザが閲覧したアイテムと類 似度の高い順に推薦アイテムを決定する。3.2
提案システム
3.1 節で述べた類似度を利用して、あるアイテムが閲 覧された時にそのアイテムと類似度が高いアイテムを ユーザにレコメンドする仕組みを実装した。 表 1: キーワード 無垢の木材 リビング・ダイニング 地域の木材 キッチン 自然石 サニタリー レンガ 地下室 自然素材 ガレージ 健康住宅 2 世帯 省エネ住宅 ペット共生 オール電化 ローコスト ソーラーハウス 高級 和風 高気密・高断熱 輸入住宅 耐震性 3 階建て 防音・遮音性 大空間 防犯 地下室 耐久性 屋上 24 時間換気システム 中庭 (パティオ) 通風 店舗併設 採光 階段 トップライト ロフト バリアフリー 和室 外観デザイン 平屋 内装デザイン 輸入住宅 生活動線デザイン 3 階建て 狭小敷地 サンルーム エクステリア 収納・ウォークインクローゼット また、類似度の高さ以外にも、次のようなことを考 慮し、システム要件に追加した。 1. 施工会社が対応不可能なエリアのアイテムをレコ メンドしても意味が無いため、都道府県ごとに類 似度行列を求めることとした。 2. 既にユーザが閲覧したアイテムを除外する。 3. 既存システムへの変更影響を極力少なくする。 システム概要を、カテゴリが事例の場合の処理を例 に、簡単に示す(図 3)。 図 3 の色のついた処理・データが新規に追加したも ので、中間データ(キーワードリスト)などを使い、既 存の処理にあまり影響を及ぼすことが無いように工夫 して機能追加を行った。 処理の流れは次のようになっている。 1. 各アイテムの情報(事例テーブル)と、各アイテ ムが持つキーワード(キーワードテーブル)か ら、県別にアイテムキーワードファイル(都道府図 3: システム概要(例:事例) 県別 事例・キーワードリストファイル)を作成 する。 ※対応可能都道府県が全国のアイテムは、すべて の都道府県ファイルに出現する。 2. 作成された都道府県別 事例・キーワードリスト ファイルを取り込み、類似度行列計算モジュール で、先の方法によりアイテムごとに類似度を計算 し、県別にアイテム間の類似度行列を作成する。 3. 計算を行った結果を道府県別事例・距離行列リス トファイルに保持する。 4. 作成された道府県別事例・距離行列リストファイ ルから、事例・距離ランクテーブルにデータを取 り込む。 1∼4 の処理を、サイトの参照数が少ない時間に毎日 バッチで行っておく。ユーザが閲覧している事例と住 所情報を基に、事例・距離ランクテーブルから検索を 行い、閲覧中のアイテムと類似度が高くかつユーザが まだ見ていないアイテムを抽出し類似度が高い順にレ コメンド枠に表示する。
4
検証結果と考察
前節で述べたシステムを実際にサービスインした結 果、ユーザの動きにどのような影響を与えたのかを、以 前のレコメンドエンジンの実績と比較し検証を行う。 レコメンドしたアイテムのクリック割合と、レコメ ンドしたアイテムを経由したユーザの行動について図 4 に示す。 比較した指標は次の 2 つである。一つ目は、ユーザ のレコメンドアイテム利用率(ユーザ一人当たり、レ コメンド機能により提案されたアイテムをクリックし た割合であり、クリック数をレコメンド回数で割った 値)である。 そして二つ目は、レコメンドアイテム経由の反響割 合(レコメンド機能により提案されたアイテムを経由 して反響を行ったユーザの割合)である。あるアイテ ムを取り扱う施工会社に問合せを行うことを以下反響 と呼ぶ。 図 4: レコメンド機能リリース前後比較 図 4 の左側の 2 本の棒が、ユーザのレコメンドアイテ ムの利用率を示している。左側が本提案手法のリリー ス前、右側がリリース後である。 2015 年 7 月に本機能のリリースを行ったが、それ以 前の 2015 年 4 月∼6 月の月平均のユーザのレコメン ドアイテム利用率が 10.9%であったのに対し、リリー ス後の 2015 年 7 月∼2015 年 3 月の同数値の月平均は 33.3%と 3 倍以上となった。 次に、図 4 の右側の 2 本の棒が、反響した全ユーザ 数のうち、レコメンドアイテム経由後に反響を行った ユーザ数の割合を示している。左側がリリース前、右 側がリリース後である。 リリース前のレコメンドアイテム経由の反響が HOME’S 注文サイト全体の反響に占める割合は 4.9%であったの に対し、リリース後にはその数値が 11.8%と、こちら も 2.5 倍近い数値となった。 以上のことから、ユーザの行動履歴にたよらずアイ テムとキーワードの関係性から導出されるアイテム間 の類似度を利用したレコメンドは、ユーザに受け入れ られやすく、納得のいくレコメンドが実現できるよう になったと考えられる。5
まとめ
一般的なショッピングサイトと比較して、扱うアイ テムの性質が大きく異なる、注文住宅のポータルサイトに適したレコメンド手法を提案した。 同じアイテムが存在しないことなどから、他のサイ トで利用されているような協調フィルタリングの手法 は適用できなかったため、各アイテムが複数のキーワー ドを持っている性質を利用して、トピックモデル解析 によってアイテム間の類似度を算出し、ユーザに閲覧 されているアイテムと類似度の高いアイテムをレコメ ンドする方法を提案した。 さらに、その手法でアイテムをレコメンドする機能 を実装し、実サイトで運用を行いユーザに利用しても らった。 その結果、ユーザ一人あたりが本レコメンド機能に よりレコメンドされたアイテムを閲覧する割合は、以 前のレコメンドエンジンと比べ、10.9%から 33.3%と 3 倍以上となった。 また、レコメンド機能によりレコメンドされたアイ テムを閲覧し反響に至るユーザの割合が、以前のレコ メンドエンジンでは 4.9%であったのに対し、本レコメ ンド手法では 11.8%と 2.5 倍程度に増加した。 よって、トピックモデルにより算出される類似度に 従ってアイテムをレコメンドすることが、注文住宅ポー タルサイトにおいて有効であることを示せた。
参考文献
[1] Thomas Landauer, P. W. Foltz, D. Laham: In-troduction to Latent Semantic Analysis,
Dis-course Processes, No. 25, pp. 259-284(1998)
[2] David M. Blei: Latent Dirichlet Allocation,
Journal of Machine Learning Research,, Vol.3,
pp.993-1022(2003)
[3] Thomas Hofmanni: Probabilistic Latent Seman-tic Analysis, UAI, 1999: 289-296(1999)
[4] David M. Blei, John D. Lafferty: Dynamic Topic Models, Proceedings of the 23rd international
conference on Machine learning, ACM, 2006. p.
113-120(2006) [5] 西尾義英, 藤井絵美子, 安松健: Web サイト閲覧行 動のモデリングと評価, 人工知能学会全国大会論 文集, No. 28, pp. 1-4(2014) [6] 渡邊恵太, 加藤昇平: トピックモデルと協調フィル タリングに基づくユーザ興味を反映した情報推薦 システム, 人工知能学会全国大会, 2M3-4, (2014)