重複レシピの自動検知によるユーザ投稿型レシピサービスのユーザビリティ向上

(1)

1．は

じめに

近年の SNS の普及に伴い，サービス利用者であるユーザが，同時に情報を提供するユーザ投稿型のさまざまなサービスが運用されて，幅広く利用されている．料理分野についても同様であり，以前は料理本や雑誌などの書籍，あるいは，料理番組を見ることで料理のつくり方を知る方法が一般的であったが，近年ユーザ投稿型レシピサービス（以下レシピサービスとする）が普及してきており，料理をする際，あるいは料理の献立を検討する際に，レシピサービスを調べるケースが増加している．実際，クックパッドによる調査では，料理をする際に最も参考にする情報源として，レシピサイトがあげられている＊1_．レシピサイトを利用するユーザの増加と同時に，レシピサイトに多数のレシピが投稿されるようになり，2018 年 8 月現在，クックパッド＊2_{には約 295 万レシピ，楽} 天レシピ＊3_{には約 152 万レシピが投稿されており，多} 種多様なレシピを参照できる．多くのレシピ投稿ユーザが，自ら考案したレシピ，あるいは既存のレシピをもとにしてアレンジを加えたレシピ（アレンジレシピ）を投稿し，それらを他のユーザに伝えるというレシピサービスを本来の用途で用いる一方で，ごく一部の悪意のあるユーザは，レシピ投稿数に応じて得られるインセンティブなどを不正に獲得するという本来の用途とは異なる用途でレシピを投稿している．この場合は，より多くのインセンティブを容易に得るために，既存のレシピをそのままコピーしたり，一部を改変するだけで投稿する戦略をとることが多い．実際に，材料，調理手順，料理画像が，既存のレシピと完全一致もしくはほぼ同一とみなせるオリジナリティがないレシピ（重複レシピ）が，同一のレシピデータベースに登録されている [久保 16]．重複レシピは，著作権侵害に当たる可能性があるだけではなく，レシピ検索結果の多様性を妨げたり，レシピのレコメンダシステムのクオリティを下げるなど，レシピを検索するユーザに不利益をもたらす．したがって，重複レシピや，重複レシピを投稿しているユーザを自動的に検知し，それらをレシピデータベースから削除をすることは非常に重要である．このような背景のもと，本稿では，重複レシピにはどのような特徴があるか，そしてどのように重複レシピを自動的に検知するかについて，紹介する．重複レシピ検知タスクと類似するタスクとして，剽窃レポート検知タスク [深谷 04, 小高 03, 高橋 07]，重複 Web ページ検知タスク [Henzinger 06, Manku 07, Theobald 08]，重複 tweet 検知タスク [Tao 13, Zhang

13]があげられる．剽窃レポート検知とは，オリジナ

ルのレポートや Web ページに記載されている情報をコピー・剽窃して生成された剽窃レポートを自動的に検知

重複レシピの自動検知によるユーザ投稿型

レシピサービスのユーザビリティ向上

Improving Usability in Recipe Services with Detecting Near Duplicate

Recipes

平手　勇宇

楽天株式会社楽天技術研究所

Yu Hirate Rakuten Institute of Technology, Rakuten, Inc.

[email protected], http://rit.rakuten.co.jp/

関　　洋平

筑波大学図書館情報メディア系

Yohei Seki Faculty of Library, Information, and Media Science, University of Tsukuba. [email protected], http://cu.slis.tsukuba.ac.jp/

Keywords:

fraud detection, near duplicated recipe detection, similar food image detection, user behavior data analysis. 「料理情報の知的処理」＊1 クックパッド，料理に関する意識・実態調査を実施，https:// info.cookpad.com/pr/news/press_2013_0723（2018 年 9月取得）＊2 https://cookpad.com ＊3 https://recipe.rakuten.co.jp

(2)

することを指し，教育の分野での適用が進められている．重複 Web ページ検知は，Web クローラのクローリングを効率化することなどを目的とし，重複する Web ぺージや Web サイトを検知するタスクである．また，重複 tweet検知タスクは，オピニオンマイニングなど，ソーシャルデータを対象としたデータ解析の正確性を向上することを主な目的とし，冗長な tweet を検知するタスクである．しかしながら，重複レシピ抽出タスクは，レシピデータが，料理画像，料理タイトル，材料，調理手順など，料理に特化した要素で構成された構造データである点において，これらの類似するタスクとは異なる．したがって，重複レシピの抽出タスクにおいては，レシピデータの特性に特化した抽出手法を構築することが重要である．本稿では，以下のような構成をとる．2 章にて，実際に投稿された重複レシピの例を示す．3 章にて，重複レシピの抽出手法の概要を紹介する．4 章では，現存する手法の課題点と，今後の方向性について議論する．

2．

重複レシピの例

本章では，具体的にどのような重複レシピが投稿されているのか，重複レシピにはどのような傾向があるのかを，実際の例を用いて紹介する． 2･1 完全重複レシピ完全重複レシピとは，図 1 に示すように，既存のレシピと材料，調理手順が完全に一致するレシピ，あるいは，図 2 に示すように料理画像が一致するレシピを指す．完全重複レシピは，登録済みのレシピ情報をコピーして生図 1 材料・調理手順が一致しているレシピペアの例図 2 料理画像が一致しているレシピペアの例

(3)

成されるため，レシピのオリジナリティは存在しない．また，コピー元が他のユーザが投稿したレシピであった場合には，著作権侵害に当たる可能性がある．そのため，完全重複レシピは，レシピデータベースから除外すべきである． 2･2 部分重複レシピ部分重複レシピとは，材料，調理手順，料理画像などが完全に一致しないものの，類似しているレシピのことを指す．ただし，部分重複レシピといっても，既存のレシピとの類似性が低く（改変の度合いが高く），明確な差異がある場合には，そこにオリジナリティが存在するアレンジレシピと考えられるが，類似性が高い（改変の度合いが低い）場合には，悪意をもって既存レシピがコピー・投稿されたと考えられる．そのため，部分重複レシピにおいても，類似性が高い場合には，レシピデータベースからの削除を検討すべきである．ここで，島田らは [島田 17] において，テキスト情報（料理タイトル，料理カテゴリー，材料，調理手順）を対象とし，部分重複レシピにはどのような類似性があるのかを体系化し，部分重複レシピを，表 1 に示す四つのパターンに分類した．さらに [島田 17] では，短時間に多数のレシピを投稿するユーザを対象に，表 1 のどのパターンの部分重複レシピを投稿したかについて調査した＊4_．その結果，図 3 に示すように，68.0％の部分重複レシピが，「部分重複 B」に分類された．部分重複 B の典型的なパターンを図 4 に示す．また，料理画像に改変を施した部分重複レシピも存在する．料理画像に改変を施す場合には，図 5 に示すように，元料理画像から色合いを変化させる，一部分の矩形を切り取る，回転あるいは反転させるなどの手段がとら＊4 部分重複レシピのパターンは，複数の判定者によって人手で判定した．判定者 4 名の間の一致度（Fleiss’s kappa）は， 0.737であった．図 4 部分重複 B のレシピ例：食材改変と，改変した食材に該当する調理手順に改変を施したレシピ図 3 同一ユーザによって投稿された部分重複レシピのパターン分布 [ 島田 17] 表 1 部分重複レシピのパターン [島田 17] 部分重複 A 材料に軽微な差異はあるものの，調理手順が完_{全に一致している部分重複レシピ} 部分重複 B 材料に軽微な差があり，調理手順にオリジナリティがない変更が加えられている部分重複レシピ部分重複 C 材料に軽微な差があり，かつ，調理手順にオリジナリティのある変更が加えられている部分重複レシピ部分重複 D 料理名・材料リスト・料理名・登録カテゴリーに異なりがあるが，調理手順に類似性が見られる部分重複レシピ図 5 料理画像が類似しているレシピペア

(4)

れる場合が多い．

3．

重複レシピ抽出手法

ここでは，2 章で示したような重複レシピを自動的に抽出する手法を紹介する． 3･1 調理手順の文字列の類似性による重複レシピ抽出アプローチ久保らは [久保 16] において，テキスト情報の類似性に着目することで重複レシピを抽出する手法を提案した．レシピデータには，テキスト情報として，料理名，材料，調理手順が存在するが，調理手順のテキストデータを利用している．具体的な手法は，以下のとおりである． 1）各レシピに対して，調理手順を結合した文字列を生成する． 2）生成した文字列から n-gram 文字列を抽出し，レシピの n-gram 文字列集合を生成する． 3）レシピペアに対して n-gram 文字列集合の Jaccard 係数を計算する． 4）Jaccard 係数が高いレシピペアのうち，投稿時間が遅いほうを重複レシピとする．なお，調理手順の記述に用いられる材料や調理方法，レシピ特有の言い回しには表記の揺らぎが存在する．そこで，その特徴を用いて，重複レシピの見掛け上の差分を容易につくる方法がよく用いられる．例えば，表 2 の〈1〉，〈2〉のように，複数の材料や調理途中の中間生成物を記号文字に置き換え，調理手順を簡潔に表現する方法が幅広く使われているが，その記号文字列を異なる記号に改変するケース，表 2 の〈3〉のように，調理手順番号にずれが生じているが調理手順は同じであるケースがある．また，表 2 の〈4〉，〈5〉のように，文字列としては異なるが，同じ意味またはとても似ている材料・調理手順であるケースがある．手順 1 の結合文字列を生成する際に，これらの要素をノーマライズしておくと，より多くの重複レシピを抽出することができる． 3･2 料理画像の類似性による重複レシピ抽出アプローチ料理画像の類似性も重複レシピを抽出するにあたり有効な手掛かりとなる．基本的には，料理画像から特徴量を抽出し，抽出した特徴量のコサイン類似度を計算することによって類似する画像を抽出する．特徴量生成には， SIFT特徴量[Lowe 04]などの静的な特徴量を利用する方法が考えられるが，2 章で示したような改変が行われることを考慮し，画像認識モデルを用いると有効性が高い． [小邦 18] では，学習済みの Inception-v3 モデル [Szegedy 16]を用いることで料理画像から特徴量を算出している．また，Inception-v3 モデルをもとにして，クックパッドに登録されている料理画像およびその料理カテゴリー情報を学習させ，類似料理画像の検索性能を向上させる取組みも報告されている＊5_． 3･3 レシピ投稿時間の局所性による重複レシピ抽出アプローチレシピ投稿時間の局所性，すなわちユーザがあるレシピを投稿してから，次のレシピを投稿するまでにどの程度の時間をかけたのかという観点で，重複レシピを検知するアプローチも有効である．これは，人が単位時間あたりに生成できる情報量は限られているため，短時間に多数のオリジナリティがあるレシピを投稿することは不＊5 レシピの画像検索に必要な技術，https://techlife. cookpad.com/entry/2018/08/28/162000（2018 年 9 月 6 日取得）表 2 調理手順における類似表現 [久保 16] 記号文字列の改変〈1〉片栗粉をまぶしたエビを両面焼き，端っこで●も炒める．片栗粉をまぶしたエビを両面焼き，端っこで★も炒める．〈2〉お鍋にたっぷりお水を入れ①，②（ジャガイモは後で…）を入れ煮込む．お鍋にたっぷりお水を入れ【1】，【2】（ジャガイモは後で…）を入れ煮込む．調理手順番号のずれ〈3〉 7に 5 のホワイトソースを加え，さらに煮込みます． 6に 5 のホワイトソースを加え，さらに煮込みます．調理方法の変更〈4〉きゅうりを小口切りにし，塩少々（分量外）をふり 5 分ほどおき，水気を絞る．きゅうりを薄切りにし，塩少々（分量外）をふり 5 分ほどおき，水気を絞る．材料の変更〈5〉じゃが芋は小口切りにし水に 10 分さらす．新じゃがは小口切りにし水に 10 分さらす図 6 レシピ投稿間隔の分布

(5)

可能であるという経験則に基づくものである．図 6 に，楽天レシピにおける同一ユーザによるレシピの投稿間隔の分布を示す．図 6 の左側（レシピ投稿間隔が 120 秒以内）の領域に異常な分布を観測することができ，実際に無視できない量のレシピがとても短い投稿間隔で投稿されていることが確認できる．この値域に該当するユーザ行動の典型的な例を表 3 に示す．表 3 に示すユーザは，39 分間に 37 レシピを投稿している．このように短時間に多数投稿されたレシピは，オリジナリティが低い重複レシピである可能性が高い．[島田 17]や [小邦 18] では，重複レシピを抽出するための最初のフィルタリング条件として，レシピ投稿間隔に関する条件を適用させている． 3･4 複数アプローチの併用 3･1 ∼ 3･3 節において，料理手順の類似性，料理画像の類似性，投稿時間の局所性による重複レシピ抽出アプローチを紹介したが，単一のアプローチによって，悪意に基づく重複レシピであると決定付けることは困難であるケースがある＊6_{．このようなケースに対応するために，} 3･1 ∼ 3･3 節で示した複数のアプローチを併用し，多角的に評価することによって，悪質な重複レシピと結論付けることが必要である．実際に [小邦 18] では，3･1 ∼ 3･3 節のすべてのアプローチを併用し，重複レシピを抽出する手法を提案している．

4．

課題点と今後の方向性

3章で示したアプローチで数多くの重複レシピを抽出することが可能であるが，以下に示すような課題がある．【課題 1】文字列ベースの類似性に関する課題調理手順のテキスト文字列が短いレシピを対象とした場合，3･1 節の調理手順文字列の類似性による重複レシピ抽出アプローチでは抽出されにくい．これは，文字列長が短い場合，n-gram 文字列の集合による Jaccard 係数の値が小さくなる傾向があるからである．【課題 2】アレンジレシピとの区別オリジナリティのあるアレンジレシピは，レシピデータベースから除外すべきではない．そのため，オリジナリティのあるアレンジレシピと，オリジナリティのない重複レシピの判別をする必要がある．アレンジレシピも，調理手順や調理画像が類似している場合があるため，両者の判別が難しい場合がある．課題 1 に対しては，Jaccard 係数以外の評価軸を適用することで解決できる可能性がある．例えば，word2vec [Mikolov 13]，doc2vec [Le 14] などの分散表現を適用することで，材料，単語，調理手順の文章などにベクトルを与え，そのベクトルをもとに，レシピの類似性を計測するというアプローチが考えられる．さらには，料理画像の特徴量も併用して，multimodal な判定器を構築することも可能であり，重複レシピの検知性能の向上が期待できる．課題 2 に対しては，レシピデータや，レシピ投稿側のユーザ行動データだけではなく，レシピを検索，閲覧するユーザの行動データを参照する方法が考えられる．ユーザのレシピページ訪問回数，滞在時間はユーザの当該レシピへの興味度合いを推定する説明変数となり，レシピのオリジナリティの定量化に寄与すると思われる．また，近年，レシピサイトでは，レシピ画像だけではなく，調理手順を撮影した動画をアップロードできる機能が提供されている．レシピデータの要素の一つとして調理動画が加わった際に，重複レシピ抽出アルゴリズムがどうあるべきかについて，検討していく必要がある．謝辞本研究の一部は，科学研究費補助金基盤研究 B（課題番号 16H02913）の助成を受けて遂行された．

◇ 参考文献 ◇

[深谷 04] 深谷亮，山村毅，工藤博章，松本哲也，竹内義則：単語の頻度統計を用いた文章の類似性の定量化─部分的類似性の考慮─，信学論（D-2），Vol. J87-D-2, No. 2, pp. 661-672（2004） [Henzinger 06] Henzinger, M.: Finding near-duplicate web pages: A large-scale evaluation of algorithms, Proc. 29th Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval（SIGIR’06）, pp. 284-291（2006） [久保 16] 久保遥，関洋平：投稿型レシピサイトを横断した重複

レシピの判別，第 8 回データ工学と情報マネジメントに関する フォーラム（DEIM 2016），C8-3（2016）

[Le 14] Le, Q. and Mikolov, T.: Distributed presentations of ＊6 レシピデータベースから削除するためには，「悪意がある」ことの証拠を投稿ユーザに提示する必要がある．悪意の証拠を用意できない場合は，レシピデータベースからの削除が困難になる場合がある．表 3 短時間に多数のレシピを投稿するユーザの例（12：55 ∼ 13：34 の 39 分間に 37 レシピを投稿）投稿時間料理名 2016/2/1 12：55 簡単フロランタン 2016/2/1 12：56 黒ゴマ味の焼きおにぎり 2016/2/1 12：58 白菜の豆乳ポタージュ 2016/2/1 12：58 のチーズ焼きカレー … … 2016/2/1 13：31 ほうれん草とりんごのスムージー 2016/2/1 13：32 ストロベリーチョコラスク 2016/2/1 13：33 車麩の南蛮 2016/2/1 13：34 レトルトカレーでカレー鍋

(6)

sentences and documents, Proc. 31st Int. Conf. on Machine Learning（ICML 2014）, pp. 1188-1196（2014）

[Lowe 04] Lowe, G. D.: Distinctive image features from scale-invariant keypoints, J. Computer Vision, Vol. 60, No. 2, pp. 91-110（2004）

[Manku 07] Manku, S. G., Jain, A. and Sarma, D. A.: Detecting near-duplicates for web crawling, Proc. 16th Int. Conf. on World Wide Web（WWW’07）, pp. 141-150（2007）

[Mikolov 13] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. and Dean, J.: Distributed representations of words and phrases and their compositionality, Proc. 26th Int. Conf. on Neural Information Processing Systems, Vol. 2, pp. 3111-3119（2013） [小高 03] 小高知宏，村田哲也，高建斌，諏訪いずみ，白井治彦，高橋勇，黒岩丈介，小倉久和：n-gram を用いた学生レポート評価手法の提案，信学論（D），Vol. J86-D-1, No. 9, pp. 702-705（2003） [小邦 18] 小邦将輝，島田理紗子，平手勇宇，杉山一成，関洋平：レシピの素性を用いた重複レシピ判別の検証，第 10 回データ 工学と情報マネジメントに関するフォーラム（DEIM 2018）， J2-2（2018） [島田 17] 島田理紗子，小邦将輝，平手勇宇，関洋平：重複する料理レシピを判別するためのコーパスの構築，ARG Web インテリジェンスとインタラクション研究会，第 11 回研究会，WI2-2017-25（2017）

[Szegedy 16] Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J. and Wojna, Z.: Rethinking the inception architecture for computer vision, Proc. IEEE Conf. on Computer Vision and Pattern Recognition（CVPR）, pp. 2818-2826（2016）

[高橋 07] 高橋勇，宮川勝年，小高知宏，白井治彦，黒岩丈介： Webサイトからの剽窃レポート発見支援システム，信学論（D）， Vol. J90-D, No. 11, pp. 2989-2999（2007）

[Tao 13] Tao, K., Abel, F., Hauff, C., Houben, G. J. and Gadiraju, U.: Groundhog day: Near-duplicate detection on twitter, Proc. 22nd Int. Conf. on World Wide Web（WWW’13）, pp. 1273-1284 （2013）

[Theobald 08] Theobald, M., Siddharth, J. and Paepcke, A.: SpotSigs: Robust and efficient near duplicate detection in large web collections, Proc. 31st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval （SIGIR’08）, pp. 563-570（2008）

[Zhang 13] Zhang, Q., Ma, H., Qian, W. and Zhou, A.: Duplicate Detection for identifying social spam in microblogs, Proc. 2013 IEEE Int. Congress on Big Data, pp. 141-148（2013） 2018年 10 月 22 日受理

著者紹介

平手勇宇（正会員） 2008年早稲田大学大学院理工学研究科情報・ネットワーク専攻博士後期課程修了．博士（工学）．早稲田大学メディアネットワークセンター助手を経て， 2009年楽天（株）楽天技術研究所入所．2018 年関西学院大学社会情報学研究センター客員研究員．現在，楽天（株）楽天技術研究所東京シニアマネージャー．データマイニング，自然言語処理，機械学習に関する研究に従事．情報処理学会，電子情報通信学会，日本データベース学会各会員．関洋平（正会員） 2005年総合研究大学院大学情報学専攻博士後期課程修了．博士（情報学）．同年，豊橋技術科学大学情報工学系助手．2008 年コロンビア大学客員研究員．2018 年シンガポール国立大学客員研究員．現在，筑波大学図書館情報メディア系准教授．自然言語処理，意見分析，情報アクセスの研究に従事．ACM， ACL，情報処理学会，電子情報通信学会，言語処理学会，日本データベース学会各会員．