• 検索結果がありません。

2 1 2 Summary Nowadays, blog type recipe portal site such as Recipe blog and user-generated recipe sites such as Cookpad become popular. It is easy fo

N/A
N/A
Protected

Academic year: 2021

シェア "2 1 2 Summary Nowadays, blog type recipe portal site such as Recipe blog and user-generated recipe sites such as Cookpad become popular. It is easy fo"

Copied!
40
0
0

読み込み中.... (全文を見る)

全文

(1)

甲南大学大学院 自然科学研究科 知能情報学専攻 修士論文No. 178

ユーザ投稿型レシピサイトにおける

酷似レシピクラスタリング手法

A Clustering Method for Extracting Closely Similar Recipes

in User-generated Recipe Sites

2016

3

花井 俊介

(2)

要旨

近年,レシピブログのようなブログ型レシピポータルサイトやクックパッドのようなユーザ 投稿型レシピサイトの普及に伴い,レシピの投稿,閲覧が容易になっている.例えば,レシピ ブログでは料理レシピや食に関する豆知識,健康に関する食材についてなどの情報の発信が行 われている.また,クックパッドでは材料や画像,料理手順等を書き込むことでコンテンツを 形成している.このように様々なユーザが食に関する情報を発信することにより,大量の情報 がレシピサイト上に存在するようになっている.そのため,情報が埋もれてしまうことや,意 思決定の妨げになってしまうことで,ユーザの求めるレシピを得る妨げとなっている.そこで 本研究では,2つのレシピ抽出手法を提案する.第1に,近年,生活習慣病の増加や食育の推進 により,食に対する健康意識が高くなっており,健康を目的としたレシピの取得が容易となっ てきている.しかし,それらのレシピは日常的に作る料理ではないことが多く,日々の食事で 習慣的に健康を意識した食事をとることは困難である.そこで,日常的に作る料理の食材の一 部を代替食材を用いることで,健康を意識したレシピの抽出を行う.第2にユーザ投稿型レシ ピサイトではユーザが自由にレシピを投稿できるため,剽窃されたレシピが投稿されることや 投稿されたレシピ同士が酷似することがある.このような剽窃されたレシピや酷似したレシピ が多数存在することは,情報過多を招くことにより,ユーザのレシピ検索の妨げとなっている. そこで,本研究ではユーザ投稿型レシピサイトにおける酷似レシピの抽出手法を提案する.こ れらにより,大量に存在しているレシピからユーザの求めるレシピの取得が容易になる.

Summary

Nowadays, blog type recipe portal site such as Recipe blog and user-generated recipe sites such as Cookpad become popular. It is easy for users to post and browse the information of food and recipes. For example, Recipe blog users post information such as trivia and health food. In the case of the Cookpad, the content is consists of ingredients list, images and cooking directions. Recipe cites are generated by many people, than much information exists on the recipe cites. Therefore, it is difficult to comprehend recipes. We propose two methods of how to extract recipe information from the internet. First, recently, people concern about food for the health-conscious is heightened. Therefore, it is easy for users to get the information of food for the health-conscious. However, these recipes may not be usually food, such as smoothie and potage. Therefore, we propose a method to extract alternative ingredients for health-conscious. Second, deliberately or accidentally, numerous closely similar recipes are posted among the user-generated recipes. These recipes cause information overload. In fact, they impede user’s recipe searches. We proposed a clustering method to extract closely similar recipes in user generated recipe sites. We propose a method to extract alternative ingredients of health-conscious and closely similar recipes from recipe cites. Therefore, it becomes easy to the user’s recipe search.

(3)

目 次

1 はじめに 1 2 関連研究 2 3 健康を意識した代替食材の発見手法 4 3.1 典型的な食材の抽出手法 . . . . 5 3.2 食材に含まれる栄養成分,栄養成分による効能の抽出手法 . . . . 6 3.3 過剰摂取することで悪影響を及ぼす成分の抽出 . . . . 8 3.4 食感の抽出手法 . . . . 9 3.4.1 ユーザ投稿型レシピサイトを用いた食感の抽出手法 . . . . 10 3.4.2 Web日本語Nグラムを用いた食感の抽出手法 . . . . 12 3.5 健康を意識した代替食材の抽出 . . . . 14 4 酷似レシピのクラスタリング手法 15 4.1 酷似レシピの特徴抽出のための比較実験 . . . . 16 4.1.1 ユーザ実験1:画像の有無による酷似レシピ比較実験 . . . . 16 4.1.2 ユーザ実験2:酷似レシピの特徴抽出のための比較実験 . . . . 17 4.2 酷似レシピ抽出のためのクラスタリング . . . . 20 4.2.1 料理名,調理法名を用いたクラスタリング . . . . 21 4.2.2 料理名,調理法,食材名,調味料を用いたクラスタリング . . . . 21 4.2.3 Repeated Bisection . . . . 23 4.3 プロトタイプシステム . . . . 23 4.4 実験 . . . . 24 4.4.1 実験1:クラスタリング手法の比較実験. . . . 24 4.4.2 実験2:S RF IIFのパラメータの決定 . . . . 26 4.4.3 実験3:提案手法の評価実験 . . . . 26 5 まとめと今後の課題 28

(4)

図 目 次

1 健康を意識した代替食材の発見手法:システムフロー . . . . 4 2 ブログ記事例 . . . . 7 3 実験データ例 . . . . 18 4 インターネットでレシピを検索する際の検索ワード . . . . 21 5 酷似レシピクラスタリング手法:システムフロー . . . . 22 6 Repeated Bisectionの概要 . . . . 23 7 プロトタイプシステム . . . . 25 8 適合率の分布 . . . . 31

(5)

表 目 次

1 料理ごとの典型的な食材 . . . . 6 2 食材に含まれる栄養成分 . . . . 8 3 栄養成分による効能 . . . . 9 4 過剰摂取ワード . . . . 9 5 過剰摂取することで悪影響を及ぼす成分 . . . . 10 6 投稿数が1,000件を超える食感系シズルワード . . . . 10 7 クエリとして用いた食材例 . . . . 11 8 ユーザ投稿型レシピサイトにおける食材ごとのDice係数の上位5件 . . . . 12 9 ユーザ投稿型レシピサイトにおける食材ごとの類似した食感の食材上位5件. . . 13 10 7グラムデータにおける食材ごとの出現頻度の上位5件 . . . . 14 11 7グラムデータにおける食材ごとの類似した食感の食材上位5件 . . . . 15 12 健康を意識した代替食材の抽出結果 . . . . 16 13 画像の有無での実験結果 . . . . 17 14 実験に用いたレシピ対 . . . . 19 15 クラスタリング手法の比較実験の条件. . . . 26 16 各クラスタの中心ワード上位3件 . . . . 27 17 S RF IIFのパラメータの決定のための実験条件 . . . . 28 18 適合率,再現率,F値 . . . . 28 19 料理名,調理法名を用いたクラスタリング結果 . . . . 29 20 料理名,調理法名,食材名,調味料名を用いたクラスタリング結果 . . . . 30

(6)

1

はじめに

近年,レシピブログ1やFOODIESレシピ2のようなブログ型レシピポータルサイトやクック パッド3や楽天レシピ4のようなユーザ投稿型レシピサイトの普及に伴い,レシピの投稿,閲覧 が容易になっている.例えば,レシピブログでは料理レシピや食に関する豆知識,健康に関す る食材についてなどの情報の発信が行われている.また,クックパッドでは材料や画像,料理 手順等を書き込むことでコンテンツを形成している.このように様々なユーザが食に関する情 報や料理レシピを発信することにより,大量の情報がレシピサイト上に存在するようになった. そのため,情報が埋もれてしまうことや,意思決定の妨げになってしまうことで,ユーザの求 めるレシピを得る妨げとなっている.そこで本研究では,2つの食に関する情報の抽出手法を提 案する. まず第1に,健康を意識した代替食材の発見手法を提案する.近年,メタボ検診(特定健康 診査・特定保健指導)や食育への取り組みにより,食に対する健康志向が高くなってきており5, 「風邪予防」や「便秘改善」のような健康を意識したレシピが数多く投稿されている.しかしな がら,このような健康効果を示す単語をクエリとして検索を行った場合,スムージーやポター ジュなど日常的に作る料理ではないことが多くなっている.また,同じ種類の料理が多く投稿 されており,料理のレパートリーが少ないため,健康効果を得るためには似た料理を毎日食べ なければならない.そこで,日々の食事をアレンジすることで健康効果を得ることが出来れば 手間が少なく,ユーザの負担も少ないと考えられる.また,食事の度に健康効果のあるレシピ を検索し,レシピを見ながら調理することは非常に手間のかかる作業である.例えば,対象と なる作る料理が「ハンバーグ」や「オムライス」のように一般的な料理の場合,レシピを見る ことなく調理することが出来るため,レシピを見ながら調理することは非常に面倒である.日 常的に作る料理の食材を代替するだけで健康効果が向上すると便利であると考えられる.そこ で本研究では,料理名と健康効果をクエリとしたとき,目的の健康効果を得ることができる代 替食材の提示システムの開発を目指す.例えば,クエリをハンバーグとダイエットとしたとき にハンバーグに一般的に使われる挽き肉を用いるより豆腐を用いた方がダイエットに効果的で ある.そのため,豆腐を代替食材として提示することでダイエット効果の向上を図る.本研究 では,このシステムを構築するために,ユーザ投稿型レシピサイト,ブログ型レシピポータル サイト,特許データから典型的な食材,食材に含まれる栄養成分,栄養成分による効能,過剰 摂取により悪影響を及ぼす成分,食材の食感の抽出を行い,他の食材との類似度計算を行うこ とで,「風邪予防」や「便秘改善」のような健康目的別に効果を見込める代替可能な食材を発見 する手法を提案する. 第2にユーザ投稿型レシピサイトにおける酷似レシピのクラスタリング手法を提案する.ユー ザ投稿型レシピサイトではユーザが自由にレシピを投稿できるため,剽窃または偶然に酷似し たレシピが投稿されることがある.例えば,クックパッド上で複数の食材名「鶏肉 玉ねぎ」 をクエリとして検索を行うと約46,000件ものレシピが提示される(2016年1月現在).しかし ながら,検索結果には酷似したレシピが多数存在している.このように酷似レシピが多数存在 することは,情報過多の一因となっている.また,酷似レシピを比較した場合,レシピの違い 1 レシピブログhttp://www.recipe-blog.jp/ 2 FOODIESレシピhttp://recipe.foodiestv.jp/ 3クックパッドhttp://cookpad.com/ 4 楽天レシピ http://recipe.rakuten.co.jp/ 5健康と食に関する意識調査-日清オイリオグループ http://www.nisshin-oillio.com/report/report/images/120723/120723.pdf

(7)

を理解するためにはそのレシピをよく理解する必要がある.これは,料理に携わる人の約半数 が「料理をすることが好きではない」と感じている[1]ことから,酷似レシピを比較することは ユーザにとって大きな負担になると考えられる.これらのことから,リアルタイムで検索結果 の酷似レシピを自動で分類し,提示するシステムがあれば便利であると考えた.そこで本研究 では,ページ構造と単語の重要度に基づき,酷似レシピをクラスタリングする手法を提案する. 具体的には,酷似レシピのクラスタリングに先立ち,レシピの比較実験を行い,酷似レシピの特 徴抽出を行った.実験により抽出した特徴とレシピのページ構造,単語の重要度に基づき,ユー ザの検索結果に応じて酷似レシピのクラスタリングを行い,その結果のクラスタの提示を行う. 以降,2章では関連研究について述べる.3章では健康を意識した代替食材の発見手法につい て,4章では酷似レシピのクラスタリング手法について述べる.5章ではまとめと今後の課題に ついて述べる.

2

関連研究

レシピ共有サービスの発展に伴い,レシピに関する研究が盛んに行われている.本章では,既 存のレシピ検索システム,代替食材,食の健康,レシピ間の類似度,調理手順の構造化,剽窃 の検出について述べる. 既存のレシピ検索サービス レシピ検索サイトにはクックパッドや楽天レシピに代表されるユーザ投稿型レシピサイトやマー クアップを用いたGoogleのレシピ検索システム6,独自のレシピを掲載しているネスレバラン スレシピ7やぐるなびレシピ8,ブログ形式で書かれたレシピブログなど,様々なレシピ検索サ イトが存在する.しかしながら,いずれのレシピ検索サイトにおいても新着順や人気順などの ソート機能やカテゴリで絞り込むといった検索方法が存在するが,代替食材の検索機能や類似 したレシピを分類する機能は存在していない. 代替食材に関する研究 代替食材に関する先行研究も数多く存在している.志土地ら[2] は,同一料理カテゴリ中の料理 レシピにおける特徴的な調理方法と食材との共起関係に基づいて,食材の類似度を算出するこ とによって,代替可能な素材を発見する手法を提案している.橘ら[3] は材料と調理器具に着目 し,典型的な要素との差異を抽出し,確信度を用いて代替関係を判定することでレシピの差異 要素を分類し,特徴パターンを用いてレシピを分類することで,ネーミングコンセプトの抽出 を行っている.野沢ら[4]は,調理手順中に出現する食材,調理法を特徴としword2vecを用い ることで,特定の食材に対して他の食材との類似度を算出することで,代替可能な食材の発見 を行っている.Teng ら[5]は食材ネットワークを用いた食材推薦システムを提案した.食材間 の関係を取得するために2つのタイプのネットワーク(食材補完,代替食材)の構築を行った. Forbesら[6]はレシピ推薦に行列因子分解法を適用した.実験結果から推薦精度の向上だけで なく,食材の代替や新たなレシピを作成することに有用であることを示している.しかし,い ずれの研究においても類似した調理方法と食材の組み合わせを用いて代替食材の発見を行って おり,健康のような目的に合わせた代替食材の提示や食感の類似などは考慮していない為,本 研究とは異なる. 6

レシピ検索-検索サービス- Google http://www.google.co.jp /landing/recipes/

7ネスレバランスレシピhttp://nestle.jp/recipe/ 8

(8)

食の健康に関する研究 食の健康に着目したレシピ推薦として以下のような研究がある.野田ら[7]はWeb から健康効 果と食材に関する知識を抽出することで検索語拡張を行い,ブログに対して検索を行うことで 健康効果のあるレシピが記載されているブログ記事の提示を行っている.しかし,これは健康効 果のあるレシピを抽出するものであり,既存のレシピに健康効果を付与するものではない.ま た,苅米ら[8] は健康的な食生活の支援を目的として,人々の日常の食事記録の可視化を行い, 栄養をバランス良く摂取できるレシピ推薦を行うシステムを提案している.また,Geleijnseら [9]はユーザの過去の食材の選択と栄養摂取量に基づいてレシピの提案を行い,パーソナライズ したレシピ推薦システムのプロトタイプの開発を行った.しかしこれは,栄養をバランス良く 摂取するための支援システムであり,「便秘改善」のような特定の健康目的のためのシステムで はなく,本研究とは異なる.Pinxterenら[10]はレシピにおいて重要な特徴を明らかにし,抽出 を行った.これらの特徴ベクトルに基づいて重み付き類似度を決定し,健康的なレシピに変更 できるようにしている.しかし,代替レシピを推薦して健康効果を得ている点で本研究とは異 なる.また,健康効果については言及されておらず本研究と異なる. 類似レシピに関する研究 レシピ間の類似度に着目した研究も多数存在する.福本ら[11]は,食材の分量を食材の重要度, 食品群ごとの平均分量によって重み付けし,それぞれのコサイン類似度を求め,コサイン類似 度を合算した値をレシピ間類似度としている.苅米ら[12] は,材料,手順,に着目し,コサイ ン距離,DPマッチングを用いることでレシピ間の類似を算出している.また,Wangら[13]は 食材や調理手順を用いてレシピのグラフ化を行い,レシピ間に類似したサブグラフが存在する ことを示している.Liら[14]はユーザの好みにあったレシピを抽出するため,料理レシピをグ ラフ化し,類似度を計算することでユーザごとの好みの食材,調理法を用いられている抽出す る手法を示している.しかしながら,これらの研究では食材,手順の考慮はされているが,レ シピの特徴を最も表していると考えられる,レシピタイトルついては考慮されていない.また, 料理ごとの特徴的な材料についても考慮されていない.本研究では主食材や主調味料,ページ 構造の各部ごとの役割や重要性,料理の種類ごとの食材の重要度を考慮し,レシピの分類を行 う点が異なる. 調理手順の構造化に関する研究 森ら[15]はレシピテキストを調理手順に変換することを目的としたレシピテキスト処理の問題 に対する機械学習手法を提案した.Kuoら[16]はレシピサイト上に存在するレシピ間の共起関 係を取得するためにレシピグラフを構築する手法を提案した.山肩ら[17]はレシピのフローグ ラフを作成することによって,複数のレシピから典型的な調理手順を抽出する方法を提案した. 本研究のユーザ実験により,酷似レシピの判断において調理手順は重要視されないことが分かっ た.そこで本研究では調理手順を用いず,ページ構造と単語の重要度に着目している点で異なる. 剽窃の検出 剽窃の検出について数多くの研究が行われている.高橋ら[18]は,Web検索機能とn-gramと 出現頻度を用いた剽窃評価機能,文章中の文字列が一定以上一致した部分にマークする剽窃箇 所特定機能を用いて剽窃レポート発見支援システムを提案している.光原[19]はコピー&ペー ストを制限した理想的なレポート作成モデルを提案し,このモデルに基づいてレポート作成支 援システムを提案している.上田ら[20]は,最小操作回数による編集距離,および圧縮比率に よる情報距離の2 つの手法を用いて類似性の判定し,剽窃レポートの検出を行っている.剽窃 はレポートのみならず,レシピサイト上でも数多く見受けられる.しかし,これらの研究はレ

(9)

図1: 健康を意識した代替食材の発見手法:システムフロー ポート等長文を対象としている.それに対し,レシピは比較的短文で書かれており,表現方法も 限られている.そのため,既存の手法で抽出することは困難である.本研究では,剽窃のよう な酷似したレシピの抽出を行うため,まず,酷似レシピの特徴の抽出を行い,ページ構造,単 語の重要度に基づきクラスタリングすることで抽出を行う.

3

健康を意識した代替食材の発見手法

本章では,日常的に作る料理の食材の一部を代替することで,「風邪予防」や「便秘改善」の ような健康効果が向上する代替食材を発見する手法を提案する.健康を意識した代替食材発見 の為に,以下のデータの抽出を行い,類似度計算を行うことで健康を意識した代替食材の発見 を行う. 典型的な食材 食材に含まれる栄養成分 栄養成分による効能 過剰摂取により悪影響を及ぼす成分 食材の食感 ここで,食材の食感を用いるのは,食材の代替を行う際,料理に違和感が出ないよう元の食材 に類似した食材である必要がある為である.提案手法の流れを以下と図1に示す. 1.ユーザはクエリとして料理名と健康効果を入力する. 2.クエリとして入力された料理に用いられる典型的な食材の抽出を行い,代替前の食材の候 補とする.

(10)

3.クエリとして入力された健康効果を向上させる成分,その成分の含有量の多い食材を抽出 し,代替食材候補とする. 4.クエリとして入力された健康効果に対して悪影響を及ぼす食材の抽出を行い,代替食材候 補から除外する. 5.代替前の典型的な食材と代替食材候補である健康効果を持つ食材の食感を抽出し,それぞ れの食感の類似度計算を行い,類似順に提示する.また,代替前の食材候補に入力した健 康効果に対して悪影響を及ぼす食材が含まれる場合は提示する. 以下,「典型的な食材」「食材に含まれる栄養成分」「栄養成分による効能」「健康効果に対して 悪影響を及ぼす食材」「食材の食感」の抽出手法について説明していく.

3.1

典型的な食材の抽出手法

本節では,代替前の食材候補を取得するためにクエリとして入力された料理に用いられる典 型的な食材の抽出を行う.同一種類の料理でも人によって用いる食材は異なるが,料理ごとに典 型的な食材が存在すると考えられる.例えば,カレーにちくわや納豆を用いる人もいるが,少 数であると考えられる.一方,玉ねぎや人参,じゃがいもなどは多くの人がカレーを調理する 際に用いると考えられる.本研究では,このような,ある料理において多くの人が用いるよう な食材を典型的な食材と呼び,代替前の食材候補とする.典型的ではない食材を代替すると提 示された場合,代替前の食材がなく,代替できないためである.例えば,カレーにおいて,典型 的な食材であるじゃがいもをかぼちゃに変更すると提示された場合,問題なく代替できる.し かし,ちくわのようにその料理において典型的でない食材をかぼちゃに代替すると提示された 場合,カレーにちくわを用いる人は少数であるため,代替前の食材が見つからず,代替を行う ことができない.このように代替前の食材が見つからないことを防ぐため,代替前の食材の候 補として典型的な食材を用いる.抽出手法を以下に示す. 1.ユーザ投稿型レシピサイトに投稿されているレシピを料理の種類ごとに分類し,食材(調 味料を除く)を抽出する. 2.分類した料理の種類ごとの食材の使用頻度と1レシピ当たりの平均食材使用数nを算出 する. 3.使用頻度の上位n件の食材を取得し,典型的な食材とする. 調味料を代替した場合,その料理の味に大きく変化を及ぼす可能性があるため,調味料を除い た食材を用いる.以下に抽出した典型的な食材について述べる. データセット 典型的な食材の抽出のためのデータには楽天データセット9の料理レシピ約44万件を用いた.ま た,料理ごとの分類のための料理名には基本のレシピ10010に掲載されている料理名(デザート と飲み物を除く)90種類を用いた. 9 楽天データセット http://www.nii.ac.jp/dsc/idr/rakuten/rakuten.html 10基本のレシピ100 -プロから学ぶ簡単家庭料理 シェフごはん http://chefgohan.gnavi.co.jp/base100/

(11)

表 1: 料理ごとの典型的な食材  料理名   典型的な食材   料理名   典型的な食材  玉ねぎ ピーマン 人参 牛肉 カレー じゃがいも 青椒肉絲 豚肉 にんにく たけのこ 牛肉 にんにく  料理名   典型的な食材   料理名   典型的な食材  玉ねぎ じゃがいも 牛肉 ポテト きゅうり 牛丼 ご飯 サラダ ハム 卵 人参 −  玉ねぎ  抽出結果 抽出した料理の種類ごとの典型的な食材の一部を表1に示す.表1より,どの料理においても その料理において典型的な食材として適切と考えられる食材が抽出されている.典型的な食材 は使用頻度が極端に高くなるため,料理の種類ごとにレシピを分類し,食材の使用頻度を求め たことによって,典型的な食材が適切に抽出されたと考えられる.青椒肉絲は通常,豚肉が用 いられるが「牛肉」と「豚肉」の2種類の肉が抽出されている.牛肉を用いた場合は青椒牛肉 絲と呼ばれるが,日本では牛肉を用いた場合においてもこれらを区別せず,青椒肉絲と呼ぶこ とが多いため,「牛肉」と「豚肉」が共に抽出されたと考えられる.料理によっては地域性など によって,典型的な食材が異なるため,青椒肉絲における牛肉と豚肉のように同時には用いな い食材も典型的な食材として同時に取得されることが分かった.

3.2

食材に含まれる栄養成分,栄養成分による効能の抽出手法

本節では,健康効果の向上を見込める食材の抽出のために,食材に含まれる栄養成分,栄養 成分による効能の抽出を行う.ブログ型レシピサイトの特徴として,料理レシピだけでなく,調 理のコツや食材の豆知識のような食に関する情報が多く記載されることが挙げられる.ブログ 記事例を図2に示す.そこで本研究では,ブログ型レシピポータルサイトを用い,同一段落中 での食材名と栄養成分名との共起,栄養成分名と効能名との共起に着目し,食材に含まれる栄 養成分,栄養成分による効能の抽出を行う.以下に食材に含まれる栄養成分,栄養成分による 効能の抽出手法を示す. 1.対象ブログ記事を段落ごとに分割する. 2.段落ごとに食材名と共起している栄養成分名,栄養成分名と共起している効能名を正規表 現によるマッチングによって取得する. 3.ある閾値以上の共起頻度を持つものをそれぞれ,食材に含まれる栄養成分,栄養成分によ

(12)

図2: ブログ記事例 る効能とする.今回,実験により食材に含まれる栄養成分の閾値α=5,栄養成分による 効能の閾値β=50とする. 4.3で取得した食材に含まれる栄養成分,栄養成分による効能を用いて食材ごとの効能を決 定する. 以下に抽出した食材に含まれる栄養成分,栄養成分による効能について述べる. データセット 食材に含まれる栄養成分,栄養成分による効能の抽出のためのデータにはブログ型レシピポー タルサイト「レシピブログ」を用い,2013年10月1日から2014年9月31日までの1年間に 投稿されたアメーバブログ11の記事65,192件を用いた.また,本研究では,食材名には調味料 を用いない.調味料を代替するとその料理の味に大きく変化を及ぼす可能性があるためである. また,調味料は液体や粉末状であることが多く,食感を感じないためである.栄養成分名には 食品成分データベース12に記載されている成分名を用い,効能名はレシピブログから人手によ り収集した. 抽出結果 食材に含まれる栄養成分の抽出結果の一部を表2に示す.また,栄養成分による効能の抽出結果 を表3に示す. 表2より,レバーでは「鉄」や「タンパク質」,豆腐では「タンパク質」や「カ ルシウム」などその食材に多く含まれている成分が抽出されていることがわかる.また,表3よ 11http://ameblo.jp/ 12 http://fooddb.mext.go.jp/

(13)

表 2: 食材に含まれる栄養成分 食材名   含有成分   食材名   含有成分   鉄 タンパク質 カロテン カルシウム レバー タンパク質 豆腐 食物繊維 カルシウム 鉄 ビタミンA コレステロール 食材名   含有成分   食材名   含有成分   カロテン ビタミンC 食物繊維 鉄 人参 鉄 トマト 食物繊維 カリウム カロテン ビタミンB1  カルシウム  り,食物繊維では「便秘改善」や「美肌」,鉄では「貧血」や「骨粗鬆症」などその栄養成分に よる主な効能が抽出されていることがわかる.栄養成分について書かれたブログ記事は,食材 の効能について書かれたブログ記事であることが多いため,含有量の少ない栄養成分やあまり 効果の見込めない効果について記載されることは少ない.そのため,その食材に豊富に含まれ る栄養成分や栄養成分の主な効能が取得できたと考えられる.また,ブログ記事のように改行 を用いて段落を分ける場合,段落を少ない文章量で細かく分けることが多いため,同一段落中 に食材名と栄養成分名が同時に出現した場合,その食材に含まれる栄養成分である可能性が高 いと考えられる.そのため,誤った栄養成分が抽出されることが少なかったと考えられる.栄 養成分による効能についても同様であったと考えられる.

3.3

過剰摂取することで悪影響を及ぼす成分の抽出

本節では,過剰摂取することで悪影響を及ぼす成分の抽出を行う.食材に含まれる栄養成分 の中には過剰摂取することによって,悪影響を及ぼす成分が存在する.クエリとして入力され た健康効果に対して悪影響を及ぼす成分を持つ食材を優先して代替することが出来ればより健 康効果を見込めると考えられる.悪影響を及ぼす成分はレシピサイトやブログサイトに記載さ れていることが少なく,記載されていた場合においてもどの成分が悪影響を及ぼすか,過剰摂 取によってどのような影響(症状)があるか記載されていないことが多い.そこで本研究では食 に関する特許データに着目し,特許データから悪影響を及ぼす成分の抽出を行った.悪影響を 及ぼす成分の抽出は過剰摂取に関係する語(以下,過剰摂取ワードと呼ぶ)を用いて正規表現 のマッチングを行い,過剰摂取ワードを含む文を取得し,その後人手にて原因となる成分,そ の影響(症状)を取得した.過剰摂取ワードを表4に示す.以下に抽出した過剰摂取すること で悪影響を及ぼす成分について述べる. データセット 過剰摂取することで悪影響を及ぼす成分の抽出には特許データを用いた.特許データは,国際 特許分類(IPC)のサブクラスレベルで A23L(食品,食料品),A47J(台所用具),H05B(電気加

(14)

表3: 栄養成分による効能  栄養成分名    効能    栄養成分名    効能   便秘改善 貧血 美肌 骨粗鬆症 食物繊維 美容 鉄 疲労 ダイエット 抗酸化 ガン 便秘  栄養成分名    効能    栄養成分名    効能   疲労 美肌 夏バテ 風邪予防 ビタミンB1 風邪予防 ビタミンC 疲労 免疫力 免疫力 動脈硬化 ガン 表4: 過剰摂取ワード 過剰摂取ワード 過剰摂取,過剰な摂取,過剰に摂取,大量摂取, 大量に摂取,多量摂取,多量に摂取,摂り過ぎ 熱)が付与された料理分野の特許明細書(1994∼2009年公開特許公報)の91,736件を用いた. 抽出結果 抽出結果の一部を表5に示す.3.2節の栄養成分による効能と比較すると抽出された過剰摂取に よる悪影響は「高脂血症」や「動脈硬化」「腎臓疾患」のように具体的な病名であることが多い. これは,使用したデータによるものであると考えられる.栄養成分による効能を抽出したブロ グでは多くの人が悩みを抱えている症状であり,一般的に通院して治療するような症状でない ことに対しての効能が多く見受けられる.これに対して悪影響を及ぼす栄養成分を抽出した特 許データは,技術的に解決すべき課題として過剰摂取すると悪影響がある成分について記述さ れているため具体的な病名が多く抽出されたと考えられる.

3.4

食感の抽出手法

本節では,食材ごとの食感の抽出を行う.食材の代替を行う際,料理に違和感が出ないよう 元の食材に類似した食材である必要がある.そこで本研究では食感の類似に着目し,食材ごと の食感の抽出を行う.食感の抽出にはユーザ投稿型レシピサイト,Googleによる「Web日本語 N グラム第1版」[21]を用い「とろとろ」や「ぷりぷり」といった“ おいしさ ”を連想させる 食に関する言葉であるシズルワード[22]を用いて食材ごとの食感を抽出し,類似度計算を行う. 大橋ら[22]はシズルワードを味覚系,食感系,情報系という3つの領域に分類している.本研 究では,食感の抽出を行うにあたって食感系に分類されるシズルワード(以下,食感系シズル

(15)

表 5: 過剰摂取することで悪影響を及ぼす成分  栄養成分名   悪影響  肥満 高血圧 脂質 高脂血症 糖尿病 動脈硬化  栄養成分名   悪影響  高血圧 心疾患 ナトリウム 脳梗塞 腎臓疾患 動脈硬化 表6: 投稿数が1,000件を超える食感系シズルワード 食感系シズルワード あったかい,熱い,あつあつ,溢れる,かすかす,かりかり,軽い,くずれる,こしこし, こりこり,さくさく,さっくさく,さくふわ,さっくり,さらさら,しっとり,しゃきしゃき, ジューシー,しゅわしゅわ,新食感,すーすー,つぶつぶ,つるつる,つるん,とろーり, とろける,とろっと,とろとろ,とろり,なめらかな,ねっとり,ねばねば,歯応えのある, ぱさぱさ,はじける,はむはむ,ぱらぱら,ぱりぱり,ひえひえ,ぴりぴり,ひんやり, ふかふか,ぷちぷち,ふっくら,ふにふに,ふりふり,ぷりぷり,ぷりんぷりん,ふるふる, ぷるぷる,ふわさく,ふわっと,ふわとろ,ふわふわ,ふんわり,ほかほか,ぽかぽか, ほくほく,ほっくり,ほっこり,ほろっと,ほろほろ,みるきー,もちっと,もちもち, もっちもち,もちふわ,もっちり,もりもり,やわらかい ワードと呼ぶ)を用いる. 3.4.1 ユーザ投稿型レシピサイトを用いた食感の抽出手法 食感の抽出としてユーザ投稿型レシピサイトであるクックパッドを用いる.これはユーザ投 稿型レシピサイトは料理レシピに特化したサービスであり,食品以外の話題,適切でない表現 が少ないため食品とシズルワードとの共起が良好である[23]ためである.また,食感系に分類 されるシズルワードは240語存在するが,「いがいが」や「がんがん」のようにあまり馴染みの ない語も含まれる.そこで本研究では,クックパッド上で食感系シズルワードをクエリとし検 索を行い,投稿数が1,000件を超える食感系シズルワードを用いる.その食感系シズルワード は71語となった.その食感系シズルワードを表6に示す.食材名と食感系シズルワードを用い て食材の食感抽出を行う.その手順を以下に示す. (1) 食材名をクエリとしクックパッド上で検索を行い,最大で新着1,000件のレシピを取得す る.クエリとして用いた食材名の一部を表7に示す. (2) 各レシピタイトルに食材名,食感系シズルワードが含まれているか正規表現によるマッチ ングを行い,そのレシピ数を取得する. (3) 各食材名が含まれるタイトル件数,各食感系シズルワードが含まれるタイトル件数を用

(16)

表7: クエリとして用いた食材例 食材名 紫蘇,青りんご,アサリ,アスパラガス,アジ,小豆,アナゴ,アヒル,アボカド,アロエ, アワビ,アンコウ,鮟鱇,スルメイカ,イナゴ,イノシシ,イワシ,ウズラ,牛タン,牛肉, ウナギ,ウニ,ウメ,エシャロット,エゾシカ,エビ,ボタンエビ,オイカワ,大麦,カニ, カボチャ,カニカマ,カモ,カリフラワー,きくらげ,キャベツ,きゅうり,くじら,クリ, クランベリー,小女子,ゴボウ,小松菜,玄米,米粉,こんにゃく,しらたき,昆布, さくらんぼ,サザエ,ささみ,サツマイモ,サトイモ,フカヒレ,秋刀魚,...

い,Dice係数を算出する.ここでDice係数を用いたのは,加藤ら[24]の研究より,Dice 係数が食品とシズルワードの抽出を行うのに最も適していたためである. (4) 3で求めたDice係数を用い,代替したい食材とその他の食材との類似度を算出する. Dice係数は以下の式によって与えられる. dice(X, Y ) = 2|X ∩ Y | |X| + |Y | (1) このとき,Xは食材名が含まれるタイトル件数,Y は各食感系シズルワードが含まれるタイト ル件数である.また今回,類似度計算にはコサイン類似度,ユークリッド距離,マンハッタン 距離を用い比較を行った.それぞれの式を以下に示す. cosine(x, y) =xi, yi √∑ x2i√∑yi2 (2) euclid(x, y) =√∑(xi− yi)2 (3) manhattan(x, y) =|xi− yi| (4) このとき,xは代替したい食材と食感系シズルワードとのDice係数,yは他の食材と食感系シ ズルワードとのDice係数,iは食感系シズルワードの番号である.以下にユーザ投稿型レシピ サイトを用いて抽出を行った食材の食感について述べる. データセット 食感の抽出のためのレシピデータにはクックパッドを用い,食材名をクエリとし,取得した新 着最大1,000件のレシピタイトルを用いた.クエリとして用いた食材名は3.2節と同様に調味料 名を除いた食材名を用いた. 抽出結果 レシピデータを用いて,各食材名が含まれるタイトル件数,各食感系シズルワードが含まれる タイトル件数からDice係数を求めた結果の上位5件を表8に示す.表8より,えびでは「ぷり

(17)

表 8: ユーザ投稿型レシピサイトにおける食材ごとのDice係数の上位5件  食材名  食感系シズルワード Dice係数 ぷりぷり 0.035 ふわふわ 0.014 えび ふんわり 0.012 さくさく 0.006 かりかり 0.006  食材名  食感系シズルワード Dice係数 しゃきしゃき 0.146 もちもち 0.025 レンコン さくさく 0.022 ジューシー 0.019 ふわふわ 0.012  食材名  食感系シズルワード Dice係数 ジューシー 0.01 とろり 0.006 ピーマン しゃきしゃき 0.004 ふわふわ 0.004 もりもり 0.002 ぷり」,レンコンでは「しゃきしゃき」や「もちもち」のようにその食材の食感として適切と考 えられる食感を取得できていることがわかる.しかし,レンコンの「ジューシー」のような他 の食材や料理名と共起したと考えられる食感も上位に出現していることがわかる.  次にレシピタイトルに含まれる食材名と食感系シズルワードとのDice係数を用いて類似度計 算を行った結果を表9に示す.表9より,いずれの食材においても食感が類似している食材が 少なくなっていることがわかる.これは,えびのように食感のイメージがしやすい食材におい ても,「ふわふわ」や「さくさく」のようにその食材名ではなく料理名や他の食材名と共起した 食感系シズルワードをその食材の食感として取得したため,類似した食感を持つ食材を取得で きなかったと考えられる.また,レンコンは具材として使用している場合には「しゃきしゃき」 や「さくさく」という食感は適切であると考えられるがすりおろして使用した場合においては, 「もちもち」や「ふわふわ」という食感についてもレンコンの食感として適切であると考えられ る.このように食材の調理方法によって食感が大きく変わる食材であったため,類似した食感 を持つ食材を取得できなかったと考えられる. 3.4.2 Web日本語Nグラムを用いた食感の抽出手法 次に「Web日本語Nグラム第1版」[21]を用いた食感の抽出について示す.Nグラムは一般 に公開されている日本語のWebページの約200億文が抽出対象となっており,出現頻度20回 以上の1∼7グラムを収録している.本研究では食材名と食感系シズルワードを含む7グラム の出現頻度を用い,類似度計算を行う.類似度計算には3.4.1節と同様にコサイン類似度,ユー

(18)

表9: ユーザ投稿型レシピサイトにおける食材ごとの類似した食感の食材上位5件 食材名  コサイン類似度 ユークリッド距離 マンハッタン距離 ニラ 紫蘇 鰯 きくらげ 鱈 紫蘇  えび  高野豆腐 小松菜 あさり 紫蘇 高野豆腐 ちくわ オレンジ いかなご ししゃも 食材名  コサイン類似度 ユークリッド距離 マンハッタン距離 ひじき ひじき ひじき もやし ツナ ツナ レンコン 栗 小松菜 ブロッコリー もち米 紫蘇 紫蘇 米粉 たけのこ ピーマン 食材名  コサイン類似度 ユークリッド距離 マンハッタン距離 なす しいたけ ちくわ もも肉 なす アンチョビ ピーマン しいたけ もやし しいたけ スペアリブ 鰹 軍鶏 豚ロース 鰯 ヤシガニ クリッド距離,マンハッタン距離を用い比較を行った.以下に食材名と食感系シズルワードを 含む7グラムの出現頻度を用いた食材の食感の抽出について述べる. データセット Nグラムを用いた食感の抽出にはGoogleによる「Web日本語Nグラム第1版」[21]の出現頻 度20回以上の食材名と食感系シズルワードを含む7グラムデータ用いた.クエリとして用いた 食材名は3.2節と同様に調味料名を除いた食材名を用いた. 抽出結果 食材名と食感系シズルワードを含む7グラムデータを用いた食材ごとの食感系シズルワードの 出現頻度の上位5件を表10に示す.表10より,食材名と食感系シズルワードを含む7グラムを 用いた場合においても,食材ごとに適切と考えられる食感が抽出できていることがわかる.し かし,ピーマンの「とろける」のような不適切と考えられる食感も抽出されていることがわか る.これは,Dice係数を用いた食感の類似度と同様に食材名ではなく料理名や他の食材名に共 起したシズルワードをその食材の食感として取得しており,また調理方法によって食感が大き く変化する食材が存在するため食感が類似していない食材も抽出されたと考えられる.  次に食材名と食感系シズルワードを含む7グラムによる出現頻度を用いて類似度計算を行っ た結果を表11に示す.表11より,コサイン類似度では,えびとアンコウ,しめじの「ぷりぷ り」やピーマンとキャベツ,わかめの「しゃきっと」などのように元の食材と同様のシズルワー ドで表現されることが多い食材が抽出されていることがわかる.これは,食感系シズルワード ごとの出現頻度の値に大きな差があったため,類似した食感を持つ食材が取得できたと考えら

(19)

表 10: 7グラムデータにおける食材ごとの出現頻度の上位5件  食材名  食感系シズルワード 出現頻度 ぷりぷり 9178 ジューシー 2446 えび ほくほく 1331 やわらかい 833 ふんわり 870  食材名  食感系シズルワード 出現頻度 ぱりぱり 82 さくさく 76 レンコン もちもち 52 ねっとり 23 糸を引く 20  食材名  食感系シズルワード 出現頻度 しゃきっと 871 しんなり 355 ピーマン ふっくら 150 とろける 112 とろっと 66 れる.

3.5

健康を意識した代替食材の抽出

本節では,提案手法を用いた健康を意識した代替食材の抽出について述べる. データセット 料理名をカレー,健康効果をダイエット,また料理名を青椒肉絲,健康効果を便秘改善の2種 類のペアをクエリとして健康を意識した代替食材の抽出を行った.また,類似した食感の抽出 には食材名と食感系シズルワードを含む7グラムによる出現頻度を用い,類似度計算にはコサ イン類似度を用いる. 抽出結果 健康を意識した代替食材の抽出結果を表12に示す.表12より,カレーではクエリの健康効果で あるダイエットに対して過剰摂取すると悪影響を及ぼす食材として牛肉が抽出されている.ま た,青椒肉絲ではクエリの健康効果である便秘改善に対して,代替食材候補として,食物繊維 が多く含まれるゴボウやキャベツ,わかめなどが抽出されている.このことから,クエリの健 康効果を持つと考えられる食材が適切に代替食材候補として抽出されていると考えられる.ま た,どちらの料理においても野菜類の代替食材候補は適切に抽出されているのに対して,肉類 は不適切な代替食材候補が多くなっている.肉類は「ジューシー」や「あつあつ」といった食 感としては曖昧なシズルワードが食感として取得されていたため,適切でない代替食材の候補 が多かったと考えられる.また、どちらの料理においてもにんにくの代替食材候補として挙げ

(20)

表11: 7グラムデータにおける食材ごとの類似した食感の食材上位5件  食材名   コサイン類似度 ユークリッド距離 マンハッタン距離 カツオ カツオ カニ アンコウ ホタテ カツオ  えび  カニ カニ ささみ ボタンエビ イカ みかん しめじ キムチ 牛タン  食材名   コサイン類似度 ユークリッド距離 マンハッタン距離 きゅうり タコ タコ りんご さんま さんま レンコン 桃 水菜 水菜 ゴマ 平茸 鰊 数の子 たろいも レーズン  食材名   コサイン類似度 ユークリッド距離 マンハッタン距離 キャベツ にんにく にんにく わかめ バジル バジル ピーマン にんにく 椎茸 わかめ バジル わかめ 椎茸 ネギ かぶ 瓜 られている食材は適切ではない.これは,にんにくはすりおろしや細かく切って使用すること が多いため,食感の抽出が適切に行われなかったためであると考えられる.カレーでは健康効 果をダイエットとしたため代替食材候補として他の肉類が抽出されず,牛肉の代替食材として 不適切であると考えられるオレンジや,昆布などが代替食材の候補として抽出された.これは, 肉類には脂質が多く含まれるため,ダイエットに悪影響を及ぼすとして,代替食材候補から除 外されたためであると考えられる.また,カレーの玉ねぎの代替食材候補として人参,人参の 代替食材候補として玉ねぎが挙げられているがこれらの食材は互いに代替前の典型的な食材で あるため代替食材候補としては不適切である.これらの典型的な食材は代替食材候補から除外 しておく必要がある.

4

酷似レシピのクラスタリング手法

本章では,ユーザ投稿型レシピサイトにおける酷似レシピのクラスタリング手法を提案する. 現在,多くのクラスタリング手法が提案されているが,レシピページはタイトル,材料リスト, 調理手順,及びコメント等の独自のページ構造を持っており,各部の役割や重要性,意味は異 なるため,既存のクラスタリング手法で酷似レシピのクラスタリングを行うことは困難である. そこで本研究では,ページ構造と単語の重要度に基づき,酷似レシピをクラスタリングする手 法を提案する.

(21)

表12: 健康を意識した代替食材の抽出結果 料理名:カレー 健康効果:ダイエット 典型食材 代替食材候補 玉ねぎ 白菜,ゴボウ,なす,人参,ニラ 人参 玉ねぎ,白菜,アスパラガス,ゴボウ,なす じゃがいも さつまいも,椎茸,人参,なす,わかめ にんにく わかめ,バジル,椎茸,キムチ,さつまいも  ◎牛肉 マンゴー,オレンジ,昆布,梅,白菜 料理名:青椒肉絲 健康効果:便秘改善 典型食材 代替食材候補 ピーマン キャベツ,ゴボウ,わかめ,にんにく,バジル 牛肉 ベーコン,マンゴー,アボカド,バナナ,チーズ 豚肉 鶏肉,オレンジ,ベーコン,鰯,キャベツ たけのこ ししとう,栗,豆腐,パン,ブロッコリー にんにく わかめ,バジル,キャベツ,レモン,しいたけ   ◎:健康効果に対して悪影響を及ぼす食材

4.1

酷似レシピの特徴抽出のための比較実験

酷似レシピを抽出するに当たり,「ユーザがどのようなレシピ対を酷似していると認識してい るのか」,「類似していると認識する根拠は何か」を明らかにするために以下の2種類のユーザ 実験を行った. 画像の有無による酷似レシピ比較実験 酷似レシピの特徴抽出のための比較実験 以下,それぞれの実験について説明していく. 4.1.1 ユーザ実験1:画像の有無による酷似レシピ比較実験 酷似レシピを判断する上で画像の影響を調査するために画像の有無による酷似レシピの比較 実験を行った. 実験条件 被験者は,20代の男女8名である.比較に用いたレシピはクックパッドに掲載されている同一 種類の料理の内,酷似していると考えられるレシピを人手にて選出し用いた.提示したレシピ 対には以下の5つのタイプを用いた. レシピタイトルに含まれる食材名が異なるレシピ(例:「チキンカレー」と「ポークカレー」) レシピタイトルに含まれる調味料名が異なるレシピ(例:「醤油風味の唐揚げ」と「塩麹 で唐揚げ」)

(22)

表13: 画像の有無での実験結果 データセット 画像有り 画像無し タイトルに含まれる食材名が異なるレシピ 2.73 2.65 タイトルに含まれる調味料名が異なるレシピ 2.38 2.68 同一のタイトルで材料リストに含まれる食材が異なるレシピ 4.15 3.44 同一のタイトルで材料リストに含まれる調味料が異なるレシピ 4.58 4.43 主食材が異なるレシピ 2.55 2.50 同一のタイトルで材料リストに含まれる食材が異なるレシピ 同一のタイトルで材料リストに含まれる調味料が異なるレシピ 主食材が異なるレシピ 各タイプをランダムにそれぞれ5組ずつ,合計25組のレシピ対を提示した.提示したレシピ データはタイトル,作者のコメント,材料リストとした.提示したレシピが酷似していたかを5 段階(1:酷似していない,2:どちらかというと酷似していない,3:どちらともいえない,4: どちらかというと酷似している,5:酷似している)で評価した.次に,酷似レシピを判断する 上での画像の影響を調べるために,先の25組のレシピデータに画像を追加し,再度比較実験を 行った.この時,画像を含む実験は画像を含まない実験と同一のレシピデータを用いるため影 響を考慮し,連続で行わず後日行った. 実験結果 5段階評価の結果の平均を表13に示す.表13より,画像の有無によって酷似レシピの評価にあ まり差がないことがわかる.このことから,酷似レシピの判断において画像の有無による影響 は小さいと考えられる.また,レシピタイトルに含まれる食材名,調味料名が異なる場合,酷 似していないと判断していることがわかる.それに対して,タイトル中に含まれる食材,調味 料が一致している場合,材料中の食材,調味料が異なっていても,そのレシピは酷似している と判断していることがわかる.このことから,タイトルに含まれる語の一致が酷似レシピの判 断において重要であると考えられる. 4.1.2 ユーザ実験2:酷似レシピの特徴抽出のための比較実験 レシピページはタイトル,材料リスト,調理手順,及びコメント等の独自のページ構造を持っ ており,各部の単語の重要性は異なると考えられる.我々は,酷似レシピの判断における各部 の影響を判断するために酷似レシピの比較実験を行った. 実験条件 被験者は日常的に料理をする男女12名である.比較実験に用いたレシピ対にはクックパッドに 掲載されている同一種類の料理の内,酷似していると考えられるレシピを人手にて選出し,用 いた.レシピ対数は25組,計50レシピで行った.ユーザ実験1において酷似レシピの判断には 画像の有無の影響は小さいことが明らかとなったため,ユーザ実験2では画像は提示せず,レ シピタイトル,材料リスト,調理手順の3つを提示した.図3 に実験データの一部を示す.ま た,表14に実験に用いたレシピ対を示す.提示したレシピを比較し,酷似していたかを5段階

(23)

図3: 実験データ例 評価(1:酷似していない,2:どちらかというと酷似していない,3:どちらともいえない,4: どちらかというと酷似している,5:酷似している)及び,その根拠となった単語の列挙をした. 実験結果 表14に5段階評価の「5:酷似している」もしくは,「4:どちらかというと酷似している」を選 択した割合,またタイトル,主食材,手順が考慮された割合を示す.ページ構造(レシピタイ トル,材料リスト,調理手順)ごとに考察を行う. レシピタイトル 酷似レシピを判断する上でレシピタイトルを考慮した割合は平均83.7%となった.また, 「5:酷似している」もしくは,「4:どちらかというと酷似している」を選択した割合が 80%以上のレシピが10 組あった.これらのレシピ対ではいずれにおいても「チキンとブ ロッコリーのクリームシチュー」と「鶏肉とブロッコリーのクリームシチュー」のように タイトル内に出現する料理名,調理法名,食材名,調味料名が完全に一致していた.ま た,酷似の判断の根拠となった単語を挙げてもらったところ,いずれのレシピにおいても, 75%以上の人がタイトルに含まれている料理名,調理法名,食材名,調味料名を挙げた. また,レシピタイトルには「とろとろ」や「ぷりぷり」といった“ おいしさ ”を連想させ る食に関する言葉であるシズルワードが用いられることがある.同一種類の料理の場合に おいても「ふわふわオムライス」と「トロトロオムライス」のように異なるシズルワード が用いられることもある.このように異なるシズルワードの表現が用いられた場合,酷似 していないと判断する人が多かった.これは,シズルワードの違いによって,出来上がっ た料理の見た目,食感のイメージにおいて,大きな差異が生まれるためであると考えられ

(24)

表14: 実験に用いたレシピ対 レシピ名 レシピ名 4または5 を選択(%) タイトルの 考慮(%) 主食材の 考慮(%) 手順の考 慮(%) さつまいも入り豚汁 ●さつまいも入り豚汁● 91.7 75.0 83.3 41.6 豆腐deカンタン♪ミートグラタン♪ ★簡単!ヘルシーな*お豆腐のグラタン* 83.3 91.7 91.7 25.0 さばの味噌煮。 サバの味噌煮 58.3 100.0 100.0 41.6 鮭のムニエル 鮭のムニエル 25.0 100.0 75.0 83.3 さつまいも入り豚汁 さつまいもde豚汁 25.0 91.7 83.3 16.7 枝豆の白和え ◆枝豆の簡単白和え◆ 91.7 83.3 91.7 25.0 ジューシー♪塩麹だけで鶏の唐揚げ 簡単にジューシー*塩麹鶏のから揚げ* 75.0 91.7 83.3 33.3 じゃがいも使ってお家で簡単チーズチヂミ 韓国風!? 簡単ジャガ芋チーズチヂミ 100.0 75.0 75.0 8.3 あっさり☆ヨーグルトマヨのポテトサラダ ちょっとヘルシーヨーグルト入りポテサラ 75.0 83.3 75.0 25.0 鶏肉のチンジャオロース ムネ肉のチンジャオロース 50.0 75.0 75.0 50.0 チキンとブロッコリーのクリームシチュー 鶏肉とブロッコリーのクリームシチュー 83.3 83.3 83.3 25.0 五目春巻き おふくろの味 具沢山! 五目春巻き 66.7 91.7 75.0 50.0 ふわふわとり つくね 鳥ひき肉のふわふわつくね☆お弁当にも 66.7 75.0 83.3 58.3 うまみたっぷり,簡単,牛すじカレー 牛すじカレー 91.7 91.7 83.3 8.3 定番! ぶりの照り焼き フライパンで! ぶりの照り焼き 91.7 83.3 91.7 33.3 20分! 簡単トマトとアボカドのパスタ 簡単ウマい☆アボカドとトマトのパスタ☆ 66.7 91.7 91.7 8.3 ぷりぷりエビとザクザクキャベツの餃子 ぷりぷりエビぎょうざ 16.7 75.0 75.0 8.3 ほっくり☆栗ごはん♪ ☆秋の味覚☆栗ごはん! 75.0 83.3 91.7 8.3 牛丼 簡単!牛丼 91.7 75.0 75.0 50.0 クラムチャウダー あさりのクラムチャウダー 83.3 83.3 83.3 8.3 我が家の麻婆豆腐♪ 辛くない麻婆豆腐 83.3 75.0 83.3 33.3 ハヤシライス 簡単ハヤシライス 66.7 91.7 75.0 25.0 ふわふわオムライス トロトロオムライス 75.0 75.0 100.0 41.7 豚 しょうが焼 なすと豚肉のしょうが焼き 66.7 75.0 83.3 25.0 マルアジの塩麹焼き ふわっふわ?鯵の塩麹焼き 75.0 75.0 100.0 25.0 平均 69.3 83.7 83.3 30.3 る.一方,「ジューシー♪塩麹だけで鶏の唐揚げ」と「簡単にジューシー*塩麹鶏のから揚 げ*」のように同一のシズルワードを用いたレシピ対では,シズルワードを根拠にこれら のレシピが酷似していると判断した人は約20 %と少なかった.以上より,酷似レシピの 判断において,レシピタイトルに含まれる料理名,調理法名,食材名,調味料名の一致が 重要であり,シズルワードの一致は酷似レシピを判断する上ではあまり重要でないことが 分かった. 材料リスト 酷似レシピを判断する上で材料リストを考慮した割合は平均83.3%となった.材料リスト に含まれる単語の中で酷似の判断の根拠となった単語を挙げてもらったところ,いずれの レシピにおいても,70%以上の人がその料理の主食材の一致を挙げた.また,「味噌」や 「塩麹」のような味の決め手となる調味料の一致も酷似レシピを判断する上で重要である ことが分かった.以上より,酷似レシピの判断において,主食材と味の決め手となる調味 料の一致が重要であることが分かった. 調理手順 酷似レシピを判断する上で調理手順を考慮した割合は平均30.3%となり,調理手順はレシ ピタイトルや材料リストに比べ,酷似レシピを判断する上であまり重要ではないことが分 かった.調理手順の表現が異なっている場合や調理順序が異なる場合においても調理の大 まかな流れが一致している場合,酷似していると判断された.これは,ユーザは記載され ている調理手順通りに正確に作るのではなく,調理の流れを把握し,経験に基づいて調理 するためであると考えられる.しかし,調理の流れが一致している場合においても,手順 の詳細度が大きく異なるレシピや通常使用しない調理器具を用いるレシピ(例えば,蒸し

(25)

器で調理する料理を圧力鍋を用いて調理している等)は酷似していないと判断することが 多かった. 以上の実験結果より,ユーザはレシピタイトルに含まれる料理名,調理法名,食材名,調味 料名の一致また,主食材や味の決め手となる調味料のような特徴的な材料の一致に基づいて酷 似レシピの判断していることが分かった.

4.2

酷似レシピ抽出のためのクラスタリング

4章の実験で得た以下の4つの酷似レシピの特徴に基づき,酷似レシピをクラスタリングす る手法を提案する. 酷似レシピの判断において画像は必要ではない. レシピタイトルに含まれる料理名,調理法名,食材名,調味料名の一致が重要である. 材料リストに含まれる主食材や味の決め手となる調味料の一致が重要である. シズルワードの一致は重要ではない. また,レシピ検索を行う際に用いるクエリとして料理名や食材名などが考えられる.マルハ ニチロホールディングスが行った「料理レシピに関する調査」(図4)13によると,レシピ検索 を行う際のクエリは食材名が最も多く全体の75.1%となっている.これはどのような料理を作 るか決定した状態でレシピ検索を行う人が全体の26.4%であるのに対し,作る料理を決定して いない状態でレシピ検索を行う人が全体の56.5%となっており,作る料理を決定するためにレ シピ検索を行っているためであると考えられる.そこで,本研究では食材名をクエリとしたレ シピ検索を対象とする.提案手法の流れを以下と図5に示す. 1. 「食材名」をクエリとし,レシピデータを取得する. 2. 取得したレシピデータから,各レシピのタイトル,材料リストを抽出する. 3. 抽出したタイトル,材料リストに出現する,料理名,調理法名,食材名,調味料名を我々 の作成した食品データベースと照合することにより,抽出する. 4. 各レシピのタイトルから抽出した料理名,調理法名の単語を用いてクラスタリングを行 い,料理名,調理法名ごとのクラスタを一覧としてユーザに提示する. 5. ユーザは提示された料理名,調理法名の中から作りたい料理のクラスタを選択する. 6. ユーザの選択したクラスタに対し,レシピタイトル,材料リストに出現する食材,調味料 ごとに特徴量を算出,ページ構造の重みを付与し,クラスタリングを行い,酷似レシピの クラスタとしてユーザに提示する. 13マルハニチロホールディングス “ ∼マルハニチロホールディングス、「料理レシピに関する調査」∼ ”

(26)

図4: インターネットでレシピを検索する際の検索ワード 4.2.1 料理名,調理法名を用いたクラスタリング 4.1節の実験結果より,酷似レシピの判断においてレシピタイトルの一致が最も重要であるこ とが明らかになった.また,レシピ検索のクエリとして最も用いられる「食材名」をクエリとし て検索を行った場合,検索結果には,様々な種類の料理レシピが存在する.そのため,「カレー」 や「シチュー」といった料理の種類ごとに分類する必要がある.そこで,我々は酷似レシピク ラスタリングのための1段階目のクラスタリングとしてレシピタイトルに含まれる料理名,調 理法名を用いてクラスタリングを行う.クラスタリング手法にはRepeated Bisection [25]を用 いる.Repeated Bisectionについては4.2.3節で説明する. 4.2.2 料理名,調理法,食材名,調味料を用いたクラスタリング 1段階目のクラスタリングにて,料理名,調理法ごとのクラスタを得た.しかし,同一種類 の料理であっても酷似した料理であるとは限らない.例えば,「玉ねぎじゃがいも」をクエリ として,料理名,調理法名を用いた1段階目のクラスタリングを行うとクラスタの1つとして 「カレー」のクラスタが生成される.しかし,このクラスタ内には「ビーフカレー」や「チキン カレー」「夏野菜カレー」「キーマカレー」など様々なカレーのレシピが存在する.これらのレ シピは玉ねぎとじゃがいもを用いた「カレー」という同一種類の料理であるが,それぞれレシ ピの特徴が異なっており,酷似レシピとは言えない.そこで,1段階目のクラスタリングで得 たクラスタに対して,各レシピのタイトル,材料リストに出現する料理名,調理法名,食材名, 調味料名を用いて再度クラスタリングを行う.4.1節の実験からレシピタイトルに含まれる語が

(27)

図5: 酷似レシピクラスタリング手法:システムフロー

最も重要であることがわかった.そのため,単語の出現場所ごとに重みを付与する必要がある. また,料理ごとに特徴となる食材は異なると考えられる.例えば,「カレー」で一般的に使用さ れると考えられる玉ねぎやにんじん等の食材より,納豆やちくわのような一般的にはその料理 に用いられないような食材のほうが,その料理において特徴的であると考えられる.そこで本 研究では,池尻らの提案するRF-IIF(Recipe Frequency-Inverted Ingredient Frequency) [26] の考えに基づいて,ある料理における食材の出現頻度と出現場所から食材の希少度を算出する S RF IIFを提案する.S RF IIFの式を以下に示す.

S RF IIFi,m = α log

Rm Rit,m + β log Rm Rio,m (5) iは食材名,mは料理名を示す.このとき,|Rm|はある料理mのレシピ数,|Rit,m|はある料理 mのレシピ群中でレシピタイトルに食材itが出現するレシピ数,|Rio,m|はある料理mのレシ ピ群中で材料リストに食材ioが出現するレシピ数である.また,αは食材iがレシピタイトル に出現した場合の重み,βは食材iが材料リストに出現した場合の重みである.1段階目のクラ スタリングの後,食材名,調味料名,単語の出現場所,食材希少度を考慮し,再度クラスタリ ングを行う.クラスタリング手法には1段階目のクラスタリングと同様Repeated Bisectionを 用いる.

(28)

図6: Repeated Bisectionの概要

4.2.3 Repeated Bisection

Repeated Bisectionはクラスタリングツールbayon14やCLUTO15で使用されているクラスタ リング手法であり,K-means法をk = 2n−1回繰り返してn個のクラスタを得る.Repeated Bisectionの概要を以下と図6に示す. 1. 全クラスタ中から最もまとまりの悪いクラスタを1つ選択する. 2. クラスタの中からランダムに2つ要素を選択し,それぞれを格納したクラスタを作成する. 3. 元のクラスタ内の全ての要素に対し,ランダムに選択した要素との類似度を比較する. 4. 類似度を比較した結果,より類似度の高いクラスタに要素を格納する. 5. クラスタ間で要素の移動を行い,クラスタ内で類似度をそれぞれ比較し直す. 6. 5を移動できる要素が無くなるまで繰り返し行う.

4.3

プロトタイプシステム

提案手法を用いてプロトタイプシステムを作成した.開発言語としてPHP16とSolr17を用い, レシピデータにはクックパッドデータセット18を用いた.また,クラスタリングのためのツー 14

Bayon - a simple and fast clustering tool - Google Project Hosting http://code.google.com/p/Bayon/

15

CLUTO - Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview

16

PHP http://php.net/

17Apache Solr http://lucene.apache.org/solr/ 18

図 1: 健康を意識した代替食材の発見手法:システムフロー ポート等長文を対象としている.それに対し,レシピは比較的短文で書かれており,表現方法も 限られている.そのため,既存の手法で抽出することは困難である.本研究では,剽窃のよう な酷似したレシピの抽出を行うため,まず,酷似レシピの特徴の抽出を行い,ページ構造,単 語の重要度に基づきクラスタリングすることで抽出を行う. 3 健康を意識した代替食材の発見手法 本章では,日常的に作る料理の食材の一部を代替することで, 「風邪予防」や「便秘改善」の ような健康
表 1: 料理ごとの典型的な食材  料理名   典型的な食材   料理名   典型的な食材  玉ねぎ ピーマン 人参 牛肉 カレー じゃがいも 青椒肉絲 豚肉 にんにく たけのこ 牛肉 にんにく  料理名   典型的な食材   料理名   典型的な食材  玉ねぎ じゃがいも 牛肉 ポテト きゅうり 牛丼 ご飯 サラダ ハム 卵 人参 −  玉ねぎ  抽出結果 抽出した料理の種類ごとの典型的な食材の一部を表 1 に示す.表 1 より,どの料理においても その料理において典型的な食材として適切と考えられる食材が
表 2: 食材に含まれる栄養成分 食材名   含有成分   食材名   含有成分   鉄 タンパク質 カロテン カルシウム レバー タンパク質 豆腐 食物繊維 カルシウム 鉄 ビタミン A コレステロール 食材名   含有成分   食材名   含有成分   カロテン ビタミン C 食物繊維 鉄 人参 鉄 トマト 食物繊維 カリウム カロテン ビタミン B1  カルシウム  り,食物繊維では「便秘改善」や「美肌」,鉄では「貧血」や「骨粗鬆症」などその栄養成分に よる主な効能が抽出されていることがわかる.栄養成
表 3: 栄養成分による効能  栄養成分名    効能    栄養成分名    効能   便秘改善 貧血 美肌 骨粗鬆症 食物繊維 美容 鉄 疲労 ダイエット 抗酸化 ガン 便秘  栄養成分名    効能    栄養成分名    効能   疲労 美肌 夏バテ 風邪予防 ビタミン B1 風邪予防 ビタミン C 疲労 免疫力 免疫力 動脈硬化 ガン 表 4: 過剰摂取ワード 過剰摂取ワード 過剰摂取,過剰な摂取,過剰に摂取,大量摂取, 大量に摂取,多量摂取,多量に摂取,摂り過ぎ 熱 ) が付与された料理分野の特
+7

参照

関連したドキュメント

した標準値を表示しておりますが、食材・調理状況より誤差が生じる場合が

我が国においては、まだ食べることができる食品が、生産、製造、販売、消費 等の各段階において日常的に廃棄され、大量の食品ロス 1 が発生している。食品

Corrosion and Erosion Aspects in Pressure Boundary Component of LWR 付図 5

(2)「冠表示」の原材料名が生鮮食品である場合は当該生鮮食品の産地を、加工

1 昭和初期の商家を利用した飲食業 飲食業 アメニティコンダクツ㈱ 37 2 休耕地を利用したジネンジョの栽培 農業 ㈱上田組 38.

事業開始年度 H21 事業終了予定年度 H28 根拠法令 いしかわの食と農業・農村ビジョン 石川県産食材のブランド化の推進について ・計画等..

ほっとワークス・みのわ なし 給食 あり 少人数のため温かい食事の提供、畑で栽培した季節の野菜を食材として使用 辰野町就労・地活C なし

また,モバイル型ストロンチウム除去装置内の配管は,耐食性を有する ASME SA-312 TP316L 材を基本とし,タンク,各フィルタ及び吸着塔等は,耐食性を有するよう ASME