1.はじめに:Food × IT
「何を食べようか」というのは,日常生活において最 も頻度の高い問いではないだろうか.その答えには,好 みであったり,レストランであったり,健康やダイエッ トであったりと,人それぞれに異なる方向で答えを探す ことになり,時間や場所に応じてそれも変わる. 食事を探すための IT サービスは,すでに広く利用 されている.食べログや Retty のようなレストラン検 索や,クックパッドといったレシピ検索,クラシル, DelishKitchenなどの調理動画まで出現している.現在 は,ユーザの具体的なリクエストに応じて,推薦を提示 するにとどまっているものの,健康やダイエットまで反 映してパーソナルな推薦を出してくれると素晴らしい. ところで,健康と食の関連付けには,その人が何を 食べているかを把握することが最重要である.いわゆ る,栄養指導では,まず,対象となる人は何をどれくら い食べたかを記録する.管理栄養士は,その栄養を解析 し,日常の食事の注意点を指摘してくれる.そのため には,できることなら長期間の食事の記録をとることが 望ましい.しかしながら,現状の栄養指導の現場で食 事の記録は,手作業で手間がかかる.情報技術による食 事記録の支援は,長らくもち越されてきた課題である [Thompson 10].2.
食事記録のための情報技術
従来,食事記録として行われてきたことは,アナログ な手段であった.いまだに,健康・医療の現場ではそう である.ユーザは,一定の様式の用紙が与えられ,1 週 間に朝食,昼食,夕食や間食として食べたものの名称と その分量を,自身の記憶に従って日々埋めていく,ある いは,クリニックのより精密なものでは,それぞれの食 事の食材とその分量を記載するものもある.後者の場合 には,記入する側の負担も大きく,2 日程度の記録になる. この負担を,少しでも緩和するために,多くのスマート フォンアプリが現れている.代表的なものでは,欧米で は,MyFitnessPal(My Meal Mate),日本では,あす けんといったアプリであろう.しかしながら,これらの アプリにしても,テキストでの入力が主となっている. これに対して,写真(画像)を主にして,食事記録を つくるアプローチが,より簡便な入力手段として注目さ れている.写真を中心に使うことで,直感的に見やすい 食事日誌をつくることができ,さらに,食事画像の認識 技術を組み合わせれば,食事内容のテキストによる記述 も与えることができる . 本稿で紹介する FoodLog は,そ のようなスマートフォンアプリの先駆けであり,広く公 開されている*1.ごく最近では,Passio というスタート アップでリアルタイムに食事認識を行うアプリの開発が 進められている*2. 食事認識技術については,本特集の [柳井 18] を参照 してほしい.食事画像認識は,食事記録を平易化する重 要な技術であるものの,実応用の観点から見るに,現状 の認識技術は,かなり不十分な状況にある.ほとんどの 場合において,100 ∼ 200 程度のクローズドなデータセッ トがつくられ,そのうえでの性能評価を行っている.実 際に食事記録に現れる品目数は,上記のデータセットよ り桁違いに大きい.しかも,食事品目は絶えず増加し, 閉じたデータセットを想定できない.さらに,食事品目 名の定義には,個人依存性が強い等々の現実の問題があ る.これらの問題に対処するために,認識器の個人適応 を行うパーソナライゼーションの積極的な導入も論じら れている [Horiguchi 18]. 純粋な食事認識課題とは異なり,食事記録手段の改 善 と い う 観 点 か ら は,TADA(Technology Assisted Dietary Assessment)[Zhu 10] といった研究開発が行 われた.TADA は,米国 NIH がスポンサーとなった食 事記録のための技術開発であり,食事画像認識,分量推写真からの食事記録ツールとそのデータ傾向
Photo Based Food Recording Tool and Tendency of Its Data
相澤 清晴
東京大学Kiyoharu Aizawa The University of Tokyo.
[email protected], http://www.hal.t.u-tokyo.ac.jp/
Keywords:
multimedia, image recognition, photo, mobile. 「料理情報の知的処理」*1 FoodLog:http://app.foodlog.jp *2 Passio:http://www.passiolife.com
定,モバイルシステムでの実験が行われた.NIH では, TADAを含めて全部で五つのプロジェクトが行われ,食 事記録の入力手段の課題への取組みが行われた [Stumbo 13].しかしながら,いずれも,ごく限られた規模での 検証にとどまっている. FoodLogは,写真で簡単に個人の食事記録をとるこ とを目指して,著者らが開発を進めてきた.画像を用 いた食事記録ツールとして FoodLog は,広く一般提供 された唯一のものであろう.我々は,2008 年にデモし, 2009年に食事バランスの推定を行い,2013 年に公開し たモバイルベースのアプリ以降,画像検索や画像認識に より,食事記録を支援する.広く無料で公開したことも あり,一般ユーザに適度に利用され,今まで総計すれば, 600万件を超す食事記録が集まっている.これは現実の データであり,ユーザの利用の結果,食事品目数は絶え ず増加している.以下,この FoodLog アプリとそのデー タについて記す.
3.FoodLog の
概要
毎日の食事をマルチメディアデータとして記録し,活 用する技術基盤として,我々は,FoodLog というシステ ムを開発,構築してきた [Aizawa 15, Kitamura 08].食 事を記録するツールは,数多くあるものの,テキストで 入力し,テキストを残すものがほとんどであり,入力の ための手間がかかるとともに,記録が一目でわかる直感 的なものからはほど遠い.FoodLog は,画像による記録 を通して,一目で中身が把握できる特徴があり,画像認 識と検索により,入力の手間を大きく軽減し,入力を支 援することが,既存のツールとは大きく異なる特徴であ る.当初は,Web ベースのシステム [相澤 09],次にスマー トフォンベースのアプリとなり [Aizawa 14],現在に至っ ている.機能も徐々に拡張し,2013 年のスマホ版では 画像検索を,2016 年 6 月からはさらに画像認識での支 援を導入した.ただし,このバージョンまでは,写真の 中の食事画像領域をユーザが特定し,認識は,単一オブ ジェクトに限定されていた.2018 年 6 月からは,写真 をアップロードするだけで,写真中の複数の食事画像領 域を検出して認識を行うよう更新している(これらの画 像認識は iPhone 版に限る). 現在の機能の概略を図 1 に示す.また,そのスクリー ンショットを図 2 に示す.記録入力を画像認識で支援 し,画像での支援が不十分な場合にのみ,テキストでキー ワードを入力するようになっている.このため,入力の 際,典型的な手続きは,以下のようになる. (0)ユーザは,食事の写真を撮影する. (1)記録入力にあたり,ユーザは FoodLog アプリを 立ち上げる.FoodLog アプリは,アルバムから自動 的に食事写真を判別し,記録のために提示する.も ちろん,手動でアルバムから選択してアプリに取り 込んでもよい. (2)写真から食事領域の検出とその自動認識が行われ, 可能性の高い順に上位 20 件のリストが提示される. アプリの使い始めにおいては,現在,自動認識する 食事のクラスは,400 クラスである.使いながら, (a) (b) 図 2 FoodLog のスクリーンショット(閲覧) 図 1 FoodLog の概要 (a) (b) 図 3 FoodLog のスクリーンショット(記録)個人個人で食事画像を登録することができるため, その数は,利用に応じて増大する. なお,食事領域が誤って認識された場合は,ユー ザが修正できる.写真の食事領域として過剰に検出 されているものがあれば,その結果を削除する.食 事領域として漏れているものがあれば,スクリーン 上でドラッグして,領域を指定し認識を実行する. (3)提示されたリストの中に,所望のものがあれば, それを選択し,分量を指定し,記録は終了する. (4)提示リストに所望のものはないが,それに近いも のがあれば(例えば,チーズバーガーに対してハン バーガーが提示されたような場合),連想検索を動 かし,提示されているリストを更新し,所望のもの が現れれば,それを選択し,分量を指定し,記録は 終了する. 連想検索は,食事のレシピ,栄養価をもとに類似 度の近いものを表示する [Amano 16]. (5)ここまでで,所望のものがリストに現れない場合 には,テキスト入力を行う.ユーザが料理名のキー ワードを入力し,検索されたリストの中に所望のも のがあれば,選択し,分量を指定し,記録を終了する. (6)対象の食事が,画像でもテキストでも探せない場 合には,新出のものとして,自由記述で食事名を入 力する.一度,入力したものは,その後は検索対象 となる. (0)と(1)は同時である必要はない.個人的には,と もかくも写真は撮っておいて,そのしばらく後に記録の 入力をすることが習慣になっている.後から記録入力す るためには,写真はなくてはならない記憶である. 図 2 に示したアプリのスクリーンショットでは,(a) がカレンダー形式の食事記録の一覧,(b)が個々の食事 写真の内容の表示になっている.この図 2(b)は,画 像入力後に,出される認識結果の 1 位を表示している. 図 3(a)は,その 1 位以下を含めた認識結果を示した. 表示をタップすると図のように 2 位以下の結果が表示さ れる.その中に所望のものがあれば,選べばよい.食事 品目名の右の点々の表示を選ぶと,さらに連想検索が行 われ,図 3(b)のように関連候補を表示する.ここま でで所望のものが見つからなければ,キーワードを入れ てテキスト検索を行う.全く新しいもののために,新規 な名称を登録することもできるようになっている.食事 として領域指定された画像にその食事名を併せて,個人 の記録に加えられ,認識器の更新が行われる. 公開版では,日本の一般的な食事の約 1 800 品目につ いて詳細な栄養価を併せもっており,そのエネルギーの みを表示している.なお,必要に応じて,より品目数の 多い栄養価データセットの利用をカスタマイズすること もできる. 現在,認識対象とする食事の数は,記録登録数の多 い 400 クラスである.記録を進めることで,400 クラス の内容に個人記録が加わるとともに,400 クラス以外の 画像データも個人の記録により追加され,認識可能な対 象は増えていく.連想検索では,食事名,栄養価,レシ ピの類似性に基づき,一般食全体を対象として検索する [Amano 16]. なお,FoodLog は,糖尿病のための自己管理ツール として,東京大学医学部附属病院が検証を進めている Dialbeticsというシステム [Waki 14] や GlucoNote とい
うアプリでも用いられている*3.
4.パーソナライズ
食事認識
食事は,個人性が極めて高い.FoodLog では,食事 品目名のカスタマイズ,新規登録ができる.このため, ユーザ全体では極めて多い品目数となる.図 4 に示した のは,2015 年 4 月時点での食事品目の頻度分布である. その時点で約 10 万クラスの登録があり,その頻度は偏 りの極端なべき乗分布になっていることがわかる.極め て偏りの多いデータであることに加えて,同一の品目名 であっても,記録画像には,個人性が強く出る.例えば, ヨーグルトと記録されても,プレインなもの,ジャムな どのせたもの,製品パッケージなど,その写真の撮り方 に個人性が強く出る傾向が明らかとなっている. このため,効率的な食事画像認識のためには,全体最 適化を求めるのではなく,利用する個人ごとへの認識器 のパーソナライゼーションが不可欠である.そのために, 新規クラスを追加で学習し,各クラスの内容の変化に対 応し,限られたサンプルから学習するフレームワークが 必要である. 我々の提案・検証した SPC(Sequential Personalized Classifier)[Horiguchi 18, Yu 18] について以下に記 す.SPC では,ユーザに共通の NCM(Nearest Class Mean)分類器に合わせて,ユーザの入力を逐次的に追 加して重み付けした 1-NN 分類器をユーザごとに用い 図 4 FoodLog アプリ運用後約 2 年時でのクラス数とその画像数. 極めて偏りが大きい *3 GlucoNote:http://uhi.umin.jp/gluconote/ることで,パーソナライズした食事認識器を構築する. SPCのパイプラインの全体を図 5 に示す. まず,特徴抽出には,CNN を利用する.CNN による ソフトマックス分類器を学習し,最後のプーリング出力 を特徴量として用いた.固定クラスであれば,各クラス ごとに学習サンプルの平均ベクトルを用いた最近傍分類 を行う NCM 分類器は,追加で距離計量学習を行わなく てもソフトマックス分類器と同等の精度を達成できるこ とを確認した [Horiguchi 18]. NCMによる固定クラス分類器をユーザ共通の初期認 識器として用いる.そして,ユーザの新たな記録により, 特徴量の追加が行われ,ユーザに適応した分類器が構築 される(表 1). 新たな入力の分類は,NCM のベクトルとの距離計算, ユーザの記録した特徴ベクトルとの距離計算を行い,重 み付けした最近傍判定により行う.[Horiguchi 18] では, NCM特徴ベクトルの距離の重みは均一に 1.0 とし,ユー ザの特徴追加ベクトルとの距離に対する重みは,0.85 と 1.0より小さな値とした.ユーザ固有のベクトルの距離 の重みを小さくすることで,ユーザの履歴の記録をより 優先して分類することができる. さらに [Yu 18] は,[Horiguchi 18] を改善した.まず, 食事の出現頻度に図 4 のように極めて大きな偏りがある ことから,ユーザ共通の NCM 特徴ベクトルは,そのク ラスのまとまりの度合いを反映させて,異なる重み付け を行うことで最適化した.さらに,ユーザごとの記録の 利用においても,時間的に近い記録のクラスを有利に扱 うことができるようにする適応化を導入した.後者によ り,ユーザの食傾向がより反映されるとしている. [Horiguchi 18, Yu 18]では,それぞれ特徴抽出のネッ トワークに GoogleNet, ResNet-50 を用いた.後者の場 合について,より詳細なデータを示す.ユーザ共通の 特徴抽出器は,ImageNet のプリトレインモデルをもと に 469 クラス(各クラス 500 枚)の食事画像での学習 を行った.また,個人適応のためのパラメータの導出に は,400 人のデータを利用し,それとは異なる 299 人を テストデータとした.各ユーザからは,300 の時系列の 記録を用いた.図 6 は,300 の記録順に,当たりはずれ を 299 人分平均した精度を示す.適応しない CNN は, 性能に変動はないものの,パーソナライズ認識器は,記 録を続けるほど性能が向上する様子が見て取れる.ま た,上限としたラインは,個人ごとの記録のクラスと共 通クラスを合わせて届く上限であり,新出のもので決ま る.図 6 から 300 件の記録後でも,8 割弱の人は,その 人にとって新出の食事に出合っていることがわかる.他 図 5 逐次個人適応する食事画像認識器(SPC)の概要 図 6 時系列食事画像の認識結果. パーソナライゼーションなしとありの比較.淡いグ レーは共通の認識器であり,濃い色の線が個人適応し た SPC.それぞれ,下から,上位 1 位,上位 5 位以内, すべての候補(上限)に対しての精度 表 1 個人適応する食事認識器の比較. (a)はクラス数固定の CNN,(b)∼(f)はインクリメンタルな既存の認識器, (g),(h)がそれぞれ提案した個人適応の認識器である.(b)∼(f)の詳細は [Horiguchi 18] 参照
の適応手法との比較を表 1 に示す.提案手法が,優位に 適応できていることが見て取れる.他の手法の詳細は, [Horiguchi 18]を参照してほしい. なお,閉じたデータセットとリアルなデータとの間の 乖離は大きく,その試算も行った.興味深いので示して おきたい.図 7 には,閉じたデータセットのクラス数 をかえたときの食事画像の認識性能を,GoogleNet と ReNetで示した.また,全体で現れているクラス数に 対してのそのクラス数の実際に占める割合をカバレッジ とした.例えば,25 クラスの場合には,閉じたデータ セットで 80%の認識率があっても,カバレッジが低く, その割合を乗算すると,現実の精度は 20%にも満たな いと推測される.この積が,ちょうどピークをとるとこ ろが,この実験では,ResNet では 469 クラスであった (GoogleNet だと 213 クラスのところであった).
5.FoodLog データの
傾向
食事の記録の多寡は,そもそもその食事の好まれる度 合いに大きく依存する.食事そのものの季節性も大きく 影響し,特定のイベントに影響されることもある.さら には,新出の食事が,メディアの影響で増えていくとい うこともあろう. FoodLogで記録される食事記録を用いて,食事出現の 時間的な変化を検証した [安沢 17].FoodLog の食事の 記録頻度の指標として,ある日に記録をした人のうち, 何人が当該の食事を記録したかという相対値を用いた. なお,参考情報として,Google での検索ワードの時間 変化(Google Trend)を併せて調査した.Google Trend は,社会の関心を直接把握できるものの,食事の粒度は 粗く,FoodLog の頻出 Top500 を見ても,そのうち 300 ほどが調査できるにすぎない.なお,その 300 の中にも, 食事以外を意味する言葉も含まれてしまうため,食事に 関しての関心を表すかどうかは確実ではない.とはいう ものの,300 ほどのうち,42 の食事名の出現変化に関し て,FoodLog と Google Trend で 0.7 以上の強い相関が 見られた.そのうち,興味深いものを選択し,おおよそ 3年間の変動を図 8 に示す. なお,いずれも期間内の最大値を 1 として正規化した. 図 8 の 4 例とも,FoodLog の食事記録としての頻出傾向 と Google の検索語としての関心の傾向が実に酷似して いる.図 8(a),(b)は,季節やイベントにより大きく 出現傾向が変化するものの例である.(a)の湯豆腐は, 冬に出現頻度が上がり,(b)のフライドチキンは,クリ 図 7 クローズドなデータセットでの性能とカバレッジからの 現実の性能の予測. クローズなデータセットの精度(○印)とカバレッジ(曲 線)との積が×印の現実の認識精度見込み.○,×それ ぞれの上下は,ResNet と GoogleNet に対応図 8 FoodLog と Google Trend に基づくデータの発生傾向の比較 (a)季節性の高い変動
(b)イベント性の高い変動
(c)増加傾向の日常食
スマスのときに大きなピークがある.それに対して,図 8(c)の納豆は,日常食であるが,おおよそ 3 年間の間に, 両指標ともに緩やかに増加している.(d)のサラダチキ ンは,広く知られるようになったのが,2013 年末であ り,そこから両指標ともに急速に増加する傾向を示して いる.(c),(d)はいずれも健康志向の食であることは 興味深い. このように,FoodLog は,Google に比して,ユーザ の規模ははるかに小さいものの,食に関してはかなり 細かな分類の変動を見ることができるデータでもある. その中で,ユーザ全体の関心に関わるような項目では, Googleとの一致の度合いも大きい. このほかにも,FoodLog での食事の傾向についての検 討も行った.FoodLog の食事名は,ばらつきが大きく, そのままでは集計がとれない.そのため,食事名の正規 化手法を導き,統計をとる基盤をつくった [Aizawa 15, Amano 15].個人ごとでの統計をとると,それがいかに 全体とは異なって偏ったものであるかも明瞭となる.
6.お
わ り に
我 々 が こ れ ま で に 進 め て き た 食 事 記 録 の た め の FoodLogの概要とそのためのパーソナライズした食事認 識技術,垣間見えるデータの傾向について説明した.興 味をもった読者は,一度,FoodLog App を使ってみてほ しい.なお,遠からず,大きな更新を予定している. 謝 辞 本研究は,研究室の学生,foo.log Inc. のメンバの研 究開発の賜物である.本研究の一部は,JST CREST (JPMJCR1686),科研費 18H0324 の支援を受けた.◇ 参 考 文 献 ◇
[相澤 09] 相澤清晴:ライフログの実践的活用:食事ログからの展開, 情報処理,Vol. 50, No. 7, pp. 592-597(July 2009)[Aizawa 14] Aizawa, K., Maeda, K., Ogawa, M., Sato, Y., Kasamatsu, M., Waki, K. and Takimoto, H.: Comparative study of the routine daily usability of foodlog: A smartphone-based food recording tool assisted by image retrieval, J.
Diabetes Science and Technology, Vol.8, pp.203-208(2014) [Aizawa 15] Aizawa, K. and Ogawa, M.: FoodLog: Multimedia tool
for healthcare applications, IEEE MultiMedia, Apr.-June 2015, Vol. 22, No. 2, pp. 4-9(2015)
[Amano 15] Amano, S., Aizawa, K. and Ogawa, M.: Food category representatives: Extracting categories from meal names in food recordings and recipe data, IEEE Int. Conf. Multimedia
Big Data 2015, pp. 48-55(2015)
[Amano 16] Amano, S., Horiguchi, S., K. Aizawa, Maeda, K., Kubota, M. and Ogawa, M.: Food search based on user feedback to assist image-based food recording systems, ACM
Multimedia Workshop MADiMa, pp.71-75(2016)
[安沢 17] 安沢昌志,天野宗佑,相澤清晴,小川 誠,佐藤真一:マ ルチドメインデータを用いた食事トレンドの検証,信学会デー タ工学研究会,IEICE-117, No. 108, pp. 7-10(2017)
[Horiguchi 18] Horiguchi, S., Amano, S., Ogawa, M. and Aizawa, K.: Personalized classifier for food image recognition, IEEE
Trans. Multimedia, Vol 20, No. 10, pp. 2836-2848(2018) [Kitamura 08] Kitamura, K., Yamasaki, T. and Aizawa, K.: Food
log by analyzing food images, ACM Multimedia, pp. 999-1000 (2008)
[Stumbo 13] Stumbo, P. J.: New technology in dietary assessment: A review of digital methods in improving food record accuracy, Proc. Nutrition Society, Vol. 72, No. 1, pp. 70-76(2013)
[Thompson 10] Thompson, F. E., Subar, A. F., Loria, C. M. Reedy, J. L. and Baranowski, T.: Need for technological innovation in dietary assessment, J. Amer. Diet. Assoc., Vol. 110, No. 1, pp. 48-51(2010)
[Waki 15] Waki, K., Aizawa, K., Kato, S., Fujita, H., Lee, H, Kobayashi, H., Ogawa, M., Mouri, K., Kadowaki, T. and Ohe, K.: DialBetics with a Multimedia food recording tool, FoodLog: Smartphone-based self-management for type 2 Diabetes,
J. Diabetes Science and Technology, Vol. 9, No.3 pp.534-540
(2015)
[柳井 19] 柳井啓司:食事画像認識の現状と今後〈本特集〉,人工知能, Vol. 34, No. 1, pp. 41-49(2019)
[Yu 2018] Yu, Q., Anzawa, M., Amano, S., Ogawa, M. and Aizawa, K.: Food image recognition by personalized classifier, IEEE
ICIP, pp. 171-175(2018)
[Zhu 10] Zhu, F., Bosch, M., Woo, I., Kim, S., Boushey, C. J., Ebert, D. S. and Delp, E. J.: The use of mobile devices in aiding dietary assessment and evaluation, IEEE J. Selected Topics in
Signal Processing, Vol. 4, No. 4, pp. 756-766(2010)
2018年 10 月 29 日 受理