写真からの食事記録ツールとそのデータ傾向

(1)

1．はじめに：Food × IT

「何を食べようか」というのは，日常生活において最も頻度の高い問いではないだろうか．その答えには，好みであったり，レストランであったり，健康やダイエットであったりと，人それぞれに異なる方向で答えを探すことになり，時間や場所に応じてそれも変わる．食事を探すための IT サービスは，すでに広く利用されている．食べログや Retty のようなレストラン検索や，クックパッドといったレシピ検索，クラシル， DelishKitchenなどの調理動画まで出現している．現在は，ユーザの具体的なリクエストに応じて，推薦を提示するにとどまっているものの，健康やダイエットまで反映してパーソナルな推薦を出してくれると素晴らしい．ところで，健康と食の関連付けには，その人が何を食べているかを把握することが最重要である．いわゆる，栄養指導では，まず，対象となる人は何をどれくらい食べたかを記録する．管理栄養士は，その栄養を解析し，日常の食事の注意点を指摘してくれる．そのためには，できることなら長期間の食事の記録をとることが望ましい．しかしながら，現状の栄養指導の現場で食事の記録は，手作業で手間がかかる．情報技術による食事記録の支援は，長らくもち越されてきた課題である [Thompson 10]．

2．

食事記録のための情報技術

従来，食事記録として行われてきたことは，アナログな手段であった．いまだに，健康・医療の現場ではそうである．ユーザは，一定の様式の用紙が与えられ，1 週間に朝食，昼食，夕食や間食として食べたものの名称とその分量を，自身の記憶に従って日々埋めていく，あるいは，クリニックのより精密なものでは，それぞれの食事の食材とその分量を記載するものもある．後者の場合には，記入する側の負担も大きく，2 日程度の記録になる．この負担を，少しでも緩和するために，多くのスマートフォンアプリが現れている．代表的なものでは，欧米では，MyFitnessPal（My Meal Mate），日本では，あすけんといったアプリであろう．しかしながら，これらのアプリにしても，テキストでの入力が主となっている．これに対して，写真（画像）を主にして，食事記録をつくるアプローチが，より簡便な入力手段として注目されている．写真を中心に使うことで，直感的に見やすい食事日誌をつくることができ，さらに，食事画像の認識技術を組み合わせれば，食事内容のテキストによる記述も与えることができる . 本稿で紹介する FoodLog は，そのようなスマートフォンアプリの先駆けであり，広く公開されている＊1_{．ごく最近では，Passio というスタート} アップでリアルタイムに食事認識を行うアプリの開発が進められている＊2_．食事認識技術については，本特集の [柳井 18] を参照してほしい．食事画像認識は，食事記録を平易化する重要な技術であるものの，実応用の観点から見るに，現状の認識技術は，かなり不十分な状況にある．ほとんどの場合において，100 ∼ 200 程度のクローズドなデータセットがつくられ，そのうえでの性能評価を行っている．実際に食事記録に現れる品目数は，上記のデータセットより桁違いに大きい．しかも，食事品目は絶えず増加し，閉じたデータセットを想定できない．さらに，食事品目名の定義には，個人依存性が強い等々の現実の問題がある．これらの問題に対処するために，認識器の個人適応を行うパーソナライゼーションの積極的な導入も論じられている [Horiguchi 18]．純粋な食事認識課題とは異なり，食事記録手段の改善という観点からは，TADA（Technology Assisted Dietary Assessment）[Zhu 10] といった研究開発が行われた．TADA は，米国 NIH がスポンサーとなった食事記録のための技術開発であり，食事画像認識，分量推

写真からの食事記録ツールとそのデータ傾向

Photo Based Food Recording Tool and Tendency of Its Data

相澤　清晴

東京大学

Kiyoharu Aizawa The University of Tokyo.

[email protected], http://www.hal.t.u-tokyo.ac.jp/

Keywords:

multimedia, image recognition, photo, mobile. 「料理情報の知的処理」

＊1 FoodLog：http://app.foodlog.jp ＊2 Passio：http://www.passiolife.com

(2)

定，モバイルシステムでの実験が行われた．NIH では， TADAを含めて全部で五つのプロジェクトが行われ，食事記録の入力手段の課題への取組みが行われた [Stumbo 13]．しかしながら，いずれも，ごく限られた規模での検証にとどまっている． FoodLogは，写真で簡単に個人の食事記録をとることを目指して，著者らが開発を進めてきた．画像を用いた食事記録ツールとして FoodLog は，広く一般提供された唯一のものであろう．我々は，2008 年にデモし， 2009年に食事バランスの推定を行い，2013 年に公開したモバイルベースのアプリ以降，画像検索や画像認識により，食事記録を支援する．広く無料で公開したこともあり，一般ユーザに適度に利用され，今まで総計すれば， 600万件を超す食事記録が集まっている．これは現実のデータであり，ユーザの利用の結果，食事品目数は絶えず増加している．以下，この FoodLog アプリとそのデータについて記す．

3．FoodLog の

概要

毎日の食事をマルチメディアデータとして記録し，活用する技術基盤として，我々は，FoodLog というシステムを開発，構築してきた [Aizawa 15, Kitamura 08]．食事を記録するツールは，数多くあるものの，テキストで入力し，テキストを残すものがほとんどであり，入力のための手間がかかるとともに，記録が一目でわかる直感的なものからはほど遠い．FoodLog は，画像による記録を通して，一目で中身が把握できる特徴があり，画像認識と検索により，入力の手間を大きく軽減し，入力を支援することが，既存のツールとは大きく異なる特徴である．当初は，Web ベースのシステム [相澤 09]，次にスマートフォンベースのアプリとなり [Aizawa 14]，現在に至っている．機能も徐々に拡張し，2013 年のスマホ版では画像検索を，2016 年 6 月からはさらに画像認識での支援を導入した．ただし，このバージョンまでは，写真の中の食事画像領域をユーザが特定し，認識は，単一オブジェクトに限定されていた．2018 年 6 月からは，写真をアップロードするだけで，写真中の複数の食事画像領域を検出して認識を行うよう更新している（これらの画像認識は iPhone 版に限る）．現在の機能の概略を図 1 に示す．また，そのスクリーンショットを図 2 に示す．記録入力を画像認識で支援し，画像での支援が不十分な場合にのみ，テキストでキーワードを入力するようになっている．このため，入力の際，典型的な手続きは，以下のようになる．（0）ユーザは，食事の写真を撮影する．（1）記録入力にあたり，ユーザは FoodLog アプリを立ち上げる．FoodLog アプリは，アルバムから自動的に食事写真を判別し，記録のために提示する．もちろん，手動でアルバムから選択してアプリに取り込んでもよい．（2）写真から食事領域の検出とその自動認識が行われ，可能性の高い順に上位 20 件のリストが提示される．アプリの使い始めにおいては，現在，自動認識する食事のクラスは，400 クラスである．使いながら，（a）（b）図 2 FoodLog のスクリーンショット（閲覧）図 1 FoodLog の概要（a）（b）図 3 FoodLog のスクリーンショット（記録）

(3)

個人個人で食事画像を登録することができるため，その数は，利用に応じて増大する．なお，食事領域が誤って認識された場合は，ユーザが修正できる．写真の食事領域として過剰に検出されているものがあれば，その結果を削除する．食事領域として漏れているものがあれば，スクリーン上でドラッグして，領域を指定し認識を実行する．（3）提示されたリストの中に，所望のものがあれば，それを選択し，分量を指定し，記録は終了する．（4）提示リストに所望のものはないが，それに近いものがあれば（例えば，チーズバーガーに対してハンバーガーが提示されたような場合），連想検索を動かし，提示されているリストを更新し，所望のものが現れれば，それを選択し，分量を指定し，記録は終了する．連想検索は，食事のレシピ，栄養価をもとに類似度の近いものを表示する [Amano 16]．（5）ここまでで，所望のものがリストに現れない場合には，テキスト入力を行う．ユーザが料理名のキーワードを入力し，検索されたリストの中に所望のものがあれば，選択し，分量を指定し，記録を終了する．（6）対象の食事が，画像でもテキストでも探せない場合には，新出のものとして，自由記述で食事名を入力する．一度，入力したものは，その後は検索対象となる．（0）と（1）は同時である必要はない．個人的には，ともかくも写真は撮っておいて，そのしばらく後に記録の入力をすることが習慣になっている．後から記録入力するためには，写真はなくてはならない記憶である．図 2 に示したアプリのスクリーンショットでは，（a）がカレンダー形式の食事記録の一覧，（b）が個々の食事写真の内容の表示になっている．この図 2（b）は，画像入力後に，出される認識結果の 1 位を表示している．図 3（a）は，その 1 位以下を含めた認識結果を示した．表示をタップすると図のように 2 位以下の結果が表示される．その中に所望のものがあれば，選べばよい．食事品目名の右の点々の表示を選ぶと，さらに連想検索が行われ，図 3（b）のように関連候補を表示する．ここまでで所望のものが見つからなければ，キーワードを入れてテキスト検索を行う．全く新しいもののために，新規な名称を登録することもできるようになっている．食事として領域指定された画像にその食事名を併せて，個人の記録に加えられ，認識器の更新が行われる．公開版では，日本の一般的な食事の約 1 800 品目について詳細な栄養価を併せもっており，そのエネルギーのみを表示している．なお，必要に応じて，より品目数の多い栄養価データセットの利用をカスタマイズすることもできる．現在，認識対象とする食事の数は，記録登録数の多い 400 クラスである．記録を進めることで，400 クラスの内容に個人記録が加わるとともに，400 クラス以外の画像データも個人の記録により追加され，認識可能な対象は増えていく．連想検索では，食事名，栄養価，レシピの類似性に基づき，一般食全体を対象として検索する [Amano 16]．なお，FoodLog は，糖尿病のための自己管理ツールとして，東京大学医学部附属病院が検証を進めている Dialbeticsというシステム [Waki 14] や GlucoNote とい

うアプリでも用いられている＊3_．

4．パーソナライズ

食事認識

食事は，個人性が極めて高い．FoodLog では，食事品目名のカスタマイズ，新規登録ができる．このため，ユーザ全体では極めて多い品目数となる．図 4 に示したのは，2015 年 4 月時点での食事品目の頻度分布である．その時点で約 10 万クラスの登録があり，その頻度は偏りの極端なべき乗分布になっていることがわかる．極めて偏りの多いデータであることに加えて，同一の品目名であっても，記録画像には，個人性が強く出る．例えば，ヨーグルトと記録されても，プレインなもの，ジャムなどのせたもの，製品パッケージなど，その写真の撮り方に個人性が強く出る傾向が明らかとなっている．このため，効率的な食事画像認識のためには，全体最適化を求めるのではなく，利用する個人ごとへの認識器のパーソナライゼーションが不可欠である．そのために，新規クラスを追加で学習し，各クラスの内容の変化に対応し，限られたサンプルから学習するフレームワークが必要である．我々の提案・検証した SPC（Sequential Personalized Classifier）[Horiguchi 18, Yu 18] について以下に記す．SPC では，ユーザに共通の NCM（Nearest Class Mean）分類器に合わせて，ユーザの入力を逐次的に追加して重み付けした 1-NN 分類器をユーザごとに用い図 4 FoodLog アプリ運用後約 2 年時でのクラス数とその画像数．極めて偏りが大きい＊3 GlucoNote：http://uhi.umin.jp/gluconote/

(4)

ることで，パーソナライズした食事認識器を構築する． SPCのパイプラインの全体を図 5 に示す．まず，特徴抽出には，CNN を利用する．CNN によるソフトマックス分類器を学習し，最後のプーリング出力を特徴量として用いた．固定クラスであれば，各クラスごとに学習サンプルの平均ベクトルを用いた最近傍分類を行う NCM 分類器は，追加で距離計量学習を行わなくてもソフトマックス分類器と同等の精度を達成できることを確認した [Horiguchi 18]． NCMによる固定クラス分類器をユーザ共通の初期認識器として用いる．そして，ユーザの新たな記録により，特徴量の追加が行われ，ユーザに適応した分類器が構築される（表 1）．新たな入力の分類は，NCM のベクトルとの距離計算，ユーザの記録した特徴ベクトルとの距離計算を行い，重み付けした最近傍判定により行う．[Horiguchi 18] では， NCM特徴ベクトルの距離の重みは均一に 1.0 とし，ユーザの特徴追加ベクトルとの距離に対する重みは，0.85 と 1.0より小さな値とした．ユーザ固有のベクトルの距離の重みを小さくすることで，ユーザの履歴の記録をより優先して分類することができる．さらに [Yu 18] は，[Horiguchi 18] を改善した．まず，食事の出現頻度に図 4 のように極めて大きな偏りがあることから，ユーザ共通の NCM 特徴ベクトルは，そのクラスのまとまりの度合いを反映させて，異なる重み付けを行うことで最適化した．さらに，ユーザごとの記録の利用においても，時間的に近い記録のクラスを有利に扱うことができるようにする適応化を導入した．後者により，ユーザの食傾向がより反映されるとしている． [Horiguchi 18, Yu 18]では，それぞれ特徴抽出のネットワークに GoogleNet, ResNet-50 を用いた．後者の場合について，より詳細なデータを示す．ユーザ共通の特徴抽出器は，ImageNet のプリトレインモデルをもとに 469 クラス（各クラス 500 枚）の食事画像での学習を行った．また，個人適応のためのパラメータの導出には，400 人のデータを利用し，それとは異なる 299 人をテストデータとした．各ユーザからは，300 の時系列の記録を用いた．図 6 は，300 の記録順に，当たりはずれを 299 人分平均した精度を示す．適応しない CNN は，性能に変動はないものの，パーソナライズ認識器は，記録を続けるほど性能が向上する様子が見て取れる．また，上限としたラインは，個人ごとの記録のクラスと共通クラスを合わせて届く上限であり，新出のもので決まる．図 6 から 300 件の記録後でも，8 割弱の人は，その人にとって新出の食事に出合っていることがわかる．他図 5 逐次個人適応する食事画像認識器（SPC）の概要図 6 時系列食事画像の認識結果．パーソナライゼーションなしとありの比較．淡いグレーは共通の認識器であり，濃い色の線が個人適応した SPC．それぞれ，下から，上位 1 位，上位 5 位以内，すべての候補（上限）に対しての精度表 1 個人適応する食事認識器の比較．（a）はクラス数固定の CNN，（b）∼（f）はインクリメンタルな既存の認識器，（g），（h）がそれぞれ提案した個人適応の認識器である．（b）∼（f）の詳細は [Horiguchi 18] 参照

(5)

の適応手法との比較を表 1 に示す．提案手法が，優位に適応できていることが見て取れる．他の手法の詳細は， [Horiguchi 18]を参照してほしい．なお，閉じたデータセットとリアルなデータとの間の乖離は大きく，その試算も行った．興味深いので示しておきたい．図 7 には，閉じたデータセットのクラス数をかえたときの食事画像の認識性能を，GoogleNet と ReNetで示した．また，全体で現れているクラス数に対してのそのクラス数の実際に占める割合をカバレッジとした．例えば，25 クラスの場合には，閉じたデータセットで 80％の認識率があっても，カバレッジが低く，その割合を乗算すると，現実の精度は 20％にも満たないと推測される．この積が，ちょうどピークをとるところが，この実験では，ResNet では 469 クラスであった（GoogleNet だと 213 クラスのところであった）．

5．FoodLog データの

傾向

食事の記録の多寡は，そもそもその食事の好まれる度合いに大きく依存する．食事そのものの季節性も大きく影響し，特定のイベントに影響されることもある．さらには，新出の食事が，メディアの影響で増えていくということもあろう． FoodLogで記録される食事記録を用いて，食事出現の時間的な変化を検証した [安沢 17]．FoodLog の食事の記録頻度の指標として，ある日に記録をした人のうち，何人が当該の食事を記録したかという相対値を用いた．なお，参考情報として，Google での検索ワードの時間変化（Google Trend）を併せて調査した．Google Trend は，社会の関心を直接把握できるものの，食事の粒度は粗く，FoodLog の頻出 Top500 を見ても，そのうち 300 ほどが調査できるにすぎない．なお，その 300 の中にも，食事以外を意味する言葉も含まれてしまうため，食事に関しての関心を表すかどうかは確実ではない．とはいうものの，300 ほどのうち，42 の食事名の出現変化に関して，FoodLog と Google Trend で 0.7 以上の強い相関が見られた．そのうち，興味深いものを選択し，おおよそ 3年間の変動を図 8 に示す．なお，いずれも期間内の最大値を 1 として正規化した．図 8 の 4 例とも，FoodLog の食事記録としての頻出傾向と Google の検索語としての関心の傾向が実に酷似している．図 8（a），（b）は，季節やイベントにより大きく出現傾向が変化するものの例である．（a）の湯豆腐は，冬に出現頻度が上がり，（b）のフライドチキンは，クリ図 7 クローズドなデータセットでの性能とカバレッジからの現実の性能の予測．クローズなデータセットの精度（○印）とカバレッジ（曲線）との積が×印の現実の認識精度見込み．○，×それぞれの上下は，ResNet と GoogleNet に対応

図 8 FoodLog と Google Trend に基づくデータの発生傾向の比較（a）季節性の高い変動

（b）イベント性の高い変動

（c）増加傾向の日常食

(6)

スマスのときに大きなピークがある．それに対して，図 8（c）の納豆は，日常食であるが，おおよそ 3 年間の間に，両指標ともに緩やかに増加している．（d）のサラダチキンは，広く知られるようになったのが，2013 年末であり，そこから両指標ともに急速に増加する傾向を示している．（c），（d）はいずれも健康志向の食であることは興味深い．このように，FoodLog は，Google に比して，ユーザの規模ははるかに小さいものの，食に関してはかなり細かな分類の変動を見ることができるデータでもある．その中で，ユーザ全体の関心に関わるような項目では， Googleとの一致の度合いも大きい．このほかにも，FoodLog での食事の傾向についての検討も行った．FoodLog の食事名は，ばらつきが大きく，そのままでは集計がとれない．そのため，食事名の正規化手法を導き，統計をとる基盤をつくった [Aizawa 15, Amano 15]．個人ごとでの統計をとると，それがいかに全体とは異なって偏ったものであるかも明瞭となる．

6．お

わりに

我々がこれまでに進めてきた食事記録のための FoodLogの概要とそのためのパーソナライズした食事認識技術，垣間見えるデータの傾向について説明した．興味をもった読者は，一度，FoodLog App を使ってみてほしい．なお，遠からず，大きな更新を予定している．謝辞本研究は，研究室の学生，foo.log Inc. のメンバの研究開発の賜物である．本研究の一部は，JST CREST （JPMJCR1686），科研費 18H0324 の支援を受けた．

◇ 参考文献 ◇

[相澤 09] 相澤清晴：ライフログの実践的活用：食事ログからの展開，情報処理，Vol. 50, No. 7, pp. 592-597（July 2009）

[Aizawa 14] Aizawa, K., Maeda, K., Ogawa, M., Sato, Y., Kasamatsu, M., Waki, K. and Takimoto, H.: Comparative study of the routine daily usability of foodlog: A smartphone-based food recording tool assisted by image retrieval, J.

Diabetes Science and Technology, Vol.8, pp.203-208（2014） [Aizawa 15] Aizawa, K. and Ogawa, M.: FoodLog: Multimedia tool

for healthcare applications, IEEE MultiMedia, Apr.-June 2015, Vol. 22, No. 2, pp. 4-9（2015）

[Amano 15] Amano, S., Aizawa, K. and Ogawa, M.: Food category representatives: Extracting categories from meal names in food recordings and recipe data, IEEE Int. Conf. Multimedia

Big Data 2015, pp. 48-55（2015）

[Amano 16] Amano, S., Horiguchi, S., K. Aizawa, Maeda, K., Kubota, M. and Ogawa, M.: Food search based on user feedback to assist image-based food recording systems, ACM

Multimedia Workshop MADiMa, pp.71-75（2016）

[安沢 17] 安沢昌志，天野宗佑，相澤清晴，小川誠，佐藤真一：マルチドメインデータを用いた食事トレンドの検証，信学会データ工学研究会，IEICE-117, No. 108, pp. 7-10（2017）

[Horiguchi 18] Horiguchi, S., Amano, S., Ogawa, M. and Aizawa, K.: Personalized classifier for food image recognition, IEEE

Trans. Multimedia, Vol 20, No. 10, pp. 2836-2848（2018） [Kitamura 08] Kitamura, K., Yamasaki, T. and Aizawa, K.: Food

log by analyzing food images, ACM Multimedia, pp. 999-1000 （2008）

[Stumbo 13] Stumbo, P. J.: New technology in dietary assessment: A review of digital methods in improving food record accuracy, Proc. Nutrition Society, Vol. 72, No. 1, pp. 70-76（2013）

[Thompson 10] Thompson, F. E., Subar, A. F., Loria, C. M. Reedy, J. L. and Baranowski, T.: Need for technological innovation in dietary assessment, J. Amer. Diet. Assoc., Vol. 110, No. 1, pp. 48-51（2010）

[Waki 15] Waki, K., Aizawa, K., Kato, S., Fujita, H., Lee, H, Kobayashi, H., Ogawa, M., Mouri, K., Kadowaki, T. and Ohe, K.: DialBetics with a Multimedia food recording tool, FoodLog: Smartphone-based self-management for type 2 Diabetes,

J. Diabetes Science and Technology, Vol. 9, No.3 pp.534-540

（2015）

[柳井 19] 柳井啓司：食事画像認識の現状と今後〈本特集〉，人工知能， Vol. 34, No. 1, pp. 41-49（2019）

[Yu 2018] Yu, Q., Anzawa, M., Amano, S., Ogawa, M. and Aizawa, K.: Food image recognition by personalized classifier, IEEE

ICIP, pp. 171-175（2018）

[Zhu 10] Zhu, F., Bosch, M., Woo, I., Kim, S., Boushey, C. J., Ebert, D. S. and Delp, E. J.: The use of mobile devices in aiding dietary assessment and evaluation, IEEE J. Selected Topics in

Signal Processing, Vol. 4, No. 4, pp. 756-766（2010）

2018年 10 月 29 日受理

著　者　紹　介

相澤清晴（正会員） 1988年東京大学大学院工学系研究科博士課程修了．工学博士．東京大学工学部助手，講師，助教授を経て，2001 年より教授．現在，同大学院情報理工学系研究科教授．学際情報学府兼任．画像・メディア処理，ライフログ，三次元映像，漫画画像処理などに関する研究に従事．現在，電子情報情報システムソサイエティ会長．映像情報メディア学会次期会長．日本学術会議会員，IEEE，IEICE，ITE フェロー．

写真からの食事記録ツールとそのデータ傾向

1．はじめに：Food × IT

2．

食事記録のための情報技術

写真からの食事記録ツールとそのデータ傾向

Photo Based Food Recording Tool and Tendency of Its Data

相澤 清晴

Keywords:

3．FoodLog の

概要

4．パーソナライズ

食事認識

5．FoodLog データの

傾向

6．お

わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

相澤　清晴

わりに

◇ 参考文献 ◇

著　者　紹　介