ニューラルネットワークによる物体認識技術の
食品生産ライン管理システムへの応用
——判定精度の向上——
Application of object recognition technology with neural network
for a food production line management system
—
Improving identification accuracy
○井岡 良太
1, 三宅 寿英
1, 前田 誠一
2, 馬野 元秀
1○Ryota Ioka, Toshihide Miyake, Seiichi Maeda, Motohide Umano
1
日立造船株式会社 事業企画・技術開発本部 技術研究所
Technical Research Institute,
Business Planning & Technology Development Headquarters,
Hitachi Zosen Corporation
2日立造船株式会社 機械事業本部 電子制御ビジネスユニット
Electronic Control Business Unit,
Machinery Headquarters,
Hitachi Zosen Corporation
Abstract: In a production line management of food factories, a worker performs pre-shipment visual inspection on product images. In order to save the labor cost, we have developed a service to identify the meat type (e.g., barbecue, shabu-shabu, mince etc.) of a packed meat image using ResNet, as well as the merchandising label on the package using a combination of YOLO and ResNet. We, however, had a few errors when identifying for packages of different meat. By applying Grad-CAM to the identification model, we have found out that the model focuses on the merchandising label instead of the meat itself. Thus, we fixed our model by removing the label area on the training images, and it can now identify the meat type even on packages of different meat.
1.はじめに
食品業界においては、国際的な品質管理に対する 要求の高まりや、国内の食品事故の現状、高齢化に よる食中毒リスクの高まりなどを背景に、食品製造 現場の品質記録・管理業務の負担が増加している。 そこで、当社では食品製造現場の負担軽減及び省力 化に寄与する遠隔支援サービスを提供している[1]。 遠隔支援サービスでは、従来は人が目視で行なっ ていた商品の出荷前検査にニューラルネットワーク による物体認識技術を応用している。パック詰めさ れた食肉画像を対象にその内容物(焼肉用、しゃぶし ゃぶ用、ミンチ等)を物体認識用のネットワーク ResNet [2]を用いて判定し、さらにパックに貼付さ れた販売促進用ラベルを物体検出用のネットワーク YOLO [3]により検出し、その内容を ResNet を用い て判定している。このサービスにより、従来よりも 人による目視確認作業を90%以上削減し、さらに商 品の出荷ミスを低減させることができた[4]。 しかし、食肉の内容物が入れ替わった商品を判定 したところ、内容物判別モデルが誤判定してしまっ た。そこで、誤判定の原因を調査するために、判断 根拠可視化技術のGrad-CAM [5]を適用した。その 結果、誤判定した画像においては販売促進用のラベ ルの特徴に着目して判定していることが分かった。 通常の商品であれば、食肉の内容物とラベルは、一 定の組み合わせになっているので、ラベルが食肉の 内容物判別に悪影響を及ぼすことはなかった。しか し、食肉の入れ間違いやラベルの貼り間違いなどの 商品に対して、内容物判別モデルが誤判定してしま う可能性が高いことがわかった。 そこで、内容物判別モデルを学習する際に、YOLO によりラベル部分を検出し、その部分を黒く塗りつ ぶすマスク処理を行なった。マスク処理を行なった 画像で学習した内容物判別モデルを使用すると、内 容物が入れ替わった商品に対しても、正しい内容物 判 別 が 可 能 と なっ た 。 この 内 容 物 判 別 モデ ル に Grad-CAM を適用したところ、期待通り食肉に着目 して判定していることがわかった。さらに、内容物 が入れ替わった商品以外に対しても内容物判別した ところ、従来のモデルと比較して、判定精度が向上 していることがわかった。2.遠隔支援サービスについて
当社は「食レコ」という生産ライン映像記録シス テムを製品化している。「食レコ」は、商品画像を撮 影し、商品情報とともに記録・管理することが可能 215な品質管理ツールであり、品質管理業務の効率化に 貢献している。従来、撮影された商品画像と記録さ れた商品情報を用いた確認作業では、「現在、何を生 産しているか」という製造指示にあたる商品情報と 「現在、実際に生産された」商品画像を人が目視で 比較し、一致しているかをチェックしていた。この 作業により、誤った商品が出荷されてしまうことを 防止している。しかし、この人の目視による確認作 業は非常に労力を要するので、我々は、物体認識技 術を食品生産管理システムに応用した目視確認作業 を自動化するシステムを開発した。 システムでは、人が目視で確認している項目、す なわち商品の内容(形態・用途)と商品に貼付されて いる販売促進用ラベルを画像から判定し、結果が商 品情報と一致しているかを自動で判定し、作業負担 の低減を図っている。システムの処理フローは図 1 の通りである。システムには、商品画像と商品情報 が入力される。入力された画像に対して、内容物と ラベルの2 通りの判別が行なわれ、それぞれの判別 結果とスコアが出力される。 食 肉 画 像 の 内 容 物 判 別 モ デ ル に は 、50 層 の ResNet [2]を用いた。過去に蓄積された画像とそれ に対応した内容物のカテゴリ情報のセットを学習デ ータとして、転移学習を行なった。内容物のカテゴ リは、「焼肉」、「しゃぶしゃぶ」などの16 カテゴリ である。学習データとして、27594 枚の画像を使用 し、それぞれの画像に対して、ランダムに左右反転 や切り出しを行なうことで、学習データを増やした。 そして、学習データを200 回学習させて判別モデル を作成した。学習済の判別モデルに画像を入力する と、出力としてsoftmax 関数を通った 16 種類の内 容物カテゴリごとのスコアが得られ、一番高いスコ アのカテゴリを判別結果とする。 ラベルの判別には、ラベルの領域検出モデルに YOLO [3] を 、 検 出 し た ラ ベ ル の 分 類 モ デ ル に ResNet を使用した。まず、入力画像からラベル領 域検出モデルを用いて、画像中のラベル領域座標を 得る。その後、得られたラベル領域を切り出し、切 り出した画像をラベル分類モデルに入力し、ラベル のカテゴリを判別する。YOLO によるラベル領域検 出モデルを作成するために、過去に蓄積された画像 デ ー タ と 画 像 に対 応 し たラ ベ ル 情 報 の セッ ト を 27000 組使用し、さらに画像中のラベルを四角形で 囲み、四角形の座標と幅と高さ(x, y, width, height) を教師として与えて学習させ、領域検出用モデルを 作成した。ResNet によるラベル分類モデルの学習 データに関して、まず学習済のラベル領域検出モデ ルを使用し、画像からラベル領域だけを切り出した。 そして、切り出したラベル画像と画像のカテゴリの セットを学習データとして使用した。 内容物判別とラベル判別の少なくとも一方のスコ アが閾値より低かった場合、総合判定結果として「不 明」を出力する。両方のスコアが閾値以上であった 場合は、判別結果と商品情報を比較し、一致してい れば「OK」を、一致していなければ「NG」を総合 判定結果として出力する。そして、「NG」と「不明」 の商品のみを従来通り人が目視確認する。これによ り、人の作業負担を軽減しつつ、誤った商品を見逃 さないようにしている。従来手法と自動判定システ ム導入後の効果を図 2に示す。 スコアの閾値を高く設定すると、「不明」判定が増 加し目視確認が増えてしまうが、誤った商品を見逃 す可能性を下げることができる。逆に閾値を低くす ると、目視確認は減るが、誤った商品を見逃す可能 性が上がってしまう。我々は、自動判定システムの 導入により、目視確認の商品数を全体の10%以下に 抑えつつ、誤った商品の見逃しが発生しないことを 目標として、スコアの閾値について検討した。その 結果、内容物判別においては、「しゃぶしゃぶ」と「ス ライス」、「小間切れ」のような高いスコアでも間違 った判別結果が出やすいカテゴリの商品は閾値を高 く設定し、「とんかつ用」、「ハンバーグ」のような間 違った判別結果が出にくい商品は閾値を低めに設定 し、目視確認数の低減に努めた。ラベル判別に関し ては、内容物判別と違い、対象となるラベルの個体 差がなく、高いスコアが出るので、カテゴリにかか わらず一定の閾値を用いた。 自動判定システムを導入した遠隔支援サービスを 1 年間運用した。その結果、従来業務と比較して、 人による目視確認作業を90%以上削減し、かつ間違 った商品を見逃さない効果が得られた。 図 1 自動判定システムの処理フロー
表 1 内容物判別モデルによる判別結果 しかし、食肉の内容物が入れ替わった商品を判定 したところ、誤判定が発生した。入れ替わった商品 は、「すじ」肉を入れるべき商品に「カレー用」の肉 を入れてしまった商品A と「カレー用」の肉を入れ るべき商品に「すじ」肉を入れてしまった商品B の 2 つであった。この 2 つの商品に対して、内容物判 別モデルの結果は表 1のようになった。A と B の 商品に対して、それぞれの製造指示の内容(指示書)、 実際に入れた食肉(実物)、内容物判別モデルの判別 結果(判別結果)、判別結果のスコア(判別スコア)、 「OK」or「NG」or「不明」の判定結果(総合判定) となっている。 現状では、図 2のように総合判定において「不明」、 「NG」と判定された商品に対しては、人による目 視確認を実施している。そのために、商品A に関し ては目視確認が行なわれるが、商品B は誤判定によ り「OK」の総合判定結果となったので、目視確認 が行われない。
3.内容物判別モデルの判定精度向上
誤判定の原因を調査する目的で、内容物判別モデ ルのResNet に判断根拠可視化技術を適用した。 (1) 判断根拠可視化技術の適用 判 断 根 拠 可 視 化 技 術 と し て Grad-CAM [5] と Guided Grad-CAM [5][6][7]を適用し、誤判定した 画像に対して、画像中のどの箇所を根拠に判定した か を 描 画 さ せ た( な お Grad-CAM と Guided Grad-CAM の概要は付録を参照されたい)。その結 果を図 3と図 4に示す。図 3では、最後の畳み込 み層の判断根拠となった箇所をもとの画像上にヒー トマップとして重ねている。赤くなっている部分が 最も判断に寄与した箇所を示している。また、図 4 は、Guided Grad-CAM を適用した結果であり、判 断根拠として使用した特徴をピクセル単位で示して いる。 図 3‐(a)と図 4‐(a)の商品 A は商品に貼付され ている販売促進用ラベル付近を中心とした箇所の特 徴により判断しており、図 3‐(b)と図 4‐(b)の商 品B もラベルを判断根拠の一部として使用している ことが分かった。すなわち、従来の内容物判別モデ 指示書 実物 判別結果 判別スコア 総合判定 A すじ カレー用 すじ 0.7564 不明 B カレー用 すじ カレー用 0.9738 OK 図 2 自動判定システムの導入による効果 (a)商品 A (b)商品 B 図 3 従来のモデルに対する Grad-CAM の結果 (a)商品 A (b)商品 B 図 4 従来モデルに対する Guided Grad-CAM の結果 217ルでは、中身が違っていても販売促進用ラベルが正 しければ、ラベルを根拠として誤った判定をしてし まう可能性があった。 今回のような中身と販売促進用ラベルが一致して いない商品画像をたくさん集め、学習に使用するこ とができれば、今回のケースも正しく判定できる可 能性はあるが、このような商品画像を集めることは 非常に難しい。 (2) 精度向上策 販売促進用ラベルを使用しないようにするために、 学習する画像から販売促進用ラベルの部分を黒く塗 りつぶすことにした(マスク処理)。 マスク処理には、販売促進用ラベルの位置を検出 する必要があるが、ラベル検出用のYOLO の学習済 みモデルを使用した。YOLO で販売促進用ラベルを 検出し、ラベル部分を黒く塗りつぶすマスク処理を 自動で行ない、内容物判別モデルの学習用データと した。 図 5にマスク処理を行なった画像例を示す。学習 用データとして使用した画像は、従来の内容物判別 モデルと同じ期間(2019 年 1 月 25 日~2019 年 4 月 24 日)の画像データ 27594 枚であった。販売促進用 ラベルが貼られない商品は、YOLO でラベルが検出 されないので、そのままの画像を学習に使用した。 販売促進用ラベルにマスク処理を施した画像で学 習し、新しい内容物判別モデルを作成した。評価の ために今回の入れ替わった画像に対して判定を行な った。判定する画像にも、前処理としてYOLO でラ ベルを検出し、マスク処理を行なった。判定結果は 表 2の通りである。 従来の内容物判別モデルでは、どちらの画像も間 違った判定をしていたが、新しい内容物判別モデル では、高いスコアで正しい判別結果(総合判定におい て、指示書と実物が違うため「NG」)を得ることが できた。 表 2 新しい内容物判別モデルによる判別結果 (3) 検証 新しい内容物判別モデルでは、ラベルと中身が違 っている今回のような画像に対して、正しく判定す ることができた。そこで、新しいモデルに対しても、 Grad-CAM と Guided Grad-CAM を適用した。結果 を図 6 と図 7に示す。図 6‐(b)と図 7‐(b)の商品 B では、商品の中心部である食肉部分を判断根拠と しており、期待通りの検証結果が得られている。商 品A に関して、図 6‐(a)では、商品名などが印字さ
れた部分にヒートマップが赤くかかっているが、図
7‐(a)の Guided Grad-CAM の結果を見ると、食肉 の形の特徴を判断根拠としていることがわかる。こ れは Grad-CAM のヒートマップは解像度が低い(7 ×7)が、Guided Grad-CAM は入力サイズと同じ大 きさの解像度(224×224)で判断根拠が得られること が原因と考えられる。これらのことから、今回の入 れ替わった商品画像に対して、新しい内容物判別モ デルは商品部分、特に食肉部分を判断根拠として正 しい判別をしていることが分かった。 また、新しいモデルの判別性能を評価するために、 従来の内容物判別モデルと新しい内容物判別モデル の判定結果を比較した。2019 年 4 月 25 日~2019 年5 月 25 日の 1 ヶ月間の画像 9459 枚(入れ替わっ た 2 枚の画像を含む)に対して、総合判定結果が 「OK」、「NG」、「不明」となった画像の枚数を調べ た。この比較では、総合判定結果に使用するスコア 指示書 実物 判別結果 判別スコア 総合判定 A すじ カレー用 カレー用 0.9999 NG B カレー用 すじ すじ 0.9999 NG (a)商品 A (b)商品 B 図 6 新しいモデルに対する Grad-CAM の結果 (a)商品 A (b)商品 B 図 7 新しいモデルに対する Guided Grad-CAM 図 5 ラベルをマスク処理した画像例
表 3 1 ヶ月間の判定結果 OK NG 不明 OK 率 従来モデル 9075 43 341 95.94% 新しいモデル 9227 45 187 97.55% の閾値はカテゴリに依らず、一律0.95 とした。結果 を表 3 に示す。表 3 中の「OK 率」は、全画像に対 する「OK」の割合を記載している。 新しいモデルは今回の入れ替わった画像以外の正 しい画像を対象とした判定において、従来のモデル よりも「不明」の判定数が大きく減少しており、「OK」 の割合が上昇していた。新しいモデルを使用するこ とにより、中身を入れ替わった商品に対しても正し く判定することができるだけでなく、正しい商品に 対しても目視確認の対象である「不明」の判定数を 減らすことができた。
4.おわりに
判断根拠可視化技術を活用することにより、ニュ ーラルネットワークによる誤判定の原因を調査し、 精度向上のための対策をとることができた。今後は、 スコアの妥当性を検討し、総合判定結果の精度を向 上させ、本システムのさらなる性能の向上に努めて いきたい。そして、本システムがより多くの工場で 採用されることで、生産現場の省力化に貢献してい きたい。参考文献
[1] 井岡良太, 三宅寿英, 前田誠一, 畑圭祐, 森本晃 章, 杉本淳, 遠藤栄進: 食品工場における品質管 理の遠隔支援システムの開発, 日立造船技報, 第79 号第 1 号, pp. 32-37, 2018[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun : Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016
[3] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi : You Only Look Once: Unified, Real-Time Object Detection, IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016 [4] 井岡良太, 三宅寿英, 前田誠一, 遠藤栄進, 馬野 元秀: ニューラルネットワークによる物体認識 技術の食品生産管理システムへの応用, 第 34 回 ファジィシステムシンポジウム, pp. 560-564, 2018
[5] Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, IEEE International Conference on Computer Vision, pp. 618-626, 2017
[6] Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, Martin Riedmiller: Striving for Simplicity: The All Convolutional Net, CoRR, abs/1412.6806, 2014
[7] Grad-CAM: Gradient-weighted Class Activa- tion Mapping, http://gradcam.cloudcv.org/
(2020/07/17 現在)