ニューラルネットワークによる物体認識技術の食品生産ライン管理システムへの応用―判定精度の向上―

(1)

ニューラルネットワークによる物体認識技術の

食品生産ライン管理システムへの応用

——判定精度の向上——

Application of object recognition technology with neural network

for a food production line management system

—

Improving identification accuracy

○井岡良太

1

_{，三宅寿英}

1

_{, 前田誠一}

2

_{, 馬野元秀}

1

○Ryota Ioka, Toshihide Miyake, Seiichi Maeda, Motohide Umano

1

_{日立造船株式会社事業企画・技術開発本部技術研究所}

Technical Research Institute,

Business Planning & Technology Development Headquarters,

Hitachi Zosen Corporation

2_{日立造船株式会社機械事業本部電子制御ビジネスユニット}

Electronic Control Business Unit,

Machinery Headquarters,

Hitachi Zosen Corporation

Abstract: In a production line management of food factories, a worker performs pre-shipment visual inspection on product images. In order to save the labor cost, we have developed a service to identify the meat type (e.g., barbecue, shabu-shabu, mince etc.) of a packed meat image using ResNet, as well as the merchandising label on the package using a combination of YOLO and ResNet. We, however, had a few errors when identifying for packages of different meat. By applying Grad-CAM to the identification model, we have found out that the model focuses on the merchandising label instead of the meat itself. Thus, we fixed our model by removing the label area on the training images, and it can now identify the meat type even on packages of different meat.

１.はじめに

食品業界においては、国際的な品質管理に対する要求の高まりや、国内の食品事故の現状、高齢化による食中毒リスクの高まりなどを背景に、食品製造現場の品質記録・管理業務の負担が増加している。そこで、当社では食品製造現場の負担軽減及び省力化に寄与する遠隔支援サービスを提供している[1]。遠隔支援サービスでは、従来は人が目視で行なっていた商品の出荷前検査にニューラルネットワークによる物体認識技術を応用している。パック詰めされた食肉画像を対象にその内容物(焼肉用、しゃぶしゃぶ用、ミンチ等)を物体認識用のネットワーク ResNet [2]を用いて判定し、さらにパックに貼付された販売促進用ラベルを物体検出用のネットワーク YOLO [3]により検出し、その内容を ResNet を用いて判定している。このサービスにより、従来よりも人による目視確認作業を90%以上削減し、さらに商品の出荷ミスを低減させることができた[4]。しかし、食肉の内容物が入れ替わった商品を判定したところ、内容物判別モデルが誤判定してしまった。そこで、誤判定の原因を調査するために、判断根拠可視化技術のGrad-CAM [5]を適用した。その結果、誤判定した画像においては販売促進用のラベルの特徴に着目して判定していることが分かった。通常の商品であれば、食肉の内容物とラベルは、一定の組み合わせになっているので、ラベルが食肉の内容物判別に悪影響を及ぼすことはなかった。しかし、食肉の入れ間違いやラベルの貼り間違いなどの商品に対して、内容物判別モデルが誤判定してしまう可能性が高いことがわかった。そこで、内容物判別モデルを学習する際に、YOLO によりラベル部分を検出し、その部分を黒く塗りつぶすマスク処理を行なった。マスク処理を行なった画像で学習した内容物判別モデルを使用すると、内容物が入れ替わった商品に対しても、正しい内容物判別が可能となった。この内容物判別モデルに Grad-CAM を適用したところ、期待通り食肉に着目して判定していることがわかった。さらに、内容物が入れ替わった商品以外に対しても内容物判別したところ、従来のモデルと比較して、判定精度が向上していることがわかった。

２.遠隔支援サービスについて

当社は「食レコ」という生産ライン映像記録システムを製品化している。「食レコ」は、商品画像を撮影し、商品情報とともに記録・管理することが可能 215

(2)

な品質管理ツールであり、品質管理業務の効率化に貢献している。従来、撮影された商品画像と記録された商品情報を用いた確認作業では、「現在、何を生産しているか」という製造指示にあたる商品情報と「現在、実際に生産された」商品画像を人が目視で比較し、一致しているかをチェックしていた。この作業により、誤った商品が出荷されてしまうことを防止している。しかし、この人の目視による確認作業は非常に労力を要するので、我々は、物体認識技術を食品生産管理システムに応用した目視確認作業を自動化するシステムを開発した。システムでは、人が目視で確認している項目、すなわち商品の内容(形態・用途)と商品に貼付されている販売促進用ラベルを画像から判定し、結果が商品情報と一致しているかを自動で判定し、作業負担の低減を図っている。システムの処理フローは図 1 の通りである。システムには、商品画像と商品情報が入力される。入力された画像に対して、内容物とラベルの2 通りの判別が行なわれ、それぞれの判別結果とスコアが出力される。食肉画像の内容物判別モデルには、50 層の ResNet [2]を用いた。過去に蓄積された画像とそれに対応した内容物のカテゴリ情報のセットを学習データとして、転移学習を行なった。内容物のカテゴリは、「焼肉」、「しゃぶしゃぶ」などの16 カテゴリである。学習データとして、27594 枚の画像を使用し、それぞれの画像に対して、ランダムに左右反転や切り出しを行なうことで、学習データを増やした。そして、学習データを200 回学習させて判別モデルを作成した。学習済の判別モデルに画像を入力すると、出力としてsoftmax 関数を通った 16 種類の内容物カテゴリごとのスコアが得られ、一番高いスコアのカテゴリを判別結果とする。ラベルの判別には、ラベルの領域検出モデルに YOLO [3] を、検出したラベルの分類モデルに ResNet を使用した。まず、入力画像からラベル領域検出モデルを用いて、画像中のラベル領域座標を得る。その後、得られたラベル領域を切り出し、切り出した画像をラベル分類モデルに入力し、ラベルのカテゴリを判別する。YOLO によるラベル領域検出モデルを作成するために、過去に蓄積された画像データと画像に対応したラベル情報のセットを 27000 組使用し、さらに画像中のラベルを四角形で囲み、四角形の座標と幅と高さ(x, y, width, height) を教師として与えて学習させ、領域検出用モデルを作成した。ResNet によるラベル分類モデルの学習データに関して、まず学習済のラベル領域検出モデルを使用し、画像からラベル領域だけを切り出した。そして、切り出したラベル画像と画像のカテゴリのセットを学習データとして使用した。内容物判別とラベル判別の少なくとも一方のスコアが閾値より低かった場合、総合判定結果として「不明」を出力する。両方のスコアが閾値以上であった場合は、判別結果と商品情報を比較し、一致していれば「OK」を、一致していなければ「NG」を総合判定結果として出力する。そして、「NG」と「不明」の商品のみを従来通り人が目視確認する。これにより、人の作業負担を軽減しつつ、誤った商品を見逃さないようにしている。従来手法と自動判定システム導入後の効果を図 2に示す。スコアの閾値を高く設定すると、「不明」判定が増加し目視確認が増えてしまうが、誤った商品を見逃す可能性を下げることができる。逆に閾値を低くすると、目視確認は減るが、誤った商品を見逃す可能性が上がってしまう。我々は、自動判定システムの導入により、目視確認の商品数を全体の10%以下に抑えつつ、誤った商品の見逃しが発生しないことを目標として、スコアの閾値について検討した。その結果、内容物判別においては、「しゃぶしゃぶ」と「スライス」、「小間切れ」のような高いスコアでも間違った判別結果が出やすいカテゴリの商品は閾値を高く設定し、「とんかつ用」、「ハンバーグ」のような間違った判別結果が出にくい商品は閾値を低めに設定し、目視確認数の低減に努めた。ラベル判別に関しては、内容物判別と違い、対象となるラベルの個体差がなく、高いスコアが出るので、カテゴリにかかわらず一定の閾値を用いた。自動判定システムを導入した遠隔支援サービスを 1 年間運用した。その結果、従来業務と比較して、人による目視確認作業を90%以上削減し、かつ間違った商品を見逃さない効果が得られた。図 1 自動判定システムの処理フロー

(3)

表 1 内容物判別モデルによる判別結果しかし、食肉の内容物が入れ替わった商品を判定したところ、誤判定が発生した。入れ替わった商品は、「すじ」肉を入れるべき商品に「カレー用」の肉を入れてしまった商品A と「カレー用」の肉を入れるべき商品に「すじ」肉を入れてしまった商品B の 2 つであった。この 2 つの商品に対して、内容物判別モデルの結果は表 1のようになった。A と B の商品に対して、それぞれの製造指示の内容(指示書)、実際に入れた食肉(実物)、内容物判別モデルの判別結果(判別結果)、判別結果のスコア(判別スコア)、「OK」or「NG」or「不明」の判定結果(総合判定) となっている。現状では、図 2のように総合判定において「不明」、「NG」と判定された商品に対しては、人による目視確認を実施している。そのために、商品A に関しては目視確認が行なわれるが、商品B は誤判定により「OK」の総合判定結果となったので、目視確認が行われない。

３.内容物判別モデルの判定精度向上

誤判定の原因を調査する目的で、内容物判別モデルのResNet に判断根拠可視化技術を適用した。 (1) 判断根拠可視化技術の適用判断根拠可視化技術として Grad-CAM [5] と Guided Grad-CAM [5][6][7]を適用し、誤判定した画像に対して、画像中のどの箇所を根拠に判定したかを描画させた( なお Grad-CAM と Guided Grad-CAM の概要は付録を参照されたい)。その結果を図 3と図 4に示す。図 3では、最後の畳み込み層の判断根拠となった箇所をもとの画像上にヒートマップとして重ねている。赤くなっている部分が最も判断に寄与した箇所を示している。また、図 4 は、Guided Grad-CAM を適用した結果であり、判断根拠として使用した特徴をピクセル単位で示している。図 3‐(a)と図 4‐(a)の商品 A は商品に貼付されている販売促進用ラベル付近を中心とした箇所の特徴により判断しており、図 3‐(b)と図 4‐(b)の商品B もラベルを判断根拠の一部として使用していることが分かった。すなわち、従来の内容物判別モデ指示書実物判別結果判別スコア総合判定 A すじカレー用すじ 0.7564 不明 B カレー用すじカレー用 0.9738 OK 図 2 自動判定システムの導入による効果 (a)商品 A (b)商品 B 図 3 従来のモデルに対する Grad-CAM の結果 (a)商品 A (b)商品 B 図 4 従来モデルに対する Guided Grad-CAM の結果 217

(4)

ルでは、中身が違っていても販売促進用ラベルが正しければ、ラベルを根拠として誤った判定をしてしまう可能性があった。今回のような中身と販売促進用ラベルが一致していない商品画像をたくさん集め、学習に使用することができれば、今回のケースも正しく判定できる可能性はあるが、このような商品画像を集めることは非常に難しい。 (2) 精度向上策販売促進用ラベルを使用しないようにするために、学習する画像から販売促進用ラベルの部分を黒く塗りつぶすことにした(マスク処理)。マスク処理には、販売促進用ラベルの位置を検出する必要があるが、ラベル検出用のYOLO の学習済みモデルを使用した。YOLO で販売促進用ラベルを検出し、ラベル部分を黒く塗りつぶすマスク処理を自動で行ない、内容物判別モデルの学習用データとした。図 5にマスク処理を行なった画像例を示す。学習用データとして使用した画像は、従来の内容物判別モデルと同じ期間(2019 年 1 月 25 日～2019 年 4 月 24 日)の画像データ 27594 枚であった。販売促進用ラベルが貼られない商品は、YOLO でラベルが検出されないので、そのままの画像を学習に使用した。販売促進用ラベルにマスク処理を施した画像で学習し、新しい内容物判別モデルを作成した。評価のために今回の入れ替わった画像に対して判定を行なった。判定する画像にも、前処理としてYOLO でラベルを検出し、マスク処理を行なった。判定結果は表 2の通りである。従来の内容物判別モデルでは、どちらの画像も間違った判定をしていたが、新しい内容物判別モデルでは、高いスコアで正しい判別結果(総合判定において、指示書と実物が違うため「NG」)を得ることができた。表 2 新しい内容物判別モデルによる判別結果 (3) 検証新しい内容物判別モデルでは、ラベルと中身が違っている今回のような画像に対して、正しく判定することができた。そこで、新しいモデルに対しても、 Grad-CAM と Guided Grad-CAM を適用した。結果を図 6 と図 7に示す。図 6‐(b)と図 7‐(b)の商品 B では、商品の中心部である食肉部分を判断根拠としており、期待通りの検証結果が得られている。商品A に関して、図 6‐(a)では、商品名などが印字さ

れた部分にヒートマップが赤くかかっているが、図

7‐(a)の Guided Grad-CAM の結果を見ると、食肉の形の特徴を判断根拠としていることがわかる。これは Grad-CAM のヒートマップは解像度が低い(7 ×7)が、Guided Grad-CAM は入力サイズと同じ大きさの解像度(224×224)で判断根拠が得られることが原因と考えられる。これらのことから、今回の入れ替わった商品画像に対して、新しい内容物判別モデルは商品部分、特に食肉部分を判断根拠として正しい判別をしていることが分かった。また、新しいモデルの判別性能を評価するために、従来の内容物判別モデルと新しい内容物判別モデルの判定結果を比較した。2019 年 4 月 25 日～2019 年5 月 25 日の 1 ヶ月間の画像 9459 枚(入れ替わった 2 枚の画像を含む)に対して、総合判定結果が「OK」、「NG」、「不明」となった画像の枚数を調べた。この比較では、総合判定結果に使用するスコア指示書実物判別結果判別スコア総合判定 A すじカレー用カレー用 0.9999 NG B カレー用すじすじ 0.9999 NG (a)商品 A (b)商品 B 図 6 新しいモデルに対する Grad-CAM の結果 (a)商品 A (b)商品 B 図 7 新しいモデルに対する Guided Grad-CAM 図 5 ラベルをマスク処理した画像例

(5)

表 3 1 ヶ月間の判定結果 OK NG 不明 OK 率従来モデル 9075 43 341 95.94% 新しいモデル 9227 45 187 97.55% の閾値はカテゴリに依らず、一律0.95 とした。結果を表 3 に示す。表 3 中の「OK 率」は、全画像に対する「OK」の割合を記載している。新しいモデルは今回の入れ替わった画像以外の正しい画像を対象とした判定において、従来のモデルよりも「不明」の判定数が大きく減少しており、「OK」の割合が上昇していた。新しいモデルを使用することにより、中身を入れ替わった商品に対しても正しく判定することができるだけでなく、正しい商品に対しても目視確認の対象である「不明」の判定数を減らすことができた。

４.おわりに

判断根拠可視化技術を活用することにより、ニューラルネットワークによる誤判定の原因を調査し、精度向上のための対策をとることができた。今後は、スコアの妥当性を検討し、総合判定結果の精度を向上させ、本システムのさらなる性能の向上に努めていきたい。そして、本システムがより多くの工場で採用されることで、生産現場の省力化に貢献していきたい。

参考文献

[1] 井岡良太, 三宅寿英, 前田誠一, 畑圭祐, 森本晃章, 杉本淳, 遠藤栄進: 食品工場における品質管理の遠隔支援システムの開発, 日立造船技報, 第79 号第 1 号, pp. 32-37, 2018

[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun : Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016

[3] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi : You Only Look Once: Unified, Real-Time Object Detection, IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016 [4] 井岡良太, 三宅寿英, 前田誠一, 遠藤栄進, 馬野元秀: ニューラルネットワークによる物体認識技術の食品生産管理システムへの応用, 第 34 回ファジィシステムシンポジウム, pp. 560-564, 2018

[5] Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, IEEE International Conference on Computer Vision, pp. 618-626, 2017

[6] Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, Martin Riedmiller: Striving for Simplicity: The All Convolutional Net, CoRR, abs/1412.6806, 2014

[7] Grad-CAM: Gradient-weighted Class Activa- tion Mapping, http://gradcam.cloudcv.org/

(2020/07/17 現在)

連絡先

〒551-0022 大阪市大正区船町 2 丁目 2 番 11 号日立造船株式会社事業企画・技術開発本部技術研究所井岡良太 TEL: 06-6551-9312 E-mail: [email protected]

付録判断根拠可視化技術

ニューラルネットワークによる判断根拠を可視化する技術として、 Grad-CAM [5] や Guided Grad-CAM [5][6]がよく用いられる。Grad-CAM は Gradient-weighted Class Activation Mapping の略である。一般的に、画像の分類課題に使用されるニューラルネットワークは、複数の畳み込み層を用いたニューラルネットワーク (Convolutional Neural Network: CNN) である。CNN では、入力された画像を複数の畳み込み層で処理することにより、分類に必要な特徴量を抽出する。その後、抽出された複数の特徴量を全結合層に入力し、分類結果を出力している。しかし、このとき、特徴マップの値しか用いないので位置の情報を失ってしまう。そこで Grad-CAM では、必要な情報を残すために、全結合層に入力される前の特徴マップの勾配情報を利用して、判断根拠を出力している。具体的には、画像を順方向でネットワークに通し、分類結果を得る。得られた分類結果を最後の畳み込み層まで誤差逆伝播し、畳み込み層の勾配を計算する。計算した畳み込み層の勾配において Global Average Pooling [2]を行ない、得られた Global Average Pooling の値を重みとして、畳み込み層に乗算し、全ての畳み込み層の乗算結果の和をとり、入力画像と同じサイズまで拡大する。これをヒートマップの形式で表示させると、CNN が画像のどの部分に注目してその分類結果に至ったのか、すなわち、その判断の根拠となった箇所を示すことができる。しかし、Grad-CAM では、出力されるヒートマップは、ネットワークの最後の畳み込み層から得るため、入力画像よりも解像度が非常に小さくなってしまう。この問題を解決するために、従来手法である Guided Backpropagation [6] を組み合わせた Guided Grad-CAM が提案されている。 Guided Backpropagation は、入力画像のピクセルに関する予測値の勾配を示したもので、順伝播、逆伝播の勾配計算時にReLU 関数を使用し、負の値をゼロに置き換えることで判断根拠に使用した特徴量を得ることができる。しかし、得られる特徴量はすべてのクラスの特徴量であった。そこで、特定のクラスの判断根拠を出力できるが解像度が小さくなってしまう Grad-CAM と、解像度が大きい特徴量が出力できるがクラスを絞れないGuided Backpropagation とを組み合わせて、解像度が大きく特定のクラスの特徴量を出力することができる手法が Guided Grad-CAM である。概要を図 8に示す。 219

(6)

ニューラルネットワークによる物体認識技術の食品生産ライン管理システムへの応用―判定精度の向上―