畳込みニューラルネットワークを用いた画像分割による複数物体認識

(1)

畳込みニューラルネットワークを用いた

画像分割による複数物体認識

Multiple Object Recognition by Image Segmentation

with Convolutional Neural Network

髙岡賢人

1*

_土屋誠司

2

_渡部広一

2

Kento Takaoka

1

, Seiji Tsuchiya

2

, and Hirokazu Watabe

2

1

_{同志社大学大学院理工学研究科}

1

_{Graduate School of Science and Engineering, Doshisha University}

2

_{同志社大学理工学部}

2

_{Faculty of Science and Engineering, Doshisha University}

Abstract: In recent years, the development of robots has been carried out for making human life more

convenient and more comfortable along with the development of artificial intelligence. As one of some movements of a robot, there is a movement which the robot autonomously move and grab some objects which human needs. To realize the movement, the robot needs a technique of the general object recognition to recognize some objects around the robot. However, the object recognition is the technique to recognize one object as the generic name from one image. Therefore, in this paper, it is proposed that the object recognition system which recognizes multiple objects by image segmentation with convolutional neural network.

1 はじめに

近年，人工知能の発展に伴い，人間の生活をより豊かに，快適にするロボットや自動車の開発が盛んに行われている．ロボットが人間を手助けする動作として，ロボットが自律移動をして指示された物を取得するといった一連の動きや，自動車にはドライバーの運転の負担を減らし安全で快適な自動運転システムが今後求められる．このように，ロボットや自動車にとって周囲の環境を写した画像を用いて，外界の情報を理解する物体認識の技術が必要となる．物体認識には 1 枚の画像に写った 1 つの物体をその物体の一般的な名称で認識する“一般物体認識”と，人間の顔や車の車種などの特定の物体に注目し固有の名称を認識する“特定物体認識”があるが，本稿では一般物体認識を扱う．また，現在では畳込みニューラルネットワーク（CNN）[1]_{を用いた一般物体} 認識が主流となっており，本稿でも CNN を用いて一般物体認識を行う．しかし，日常生活で目にする多くの場面では，さまざまな種類の物体が混在しており，ロボットや自動車にとって 1 枚の画像に写った 1 つの物体を認識するだけでは情報量が乏しい．そこで，本稿では 1 枚の画像に写った 1 つの物体だけでなく，複数の物体も認識するシステムを提案する．

2 関連研究

2.1 畳込みニューラルネットワーク（CNN）

CNN は畳込みとプーリングの 2 つの計算を交互に繰り返す順伝播型のネットワークである．基本的な CNN は，全体の構造として図 1 に示すような構造となり，始めは入力画像に対するフィルタの畳込み処理を行う層と，その出力に対するプーリング処理を行う層を交互にいくつか繰り返す．また softmax を行う直前の全結合層には分類したいクラス数と同数のユニットを置き，その前のいくつかの層も全結合層とすることが多い．そして，クラス分類を行うため，最終層に分類すべきクラスと同じ数のユニットを配置し，あるクラスに対応する画像が入力された場合は，そのクラスに対応するユニットの出力が大きくなるようにすることでクラス分類を行う．実際には，最終層のそれぞれのユニットの出力{ℎ𝑖}に *連絡先：同志社大学大学院理工学研究科〒610-0394 京都府京田辺市多々羅都谷 1-3 E-mail：[email protected] 人工知能学会研究会資料 SIG-KBS-B506-03

(2)

対して softmax 関数を用いて，クラス確率{𝑝𝑖}に変換する．softmax 関数は以下のように定義され，𝑖 ≠ 𝑗 に対して ℎ𝑖≫ ℎ𝑗 である場合には，𝑝𝑖≅ 1 であり，𝑝𝑗≅ 0となる． 𝑝𝑖= exp (ℎ𝑖) ∑ exp (ℎ𝑗 𝑗) (1) 図 1 CNN の全体図

2.2 AlexNet

2012 年に ILSVRC（ImageNet Large Scale Visual Recognition Challenge）と呼ばれる画像認識の性能を競い合うコンテストが行われた．Alexnet とは，そのコンテストの中で課されるタスクである，1 枚の入力画像に写った物体のクラスを 1,000 種類の中から答える問題（一般物体認識）で，最も低いエラー率で優勝した Krizhevsky らにより設計された CNN である．そのネットワーク構造を図 2，各層のパラメータを表 1 に示す．なお，図 2，表 1 中の conv，pool， norm，fc はそれぞれ畳込み層，プーリング層，正規化層，全結合層を表す．図 2 AlexNet のネットワーク構造表 1 各層におけるパラメータ

layer patch stride map size func weights

data - - 227×227×3 - - conv1 11×11 4 55×55×96 ReL 34,848 pool1 3×3 2 27×27×96 - 0 norm1 5×5 1 27×27×96 - 0 conv2 5×5 1 27×27×256 ReL 614,400 pool2 3×3 2 13×13×256 - 0 norm2 5×5 1 13×13×256 - 0 conv3 3×3 1 13×13×384 ReL 884,736 conv4 3×3 1 13×13×384 ReL 1,327,104 conv5 3×3 1 13×13×256 ReL 884,736 pool5 3×3 2 6×6×256 - 0 fc6 - - 1×1×4096 ReL 37,748,736 fc7 - - 1×1×4096 ReL 16,777,216 fc8 - - 1×1×1000 softmax 4,096,000

3 提案する一般物体認識システム

CNN を用いた一般物体認識では，1 枚の画像写った 1 つの物体を高い精度で認識できる．しかし，1 枚の画像に写った複数の物体を認識することは困難である．その理由は，CNN に学習させたい物体が写る学習画像は，一般的に 1 枚の画像につき 1 つ物体のみが写った画像だからである．そのため，認識したい物体が画像中に 1 物体たけ写っていれば，高い精度でその物体を認識できるが，複数の他の物体が混じれば，認識率は低下してしまう．本稿では 1 枚の画像に写った複数の物体を認識するシステムを提案する．具体的には，まず入力画像を 3.1 節で述べる画像分割の方法を用いて分割し，分割された各画像を構築した CNN で認識する．各画像から得られた認識結果（物体名とクラス確率）を物体毎に合計し，各物体のクラス確率が閾値以上の場合，その物体を画像に写った物体として最終的な結果を出力する．閾値の決定方法については，3.3 節で述べる．提案するシステムの流れを図 3 に示す．また，本稿の入出力の具体例を図 4 に示す．図 3 提案するシステムの流れ図 4 入出力の具体例

3.1 画像分割

CNN による一般物体認識は，1 枚の画像に写った 1 つの物体の一般名称を出力する．そのため，複数の物体を認識するためには，できるだけ物体が 1 枚の画像には 1 つの物体が写るように画像を分割する必要がある．そこで，本稿では古川氏らの研究[3]_で提案された画像分割の方法を用いて，画像を分割する．まず，入力画像全体から SURF[4]_{を用いて特徴点を} 抽出する．図 5 にその例を示す．図 5 から特徴点は物体の中や周辺に集中することがわかる．このことを利用することで，分割された画像に物体が存在するか否かを判断する．そして，図 6 に示すような（a）入力画像畳込み層プーリング層畳込み層プーリング層全結合層 softmax _{（クラス確率）}出力結果 con v1 pool1 norm 1 con v2

pool2 norm2 _con

v3 con v4 con v5 pool5 fc 6 fc7 fc8 softma x inpu t: im ag e outp ut: class pr obabil ity 画像分割 CNNによる認識結果出力入力画像ヘッドホンメガネ出力結果

(3)

左右 2 等分割，（b）上下 2 等分割，（c）左右上下 2 等分割の 1/4 サイズに 9 分割の 3 つの分割方法で，画像を分割する．図 5 特徴点抽出の例（○が特徴点を示す）図 6 分割方法次に，それぞれの分割画像に存在する特徴点の数が閾値以上の場合，物体が存在すると判断され，その分割画像を認識対象とする．なお，この閾値は実験的に定められており，（a）左右 2 分割と（b）上下 2 分割された 4 枚の画像の特徴点数が，画像全体の特徴点数の 40%以上であれば認識対象とする．また，（c）1/4 サイズに 9 分割された 9 枚の画像の特徴点の数が，画像全体の特徴点数の 20%以上であれば認識対象とする．この方法を用いることで，認識対象として不要な画像を省き，後述する 3.3 節の結果出力の際に不正解となる物体名の点数の増加を抑えられると考えた．

3.2 構築した CNN による認識

本節では，学習データセットを用いて CNN モデルを構築し，3.1 節で得られた画像と元画像を認識する． 3.2.1 学習に用いるデータセット CNN モデルを構築するために必要な学習画像及び CNN モデルの精度を測るための検証画像は， ImageNet[5]_{の画像を用いる．ImageNet とは，約 2 万} 2 千のクラスからなる約 1400 万枚の画像データ大規模画像データセットであり，非商用の研究目的として一般物体認識などの画像認識の研究で広く利用されている．ImageNet の画像例を図 7 に示す．図 7 マグカップクラスの画像例 3.2.2 構築する CNN モデル構築するネットワークの構造は図 2 及び表 1 と同様のものを使用するが，fc8 のユニット数は学習させるクラス数に合わせる．そして，学習時間の削減のために，学習済みの Alexnet の CNN モデルに上書きするように学習する． CNN の学習を行う際，ImageNet の画像のサイズは全て統一されていないため，まず学習画像のサイズを 256×256 に直す．そして，中央の 227×227 部分を切り出し，使用する全ての学習画像の平均画像を差し引いたものを CNN の入力層にセットする．平均画像を使用する理由は，学習を行うとき入力画像に明るさやコントラストなどの偏りがあると認識精度が悪くなる可能性があるためである．なお，この前処理は，学習中に CNN の認識精度を確認するための検証画像と評価画像（CNN の学習と検証に使用していない未知の画像）にも同様に行う． CNN モデルを構築する際の学習パラメータについて述べる．本稿では，ミニバッチのサイズとして 10 枚の学習画像を用いる．また，学習係数 ϵ は 0.0001 とし，学習回数が 100,000 回毎に学習係数を 0.1 倍にし，1 回の学習における更新量を減らす．そして，訓練誤差[1]_{と汎化誤差}[1]_{が収束し，過学習}[1]_{が起きてい} ない状態かつ汎化誤差が小さい状態で学習を打ち切った． 3.2.3 クラス分類 CNN におけるクラス分類は softmax 関数を用いて，物体名とそのクラス確率を出力する．図 8 に CNN による認識結果の例を示す．図 8 認識する画像とその認識結果図 8 では，認識結果はクラス確率の高い順に 5 位まで出力しているが，認識結果は CNN に学習させたクラス数だけ出力する．このようにして，3.1 節で得られた分割画像と元画像に対して，CNN の認識結果を出力する．

3.3 結果出力

3.2 節で得られた物体のクラス確率を，その画像に写る物体の表す指標として，最終的な結果の出力を行う．ここで，CNN による認識結果には 2 つの特徴があると考えた．1 つ目の特徴は，図 8 に示すように複数の物体が写った 1 枚の画像を認識する際に，低い確率ではあるが物体として認識すべきヘッドホ

ヘッドホン， 0.4955

マウス，0.2229

メガネ，0.2221

クリップ，0.0288

スプーン，0.0077

（a）左右 2 分割（b）上下 2 分割（c）1/4 サイズ 9 分割

(4)

ンとメガネのクラス確率を出力することである．2 つ目の特徴は，図 9 に示すように，物体の一部だけが写っていても，その物体のクラス確率を出力することである．これら 2 つの特徴を利用して，最終的な結果を出力する．図 9 物体の一部だけが写った画像の認識結果各画像で得られたクラス確率が低い状態では，出力すべき物体クラスを出力できない．そこで，各画像における全ての物体のクラス確率を物体毎に合計する．こうすることで，認識すべき物体のクラス確率は上位に引き上げられると考えた．図 8 の元画像と画像分割手法で得られた分割画像のクラス確率を物体毎に合計し，グラフ化したものを図 10 に示す．図 10 各物体におけるクラス確率の合計値ここで，クラス確率の合計値は確率の意味を成さないため，本稿ではクラス確率の合計値はその物体が持つ点数として考え，閾値以上の点数を持つ物体を上から順番に出力する．閾値の決定方法について，図 10 のグラフを用いて説明する．図 10 のグラフから，ほとんどの物体の点数がほぼ 0 に近いものから際立って点数の高いものがある．そこで，得られた全物体の点数から平均値 𝑎𝑣𝑒 ，標準偏差 𝜎 を求める． そして，閾値 Threshold を 𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 𝑎𝑣𝑒 + 𝑛𝜎 (2) とする．𝑛 は任意の値であり，後述する 4 章でさまざまな値で実験を行う．上のグラフでは，平均値 𝑎𝑣𝑒 は 0.300017，標準偏差 𝜎 は 0.728601 であり，𝑎𝑣𝑒 + 𝜎 とした場合，閾値は 1.02862 となり，最終的な出力結果はメガネとヘッドホンとなる．

4 実験

本章では，3 章で提案したシステムを評価するための実験に用いた物体クラスと閾値について述べる．

4.1 物体クラス

ImageNet から日常生活で目にする物体 30 種類（学習画像：37,784 枚）を選択した．表 2 に学習する 30 種類の物体を示す．表 2 選択した物体クラス

4.2 閾値

3.3 節の結果出力における閾値は𝑎𝑣𝑒 + 0.5𝜎 ， 𝑎𝑣𝑒 + 𝜎，𝑎𝑣𝑒 + 1.5𝜎，𝑎𝑣𝑒 + 2.0𝜎 のそれぞれの値を用いて，閾値以上の物体名を出力する．

4.3 実験に用いた画像

一般物体認識の研究において，1 物体が写った研究用の画像は数多く存在するが，表 2 に示す 30 種類の物体の組み合わせでできる画像は，存在しない．そこで，自ら撮影した 2 物体が写った画像，3 物体が写った画像を使用する．なお，物体は無造作な状態で配置され，写っている物体の組み合わせは 30 種類の中からランダムに選ばれている．

5 評価

5.1 評価方法

表 2 の 30 種類の物体が正しく出力できているか 2 物体画像 30 枚，3 物体画像 30 枚の合計 60 枚を用いて，提案したシステムを評価した．表 3 の評価基準に沿って評価する．また，画像分割を行わずに，閾値処理した場合の評価も行った．なお，出力された物体名が正解か否かは目視で判断する．表 3 評価基準 ○：正解の物体名のみが全て出力された △：正解の物体名が点数の高い順に全て出力されたが，閾値以上になった不正解の物体名も出力された △－_{：少なくとも 1 つ正解の物体名が出力された} ×：正解の物体名が 1 つも出力されなかった

クリップ， 0.2165

メガネ，0.1634

ヘッドホン，0.0968

スプーン，0.0744

マウス，0.0567

0 0.5 1 1.5 2 2.5 3 3.5 4 ワインボトルグローブリンゴ電卓キャップモニターティーポット缶イスサッカーボールシャツバナナマウンテンバイクスケートボードキーボードバットソックスマグカップ腕時計傘スニーカーラジオテニスラケットスプーンリュックサックネクタイクリップマウスヘッドホンメガネリュックサックバットグローブラジオ電卓マグカップキーボードモニターマウスキャップマウンテンバイクネクタイクリップスケボースニーカーサッカーボールソックス缶スプーンティーポットバナナテニスラケットヘッドホン Tシャツ 傘腕時計ワインボトルイスリンゴメガネ

(5)

5.2 評価結果

画像分割無しによる元画像のみに対して閾値処理を行った場合の評価結果を表 4，提案システムによる評価結果を表 5 に示す．表 4 画像分割無しの結果 ○ △ △－ _× 𝑎𝑣𝑒 + 2.0𝜎 3% 0% 64% 33% 𝑎𝑣𝑒 + 1.5𝜎 3% 0% 67% 30% 𝑎𝑣𝑒 + 𝜎 5% 0% 72% 23% 𝑎𝑣𝑒 + 0.5𝜎 5% 1% 77% 17% 表 5 提案システムの結果 ○ △ △－ _× 𝑎𝑣𝑒 + 2.0𝜎 12% 2% 73% 13% 𝑎𝑣𝑒 + 1.5𝜎 10% 3% 80% 7% 𝑎𝑣𝑒 + 𝜎 17% 5% 73% 5% 𝑎𝑣𝑒 + 0.5𝜎 13% 12% 70% 5%

6 考察

表 5 の評価結果から，〇の割合が 17%となり，高い精度とは言い難いが，△と△－_{の割合を含めれば} 約 90%の割合で，画像に写った物体の物体名を出力できていることがわかった．しかし，設定した全ての閾値で提案したシステムの精度が画像分割無しの評価結果を上回った．このことから，分割画像で得られた各物体のクラス確率を上手く利用できたと考えられる．また，提案システムにおいて，閾値 𝑎𝑣𝑒 + 𝜎 のとき最大精度となっていた．これは閾値が高すぎると，正解の物体名の点数が閾値を下回ってしまうためであると考えられる．ここで，閾値 𝑎𝑣𝑒 + 𝜎 のとき，△となった画像を図 11 に示し，その画像から得られた各物体の点数を図 12 に示す．図 11 △となった画像図 12 各物体の点数図 12 のグラフから，平均値𝑎𝑣𝑒 = 0.366647，標準偏差𝜎 = 0.520166となり，閾値𝑎𝑣𝑒 + 𝜎 = 0.886813 となった．これより，図 11 の出力結果は上からリュックサック，ネクタイ，イス，バットが出力され△ の評価となった．このように，認識すべき物体が上位を占めていても，認識すべきでない物体の点数がある程度高い場合，閾値処理されずに出力されるという結果が得られた．次に，画像分割について考察する．複数の物体を認識するために，3.1 節で述べた画像分割の方法を用いて，画像を分割した．この方法により，認識対象として雑音となり得る画像を省き，物体が写っている可能性が高いと判断された画像のみを認識対象とした．しかし，余計な画像として判断された分割画像に物体が単独で写っていたとしても，その画像は認識されない．例えば，図 13 の左側に示す分割前の画像を 3.1 節に示す（b）のパターンの上下 2 分割により分割された画像を右側に示した．図 13 上下 2 分割された画像図 13 の右側に示すように 2 つの物体はきれいに分割されているが，実際に（b）のパターンで認識対象となるのは図 13 の右側に示す上の分割画像だけとなる．その理由は 2 分割された画像の下の画像における特徴点の数が上の画像の特徴点と比べて極端に少なくなり，特徴点の数が画像全体の特徴点の数の 40%以上に満たなかったため，認識対象から外れてしまったからである．つまり，この方法は特徴点の数がほぼ均等であるときには有効だが，特徴点の数がどちらかに極端に偏ってしまうと，認識対象として有益な画像であっても省かれてしまう．言い換えると，認識対象となる画像の多くは，特徴点が付与されやすい物体がある分割画像であることがわかった．本稿では，雑音となり得る画像の認識を避けるために，この方法を用いたが，このような問題が原因で出力したい物体の点数を上げることができなかったと考えられる．しかし，3.3 節で述べたように CNN の高い認識率があれば，ある物体の一部が写った場合でも，その物体のクラス確率を出力できると考えられる．そして，さまざまなパターンで画像を分割し，その全ての分割画像を用いれば，精度向上が見込めると考えられる． 1.1393 1.3751 1.8534 1.9063 0 0.5 1 1.5 2 2.5 マグカップリンゴマウンテンバイクラジオ電卓缶ヘッドホンティーポットメガネサッカーボールモニタークリップテニスラケットバナナグローブワインボトルマウスキーボードスプーン腕時計キャップスニーカースケートボードシャツ傘ソックスバットイスネクタイリュックサック

(6)

7 おわりに

本稿では 2.2 項で述べた AlexNet のネットワーク構造とそのパラメータを用いてほぼ同等の CNN モデルを構築した．そして，構築した CNN モデルを用いた 1 物体を含む複数物体が写った画像の一般物体認識に取り組んだ．1 物体の画像に対しては構築した CNN モデルによる単体の精度の方が高いものとなったが，複数物体の画像を認識することができ，より実用的な一般物体認識の実現に近づけたと考える．また，今後は AlexNet よりもエラー率の低い CNN モデルを用いた認識や画像分割の方法を見直すことにより，精度の向上が期待できると考えられる．

謝辞

本研究の一部は，JSPS 科研費 16K00311 の助成を受けて行ったものです．

参考文献

[１] 岡谷貴之，“深層学習”，講談社（株），2015． [２] Krizhevsky， Alex， Ilya Sutskever， and Geoffrey E.

Hinton. “Imagenet classification with deep convolutional neural networks ．” Advances in neural information processing systems，pp.1097-1105，2012．

[３] 古川拓也，吉村枝里子，土屋誠司，渡部広一，“SURF 特徴量を用いた BoF 法による物体認識”，研究報告知能システム(ICS)，2014-ICS-174(5)，pp.1-8，2014． [４] H. Bay，A. Ess，T. Tuytelaars， L. V. Gool，“SURF:

Speeded Up Robust Features ”， Computer Vision and Image Understanding，Vol. 110，No. 3，pp.346-359，2008． [５] ImageNet，http://www.image-net.org/，28.December.2016.