• 検索結果がありません。

畳込みニューラルネットワークを用いた画像分割による複数物体認識

N/A
N/A
Protected

Academic year: 2021

シェア "畳込みニューラルネットワークを用いた画像分割による複数物体認識"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

畳込みニューラルネットワークを用いた

画像分割による複数物体認識

Multiple Object Recognition by Image Segmentation

with Convolutional Neural Network

髙岡賢人

1*

土屋誠司

2

渡部広一

2

Kento Takaoka

1

, Seiji Tsuchiya

2

, and Hirokazu Watabe

2

1

同志社大学大学院理工学研究科

1

Graduate School of Science and Engineering, Doshisha University

2

同志社大学理工学部

2

Faculty of Science and Engineering, Doshisha University

Abstract: In recent years, the development of robots has been carried out for making human life more

convenient and more comfortable along with the development of artificial intelligence. As one of some movements of a robot, there is a movement which the robot autonomously move and grab some objects which human needs. To realize the movement, the robot needs a technique of the general object recognition to recognize some objects around the robot. However, the object recognition is the technique to recognize one object as the generic name from one image. Therefore, in this paper, it is proposed that the object recognition system which recognizes multiple objects by image segmentation with convolutional neural network.

1 はじめに

近年,人工知能の発展に伴い,人間の生活をより 豊かに,快適にするロボットや自動車の開発が盛ん に行われている.ロボットが人間を手助けする動作 として,ロボットが自律移動をして指示された物を 取得するといった一連の動きや,自動車にはドライ バーの運転の負担を減らし安全で快適な自動運転シ ステムが今後求められる.このように,ロボットや 自動車にとって周囲の環境を写した画像を用いて, 外界の情報を理解する物体認識の技術が必要となる. 物体認識には 1 枚の画像に写った 1 つの物体をその 物体の一般的な名称で認識する“一般物体認識”と, 人間の顔や車の車種などの特定の物体に注目し固有 の名称を認識する“特定物体認識”があるが,本稿 では一般物体認識を扱う.また,現在では畳込みニ ューラルネットワーク(CNN)[1]を用いた一般物体 認識が主流となっており,本稿でも CNN を用いて 一般物体認識を行う.しかし,日常生活で目にする 多くの場面では,さまざまな種類の物体が混在して おり,ロボットや自動車にとって 1 枚の画像に写っ た 1 つの物体を認識するだけでは情報量が乏しい. そこで,本稿では 1 枚の画像に写った 1 つの物体だ けでなく,複数の物体も認識するシステムを提案す る.

2 関連研究

2.1 畳込みニューラルネットワーク(CNN)

CNN は畳込みとプーリングの 2 つの計算を交互 に繰り返す順伝播型のネットワークである.基本的 な CNN は,全体の構造として図 1 に示すような構 造となり,始めは入力画像に対するフィルタの畳込 み処理を行う層と,その出力に対するプーリング処 理を行う層を交互にいくつか繰り返す.また softmax を行う直前の全結合層には分類したいクラス数と同 数のユニットを置き,その前のいくつかの層も全結 合層とすることが多い.そして,クラス分類を行う ため,最終層に分類すべきクラスと同じ数のユニッ トを配置し,あるクラスに対応する画像が入力され た場合は,そのクラスに対応するユニットの出力が 大きくなるようにすることでクラス分類を行う.実 際には,最終層のそれぞれのユニットの出力{ℎ𝑖}に *連絡先:同志社大学大学院理工学研究科 〒610-0394 京都府京田辺市多々羅都谷 1-3 E-mail:[email protected] 人工知能学会研究会資料 SIG-KBS-B506-03

(2)

対して softmax 関数を用いて,クラス確率{𝑝𝑖}に変換 する.softmax 関数は以下のように定義され,𝑖 ≠ 𝑗 に 対して ℎ𝑖≫ ℎ𝑗 である場合には,𝑝𝑖≅ 1 であり,𝑝𝑗≅ 0となる. 𝑝𝑖= exp (ℎ𝑖) ∑ exp (ℎ𝑗 𝑗) (1) 図 1 CNN の全体図

2.2 AlexNet

2012 年に ILSVRC(ImageNet Large Scale Visual Recognition Challenge)と呼ばれる画像認識の性能を 競い合うコンテストが行われた.Alexnet とは,その コンテストの中で課されるタスクである,1 枚の入 力画像に写った物体のクラスを 1,000 種類の中から 答える問題(一般物体認識)で,最も低いエラー率 で優勝した Krizhevsky らにより設計された CNN で ある.そのネットワーク構造を図 2,各層のパラメー タを表 1 に示す.なお,図 2,表 1 中の conv,pool, norm,fc はそれぞれ畳込み層,プーリング層,正規 化層,全結合層を表す. 図 2 AlexNet のネットワーク構造 表 1 各層におけるパラメータ

layer patch stride map size func weights

data - - 227×227×3 - - conv1 11×11 4 55×55×96 ReL 34,848 pool1 3×3 2 27×27×96 - 0 norm1 5×5 1 27×27×96 - 0 conv2 5×5 1 27×27×256 ReL 614,400 pool2 3×3 2 13×13×256 - 0 norm2 5×5 1 13×13×256 - 0 conv3 3×3 1 13×13×384 ReL 884,736 conv4 3×3 1 13×13×384 ReL 1,327,104 conv5 3×3 1 13×13×256 ReL 884,736 pool5 3×3 2 6×6×256 - 0 fc6 - - 1×1×4096 ReL 37,748,736 fc7 - - 1×1×4096 ReL 16,777,216 fc8 - - 1×1×1000 softmax 4,096,000

3 提案する一般物体認識システム

CNN を用いた一般物体認識では,1 枚の画像写っ た 1 つの物体を高い精度で認識できる. しかし,1 枚の画像に写った複数の物体を認識する ことは困難である.その理由は,CNN に学習させた い物体が写る学習画像は,一般的に 1 枚の画像につ き 1 つ物体のみが写った画像だからである.そのた め,認識したい物体が画像中に 1 物体たけ写ってい れば,高い精度でその物体を認識できるが,複数の 他の物体が混じれば,認識率は低下してしまう. 本稿では 1 枚の画像に写った複数の物体を認識す るシステムを提案する.具体的には,まず入力画像 を 3.1 節で述べる画像分割の方法を用いて分割し, 分割された各画像を構築した CNN で認識する.各 画像から得られた認識結果(物体名とクラス確率) を物体毎に合計し,各物体のクラス確率が閾値以上 の場合,その物体を画像に写った物体として最終的 な結果を出力する.閾値の決定方法については,3.3 節で述べる.提案するシステムの流れを図 3 に示す. また,本稿の入出力の具体例を図 4 に示す. 図 3 提案するシステムの流れ 図 4 入出力の具体例

3.1 画像分割

CNN による一般物体認識は,1 枚の画像に写った 1 つの物体の一般名称を出力する.そのため,複数の 物体を認識するためには,できるだけ物体が 1 枚の 画像には 1 つの物体が写るように画像を分割する必 要がある.そこで,本稿では古川氏らの研究[3]で提案 された画像分割の方法を用いて,画像を分割する. まず,入力画像全体から SURF[4]を用いて特徴点を 抽出する.図 5 にその例を示す.図 5 から特徴点は 物体の中や周辺に集中することがわかる.このこと を利用することで,分割された画像に物体が存在す るか否かを判断する.そして,図 6 に示すような(a) 入力画像 畳 込 み 層 プ ー リ ン グ 層 畳 込 み 層 プ ー リ ン グ 層 全 結 合 層 softmax (クラス確率)出力結果 con v1 pool1 norm 1 con v2

pool2 norm2 con

v3 con v4 con v5 pool5 fc 6 fc7 fc8 softma x inpu t: im ag e outp ut: class pr obabil ity 画像分割 CNNによる認識 結果出力 入力画像 ヘッドホン メガネ 出力結果

(3)

左右 2 等分割,(b)上下 2 等分割,(c)左右上下 2 等分割の 1/4 サイズに 9 分割の 3 つの分割方法で, 画像を分割する. 図 5 特徴点抽出の例(○が特徴点を示す) 図 6 分割方法 次に,それぞれの分割画像に存在する特徴点の数 が閾値以上の場合,物体が存在すると判断され,そ の分割画像を認識対象とする.なお,この閾値は実 験的に定められており,(a)左右 2 分割と(b)上下 2 分割された 4 枚の画像の特徴点数が,画像全体の 特徴点数の 40%以上であれば認識対象とする.また, (c)1/4 サイズに 9 分割された 9 枚の画像の特徴点 の数が,画像全体の特徴点数の 20%以上であれば認 識対象とする.この方法を用いることで,認識対象 として不要な画像を省き,後述する 3.3 節の結果出 力の際に不正解となる物体名の点数の増加を抑えら れると考えた.

3.2 構築した CNN による認識

本節では,学習データセットを用いて CNN モデ ルを構築し,3.1 節で得られた画像と元画像を認識す る. 3.2.1 学習に用いるデータセット CNN モデルを構築するために必要な学習画像及 び CNN モデルの精度を測るための検証画像は, ImageNet[5]の画像を用いる.ImageNet とは,約 2 万 2 千のクラスからなる約 1400 万枚の画像データ大規 模画像データセットであり,非商用の研究目的とし て一般物体認識などの画像認識の研究で広く利用さ れている.ImageNet の画像例を図 7 に示す. 図 7 マグカップクラスの画像例 3.2.2 構築する CNN モデル 構築するネットワークの構造は図 2 及び表 1 と同 様のものを使用するが,fc8 のユニット数は学習させ るクラス数に合わせる.そして,学習時間の削減の ために,学習済みの Alexnet の CNN モデルに上書き するように学習する. CNN の学習を行う際,ImageNet の画像のサイズは 全て統一されていないため,まず学習画像のサイズ を 256×256 に直す.そして,中央の 227×227 部分 を切り出し,使用する全ての学習画像の平均画像を 差し引いたものを CNN の入力層にセットする.平 均画像を使用する理由は,学習を行うとき入力画像 に明るさやコントラストなどの偏りがあると認識精 度が悪くなる可能性があるためである.なお,この 前処理は,学習中に CNN の認識精度を確認するた めの検証画像と評価画像(CNN の学習と検証に使用 していない未知の画像)にも同様に行う. CNN モデルを構築する際の学習パラメータにつ いて述べる.本稿では,ミニバッチのサイズとして 10 枚の学習画像を用いる.また,学習係数 ϵ は 0.0001 とし,学習回数が 100,000 回毎に学習係数を 0.1 倍に し,1 回の学習における更新量を減らす.そして,訓 練誤差[1]と汎化誤差[1]が収束し,過学習[1]が起きてい ない状態かつ汎化誤差が小さい状態で学習を打ち切 った. 3.2.3 クラス分類 CNN におけるクラス分類は softmax 関数を用いて, 物体名とそのクラス確率を出力する.図 8 に CNN に よる認識結果の例を示す. 図 8 認識する画像とその認識結果 図 8 では,認識結果はクラス確率の高い順に 5 位 まで出力しているが,認識結果は CNN に学習させ たクラス数だけ出力する.このようにして,3.1 節で 得られた分割画像と元画像に対して,CNN の認識結 果を出力する.

3.3 結果出力

3.2 節で得られた物体のクラス確率を,その画像に 写る物体の表す指標として,最終的な結果の出力を 行う.ここで,CNN による認識結果には 2 つの特徴 があると考えた.1 つ目の特徴は,図 8 に示すよう に複数の物体が写った 1 枚の画像を認識する際に, 低い確率ではあるが物体として認識すべきヘッドホ

ヘッドホン, 0.4955

マウス,0.2229

メガネ,0.2221

クリップ,0.0288

スプーン,0.0077

(a)左右 2 分割 (b)上下 2 分割 (c)1/4 サイズ 9 分割

(4)

ンとメガネのクラス確率を出力することである.2 つ目の特徴は,図 9 に示すように,物体の一部だけ が写っていても,その物体のクラス確率を出力する ことである.これら 2 つの特徴を利用して,最終的 な結果を出力する. 図 9 物体の一部だけが写った画像の認識結果 各画像で得られたクラス確率が低い状態では,出 力すべき物体クラスを出力できない.そこで,各画 像における全ての物体のクラス確率を物体毎に合計 する.こうすることで,認識すべき物体のクラス確 率は上位に引き上げられると考えた.図 8 の元画像 と画像分割手法で得られた分割画像のクラス確率を 物体毎に合計し,グラフ化したものを図 10 に示す. 図 10 各物体におけるクラス確率の合計値 ここで,クラス確率の合計値は確率の意味を成さ ないため,本稿ではクラス確率の合計値はその物体 が持つ点数として考え,閾値以上の点数を持つ物体 を上から順番に出力する.閾値の決定方法について, 図 10 のグラフを用いて説明する.図 10 のグラフか ら,ほとんどの物体の点数がほぼ 0 に近いものから 際立って点数の高いものがある.そこで,得られた 全物体の点数から平均値 𝑎𝑣𝑒 ,標準偏差 𝜎 を求める. そして,閾値 Threshold を 𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 𝑎𝑣𝑒 + 𝑛𝜎 (2) とする.𝑛 は任意の値であり,後述する 4 章でさま ざまな値で実験を行う.上のグラフでは,平均値 𝑎𝑣𝑒 は 0.300017,標準偏差 𝜎 は 0.728601 であり,𝑎𝑣𝑒 + 𝜎 とした場合,閾値は 1.02862 となり,最終的な出力 結果はメガネとヘッドホンとなる.

4 実験

本章では,3 章で提案したシステムを評価するた めの実験に用いた物体クラスと閾値について述べる.

4.1 物体クラス

ImageNet から日常生活で目にする物体 30 種類(学 習画像:37,784 枚)を選択した.表 2 に学習する 30 種類の物体を示す. 表 2 選択した物体クラス

4.2 閾値

3.3 節 の 結 果出 力 に おけ る 閾 値 は𝑎𝑣𝑒 + 0.5𝜎 , 𝑎𝑣𝑒 + 𝜎,𝑎𝑣𝑒 + 1.5𝜎,𝑎𝑣𝑒 + 2.0𝜎 のそれぞれの値を 用いて,閾値以上の物体名を出力する.

4.3 実験に用いた画像

一般物体認識の研究において,1 物体が写った研 究用の画像は数多く存在するが,表 2 に示す 30 種類 の物体の組み合わせでできる画像は,存在しない. そこで,自ら撮影した 2 物体が写った画像,3 物体 が写った画像を使用する.なお,物体は無造作な状 態で配置され,写っている物体の組み合わせは 30 種 類の中からランダムに選ばれている.

5 評価

5.1 評価方法

表 2 の 30 種類の物体が正しく出力できているか 2 物体画像 30 枚,3 物体画像 30 枚の合計 60 枚を用い て,提案したシステムを評価した.表 3 の評価基準 に沿って評価する.また,画像分割を行わずに,閾 値処理した場合の評価も行った.なお,出力された 物体名が正解か否かは目視で判断する. 表 3 評価基準 ○:正解の物体名のみが全て出力された △:正解の物体名が点数の高い順に全て出力された が,閾値以上になった不正解の物体名も出力さ れた △-:少なくとも 1 つ正解の物体名が出力された ×:正解の物体名が 1 つも出力されなかった

クリップ, 0.2165

メガネ,0.1634

ヘッドホン,0.0968

スプーン,0.0744

マウス,0.0567

0 0.5 1 1.5 2 2.5 3 3.5 4 ワ イ ン ボ ト ル グ ロ ー ブ リ ン ゴ 電 卓キャ ッ プ モ ニ タ ー テ ィ ー ポ ッ ト 缶 イ スサッ カ ー ボ ー ル シ ャ ツ バ ナ ナ マ ウ ン テ ン バ イ ク ス ケ ー ト ボ ー ド キ ー ボ ー ド バ ッ ト ソ ッ ク ス マ グ カ ッ プ 腕 時 計 傘 ス ニ ー カ ー ラ ジ オ テ ニ ス ラ ケ ッ ト ス プ ー ン リ ュ ッ ク サ ッ ク ネ ク タ イ ク リ ッ プ マ ウ ス ヘ ッ ド ホ ン メ ガ ネ リュック サック バット グローブ ラジオ 電卓 マグカップ キーボード モニター マウス キャップ マウンテン バイク ネクタイ クリップ スケボー スニーカー サッカー ボール ソックス 缶 スプーン ティーポット バナナ テニス ラケット ヘッドホン Tシャツ 傘 腕時計 ワインボトル イス リンゴ メガネ

(5)

5.2 評価結果

画像分割無しによる元画像のみに対して閾値処理 を行った場合の評価結果を表 4,提案システムによ る評価結果を表 5 に示す. 表 4 画像分割無しの結果 ○ △ △- × 𝑎𝑣𝑒 + 2.0𝜎 3% 0% 64% 33% 𝑎𝑣𝑒 + 1.5𝜎 3% 0% 67% 30% 𝑎𝑣𝑒 + 𝜎 5% 0% 72% 23% 𝑎𝑣𝑒 + 0.5𝜎 5% 1% 77% 17% 表 5 提案システムの結果 ○ △ △- × 𝑎𝑣𝑒 + 2.0𝜎 12% 2% 73% 13% 𝑎𝑣𝑒 + 1.5𝜎 10% 3% 80% 7% 𝑎𝑣𝑒 + 𝜎 17% 5% 73% 5% 𝑎𝑣𝑒 + 0.5𝜎 13% 12% 70% 5%

6 考察

表 5 の評価結果から,〇の割合が 17%となり,高 い精度とは言い難いが,△と△-の割合を含めれば 約 90%の割合で,画像に写った物体の物体名を出力 できていることがわかった.しかし,設定した全て の閾値で提案したシステムの精度が画像分割無しの 評価結果を上回った.このことから,分割画像で得 られた各物体のクラス確率を上手く利用できたと考 えられる.また,提案システムにおいて,閾値 𝑎𝑣𝑒 + 𝜎 のとき最大精度となっていた.これは閾値が高す ぎると,正解の物体名の点数が閾値を下回ってしま うためであると考えられる.ここで,閾値 𝑎𝑣𝑒 + 𝜎 の とき,△となった画像を図 11 に示し,その画像から 得られた各物体の点数を図 12 に示す. 図 11 △となった画像 図 12 各物体の点数 図 12 のグラフから,平均値𝑎𝑣𝑒 = 0.366647,標準 偏差𝜎 = 0.520166となり,閾値𝑎𝑣𝑒 + 𝜎 = 0.886813 となった.これより,図 11 の出力結果は上からリュ ックサック,ネクタイ,イス,バットが出力され△ の評価となった.このように,認識すべき物体が上 位を占めていても,認識すべきでない物体の点数が ある程度高い場合,閾値処理されずに出力されると いう結果が得られた. 次に,画像分割について考察する.複数の物体を 認識するために,3.1 節で述べた画像分割の方法を用 いて,画像を分割した.この方法により,認識対象 として雑音となり得る画像を省き,物体が写ってい る可能性が高いと判断された画像のみを認識対象と した.しかし,余計な画像として判断された分割画 像に物体が単独で写っていたとしても,その画像は 認識されない.例えば,図 13 の左側に示す分割前の 画像を 3.1 節に示す(b)のパターンの上下 2 分割に より分割された画像を右側に示した. 図 13 上下 2 分割された画像 図 13 の右側に示すように 2 つの物体はきれいに分 割されているが,実際に(b)のパターンで認識対象 となるのは図 13 の右側に示す上の分割画像だけと なる.その理由は 2 分割された画像の下の画像にお ける特徴点の数が上の画像の特徴点と比べて極端に 少なくなり,特徴点の数が画像全体の特徴点の数の 40%以上に満たなかったため,認識対象から外れて しまったからである.つまり,この方法は特徴点の 数がほぼ均等であるときには有効だが,特徴点の数 がどちらかに極端に偏ってしまうと,認識対象とし て有益な画像であっても省かれてしまう.言い換え ると,認識対象となる画像の多くは,特徴点が付与 されやすい物体がある分割画像であることがわかっ た.本稿では,雑音となり得る画像の認識を避ける ために,この方法を用いたが,このような問題が原 因で出力したい物体の点数を上げることができなか ったと考えられる.しかし,3.3 節で述べたように CNN の高い認識率があれば,ある物体の一部が写っ た場合でも,その物体のクラス確率を出力できると 考えられる.そして,さまざまなパターンで画像を 分割し,その全ての分割画像を用いれば,精度向上 が見込めると考えられる. 1.1393 1.3751 1.8534 1.9063 0 0.5 1 1.5 2 2.5 マ グ カ ッ プ リ ン ゴ マ ウ ン テ ン バ イ ク ラ ジ オ 電 卓缶 ヘッ ド ホ ン テ ィ ー ポ ッ ト メ ガ ネ サ ッ カ ー ボ ー ル モ ニ タ ー ク リ ッ プ テ ニ ス ラ ケ ッ ト バ ナ ナ グ ロ ー ブ ワ イ ン ボ ト ル マ ウ ス キ ー ボ ー ド ス プ ー ン 腕 時 計 キ ャ ッ プ ス ニ ー カ ー ス ケ ー ト ボ ー ド シ ャ ツ 傘 ソ ッ ク ス バ ッ ト イ スネク タ イ リ ュ ッ ク サ ッ ク

(6)

7 おわりに

本稿では 2.2 項で述べた AlexNet のネットワーク 構造とそのパラメータを用いてほぼ同等の CNN モ デルを構築した.そして,構築した CNN モデルを用 いた 1 物体を含む複数物体が写った画像の一般物体 認識に取り組んだ.1 物体の画像に対しては構築し た CNN モデルによる単体の精度の方が高いものと なったが,複数物体の画像を認識することができ, より実用的な一般物体認識の実現に近づけたと考え る.また,今後は AlexNet よりもエラー率の低い CNN モデルを用いた認識や画像分割の方法を見直すこと により,精度の向上が期待できると考えられる.

謝辞

本研究の一部は,JSPS 科研費 16K00311 の助成を 受けて行ったものです.

参考文献

[1] 岡谷貴之,“深層学習”,講談社(株),2015. [2] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E.

Hinton. “Imagenet classification with deep convolutional neural networks .” Advances in neural information processing systems,pp.1097-1105,2012.

[3] 古川拓也,吉村枝里子,土屋誠司,渡部広一,“SURF 特徴量を用いた BoF 法による物体認識”,研究報告知 能システム(ICS),2014-ICS-174(5),pp.1-8,2014. [4] H. Bay,A. Ess,T. Tuytelaars, L. V. Gool,“SURF:

Speeded Up Robust Features ”, Computer Vision and Image Understanding,Vol. 110,No. 3,pp.346-359,2008. [5] ImageNet,http://www.image-net.org/,28.December.2016.

参照

関連したドキュメント

Gamma function; Beta function; Riemann-Liouville Fractional deriva- tive; Hypergeometric functions; Fox H-function; Generating functions; Mellin transform; Integral representations..

Furuta, Log majorization via an order preserving operator inequality, Linear Algebra Appl.. Furuta, Operator functions on chaotic order involving order preserving operator

Thus, in order to achieve results on fixed moments, it is crucial to extend the idea of pullback attraction to impulsive systems for non- autonomous differential equations.. Although

We shall see below how such Lyapunov functions are related to certain convex cones and how to exploit this relationship to derive results on common diagonal Lyapunov function (CDLF)

Since we are interested in bounds that incorporate only the phase individual properties and their volume fractions, there are mainly four different approaches: the variational method

7.1. Deconvolution in sequence spaces. Subsequently, we present some numerical results on the reconstruction of a function from convolution data. The example is taken from [38],

There we will show that the simplicial set Ner( B ) forms the simplicial set of objects of a simplicial category object Ner( B ) •• in simplicial sets which may be pictured by

The aim of the present section is to prove that the Orthogonality Logic is complete (for all classes of morphisms) in all locally presentable categories iff the following