日本感性工学会論文誌

(1)

1.

はじめに人は物体を見た際，物体の様々な特徴を捉え，それらを総合することで見た物体の認識を行う．しかし，実際にこれらの過程は無意識に行われることが多く，特徴として捉えた箇所を詳細に明示することは難しい．また，複数の形状の似た物体が存在し，それらの詳細な違いを説明する場合においても同様である．例として自動車の車型（セダン，ミニバン，

SUV

などを指す）が挙げられる．自動車の形状は，車型でグループ分けされているが，基本的な車体の形状やパーツは類似しているため，自動車に詳しくない人にとっては区別がつきにくい．さらに，近年では自動車のデザインの自由度が増し，異なる車型同士が融合するようなデザインが混在することにより，元々異なっていた車型同士の車体形状の境界が曖昧になってきている．一方，深層学習の分野では技術の発展により，大量のデータを学習させることで，特徴の抽出が可能になってきた．深層学習の研究分野の中にはボクセル化した

3D

モデルデータを学習データとした

3D

モデルの認識の研究が行われている［

1

］．車型同士の境界を明確にするために車型ごとの

3D

モデルの特徴部位の可視化を行う必要がある．しかし，

3D

モデルの認識の研究は行われているが，

3D

モデルの特徴部位の可視化の研究は行われていない．画像認識の分野では画像の特徴部位の可視化の研究が行われていることから，著者らは画像認識による画像の特徴部位の可視化を

3D

モデルの特徴部位の可視化に応用できると考えた［

2

］．

Ding-Yun

らは，

3D

オブジェクトの検索技術の手法提案として，

3D

オブジェクトの正射影画像を利用し，同じ角度の正射影画像の類似から

3D

オブジェクトの検索システムの実装を行った［

3

］．著者らは，

3D

モデルデータを

2

次元画像に変換することで，画像認識に必要な大量の画像を収集できると考えた．また，画像認識の分野において，

Rampasaath

らは，

Grad-CAM

と呼ばれる画像の特徴部位の可視化を行った［

2

］．

Grad-CAM

はニューラルネットの層の重みと勾配情報を用いることで，カテゴリごとの出力値に影響を与える特徴部位の可視化を行うことができる．そこで本研究では，深層学習を用いて車型の判別とそれに寄与する部位の視覚化を行う実験を通して，各車型の特徴を明らかにすることを目的とした．具体的には，まず

30

台の自動車の

3D

モデルを使用し，各モデルの周囲に視点を

1

度刻みで

360

点設定し，それぞれの点から見た自動車の透視投影画像を用いて，

VGG16

モデルで転移学習を行った．次に，学習したニューラルネットにテストデータとなる

3D

モデルの透視投影画像を入力し，出力結果の値から車型の判別を行った．さらに，出力結果の値を参照し，

Grad-CAM

を用いて各車型の特徴部位の可視化を行った．

2.

車型の定義本研究では，自動車の利用者の目的に合わせてデザインされ，形状が大きく異なる車型のセダン，ミニバン，

SUV

を

畳み込みニューラルネットワークを用いた

自動車の三次元モデルにおける各車型の特徴抽出と視覚化

田中俊太朗，原田利宣，小野謙二

*和歌山大学大学院‚ **和歌山大学‚ ***九州大学

Analyses and Visualization of Characteristics of Car Body Types

by Using Convolutional Neural Network

Syuntaro TANAKA, Toshinobu HARADA and Kenji ONO

* Graduate School of Wakayama University, 930 Sakaedani, Wakayama-shi, Wakayama 640-8510, Japan ** Wakayama University, 930 Sakaedani, Wakayama-shi, Wakayama 640-8510, Japan

*** Kyusyu University, 744 Motooka, Nishi-ku, Fukuoka 812-8581, Japan

Abstract : The cars are classified by cars’ body types. However the characteristics are basically similar at first sight, so it is difficult

to distinguish the differences among those cars’ body types. Therefore, in this study, we considered that cars’ characteristics could be analyzed by using deep learning and image recognition technology, developed a system to visualize the judgment and characteristic parts of cars’ body types. Specifically, we made renderings of the CG model of 30 cars by setting 360 viewpoints in 1 degree increments around each car. Deep learning was performed using these 2D images as teacher signals. The car body type recognition probability of each angle is graphed, and the characteristic parts of each car body type are visualized. As a result, we clarified the visual angles and the pars contributing the judgment of cars’ body types.

Keywords : Deep learning, Convolutional neural network, Car body type, Image recognition, Visualization

(2)

対象とし，それらをニューラルネットの出力層のカテゴリとして定義する．そこで，本章ではセダン，ミニバン，

SUV

の一般的な定義について概説する．セダン，ミニバン，

SUV

の自動車の構造と座席の配置図を図

1

∼図

3

にそれぞれ示す．まず，セダンは図

1

の左の図より，前から赤色がエンジンルーム，橙色が乗車空間，青色がトランクルームといったそれぞれ独立した自動車の基本形となる構造である［

4

］．乗車空間とトランクルームを独立させるといったドライバーや同乗者の快適性を重視した構造であり，自動車の前後に空間があることから事故に対する安全性が高い．多くのセダン車は図

1

の右の図より，前から運転席，助手席，後部座席といった

2

列座席で構成され，それぞれにドアがついた

4

ドア車である．次に，ミニバンは図

2

の左の図より，前から赤色がエンジンルーム，橙色が乗車空間といった独立した構造である［

4

］．セダンと異なり，トランクルームを無くし，屋根を最後尾まで伸ばし，乗車空間を広くした乗員や荷物の容量を重視した構造である．着座位置が高いことから，ドライバーの視点が高く，遠くを目視できる．ミニバン車は，図

2

の右の図より，前から運転席，助手席，

2

列の後部座席といった

3

列座席で構成され，運転席，助手席，

2

列目座席にそれぞれドアがついた

4

ドア車である．本研究で使用するミニバンはスライド式ドアとスイング式ドアの両方を対象とする．さらに，

SUV

は図

3

の左の図より，前から赤色がエンジンルーム，橙色が乗車空間といった独立した構造である．ミニバンと比べ，ボンネットがはっきりしており，車高が高く，スポーツやアウトドアに特化している．

SUV

車は，図

3

の右の図より，セダンと同様に運転席，助手席，後部座席の

2

列座席で構成され，それぞれにドアがついた

4

ドア車である．

3.

車型の特徴抽出システムの流れと用いる手法本章では，システムの流れについて概説を行い，システムの流れに沿って使用する手法について説明する．

3.1

システムの流れ本研究におけるシステムの流れと用いる手法を図

4

に示す．本システムではまず，データセットの作成を行う．データセットの作成では，

39

台の

3D

モデルを

2

次元画像に変換し，ニューラルネットへ学習させる学習用データと実験で使用する実験用データの作成を行う．次に，作成した学習用データを畳み込みニューラルネットワークに学習させる．本研究では転移学習を用いて学習を行う．また，実験用データを学習したモデルに入力し，出力層の各カテゴリの出力値から入力画像の車型を判別する．さらに，各カテゴリの出力値を参照し，

Grad-CAM

と呼ばれる手法を用いて車型の特徴部位の可視化を行う．システムの中で用いられた手法について次節から説明する．以下，画像を入力した際出力層の各カテゴリの値の大きさから車型を判別することを車型認識と称す．

3.2

畳み込みニューラルネットワークの手法の概説畳み込みニューラルネットワークとは，畳み込み層およびプーリング層と呼ばれる特殊な機能を持つ層が交互に接続された多層構造のニューラルネットワークで，この構造以外は，一般的な順伝播のニューラルネットワークと同様である［

5

］．本研究では，

Keren

らの画像認識の研究で精度の高い結果が得られた

VGG16

と呼ばれる畳み込みニューラルネットワークのモデルを使用する［

6

］．以下，畳み込みニューラルネットワークを

CNN

と称す．

3.3

転移学習の手法の概説転移学習とは，ある領域で既に学習させたモデルの一部を転用し，新たなモデルを生成する方法である．本研究では，

Fine-Tuning

による転移学習を行う［

7

］．

Fine-Tuning

では，学習済みモデルの出力層を対象タスクのものに付け替え，初期パラメータとして学習済みモデルの値を使用する．学習済み図1 セダン車の構造と座席配置図図2 ミニバン車の構造と座席配置図図3 SUV車の構造と座席配置図図4 システムの流れと手法

(3)

モデルは，

ImageNet

と呼ばれる

120

万枚の画像を学習させた

VGG16

のモデルを使用する．学習時に

CNN

の出力層に最も近い畳み込み層

3

層と全結合層でパラメータの調整を行い，それ以外の層のパラメータを固定する．学習時に誤差逆伝播法を用いてパラメータの調整を行う．

3.4 Grad-CAM

の手法の概説

Grad-CAM

は，

Rampasaath

らによって提案された画像の特徴抽出を行う手法である［

2

］．具体的には，出力層のカテゴリを指定することで，車型認識の際に

CNN

が着目している入力画像の特徴箇所をヒートマップで表示し，出力層のカテゴリの値に影響を与える特徴部位を視覚的に判断できる．本研究では，車型認識の結果に関わらず，すべてのカテゴリの特徴抽出を行う．

4.

車型認識と特徴抽出システムの解説本章では，自動車の属する車型における自動車の車体形状の特徴抽出を行うための可視化システムについて詳述する．本システムでは，自動車の

3D

モデルを

2

次元画像に変換したデータを

CNN

に学習させる．その後，学習させた

CNN

に画像を入力した際に出力された各カテゴリの値の大きさから，入力した画像の車型の判別を行い，車型の特徴がどの部位に影響を受けているかを視覚的に表現する．

4.1

学習データ・テストデータの収集本節ではサンプルデータ内の学習データ・テストデータの分類と

2

次元画像の作成方法について説明する．以下，

CNN

の学習を行う際に使用する画像データを学習データ，車型認識と特徴抽出に使用する画像データをテストデータとする．本節は（

1

）学習データ・テストデータの分類，（

2

）学習データ・テストデータの作成，（

3

）学習データのデータ量の

3

つで構成されている．（

1

）学習データ・テストデータの分類：本システムでは

2

章で記述した車型の「セダン」「ミニバン」「

SUV

」の

3

種類のカテゴリを使用する．さらに，

3D

モデルを学習データ，テストデータに分類する際，学習データとテストデータそれぞれに以下のような判断基準を設けた．（ⅰ）学習データ：一般的な人でも各カテゴリに属する車型であると視覚的に認識しやすい

3D

モデル（ⅱ）テストデータ：一般的な人が各カテゴリに属する車型であると視覚的に認識しにくい

3D

モデル学習データ・テストデータで使用した自動車を表

1

に示す．筆者だけによる分類は，筆者の車型の印象に偏った学習結果になる可能性が考えられるため，自動車に関する知識の多い協力者との話し合いにより分類を行った．（

2

）学習データ・テストデータの作成：オープンソースの

3D

コンピュータグラフィックスソフトウェアである

blender

のレンダリング機能を用いて，

3D

モデルから

2

次元画像の作成を行う［

8

］．

3D

モデルのソースは，

3D

カーモデリングサイトのデータを使用する［

9

］．データの作成方法を以下に示す．まず，

3D

空間上に実寸大の

1/1000

サイズのモデルをモデルの

X

軸，

Z

軸の中心を座標の

X

軸，

Z

軸の中心に合わせ，

XZ

面を床面として配置する．次に

3D

モデルから

7.5 mm

離れた位置にカメラを配置し，

3D

モデルとカメラの距離とカメラの高さ，カメラの向き先を座標の中心で固定した状態で，モデルの正面から左回りに座標の原点を中心に

1

度ずつレンダリングを行う．ここで自動車とカメラの距離を

7.5 mm

にすることで，全ての角度においてカメラの画角に全てのモデルが収まる．カメラの高さは，車高がわかりやすい

1 mm

の位置に設定することで，車体の底の高さを含めた

3D

モデル全体のシルエットを把握できる．レンダリングの際のモデルとカメラの配置のイメージを図

5

に示す．レンダリング画像は光源の配置位置による車体の認識の誤差やモデルの色による認識の影響を避けるために，光源のないシルエット画像を使用する．シルエット以外の背景は白に統一する．以下，レンダリングを行った際のモデルから見たカメラ配置の角度を視点角度と定義する．視点角度の

0

度は自動車の正面，

90

度は左側面，

180

度は自動車の背面，

270

度は右側面，

360

度は

0

度と重なり，自動車の正面に戻る．（

3

）学習データのデータ量：

1

台の

3D

モデルに対し

2

次元画像は角度

1

度ずつレンダリングを行うため，

360

枚作成される．また，学習データでは車型ごとに

10

台使用するため，車型ごとに

3600

枚ずつ画像データが作成される．画像サイズは，学習させる

CNN

の入力層に合わせた縦

224

ピクセル横

224

ピクセルとする．表1 学習データ・テストデータの分類学習データミニバン（メーカー，年式）セダン（メーカー，年式） SUV（メーカー，年式） ALPHARD（トヨタ，2005） ARISTO（トヨタ，2000） CR-V（ホンダ，2006） bB（トヨタ，2003） atenza（マツダ，2008） CROSSROAD（ホンダ，2007）

COLT_PLUS（三菱，2004） CAMRY（トヨタ，2001） DELICA_D5（三菱，2007）

COR0LLA_RUMION（トヨタ，2007）CELSIOR（トヨタ，2001） fjcruiser（トヨタ，2010）

DEMIO（マツダ，2010） COROLLA（トヨタ，2000） HARRIER（トヨタ，2000）

ELYSION（ホンダ，2005） CROWN（トヨタ，1998） LAND_CRUISUR（トヨタ，2007）

ESTIMA（トヨタ，2001） LANCER（三菱，2003） PAJERO（三菱，2005）

ﬁt（ホンダ，2007） LEGEND（ホンダ，2006） PAJERO（三菱，2006）

Grandis（三菱，2004） MARK2（トヨタ，2000） RAV4（トヨタ，2005）

ist（トヨタ，2002） PROGRES（トヨタ，2001） VANGUARD（トヨタ，2007）

テストデータ

ミニバン（メーカー，年式）セダン（メーカー，年式） SUV（メーカー，年式）

MPV（マツダ，2006） IMPREZA（スバル，2008） FORESTER（スバル，2005）

NOAH（トヨタ，2007） PRIUS（トヨタ，2005） OUTLANDER（三菱，2005）

ODYSSEY（ホンダ，2006） RX-8（マツダ，2003） RAV4（トヨタ，2000）

(4)

4.2

転移学習と学習したモデルの精度まず，

3.2

節で記述した

VGG16

の

ImageNet

をベースに転移学習を行う．「ミニバン」「セダン」「

SUV

」それぞれを教師データ（「ミニバン」「セダン」「

SUV

」）として画像を入力層に組み込んでいき，出力層では入力画像に属するカテゴリに

1

を入力し，それ以外に

0

を入力し逆伝播処理を行う．学習回数は

50

回といった学習時の設定を行った．学習データ

10,800

枚のうち，学習時にモデルのパラメータを調整するための訓練データ

10,500

枚と学習の途中経過で精度を確かめる確認データ

300

枚の分類を行い，訓練データを用いて学習を行った．次に，学習したモデルの認識精度を評価した．図

6

より，学習回数を重ねるごとに損失が減少している．また，確認データを用いて，表

2

の混合行列を算出したところ，全体の精度が約

98%

となった．よって，汎化性の高い車型認識のモデルを構築できたと考える．

4.3

車型認識前節で学習したモデルを用いて，車型認識を行う．具体的には，入力層に画像データを入力することで出力層の「ミニバン」「セダン」「

SUV

」の各カテゴリに確率の値が出力される．出力層の各カテゴリの中で最も大きい値を持つカテゴリを入力画像の車型として認識する．また，車型認識時に出力層の各カテゴリに出力された確率の値を認識率と定義する．

4.4

認識率のグラフ化テストデータの各

3D

モデルに対し

360

枚分（視点角度

0

∼

359

度）のレンダリング画像から，カテゴリの認識率を収集し，図

7

のようなグラフを作成した．図

7

のグラフの縦軸は認識率の値，横軸は視点角度の値である．視点角度の

0

度は自動車の正面であり，

360

度は

0

度と重った自動車の正面のレンダリング画像であるため，グラフの両端をつなげる．認識率のグラフは

1

台の

3D

モデルに対し，ミニバン，セダン，

SUV

それぞれ

3

つ作成される．

4.5

特徴部位の可視化

4.2

節で学習したモデルを用いて，

grad-CAM

のより，画像の特徴部位の可視化を行った．指定したカテゴリからの逆伝搬による勾配情報を用いて，認識する要素の強い特徴を抽出し，ヒートマップで表現する．図

8

のように出力層の各カテゴリの出力値への影響が強い順に，黒，赤，橙，黄，緑，青の順番で色を表示する．

grad-CAM

特徴として，

1

枚の画像から各カテゴリの特徴部位の可視化を行うことが可能である．そのため，一枚の画像につき，ミニバンの特徴の可視化画像，セダンの特徴の可視化画像，

SUV

の特徴の可視化画像の

3

枚が作成できる．

5.

実装結果・考察

5.1

車型認識率の分析結果と考察

3D

モデル

1

台から得られる

360

枚の

2

次元画像の認識率を各台でまとめ，グラフの作成を行った［注

1

］．ミニバン，セダン，

SUV

それぞれのグラフを図

9

∼図

11

に示す．ミニバンの解釈を以下に示す．図6 損失と学習回数表2 カテゴリ問題の混合行列正解カテゴリミニバンセダン SUV 予測カテゴリミニバン 95 0 0 セダン 5 100 0 SUV 0 0 100 図7 認識率のグラフ化図8 特徴部位の可視化

(5)

•

図

9

の

a-1

よりミニバンに属する

MPV

は，全体的にミニバンの認識率が高い．しかし，視点角度

80

∼

90

度では

SUV

の認識率が高く，視点角度

288

∼

307

度では

SUV

の認識率がやや高い．以上のことから，

MPV

はミニバンと認識するが，真横からは

SUV

とやや認識する可能性がある．

•

図

9

の

a-2

より，ミニバンに属する

NOAH

は全体的にミニバンの認識率が高いが，

SUV

の認識率の高い部分がある．特に，視点角度

170

∼

195

度と

278

∼

295

度の

SUV

の認識率が高い．以上のことから，

NOAH

はミニバンと認識するが，背面と真横からは

SUV

と認識する可能性がある．

•

図

9

の

a-3

より，ミニバンに属する

ODYSSEY

は全体的にミニバンの認識率が高い．しかし，視点角度

5

∼

9

，

176

∼

190

，

346

∼

355

度の場合，セダンの認識率が高い．以上のことから，

ODYSSEY

はミニバンと認識するが，正面と背面はセダンと認識する可能性がある．セダンの解釈を以下に示す．

•

図

10

の

b-1

より，セダンに属する

IMPREZA

はミニバンとセダンの認識率が高い．さらに，全体的にミニバンとセダンの認識率が交互に高くなる視点角度が多い．特に，視点角度

172

∼

193

度のセダンの認識率が高く，図9 ミニバンの認識率のグラフ化図10 セダンの認識率のグラフ化

(6)

大きく変化している．以上のことから，

IMPREZA

は角度によりミニバンまたはセダンと認識する可能性がある．

•

図

10

の

b-2

PRIUS

は全体的にミニバンの認識率が高い．しかし，視点角度

1

∼

10

，

157

∼

207

，

352

∼

354

度のセダンの認識率が高い．以上のことから，

PRIUIS

は実際の車型がセダンであるが，ミニバンと認識する可能性が高い．しかし，正面と背面に関してはセダンと認識する可能性が高い．

•

図

10

の

b-3

RX-8

は全体的にセダンの認識率が高い．以上のことから，

RX-8

はセダンと認識する可能性が高い．

SUV

の解釈を以下に示す．

•

図

11

の

c-1

より，

SUV

に属する

FORESTER

は全体的に

SUV

の認識率が高い．以上のことから，

FORESTER

は

SUV

と認識する可能性が高い．

•

図

11

の

c-2

より，

SUV

に属する

OUTLANDER

は全体的に

SUV

の認識率が高い．しかし，視点角度

1

∼

12

，

345

∼

359

度のミニバンの認識率が高い．以上のことから，

OUTLANDER

は

SUV

と認識するが，正面はミニバンと認識する可能性が高い．

•

図

11

の

c-3

より，

SUV

に属する

RAV4

は全体的に

SUV

の認識率が高い．視点角度

6

∼

51

，

324

∼

359

度のミニバンの認識率が高い．以上のことから，

RAV4

は

SUV

と認識するが，正面あたりはミニバンと認識する可能性がある．以上の結果から，以下のようなまとめと考察を行った．ミニバンの

ODYSSEY

の場合，ミニバンの認識率は正面と背面が低く，他は高い．

SUV

の

OUTLANDER

や

RAV4

は正面のみが

SUV

の認識率が低い．これらの結果は，筆者が実際に見た印象と同じである

.

一方，セダンの

PRIUS

は実際の車型であるセダンの認識率が正面と背面が高く，その他はミニバンの認識率が高い．また，セダンの

IMPREZA

は，セダンとミニバンの認識率が交互に高くなっている．このことから，

IMPREZA

はミニバンとセダンの車型が融合している自動車であると考えられる．以上の各カテゴリの認識率の変化の原因は，

4.1

節で記述したテストーデータの分類の判断基準や，

MPV

や

RX-8

，

FORESTER

では自身の属する車型の認識率が高い結果が得られていることや表

2

の学習モデルの認識精度評価より，車体形状によるものと考えられる．また，モデル

1

台から作成された

360

枚の画像のうち，画像ごとの車型の認識した結果の割合をそのモデルの車型と仮定し，図

12

のような車型の位置付けを行った．

1

台から作成された画像のうち，車型の認識した結果が

3

種類ある車型が存在しなかったことから，

3

つの車型が融合する車種はテストデータには存在しなかったと考えられる．また，ミニバンとセダンの線上とミニバンと

SUV

の線上のみデータが存在することから，テストデータではセダンと

SUV

の融合した車型は存在しなかった．図11 SUVの認識率のグラフ化図12 車型の位置付け

(7)

5.2

特徴部位可視化の結果と考察

grad-CAM

を用いて，特徴部位の可視化を行った．認識率が極めて高い，または極めて低い場合，特徴の可視化画像は全体が赤色になり，その視点角度における特徴部位を抽出できない．そのため，前節で作成したグラフを参照し，視点角度によって認識率が大幅に異なる，また認識率の高いものと低いものがほぼ同じ数含まれる自動車のモデルを対象とし実験を行った．よって，前節のグラフからミニバンの

NOAH

，

セダンの

IMPREZA

，

SUV

の

RAV4

を対象に特徴部位の可視

化を行った［注

2

］．特徴部位可視化の結果を図

13

∼図

15

に示す．これらの図は，視点角度

45

刻みの画像それぞれにミニバン，セダン，

SUV

の特徴部位を可視化した結果である．

図13 ミニバン車NOAHの特徴部位の可視化

(8)

•

図

13

のミニバンの特徴部位の可視化画像の

A

部より，ミニバンの特徴部位は，リアクォーター周辺であると考えられる．

2

章で記述した内容から，リアクォーター周辺の特徴は，車内の

3

列目の座席の空間を確保した車体形状の影響を受けている．

•

図

14

のセダンの特徴部位の可視化画像の

B

部より，セダンの特徴部位は，フロントガラス周辺であると考えられる．

2

章で記述した内容から，エンジンルームが独立していることから，ボンネットが大きく確保され，フロントガラスとの角度が大きくなることで，ミニバンや

SUV

にはない角度の浅いフロントガラス周辺の影響を受けている．

•

図

14

のミニバンの特徴部位の可視化画像の

C

部より，ミニバンの特徴部位は，トランクルームの地上からの高さであると考えられる．ミニバン

2.2

節で記述した内容から，ミニバンの特徴とされる大容量の車内空間の確保のため，前輪のタイヤと車体の前の幅の影響を受けている．

• grad-CAM

の特徴部位の可視化は，他のカテゴリに影響を与えるものであるため，ミニバンとセダンの特徴としたもの以外を

SUV

の特徴として加算する．図

15

の

D

∼

F

部のような，ミニバンと

SUV

はお互いの特徴が重ならないようにそれぞれが特徴を捉えている．図

14

の下の図の視点角度

90

，

135

，

270

度のような，セダンとミニバンの特徴以外を

SUV

の特徴として捉えているため，

SUV

の特徴部位の範囲が大きい．

•

図

14

のセダンと認識している部位から，自動車の共通した部位を特徴として捉えていると考えられる．つまり，自動車の角度に関わらず

3D

モデルの同じ部位を認識している．

6.

結論本研究では，各車の周囲に視点を

1

度刻みで

360

点設定し，レンダリングを行い，それらを教師あり学習データとして転移学習を行った．次に，学習したモデルを用いて，車型認識と特徴部位の可視化を行った．その結果，認識率のグラフと車型の位置付けから，車型の曖昧な自動車が存在することが考察できた．また，視点角度ごとの認識率の変化や

3

次元で特徴部位をとらえることから，

CNN

は人と似た物体の認識を行っていることが考察できた．ただし，今後の課題として以下の点が挙げられる．

1

）本システムでは，

SUV

の特徴部位の明確化ができなかった．これは，学習時のカテゴリをミニバン，セダン，

SUV

の順番で設定し，ミニバン，セダン，

SUV

の順番で学習させたため，ミニバンとセダンの特徴のみが抽出され，それ以外の特徴が

SUV

に集中したと考えられる．そのため，学習時のカテゴリの順番を変更し，

SUV

の車体形状の特徴を抽出する必要がある．

2

）本システムでは，カテゴリをセダン，ミニバン，

SUV

の

3

つに分類したが，

3

ボックス，

2

ボックス，ワンボックスといった分類も考えられるため，分類方法が異なる場合についても実験し，今回の結果と比較する必要がある．さらに，今後の展望として，本システムの出力層のカテゴリを車型から感性ワード（印象）に変換することで

3D

モデルの部位がどの感性ワードに影響を与えているかを明確にできると考える．また，認識率と特徴部位の可視化の両方を組み合わせることで，感性と形状の関係性がよりわかりやすくなると考える．図15 SUV車RAV4の特徴部位の可視化画像

(9)

謝辞本研究は

JSPS

科研費

16H02824

の助成を受けたものです．ここに謝意を表します．注［注1］画像認識で左右反転した画像をそれぞれ入力する場合， CNNでは異なる画像として認識しているため，それぞれの認識率が完全に同じになるとは限らない．［注2］画像の特徴部位の可視化で左右反転した画像をそれぞれ入力する場合，CNNでは異なる画像として認識しているため，特徴部位の範囲が完全に同じになるとは限らない．参考文献

［1］ Maturana, D., and Scherer, S.: VoxNet: A 3D Convolu-tional Neural Network for real-time object recognition, 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp.922-928, 2015.

［2］ Selvaraju, R. R., Das, A., Vedantam, R., and Cogswell, M.: Grad-CAM: Why did you say that? Visual Explanations from Deep Networks via Gradient-based Localization, CoRR arXiv:1610.02391, pp.4-5, 2016.

［3］ Chen, D. Y., Tian, X. P., Shen, Y. T., and Ouhyoung, M.: On Visual Similarity Based 3D Model Retrieval, Computer Graphics Forum (EUROGRAPHICS 2003), 22(3), pp.223-232, 2003. ［4］【保存版】ワンボックスカーとミニバンとSUVの違いとは？， https://www.lineup-car.com/blog/5066.html（2018.04.15 閲覧）．［5］岡谷貴之：画像認識のための深層学習，人工知能学会誌， 28（6），pp.962-974，2013．

［6］ Simonyan, K., and Zisserman, A.: Very Deep Convolu-tional Networks for Large-Scale Image Recognition, arXiv:1409.1556v6, pp.5-8, 2015. ［7］中山英樹：深層畳み込みニューラルネットワークによる画像特徴抽出と転移学習，信学技報，115（146），pp.55-59， 2015．［8］ pythonスクリプトでレンダリングを制御： https://otonoki3d.wordpress.com/2014/08/09/（2018.01.29 閲覧）．

［9］ CG DATA BANK：3D CAR MODEL ONLINE SHOP，

https://cgdatabank.com．田中俊太朗（非会員） 2018年和歌山大学システム工学部卒業．同年，和歌山大学大学院システム工学研究科システム工学専攻博士前期課程入学．現在に至る．主として，深層学習に関する研究に従事．原田利宣（正会員） 1996年千葉大学大学院自然科学研究科修了．工学（博士）．マツダ株式会社車両設計部，日産自動車株式会社デザイン本部を経て， 1997年度和歌山大学システム工学部助教授．2004年度より，同教授．現在に至る．曲線（面）の分析・創成手法開発やラフ集合を中心としたデザイン方法論の開発に従事．1996年日本デザイン学会研究奨励賞受賞， 2004年グッドデザイン賞受賞，2002，2004，2005，2010年感性工学会出版賞など．小野謙二（非会員） 2000年熊本大学自然科学研究科修了，博士（工学）．日産自動車（株），東京大学，理化学研究所を経た後，現在九州大学教授．数値流体力学，大規模並列計算，可視化の教育研究に従事．

日本感性工学会論文誌

1.

SUV

3D

3D

1

3D

3D

3D

3D

2

Ding-Yun

3D

3D

3D

3

3D

2

Rampasaath

Grad-CAM

2

Grad-CAM

30

3D

1

360

VGG16

3D

Grad-CAM

2.

SUV

畳み込みニューラルネットワークを用いた

自動車の三次元モデルにおける各車型の特徴抽出と視覚化

田中 俊太朗*， 原田 利宣**， 小野 謙二***

Analyses and Visualization of Characteristics of Car Body Types

by Using Convolutional Neural Network

Syuntaro TANAKA*, Toshinobu HARADA** and Kenji ONO***

SUV

SUV

1

3

1

4

1

2

4

2

4

2

2

3

2

4

SUV

3

SUV

3

2

4

3.

3.1

4

39

3D

2

Grad-CAM

3.2

5

Keren

VGG16

6

CNN

3.3

Fine-Tuning

7

Fine-Tuning

ImageNet

120

VGG16

CNN

田中俊太朗，原田利宣，小野謙二

Syuntaro TANAKA, Toshinobu HARADA and Kenji ONO