実験・評価

本章では,本研究の意義を検証するための予備実験と提案フレームワークの有

効性を検証するための評価実験について紹介する.

予備実験

本研究の意義を検証するため,予備実験とアンケート調査を行う.

実験目的

本研究が提案するフレームワークは, ユーザの好みに生成結果をフィッティ

ングすることを目的としている.もしユーザが「カワイイ」と思う特徴を全て持

っているキャラクタが必ず「カワイイ」と思われるなら,関連研究の [22] [23]の

タグを選んでキャラクタを生成するという方法で充分である.しかしながら, ユ

ーザが「カワイイ」と思う特徴を全て持っているキャラクタが必ずしも「カワイ

イ」とユーザに思われないと推測できるので、それを証明するためにこの予備実

験を行う.

実験対象

JAIST在籍の学生男女各6人合わせて12名の被験者が予備実験に参加した。

実験内容

1. 図 2.3 の（ｂ）のタグに基づいてキャラクタ顔画像を生成する

MakeGirlsMoe のデモ [25]を体験してもらい,生成したキャラクタと被

験者のイメージとの近似度についてアンケート調査を行う.

2. 被験者がかわいいと思う男子キャラクタの特徴を列挙し、それらの特徴

を全部備えているキャラクタはかわいいと思うか、についてアンケート

調査を行う.

実験環境

実験内容１はMicrosoft Surface pro3でFirefox を利用してMakeGirlsMoe のウェブサイトで体験を行う.図4.1は実験の様子を示す.PC画面は図 1.3（b）

のデモの様子である.アンケート調査は全て紙に手書きで記入する.アンケート

内容を図4.2に示す.

図 4.1:予備実験の状況

図 4.2:予備実験のアンケート

実験結果

実験内容１の結果を図4.3に示す.

図 4.3:MakeGirlsMoeで生成したキャラクタはイメージとの近似度

この結果によると,タグを選ぶ方法（以下、タグ法）で好みのキャラクタを生

成したものは半分の人にとっては基本的に満足であるが,残りの半分の人にとっ

ては満足度が極めて低い.つまり,タグ法だけでは,人の好みを反映していないこ

5 0

20 30

10 85

0 75

90 80

65 80

0 10 20 30 40 50 60 70 80 90 100

0 2 4 6 8 10 12 14

近似度（％）

被験者番号

28 とが分かった.

実験内容２の結果を表4.1に示す.

必ずかわいいかわいいとは

限らない必ずかわいくない合計（人）

男（人） 1 5 0 6

女（人） 2 4 0 6

合計（人） 3 9 0 12

選択肢性別

表 4.1:「かわいいと思われる特徴を全て持つキャラクタは必ずかわいいか」の

アンケート調査結果

このアンケート調査によると，かわいいと思われる特徴を全て持つキャラク

タに対し，大部分の人は「かわいいとは限らない」と回答した。

以上の予備実験の結果から,タグ法で人の「カワイイ」審美を表すことが不十

分であることが明らかになった.

評価実験

本節では,本研究で提案するフレームワークの有効性を検証するための評価実

験を紹介する.評価実験は、1) 画像の選択,2)画像に対する採点の２段階で行う.

詳しくは4.2.4~4.2.5で述べる.

実験目的

評価実験では、本フレームワークを応用したGANで生成した画像は、フレー

ムワークを応用しないGANで生成した画像と比べ、ユーザの好み分布により近くなるかどうかを検証する.

実験対象

本実験では,色々な人の好みに対して本研究で提案するフレームワーク有効性

を検証するため,性別のバランスをとり,男女各5 人で合わせて10 人の被験者を募り実験を行う.

実験環境

第一段階の実験設備は ubuntu16.04 を使用するコンピュータである.すべての操作は日常的なウィンドウ操作である.利用したデータセットは 3.1 で紹介したデータセットである.予想される操作時間は30分以内である.

第二段階の実験はMicrosoft Surface pro3 にインストールされたExcel2016 を利用する.計算にはExcelの数式機能を利用する.

提案フレームワークの訓練は本学の計算サーバ PC Cluster で行われた.使用したGPUはNVIDIA Tesla P100で,CPUはIntel Xeon Gold 6130 2.1GHzで,

メモリは128GBである.

第一段階

被験者の好み分布をフィッティングするため,被験者の「カワイイ」好みに合

致する64枚のキャラクタ顔画像を提供してもらう.その64枚の画像は被験者が

3.1節のデータセットから「カワイイ」と思うものを選び出した画像である. 被

験者が選んだ画像を自分のファイルへドラッグする時の様子を図 4.4 に示す.もし被験者が自分のこだわりキャラクタがいる場合であれは,そのキャラクタの画

像を被験者が提供し,前処理を行って実験に用いてもよい. 本評価実験では、10

人の被験者のうち１名のみがこだわりキャラクタを提供した。

図 4.4:被験者が画像を選ぶ時の様子

第二段階

第二段階は第一段階で得られた64枚の画像で訓練したモデルを生成した後に行う.第二段階は本フレームワークを応用したモデルで生成した画像と本フレー

ムワークを応用しないモデルで生成した画像に対して採点を行う. 偶然性と被

験者の気持ちを考え, 採点される画像枚数は二組各64枚に決める.

次に採点について説明する.採点は100点満点とする.採点フォームを図4.5に示す.被験者は,各セルに対応する位置にある画像の評点を入力する.採点する画

像は3セットあり,１セット２組の画像群からなり,一組には64枚の画像がある.

被験者に同時に１セットの画像を見せる.その１セットの２組の画像はそれぞれ

同じタイプの GAN に本フレームワークを応用したモデルで生成した画像（以下、実験組）と本フレームワークを応用しないモデルで生成した画像（以下、対

比組）である.統計上の便利さのため,実験中は左が対比組で右が実験組で実験を

行った.そして,有効性を保証するため,被験者にはどの組の画像がフレームワー

クを応用したものか知らせないこととする.このように３セットの画像に対して

採点を行う.採点の基準は被験者の「カワイイ」好みをもとに「百点満点の場合

にはこのキャラクタの『カワイサ』は何点に該当するか」を判断し採点を行う.

被験者を焦らせないため、採点の時間制限は設けない.なお,各被験者が評価した

対比組は同じものである.被験者が採点を行う様子を図4.6に示す.

図 4.5:採点フォーム（1セット）

図 4.6:被験者が採点を行う様子

評価方法

まず被験者の採点結果に基づき平均点を計算する.そして実験組の平均点が対

比組の平均点と比べ、どれぐらい良くなったのかを判断するために平均点の増

加率を計算する.増加率の計算方法を式(2)に示す.その増加率に基づいて本研究

で提案したフレームワークはユーザの「カワイイ」審美に対する認知を深めるこ

とができるかどうかを判断する.それに,データのばらつきを表すために標準偏

差を計算する.

増加率＝^{実験組平均点}⁻^{対比組平均点}

対比組平均点 × 100% (2)

評価実験の結果生成事例

評価実験での採点対象の画像は、300epochで生成した画像である.図4.7は被

験者1の好みを表す64枚の画像を示し,図4.8~4.10は被験者1の生成事例を示す.各図において,(a)は対比組であり、(b)は実験組である.

図 4.7:被験者の好みを表す64枚の画像（被験者1,女性）

(a) (b) 図 4.8:DRAGAN生成事例（被験者1,女性）

(a) (b) 図 4.9:LSGAN生成事例（被験者1,女性）

(a) (b) 図 4.10:WGAN-GP生成事例（被験者1,女性）

被験者１のコメントによると,実験組の画像は対比組のものよりかわいい顔

の数が多く,かつ、実験組の画像の方が質がよい、とあった.

残りの被験者の生成事例は付録に添付する.なお、全ての被験者の対比組は共

35 通なので省略する.

データ分析と考察

評価実験に参加した被験者 10 名の性別分布を表 4.2 に示す.実験結果のデー

タを表 4.3～4.5 に示す.表の第一列には各行のデータの意味を示している.オレ

ンジ色の枠は女性被験者を表し,青い色の枠は男性被験者を表す.各GANの生成

結果に対する採点の標準偏差は図 4.11~4.13 の棒グラフに示す. 棒グラフの縦軸は標準偏差値を表し,横軸は各項目を表す.図4.14と4.15に男女各一人の棒グラフを示し,残りは付録に添付する.棒グラフの縦軸は平均点を表し,横軸は各項

目を表す.

具体的な採点結果――各被験者の採点フォームは付録に添付する.

DRAGANと LSGAN に本研究のフレームワークを適用した結果,実験組が対

比組より良い結果が得られた. DRAGAN に適用した後の平均増加率は 20.00%

で, LSGAN に適用した後の平均増加率は 33.66%である.それに, DRAGAN と

LSGAN は増加率がマイナスになるケースがない.いっぽう,WGAN-GP に適用

した結果の中には, 実験組が対比組より悪くなった場合が見受けられる.増加率

がマイナスである場合の割合は 1/10 である.また, WGAN-GP の平均増加率が

DRAGANとLSGANと比べると低く,11.67%しかない. WGAN-GPの最大増加

率は60.80%, DRAGANの51.32%とLSGAN62.11%と比較しても、ほぼ変わら

ない.しかし, WGAN-GP の最小増加率は-25.48%, DRAGAN の 0.70%と

LSGAN12.46%と比べると極めて低い.各 GAN の増加率の標準偏差から見る

と,DRAGANは0.15, LSGANは 0.14, WGAN-GPは二つより大きくなり,0.21 である.すなわち, DRAGAN と LSGAN にフレームワークを適応した結果として,良い結果が得られ,各被験者の増加率も偏差が小さいため,本フレームワーク

は有効だと考える. WGAN-GP にフレームワークを適応した結果として,他の二

つの GAN ほど安定ではなく,マイナスの増加率(点数が減少している場合)があるが,平均増加率は正数であり,増加している場合の数量は減少している場合の

数量の 8 倍となり(一人は増加率が 0%),全体的に見るとよくなっているといえる.

男性女性合計

合計 5 5 10

表 4.2: 被験者10名の性別分布

被験者番号 1 2 3 4 5

dra対比組平均点 55.08 34.84 14.84 23.75 42.73 dra実験組平均点 67.27 43.81 16.25 35.94 46.02 増加率 22.13% 25.74% 9.47% 51.32% 7.68%

被験者番号 6 7 8 9 10

dra対比組平均点 32.58 45.08 73.67 23.94 38.13 dra実験組平均点 38.05 61.67 74.19 30.09 39.53 増加率 16.79% 36.81% 0.70% 25.72% 3.69%

表 4.3: DRAGANの実験結果

ドキュメント内 JAIST Repository: GANに適用する「カワイイ」に対する好み分布フィッティングのフレームワークの提案 (ページ 37-54)

予備実験

実験目的

実験対象

実験内容

実験環境

実験結果

評価実験

実験目的

実験対象

実験環境

第一段階

第二段階

評価方法

評価実験の結果 生成事例

データ分析と考察

評価実験の結果生成事例