501 広告と AI 人工知能による新しい広告クリエイティブ New Advertising Creative by Artificial Intelligence 谷口和輝 Kazuki Taniguchi 株式会社サイバーエージェント CyberAgent, Inc. taniguchi kaz

(1)

1．はじめに

広告クリエイティブとは，広告業界で利用される制作物全般のことを指し，バナー画像やテキスト，動画広告もこれに含まれる．中でも近年インフィード広告（フィード型コンテンツと同じフォーマットで表示される広告）が急速な成長を遂げており，2016 年時点で市場規模が 1,401億円に達し，2022 年に 3,013 億円に到達すると予想されている．このような背景には従来のソーシャルメディア（Facebook，Twitter，LINE）の拡大に加えて，インフィード広告の配信先の多様化が進んだことにより，ニュース・ポータルサイトなどの広告商品の配信比率の増加が後押ししている．また，スマートフォン向けのメディアにおける割合が非常に高く，2016 年の時点で 96％を占めており，2022 年までさらに増加していく傾向となっている．インフィード広告は図 1 のようにクリエイティブ画像とテキストがセットで必要となり，広告枠に合わせてさまざまなサイズ，フォーマットが存在している．図上部のようなフォーマットは主にニュース・ポータルサイトによく見られ，図下部のようなフォーマットはソーシャルメディアなどのタイムライン型の広告によく利用されている．インフィード広告市場においてテキストと画像のシェアは 2016 年で約 87％を占めており，市場規模にして 1,218 億円に達している．また，引き続き市場の規模は拡大を続け，2022 年には 2016 年比で約 164％まで拡大すると予想されている．インフィード広告は従来の広告フォーマットと比較してユーザに対する視認性が高いという特徴があり，広告の表示回数が少ない段階でも広告クリエイティブの評価が得られる．また，広告にはユーザの飽きなどから表示回数の増加とともにクリック率が低下していくという特性があるが，インフィード広告では特に表示回数の増加によるクリック率の低下が著しく，一つの広告クリエイティブの寿命が短い傾向がある．以上のような特徴から，インフィード広告において広告クリエイティブの PDCA や広告クリエイティブの製作を高速化することは非常に重要な課題である．現在はこれらの運用をコンサルタントが行っており，過去の実績や顧客の特性，トレンドなどを加味しながらクリエイティブの表現を考え，制作スタッフに依頼している．サイバーエージェントの AI Lab では，コンサル

人工知能による新しい広告クリエイティブ

New Advertising Creative by Artificial Intelligence

谷口　和輝

株式会社サイバーエージェント

Kazuki Taniguchi CyberAgent, Inc.

taniguchi [email protected], https://www.cyberagent.co.jp/

大田　和寛

（同　　　上）

Kazuhiro Ota _{ota [email protected], https://www.cyberagent.co.jp/}

山口　光太

（同　　　上）

Kota Yamaguchi _{yamaguchi [email protected], https://www.cyberagent.co.jp/}

Keywords:

ad technology, machine learning advertising creative, image processing. 「広告と AI」

(2)

タントが行っているこれらの仕事を人工知能技術を用いて自動化する「広告クリエイティブの自動生成」についての研究を進めている．本稿では，この研究内容についてインフィード広告内のクリエイティブ画像の分析と自動生成，動画広告の自動生成の二つの事例について紹介し，今後の展望を述べる．

2．関連研究

広告クリエイティブの生成に関連し，ここで画像の自動生成の手法について少し紹介する . 特に，近年は Deep Learning の発展により画像認識や画像生成の分野の研究が著しい．特に画像生成では，Generative Adversarial Network（GAN）[Goodfellow 14] の登場によりこれまでよりも非常に鮮明な画像の生成が可能なことで話題となった．GAN の登場以降，Word2Vec で話題となった単語の演算を画像で可能にした Deep Convolutional GAN（DCGAN）[Radford 15] やインタラクティブな操作を加えて画像生成を行う iGAN [Zhu 16]，画像対画像の変換について汎用的なモデルを提案した Conditional GAN [Mirza 14]，段階を経て解像度の高い画像を生成する StackGAN [Zhang 16] などさまざまな手法が提案されてきた．また，画像の生成だけではなくイラストの自動彩色 [Iizuka 16]，スケッチの線画化 [Simo-Serra 16]といった創作活動の生産性を高める応用に向けた Deep Learning の研究も近年大きく進捗している．これらの手法は従来までの画像生成よりも鮮明，かつ意図した画像の生成を可能にしたが，本稿執筆時点では広告クリエイティブとしてユーザに配信可能な品質を担保することが難しい．我々は画像全体に対する生成モデルのアプローチではなく，画像を構成する素材画像やテキストの配置や加工方法をモデルから決定するアプローチで生成を行う．クリエイティブの制作プロセスに対する機械学習モデルの研究はまだ始まったばかりであり [Ha 17]，我々もこれまでに蓄積してきた大量のクリエイティブ編集データを活用し，最終的な制作物のプレゼンテーションを構成するプロセス自体の学習を目指している．

3．画像広告の分析と自動生成

3･1　利用するデータ本研究で利用するデータは，当社内で制作された広告クリエイティブで実際に配信まで行われたものを対象に収集しており，現時点で約 10 万件のデータが存在している．データは完成した画像のデータだけでなく，制作時の編集データや配信後の実績（インプレッション数，クリック数）も同時に収集している．編集データは主に，配置されている素材画像の位置やレイヤ構造などの空間的な位置情報や，透過率，フィルタなどの加工に関する情報が含まれている．また，これらの素材画像にはタグ付けを行っており，素材画像内にどのようなものが写っているかを把握できるようにラベリングしている．タグはカテゴリーで大きく分類した後，カテゴリー内でどのクラスに分類されるかをクリエイティブ画像の制作者が判断して付与している． 3･2　データ収集・分析システム制作陣からクリエイティブデータを収集し分析するに

あたり，クラウドサービス（Amazon Web Service＊1_）

を利用したデータレイクおよびデータウェアハウスを構築中である．研究の初期段階といえる現在においては分析手法を確立できてはいないため，分析用システムの構築要件が明確に定義はされていない．そのような状況においても，可能な限り制作陣からアップロードされてくるクリエイティブを収集し，データとして俯瞰するための保管場所としてまずはデータレイクを準備した．データウェアハウスについては今後どのような分析をしていくかを考慮しつつ設計・構築していく予定である．このように，収集と分析のフェーズをシステムレベルで分断することにより，制作陣の制作スピードを緩めずに分析手法の立案・変更に柔軟に対応することが可能であると考えている．図 2 に現段階におけるシステムアーキテクチャを示し，以下でデータレイク，データウェアハウスそれぞれにおける役割を述べ，データレイクについては設計思想，データウェアハウスについては今後の展望を簡単に述べる． § 1　データレイク本研究におけるデータレイクは自動生成のための分析に用いられるすべてのクリエイティブデータを 1 か所に＊1 https://aws.amazon.com/jp/ 図 2　データ収集・分析システムアーキテクチャ

(3)

集めて保管する役割を担う．実体となるストレージには Amazon S3を用いている．収集しているクリエイティブデータは 1 ファイルに付き最大で約 1 GB に及ぶものも存在するため，実質的に容量無制限のクラウドストレージを選定した．また，制作者がクリエイティブデータをアップロードする際には，広く普及している SFTP クライアントソフトェアである Cyberduck＊2_{を利用し，} 制作以外での作業負担の削減を狙っている．ファイルのアップロードのみ可能な権限を付与したアクセスキーを制作陣に配布することにより，ストレージ内の誤操作を未然に防いでいる．制作陣よりアップロードされたクリエイティブはAmazon S3＊3_{の指定のバケット内に，指定のキープレフィック} スをもつオブジェクトとして保管される（図 2）．アップロードされたファイルは，ストレージに設定されているイベントハンドラによりパースプログラムへと渡される．このパースプログラムはクリエイティブデータである　Photoshop ファイルを読み込み，レイヤのサイズや表示上の前後関係など，ファイルから得られるレイヤ構造のメタデータを JSON ファイルに書き出すものである．このようにすることで，ストレージ内には Photoshop データに加えてメタデータの JSON ファイルがセットで配置されていき，これ以降の分析に影響を与えない範囲で取得可能な情報をため込んでいけるような設計とした． § 2　データウェアハウス本研究におけるデータウェアハウスの役割は，データレイクにため込まれたデータを取り出し，実際の分析を担うことである．上述したとおり，データウェアハウスの設計および構築にはまだ着手できてはいないため，現状の展望を述べる．図 2 に示したとおり，分析用にデータベースを構築することを予定しているが，このデータベースの候補は下記のとおりである．ドキュメント指向データベース　MongoDB＊4_に代表されるような，構造化メタデータをそのまま 1 レコードとして格納できるデータベースである．条件を満たすようなクリエイティブデータを検索するような状況において，専用のクエリを記述することで容易に検索が行えることが特徴である．グラフ指向データベース　データレイクに格納しているメタデータに含まれるレイヤのつながりをツリー構造のグラフとして表現することができる．レイヤやレイヤグループの関係を Neo4j＊5_{のようなグラフ} データベースに格納しておくことにより，レイヤ間の関係性をもとにクエリを発行することが可能である．また，仮にデータベースを構築しない場合は，データレイクに直接アクセスして分析できるようなクラウドサービスを利用する形でのデータウェアハウスとすることも考えている．この場合の候補は下記のようなプロダクトである． ● _{Amazon Athena}＊6

● _{Amazon Redshift Spectrum}＊7

両プロダクトともにデータレイクのストレージである Amazon S3に保管されている JSON データに対してクエリを発行することが可能であると謳っており，さらに構築の手間も不要であることからアドホックな分析を行ううえでは最適ではないかと考える．世のデータベースやクラウドサービスを活用することによるデータウェアハウス構築の構想を述べた．引き続き，クリエイティブデータの分析において最適なデータウェアハウスの在り方を模索していく． 3･3　クリエイティブデータの分析我々がこれまでに蓄積してきたバナー画像などのクリエイティブ制作物のデータは Adobe Photoshop 形式で保管されている．一般的な画像データとは異なり，広告クリエイティブは写真やテキストなどの視覚的な要素を枠の中に配置したプレゼンテーションデータである．画像形式のクリエイティブでは視覚的な要素は二次元のレイヤが重ねられたデータ構造となっている．レイヤには写真，テキスト，図形などの二次元シェイプ，レイヤ群に対するフィルタやクリッピングマスクなどの種類があり，これらを指定された枠内に描画した結果がバナー画像などの最終的制作物となる．レイヤはデザイナの裁量によりグループ化されたうえで重ねられ，クリエイティブドキュメント全体ではツリー構造によって表される．レイヤを分解した例を図 3 に示す．図 3 では複数のサイズの菱形でトリミングされた写真のグループ，シェイプと写真のグループが重なったツリー構造となっている． § 1　ドキュメント構造のモデリングクリエイティブドキュメントのツリー構造はデザイナの制作プロセスによってまちまちであり，必ずしもドキュメントのセマンティクスが埋め込まれているわけではない．例えば，あしらいとテキストによって文字を伝える要素があってもそれぞれ別のレイヤとして存在し，グルーピングされていないケースなどがある．現在我々は新規制作物はタグによるデータの構造化を進めており，過去の制作物についても適切なラベリングを進めている．こうした既存の大量の制作物データに対し，我々＊2 https://cyberduck.io/ ＊3 https://aws.amazon.com/jp/s3/ ＊4 https://www.mongodb.com/

(4)

は自動的に再利用可能なデータを抽出する試みを進めている．データの再利用化の目的として，例えばクリエイティブレイアウトのテンプレート自動作成が考えられる．これは，既存の作例からロゴ，見出し，テキスト，画像などの要素を差替え可能なレイヤと分類し，あしらいや配置などを残したままテンプレート化するものである．レイヤのもつメタデータからその要素の大まかな分類は可能であっても，単純に画像の含まれるレイヤの中身を差し替えても元の画像のマスクなどが他のレイヤに残ってしまうとテンプレートとして成立しないため，レイヤ構造から複数の視覚的に関連する要素を自動で検出することが求められる．また，テキストは差替えをすることで表示領域の大きさが変わってしまうため，単純な差替えを行うことができない．こうした技術的課題の解決を目指し，我々はクリエイティブデータの構造分析を進めている． § 2　クリエイティブの効果測定広告において配信実績は重要である．どのようなクリエイティブがどのような配信実績であったのか，あるいはクリエイティブの中身から配信実績を予測するモデルを学習する取組みを進めている．これまでにもメディアからクリック率を予測する試みは研究がされてきた．例えば，Chen らは Deep neural networks を用いてディスプレイ広告の CTR を予測するモデルを報告している [Chen 16]．配信効果の予測は画像や動画からの CTR の回帰あるいは分類問題として定式化できるが，画像はカテゴリーによってクリック数に大きなバイアスが生じることも知られている [Khosla 14]．我々は現在クリエイティブ単位での配信実績のデータの収集を進めており，広告カテゴリーごとのモデルを学習できるように取組みを進めている．特に，配信予測の予測をもとにレイヤ単位での編集手法の End-to-end 最適化につなげる手法の検討を進めている． 3･4　自動生成のフレームワーク我々は現在，クリエイティブ画像の自動生成に向けて四つの技術的課題に取り組んでいる．自動生成システムの入力には素材画像や訴求テキストなどのクリエイティブを構成する要素が複数入稿されることを想定している．システム内部では，入力した素材からまず Meta-Layout Engineにより大きな構図を決める．続いて素材として画像が与えられない場合やクリエイティブにバリエーションを作成するため，画像，またはキーワードをもとに利用できそうな素材画像を検索する（Select Engine）．訴求テキストデータに対しては内容に応じて違うフォントやカラーを利用し，広告視聴者に伝わりやすいレンダリングを決定する（Text Engine）．最後に Layout Engineで構図の内部の配置の調整を行い，新しいクリエイティブのレイアウトを提案する．最終的には各ステップで複数の生成候補を提示し，それらを組み合わせて多数のクリエイティブを生成することを目指す． § 1　Meta-Layout Engine Meta-Layout Engineでは与えられた素材の数や内容などからクリエイティブの全体の構成を大まかに決定する役割を果たす．例えばプレゼンテーションスライドのテンプレートのような構図決定を行うものである．使用する画像の枚数やテキストの表示領域，ロゴの配置を，指定の画像サイズの中で決定する． Web サイトやポスターなどビジュアルレイアウトに関しては事実上無限の表現方法が存在し，現実の広告ではデザイナやクライアントのやり取りの中で決定されていく．エネルギー関数を用いた最適化の試みは見られるものの [O’Donovan 14]，レイアウト構成の複雑なプロセスを直接モデルにするのは難しいため，我々は初期段階としてあらかじめ指定された広告表示領域に対するレイアウトテンプレートを用意する方法により取り組んでいる．中長期的にはレイアウトのカテゴリーと広告配信実績の統計的データを用い，広告内容のカテゴリーに応じたビジュアルレイアウトの選択に取り組むことを検討している．例えば，ゲームの広告であればゲームのプレイ図 3　バナー画像のレイヤ分解例

(5)

画面を並べたレイアウト表現，キャラクタが前面に出たレイアウト表現などを，統計的に最も実績の高い配置を決定する方法が考えられる．グリッド数の最適選択　レイアウト選択の例として，領域をグリッド状に区切って要素を並べる手法がある．グリッドを使用するためには広告表示領域を与えられた要素数に対して適切な行数列数を決定する 必要がある．広告表示領域が W×H の大きさ，グリッ ドが c × r 個存在するとき，N 個の広告要素を表示 する適切なグリッドレイアウトは例えば以下のように定式化することが可能である． min r, c r H+ c W s.t., rc  N, (r,c) ∈ N 2 _（1）この定式化ではグリッドに配置される要素が正方形に近くなるように最適化を行い，かつ必要とされる要素数の制約を与える．グリッド配置は EC サイトなどで商品の列挙をするような広告でよく利用される形態である． § 2　Select Engine Select Engineでは入力された素材画像やキーワードをもとに利用できる素材画像の拡張を行う．素材画像を入力する場合は主に顧客から指定されているものとそうでないものに分類できる．前者は他の画像を拡張することはできないので，基本的には後者の顧客から指定されていない画像かキーワードを入力した場合に拡張を行う．クリエイティブ制作現場では広告内容やカテゴリーに応じ，ストック写真サービスなどから広告内容に合った素材を検索してきたり，デザイナが作画したり，クライアントが提示した素材写真の中から適切なものを選択している．素材画像を検索する際には，どのような素材画像を選択するかは広告内容に合致しているか，視覚的に訴求するものか，画像を使用するうえでのライセンス条件は適切かといった評価指標に沿ったものが求められる．初期的な画像拡張手法の検証として，似ているトマトの素材画像を部分空間法を用いて検索した．ここでは Caltech 256 データセット [Griffin 07] からトマトの画像を固定サイズにリサイズしたものを使用した．この検証ではピクセル値を Principal Component Analysis（PCA）を用いて射影した部分空間から，最も近い画像を L2 距離による最近傍検索法で探す方法をとっている．トマト画像による部分空間を図 4 に示す．図を見るとある画像に注目した際，特徴の似た画像が近くに分布していることがわかる．この一例はあくまで画像の輝度をベースにした視覚的な近さを距離として用いているが，クリエイティブ制作においてはここからさらに視覚的に訴求するか，クライアントごとの個別の要求を満たすか，使用するクリエイティブのレイアウトや他の要素に内容が合致するか，といった基準を距離関数として定義する必要がある．我々は教師データとなるデータを収集しつつ，限られたサンプル数から学習をできる手法を検討している． § 3　Text Engine Text Engineでは訴求テキストに対する視覚的表現方法を決定する．訴求テキストそのものを生成する試みはこれまでにも見られるものの [Yashima 16]，テキストの視覚的描画の自動生成については体系的な研究は多く見られない．テキストに対する表現は主にフォントタイプ，フォントカラー，フォントサイズ，ドロップシャドウなどの視覚的効果があり，これらを想定されるテキスト表示領域にレンダリングすることが求められる．テキスト表現方法は訴求する内容に沿ったスタイルを提示することが求められ，現在のクリエイティブ制作現場ではデザイナの裁量に従って表現方法が決定する．例えば，価格が重要な商材については数字が大きく目立つようなテキスト効果を与えるように描画をする．我々は初期的な検討段階として，テキストを形態素解析し，TF-IDF の高いキーワードやフレーズの抽出，価格などの自動的な抽出と，統計的な表現方法の分析に取り組んでいる．例えばフレーズからテキスト表現効果を予測するモデルの学習などが考えられる． § 4　Layout Engine Layout Engineでは素材となる画像，テキスト描画をもとに，これまでに生成されたレイアウトに従って配置を行う．クリエイティブ画像を制作するうえで重要な背景画像は大きな画像からクロッピングを行っている場合が多い．例えば商品であれば商品の拡大部分のみを切り抜いて配置したり，化粧品の商材に関して人物の肌領域のみを拡大したり，背景であればテキスト表示領域に空白をもちつつ物体が残りに写っているような構図が選択，クロッピングされる．クロッピングが行われるコンテクストは広告カテゴリーによりさまざまであり，本研究ではそれらに応じて自動で画像の領域を抽出するシス図 4　拡張用のトマト画像を部分空間から検索

(6)

テムを目指している．画像からの領域抽出は Saliency 検出 [Pan 16] と密接に関わっており，フレームを切り取るという点で動画のスタビライゼーション [Grundmann 11] にも関連がある．ただし，広告クリエイティブの場合は顕著性の高い画像領域だけをクロップすると，テキストのオーバレイ配置ができなくなってしまうなどの問題があるため，必ずしも顕著性の高い領域を抽出するのではなく，顕著性のマップが想定されるレイアウトに合致するかという基準でクロッピングを行うことが求められる． 3･5　画像広告生成の展望実用に耐える高品質なクリエイティブ制作の自動化研究はまだ端緒についたばかりである．例えばクリエイティブのレイヤ構造は明示的に言語化したラベルを付けることが難しいケースも多く，それゆえ教師データを用いた判別モデルの学習も困難なケースが多い．短期的には制作現場の支援ツールのような形で現場への自動化技術の導入を図り，中長期的には例えばキーワードを入稿するだけで説得力のある広告クリエイティブを自動で生成する技術に取り組んでいく予定である．

4．動画広告の自動生成

画像の自動生成を進める一方で，インフィード広告における動画広告の配信は，今後も需要の拡大に伴いソーシャルメディア以外への配信にも広がり，2022 年にはインフィード広告市場全体の 1/4 のシェアを占めると予測されている．動画広告は，広告を動画で表現するもので，従来の画像やテキストを利用した広告よりも一度に伝えられる情報量が多く，広告クリエイティブとしてのバリエーションも非常に多い．画像の広告と同様にクリックという概念は存在するが，動画の場合は「どこまで視聴したか」，「視聴完了したのか」などの指標が設けられている．また，配信するメディアによって動画のサイズや最大再生時間，自動再生される場合は何秒視聴したことで再生とするかなどが異なっている．動画の自動生成の研究は 2016 年から Deep Learning を応用した研究が発表され始めており，PredNet [Lotter 16]や Video GAN [Vondrick 16] のような研究が行われている．動画そのものを自動で生成するだけではなく，動画の自動要約 [Otani 16] などの研究も今後重要になるものと考えられる．本研究では複数の動画素材を組み合わせて 1 本，または複数の動画を生成することに注力する． 4･1　利用するデータ本研究で利用するデータは，画像の場合と同じく当社内で制作された広告クリエイティブで実際に配信まで行われたものを対象に，実際に配信された動画とその素材動画を収集している．素材動画は主にテレビ CM で利用されているものと新たに Web 用に撮影された動画がある． 4･2　自動生成のフレームワーク動画を生成するフローはまず，動画の各フレームに対して物体認識を行い，内部のコンテンツや被写体などにタグを付ける．次に動画に対してシーン検出を行い，1 本の動画を複数のシーンに分割する．最後に得られた複数のシーンを用いて 1 本の動画に結合していく． § 1　画像物体認識動画広告の配信効果に大きな影響を与えるものの一つが動画内に写っているコンテンツや被写体である．画像内の物体認識の分野は Deep Learning の登場により，最も大きく発展した分野の一つといえる．2012 年に開催された ImageNet Large Scale Visual Recognition Challenge （ILSVRC）では，Deep Convolutional Neural Network （CNN）[Krizhevsky 12] の登場で 2011 年の ILSVRC の優勝チームの精度を大きく上回った．これがきっかけとなり，2013 年以降もより層を重ねた DeepCNN の手法が精度を大きく改善し続けている．画像内から物体認識を行うためには，まずはじめに物体の領域を抽出する必要がある．Region with CNN features（R-CNN）[Girshick 14] は物体検出と認識を同時に行うアルゴリズムとして 2014 年に提案されて以降，高速な物体検出手法が数多く提案されている [Liu 16, Redmon 16, Ren 15]．我々は画像の自動生成の際に利用するタグ付きの画像データを所持しているので，これらの画像を用いて物体認識のモデルを構築することが可能であると考えられる．また，近年は Google Cloud Vision API＊8_{や Amazon Rekognition}＊9_{など SaaS 環} 境でより大規模なデータを学習させたモデルを利用することが可能になったため，これらを活用することも十分想定される． § 2　シーン検出ある動画から利用するシーンを決定する場合，あらかじめ各素材動画をシーンに分割しておくことは重要である．シーン検出とは，動画中に前後のフレームで異なるカメラに切り替わったフレームを検出することでシーンの分割を可能にする．本研究で次のような簡易なアルゴリズムを用いてシーン検出を行っている．（1）動画から 1 フレームごとに画像を取得し，画像に対して HSV のカラー変換を行う．（2）変換した HSV 画像を領域分割する．（3）各領域，前後のフレームで HSV の値のヒストグ＊8 https://cloud.google.com/vision ＊9 https://aws.amazon.com/jp/rekognition/

(7)

ラムの距離を計算し，各領域ごとにしきい値以上のものをカウントする．（4）しきい値を超えた領域の数がしきい値（前述とは別のしきい値）以上だった場合にシーンが切り替わったとする．このアルゴリズムで実際の動画にシーン検出を行った結果が図 5 である．図 5 のグラフは縦軸が検出したフレームを示している．検出したフレームのうち，シーンとして検出できていなかったフレームには破線を入れている．図を見てもわかるとおり，高精度にシーン変化点を検出できていることがわかる． § 3　動画の再構成最後に抽出した複数のシーンを最初に指定された動画の長さを制約にして結合する．指定された長さに収まるようにシーンを適切に選択するほか，シーンの内容が前後でシームレスにつながるように選択することが望ましい．シーンの選択や動画の長さに制約がある点は [Otani 16]のような Video Summarization の技術と深く関係があるといえる．Video Summarization において重要なキーフレームやシーンを決めることは利用するシーンを決めることや動画の長さを短縮するうえで非常に重要となる．動画の再構成については現在調査中にあり，今後は上記の技術について研究を進めていく予定である． 4･3　動画自動生成の展望本章では動画の自動生成について紹介してきたが，まだ多くの課題が残っている．実際の動画広告では動画内に静止画を入れているものや，エフェクトを入れているものが多い．これらは現在データの収集はできるが，どのようにして自動生成に反映させるかを議論できていない．また，動画の音に関して現時点では何も考慮できていない点があげられる．これはシーン特有の盛り上がりなどを音で表現している場合，音がずれてしまい，適切な表現ができない．これらは今回紹介した手法などの改善に加えて，今後の展望としたいと考えている．

5．おわりに

本稿では広告クリエイティブの自動生成について画像と動画の両方について紹介した．画像の自動生成では，クリエイティブ画像に合わせたデータ収集・分析基盤について紹介し，その後自動生成のフレームワークについて各エンジンについて説明した．動画の自動生成では，素材動画を組み合わせて 1 本の動画を作成する方法について，その要素技術となる物体認識，シーン検出について紹介した．クリエイティブ制作の自動化支援はインターネット広告市場において喫緊の課題となっており，今後の研究の進展が期待される．謝　辞本研究において普段よりデータ収集に御協力いただいている株式会社モノクラム，ならびにバナー画像の掲載許可をいただいた株式会社マッチングエージェントに謹んで感謝の意を表する．

◇ 参考文献 ◇

[Chen 16] Chen, J., Sun, B., Li, H., Lu, H. and Hua, X.-S.: Deep CTR prediction in display advertising, Proc. 2016 ACM on Multimedia Conference, pp. 811-820ACM（2016）

[Girshick 14] Girshick, R., Donahue, J., Darrell, T. and Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation, Proc. 2014 IEEE Conf. on Computer Vision and Pattern Recognition, CVPR’14, pp. 580-587, Washington, DC, USA, IEEE Computer Society（2014） [Goodfellow 14] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu,

B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.: Generative adversarial nets, Advances in Neural Information Processing Systems, pp. 2672-2680（2014）

[Griffin 07] Griffin, G., Holub, A. and Perona, P.: Caltech-256 object category dataset, Caltech Technical Report（2007） [Grundmann 11] Grundmann, M., Kwatra, V. and Essa, I.:

Autodirected video stabilization with robust l1 optimal camera paths, 2011 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）, pp. 225-232, IEEE（2011）

[Ha 17] Ha, D. and Eck, D.: A neural representation of sketch drawings, arXiv preprint, arXiv:1704.03477（2017）

[Iizuka 16] Iizuka, S., Simo-Serra, E. and Ishikawa, H.: Let there be color!: Joint end-to-end learning of global and local image Priors for automatic image colorization with simultaneous classification, ACM Trans. on Graphics（SIGGRAPH）, Vol. 35, No. 4（2016）

[Khosla 14] Khosla, A., Das Sarma, A. and Hamid, R.: What makes an image popular?, Proc. 23rd Int. Conf. on World Wide Web, pp. 867-876, ACM（2014）

[Krizhevsky 12] Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet classification with deep convolutional neural networks, in Pereira, F., Burges, C. J. C., Bottou, L. and Weinberger, K. Q., eds., Advances in Neural Information Processing Systems, Vol. 25, pp. 1097- 1105, Curran Associates, Inc.（2012）

[Liu 16] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y. and Berg, A. C.: SSD: Single shot multibox detector, European Conf. on Computer Vision, pp. 21-37, Springer （2016）

[Lotter 16] Lotter, W., Kreiman, G. and Cox, D.: Deep predictive coding networks for video prediction and unsupervised learning, arXiv preprint, arXiv:1605.08104（2016）

[Mirza 14] Mirza, M. and Osindero, S.: Conditional generative adversarial nets, arXiv preprint, arXiv:1411.1784（2014） [O’Donovan 14] O’Donovan, P., Agarwala, A. and Hertzmann, A.:

Learning layouts for single-page graphic designs, TVCG, Vol. 図 5 　シーン検出の結果

(8)

20, No. 8, pp. 1200-1213（2014）

[Otani 16] Otani, M., Nakashima, Y., Rahtu, E., Heikkilä, J., and Yokoya, N.: Video summarization using deep semantic features, ACCV（2016）

[Pan 16] Pan, J., Sayrol, E., Nieto, Giro-i X., McGuinness, K. and O’Connor, N. E.: Shallow and deep convolutional networks for saliency prediction, IEEE Conf. on Computer Vision and Pattern Recognition（CVPR）（2016）

[Radford 15] Radford, A., Metz, L. and Chintala, S.: Unsupervised representation learning with deep convolutional generative adversarial networks, arXiv preprint, arXiv:1511.06434（2015） [Redmon 16] Redmon, J. and Farhadi, A.: YOLO9000: Better,

faster, stronger, arXiv preprint, arXiv:1612.08242（2016） [Ren 15] Ren, S., He, K., Girshick, R. and Sun, J.: Faster R-CNN:

Towards real-time object detection with region proposal networks, Advances in Neural Information Processing Systems, pp. 91-99（2015）

[Simo-Serra 16] Simo-Serra, E., Iizuka, S., Sasaki, K. and Ishikawa, H.: Learning to simplify: Fully convolutional networks for rough sketch cleanup, ACM Trans. on Graphics （SIG-GRAPH）, Vol. 35, No. 4（2016）

[Vondrick 16] Vondrick, C., Pirsiavash, H. and Torralba, A.: Generating videos with scene dynamics, Advances in Neural Information Processing Systems, pp. 613-621（2016）

[Yashima 16] Yashima, T., Okazaki, N., Inui, K., Yamaguchi, K. and Okatani, T.: Learning to describe E-commerce images from noisy online data, ACCV（2016）

[Zhang 16] Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X., Wang, X. and Metaxas, D.: StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks, arXiv preprint, arXiv:1612.03242（2016）

[Zhu 16] Zhu, J.-Y., Krähenbühl, P., Shechtman, E. and Efros, A. A.: Generative visual manipulation on the natural image manifold, Proc. European Conf. on Computer Vision（ECCV） （2016） 2017年 5 月 22 日　受理

著者紹介

谷口　和輝株式会社サイバーエージェント研究員．2014 年株式会社サイバーエージェント新卒入社．入社後，所属するアドテク本部初の研究開発チームの立上げを担当．在学中機械学習を用いた二次元画像の超解像技術や脳梗塞の画像診断の研究に従事． 2014 年立命館大学大学院情報理工学研究科修士課程修了．大田　和寛株式会社サイバーエージェント研究員．2011 年株式会社サイバーエージェント新卒入社．2016 年まで同社におけるインターネットサービスのシステム開発に従事．2011 年会津大学大学院コンピュータ理工学研究科修士課程修了．在学中 Sun Microsystems, Inc. キャンパスアンバサダ，心臓 MRI スライス画像における三尖弁三次元モデリングの研究開発に従事．山口　光太株式会社サイバーエージェント研究員．2017 年まで東北大学大学院情報科学研究科助教．深層学習を用いた Web ビジュアルデータの分析研究に従事． 2014 年 Stony Brook 大学コンピュータ科学の Ph.D. 取得．在学中 Google Inc. エンジニアインターン， Johns Hopkins 大学にて自然言語処理ワークショップ参加など研究活動に従事．2006 年東京大学工学部計数工学科卒業．2008 年同大学院情報理工学系研究科修士課程修了． 2015年，2016 年 MIRU 優秀賞受賞．IEEE，情報処理学会，電子情報通信学会各会員．

501 広告と AI 人工知能による新しい広告クリエイティブ New Advertising Creative by Artificial Intelligence 谷口和輝 Kazuki Taniguchi 株式会社サイバーエージェント CyberAgent, Inc. taniguchi kaz

1．は じ め に

人工知能による新しい広告クリエイティブ

New Advertising Creative by Artificial Intelligence

谷口 和輝

大田 和寛

山口 光太