• 検索結果がありません。

501 広告と AI 人工知能による新しい広告クリエイティブ New Advertising Creative by Artificial Intelligence 谷口和輝 Kazuki Taniguchi 株式会社サイバーエージェント CyberAgent, Inc. taniguchi kaz

N/A
N/A
Protected

Academic year: 2021

シェア "501 広告と AI 人工知能による新しい広告クリエイティブ New Advertising Creative by Artificial Intelligence 谷口和輝 Kazuki Taniguchi 株式会社サイバーエージェント CyberAgent, Inc. taniguchi kaz"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

広告クリエイティブとは,広告業界で利用される制作 物全般のことを指し,バナー画像やテキスト,動画広告 もこれに含まれる.中でも近年インフィード広告(フィー ド型コンテンツと同じフォーマットで表示される広告) が急速な成長を遂げており,2016 年時点で市場規模が 1,401億円に達し,2022 年に 3,013 億円に到達すると予 想されている.このような背景には従来のソーシャルメ ディア(Facebook,Twitter,LINE)の拡大に加えて, インフィード広告の配信先の多様化が進んだことによ り,ニュース・ポータルサイトなどの広告商品の配信比 率の増加が後押ししている.また,スマートフォン向け のメディアにおける割合が非常に高く,2016 年の時点 で 96%を占めており,2022 年までさらに増加していく 傾向となっている. インフィード広告は図 1 のようにクリエイティブ画像 とテキストがセットで必要となり,広告枠に合わせてさ まざまなサイズ,フォーマットが存在している.図上部 のようなフォーマットは主にニュース・ポータルサイト によく見られ,図下部のようなフォーマットはソーシャ ルメディアなどのタイムライン型の広告によく利用され ている.インフィード広告市場においてテキストと画像 のシェアは 2016 年で約 87%を占めており,市場規模に して 1,218 億円に達している.また,引き続き市場の規 模は拡大を続け,2022 年には 2016 年比で約 164%まで 拡大すると予想されている. インフィード広告は従来の広告フォーマットと比較し てユーザに対する視認性が高いという特徴があり,広告 の表示回数が少ない段階でも広告クリエイティブの評価 が得られる.また,広告にはユーザの飽きなどから表示 回数の増加とともにクリック率が低下していくという特 性があるが,インフィード広告では特に表示回数の増加 によるクリック率の低下が著しく,一つの広告クリエイ ティブの寿命が短い傾向がある.以上のような特徴から, インフィード広告において広告クリエイティブの PDCA や広告クリエイティブの製作を高速化することは非常に 重要な課題である. 現在はこれらの運用をコンサルタントが行っており, 過去の実績や顧客の特性,トレンドなどを加味しながら クリエイティブの表現を考え,制作スタッフに依頼して いる.サイバーエージェントの AI Lab では,コンサル

人工知能による新しい広告クリエイティブ

New Advertising Creative by Artificial Intelligence

谷口 和輝

株式会社サイバーエージェント

Kazuki Taniguchi CyberAgent, Inc.

taniguchi [email protected], https://www.cyberagent.co.jp/

大田 和寛

(同   上)

Kazuhiro Ota ota [email protected], https://www.cyberagent.co.jp/

山口 光太

(同   上)

Kota Yamaguchi yamaguchi [email protected], https://www.cyberagent.co.jp/

Keywords:

ad technology, machine learning advertising creative, image processing. 「広告と AI」

(2)

タントが行っているこれらの仕事を人工知能技術を用い て自動化する「広告クリエイティブの自動生成」につい ての研究を進めている. 本稿では,この研究内容についてインフィード広告内 のクリエイティブ画像の分析と自動生成,動画広告の自 動生成の二つの事例について紹介し,今後の展望を述べ る.

2.関 連 研 究

広告クリエイティブの生成に関連し,ここで画像 の自動生成の手法について少し紹介する . 特に,近年 は Deep Learning の発展により画像認識や画像生成の 分野の研究が著しい.特に画像生成では,Generative Adversarial Network(GAN)[Goodfellow 14] の登場 によりこれまでよりも非常に鮮明な画像の生成が可能 なことで話題となった.GAN の登場以降,Word2Vec で話題となった単語の演算を画像で可能にした Deep Convolutional GAN(DCGAN)[Radford 15] やインタ ラクティブな操作を加えて画像生成を行う iGAN [Zhu 16],画像対画像の変換について汎用的なモデルを提案 した Conditional GAN [Mirza 14],段階を経て解像度の 高い画像を生成する StackGAN [Zhang 16] などさまざ まな手法が提案されてきた.また,画像の生成だけでは なくイラストの自動彩色 [Iizuka 16],スケッチの線画化 [Simo-Serra 16]といった創作活動の生産性を高める応 用に向けた Deep Learning の研究も近年大きく進捗し ている. これらの手法は従来までの画像生成よりも鮮明,かつ 意図した画像の生成を可能にしたが,本稿執筆時点では 広告クリエイティブとしてユーザに配信可能な品質を担 保することが難しい.我々は画像全体に対する生成モデ ルのアプローチではなく,画像を構成する素材画像やテ キストの配置や加工方法をモデルから決定するアプロー チで生成を行う.クリエイティブの制作プロセスに対す る機械学習モデルの研究はまだ始まったばかりであり [Ha 17],我々もこれまでに蓄積してきた大量のクリエ イティブ編集データを活用し,最終的な制作物のプレゼ ンテーションを構成するプロセス自体の学習を目指して いる.

3.画像広告の分析と自動生成

3・1 利用するデータ 本研究で利用するデータは,当社内で制作された広告 クリエイティブで実際に配信まで行われたものを対象に 収集しており,現時点で約 10 万件のデータが存在して いる.データは完成した画像のデータだけでなく,制作 時の編集データや配信後の実績(インプレッション数, クリック数)も同時に収集している.編集データは主に, 配置されている素材画像の位置やレイヤ構造などの空間 的な位置情報や,透過率,フィルタなどの加工に関する 情報が含まれている.また,これらの素材画像にはタグ 付けを行っており,素材画像内にどのようなものが写っ ているかを把握できるようにラベリングしている.タグ はカテゴリーで大きく分類した後,カテゴリー内でどの クラスに分類されるかをクリエイティブ画像の制作者が 判断して付与している. 3・2 データ収集・分析システム 制作陣からクリエイティブデータを収集し分析するに

あたり,クラウドサービス(Amazon Web Service*1

を利用したデータレイクおよびデータウェアハウスを構 築中である. 研究の初期段階といえる現在においては分析手法を確 立できてはいないため,分析用システムの構築要件が明 確に定義はされていない.そのような状況においても, 可能な限り制作陣からアップロードされてくるクリエイ ティブを収集し,データとして俯瞰するための保管場所 としてまずはデータレイクを準備した.データウェアハ ウスについては今後どのような分析をしていくかを考慮 しつつ設計・構築していく予定である.このように,収 集と分析のフェーズをシステムレベルで分断することに より,制作陣の制作スピードを緩めずに分析手法の立案・ 変更に柔軟に対応することが可能であると考えている. 図 2 に現段階におけるシステムアーキテクチャを示 し,以下でデータレイク,データウェアハウスそれぞれ における役割を述べ,データレイクについては設計思想, データウェアハウスについては今後の展望を簡単に述べ る. § 1 データレイク 本研究におけるデータレイクは自動生成のための分析 に用いられるすべてのクリエイティブデータを 1 か所に *1 https://aws.amazon.com/jp/ 図 2 データ収集・分析システムアーキテクチャ

(3)

集めて保管する役割を担う.実体となるストレージには Amazon S3を用いている.収集しているクリエイティ ブデータは 1 ファイルに付き最大で約 1 GB に及ぶもの も存在するため,実質的に容量無制限のクラウドスト レージを選定した.また,制作者がクリエイティブデー タをアップロードする際には,広く普及している SFTP クライアントソフトェアである Cyberduck*2を利用し, 制作以外での作業負担の削減を狙っている.ファイルの アップロードのみ可能な権限を付与したアクセスキーを 制作陣に配布することにより,ストレージ内の誤操作を 未然に防いでいる. 制作陣よりアップロードされたクリエイティブはAmazon S3*3の指定のバケット内に,指定のキープレフィック スをもつオブジェクトとして保管される(図 2).アッ プロードされたファイルは,ストレージに設定されてい るイベントハンドラによりパースプログラムへと渡され る.このパースプログラムはクリエイティブデータであ る Photoshop ファイルを読み込み,レイヤのサイズや 表示上の前後関係など,ファイルから得られるレイヤ構 造のメタデータを JSON ファイルに書き出すものであ る. このようにすることで,ストレージ内には Photoshop データに加えてメタデータの JSON ファイルがセット で配置されていき,これ以降の分析に影響を与えない範 囲で取得可能な情報をため込んでいけるような設計とし た. § 2 データウェアハウス 本研究におけるデータウェアハウスの役割は,データ レイクにため込まれたデータを取り出し,実際の分析を 担うことである.上述したとおり,データウェアハウス の設計および構築にはまだ着手できてはいないため,現 状の展望を述べる. 図 2 に示したとおり,分析用にデータベースを構築す ることを予定しているが,このデータベースの候補は下 記のとおりである. ドキュメント指向データベース MongoDB*4に代表 されるような,構造化メタデータをそのまま 1 レ コードとして格納できるデータベースである.条件 を満たすようなクリエイティブデータを検索するよ うな状況において,専用のクエリを記述することで 容易に検索が行えることが特徴である. グラフ指向データベース データレイクに格納してい るメタデータに含まれるレイヤのつながりをツリー 構造のグラフとして表現することができる.レイヤ やレイヤグループの関係を Neo4j*5のようなグラフ データベースに格納しておくことにより,レイヤ間 の関係性をもとにクエリを発行することが可能であ る. また,仮にデータベースを構築しない場合は,デー タレイクに直接アクセスして分析できるようなクラウド サービスを利用する形でのデータウェアハウスとするこ とも考えている.この場合の候補は下記のようなプロダ クトである. ● Amazon Athena*6

Amazon Redshift Spectrum*7

両プロダクトともにデータレイクのストレージである Amazon S3に保管されている JSON データに対してク エリを発行することが可能であると謳っており,さらに 構築の手間も不要であることからアドホックな分析を行 ううえでは最適ではないかと考える. 世のデータベースやクラウドサービスを活用すること によるデータウェアハウス構築の構想を述べた.引き続 き,クリエイティブデータの分析において最適なデータ ウェアハウスの在り方を模索していく. 3・3 クリエイティブデータの分析 我々がこれまでに蓄積してきたバナー画像などのクリ エイティブ制作物のデータは Adobe Photoshop 形式で 保管されている.一般的な画像データとは異なり,広告 クリエイティブは写真やテキストなどの視覚的な要素を 枠の中に配置したプレゼンテーションデータである.画 像形式のクリエイティブでは視覚的な要素は二次元のレ イヤが重ねられたデータ構造となっている.レイヤには 写真,テキスト,図形などの二次元シェイプ,レイヤ群 に対するフィルタやクリッピングマスクなどの種類があ り,これらを指定された枠内に描画した結果がバナー画 像などの最終的制作物となる.レイヤはデザイナの裁量 によりグループ化されたうえで重ねられ,クリエイティ ブドキュメント全体ではツリー構造によって表される. レイヤを分解した例を図 3 に示す.図 3 では複数のサイ ズの菱形でトリミングされた写真のグループ,シェイプ と写真のグループが重なったツリー構造となっている. § 1 ドキュメント構造のモデリング クリエイティブドキュメントのツリー構造はデザイ ナの制作プロセスによってまちまちであり,必ずしもド キュメントのセマンティクスが埋め込まれているわけで はない.例えば,あしらいとテキストによって文字を伝 える要素があってもそれぞれ別のレイヤとして存在し, グルーピングされていないケースなどがある.現在我々 は新規制作物はタグによるデータの構造化を進めてお り,過去の制作物についても適切なラベリングを進めて いる.こうした既存の大量の制作物データに対し,我々 *2 https://cyberduck.io/ *3 https://aws.amazon.com/jp/s3/ *4 https://www.mongodb.com/

(4)

は自動的に再利用可能なデータを抽出する試みを進めて いる. データの再利用化の目的として,例えばクリエイティ ブレイアウトのテンプレート自動作成が考えられる.こ れは,既存の作例からロゴ,見出し,テキスト,画像な どの要素を差替え可能なレイヤと分類し,あしらいや配 置などを残したままテンプレート化するものである.レ イヤのもつメタデータからその要素の大まかな分類は可 能であっても,単純に画像の含まれるレイヤの中身を差 し替えても元の画像のマスクなどが他のレイヤに残って しまうとテンプレートとして成立しないため,レイヤ構 造から複数の視覚的に関連する要素を自動で検出するこ とが求められる.また,テキストは差替えをすることで 表示領域の大きさが変わってしまうため,単純な差替え を行うことができない.こうした技術的課題の解決を目 指し,我々はクリエイティブデータの構造分析を進めて いる. § 2 クリエイティブの効果測定 広告において配信実績は重要である.どのようなクリ エイティブがどのような配信実績であったのか,あるい はクリエイティブの中身から配信実績を予測するモデル を学習する取組みを進めている.これまでにもメディア からクリック率を予測する試みは研究がされてきた.例 えば,Chen らは Deep neural networks を用いてディ スプレイ広告の CTR を予測するモデルを報告している [Chen 16].配信効果の予測は画像や動画からの CTR の 回帰あるいは分類問題として定式化できるが,画像はカ テゴリーによってクリック数に大きなバイアスが生じる ことも知られている [Khosla 14]. 我々は現在クリエイティブ単位での配信実績のデータ の収集を進めており,広告カテゴリーごとのモデルを学 習できるように取組みを進めている.特に,配信予測の 予測をもとにレイヤ単位での編集手法の End-to-end 最 適化につなげる手法の検討を進めている. 3・4 自動生成のフレームワーク 我々は現在,クリエイティブ画像の自動生成に向け て四つの技術的課題に取り組んでいる.自動生成システ ムの入力には素材画像や訴求テキストなどのクリエイ ティブを構成する要素が複数入稿されることを想定して いる.システム内部では,入力した素材からまず Meta-Layout Engineにより大きな構図を決める.続いて素 材として画像が与えられない場合やクリエイティブに バリエーションを作成するため,画像,またはキーワー ドをもとに利用できそうな素材画像を検索する(Select Engine).訴求テキストデータに対しては内容に応じて 違うフォントやカラーを利用し,広告視聴者に伝わりや すいレンダリングを決定する(Text Engine).最後に Layout Engineで構図の内部の配置の調整を行い,新し いクリエイティブのレイアウトを提案する.最終的には 各ステップで複数の生成候補を提示し,それらを組み合 わせて多数のクリエイティブを生成することを目指す. § 1 Meta-Layout Engine Meta-Layout Engineでは与えられた素材の数や内容 などからクリエイティブの全体の構成を大まかに決定す る役割を果たす.例えばプレゼンテーションスライドの テンプレートのような構図決定を行うものである.使用 する画像の枚数やテキストの表示領域,ロゴの配置を, 指定の画像サイズの中で決定する. Web サイトやポスターなどビジュアルレイアウトに関 しては事実上無限の表現方法が存在し,現実の広告では デザイナやクライアントのやり取りの中で決定されてい く.エネルギー関数を用いた最適化の試みは見られるも のの [O’Donovan 14],レイアウト構成の複雑なプロセ スを直接モデルにするのは難しいため,我々は初期段階 としてあらかじめ指定された広告表示領域に対するレイ アウトテンプレートを用意する方法により取り組んでい る.中長期的にはレイアウトのカテゴリーと広告配信実 績の統計的データを用い,広告内容のカテゴリーに応じ たビジュアルレイアウトの選択に取り組むことを検討し ている.例えば,ゲームの広告であればゲームのプレイ 図 3 バナー画像のレイヤ分解例

(5)

画面を並べたレイアウト表現,キャラクタが前面に出た レイアウト表現などを,統計的に最も実績の高い配置を 決定する方法が考えられる. グリッド数の最適選択 レイアウト選択の例として, 領域をグリッド状に区切って要素を並べる手法があ る.グリッドを使用するためには広告表示領域を与 えられた要素数に対して適切な行数列数を決定する 必要がある.広告表示領域が W×H の大きさ,グリッ ドが c × r 個存在するとき,N 個の広告要素を表示 する適切なグリッドレイアウトは例えば以下のよう に定式化することが可能である. min r, c r H+ c W s.t., rc  N, (r,c) ∈ N 2 (1) この定式化ではグリッドに配置される要素が正方形 に近くなるように最適化を行い,かつ必要とされる 要素数の制約を与える.グリッド配置は EC サイト などで商品の列挙をするような広告でよく利用され る形態である. § 2 Select Engine Select Engineでは入力された素材画像やキーワード をもとに利用できる素材画像の拡張を行う.素材画像を 入力する場合は主に顧客から指定されているものとそう でないものに分類できる.前者は他の画像を拡張するこ とはできないので,基本的には後者の顧客から指定さ れていない画像かキーワードを入力した場合に拡張を行 う. クリエイティブ制作現場では広告内容やカテゴリー に応じ,ストック写真サービスなどから広告内容に合っ た素材を検索してきたり,デザイナが作画したり,クラ イアントが提示した素材写真の中から適切なものを選択 している.素材画像を検索する際には,どのような素材 画像を選択するかは広告内容に合致しているか,視覚的 に訴求するものか,画像を使用するうえでのライセンス 条件は適切かといった評価指標に沿ったものが求められ る. 初期的な画像拡張手法の検証として,似ているトマ トの素材画像を部分空間法を用いて検索した.ここでは Caltech 256 データセット [Griffin 07] からトマトの画像 を固定サイズにリサイズしたものを使用した.この検証 ではピクセル値を Principal Component Analysis(PCA) を用いて射影した部分空間から,最も近い画像を L2 距 離による最近傍検索法で探す方法をとっている.トマト 画像による部分空間を図 4 に示す.図を見るとある画像 に注目した際,特徴の似た画像が近くに分布しているこ とがわかる.この一例はあくまで画像の輝度をベースに した視覚的な近さを距離として用いているが,クリエイ ティブ制作においてはここからさらに視覚的に訴求する か,クライアントごとの個別の要求を満たすか,使用す るクリエイティブのレイアウトや他の要素に内容が合致 するか,といった基準を距離関数として定義する必要が ある.我々は教師データとなるデータを収集しつつ,限 られたサンプル数から学習をできる手法を検討してい る. § 3 Text Engine Text Engineでは訴求テキストに対する視覚的表現方 法を決定する.訴求テキストそのものを生成する試みは これまでにも見られるものの [Yashima 16],テキストの 視覚的描画の自動生成については体系的な研究は多く見 られない.テキストに対する表現は主にフォントタイプ, フォントカラー,フォントサイズ,ドロップシャドウな どの視覚的効果があり,これらを想定されるテキスト表 示領域にレンダリングすることが求められる. テキスト表現方法は訴求する内容に沿ったスタイルを 提示することが求められ,現在のクリエイティブ制作現 場ではデザイナの裁量に従って表現方法が決定する.例 えば,価格が重要な商材については数字が大きく目立つ ようなテキスト効果を与えるように描画をする. 我々は初期的な検討段階として,テキストを形態素解 析し,TF-IDF の高いキーワードやフレーズの抽出,価 格などの自動的な抽出と,統計的な表現方法の分析に取 り組んでいる.例えばフレーズからテキスト表現効果を 予測するモデルの学習などが考えられる. § 4 Layout Engine Layout Engineでは素材となる画像,テキスト描画を もとに,これまでに生成されたレイアウトに従って配置 を行う.クリエイティブ画像を制作するうえで重要な背 景画像は大きな画像からクロッピングを行っている場合 が多い.例えば商品であれば商品の拡大部分のみを切り 抜いて配置したり,化粧品の商材に関して人物の肌領域 のみを拡大したり,背景であればテキスト表示領域に空 白をもちつつ物体が残りに写っているような構図が選 択,クロッピングされる.クロッピングが行われるコン テクストは広告カテゴリーによりさまざまであり,本研 究ではそれらに応じて自動で画像の領域を抽出するシス 図 4  拡張用のトマト画像を部分空間から検索

(6)

テムを目指している. 画像からの領域抽出は Saliency 検出 [Pan 16] と密接 に関わっており,フレームを切り取るという点で動画の スタビライゼーション [Grundmann 11] にも関連があ る.ただし,広告クリエイティブの場合は顕著性の高い 画像領域だけをクロップすると,テキストのオーバレイ 配置ができなくなってしまうなどの問題があるため,必 ずしも顕著性の高い領域を抽出するのではなく,顕著性 のマップが想定されるレイアウトに合致するかという基 準でクロッピングを行うことが求められる. 3・5 画像広告生成の展望 実用に耐える高品質なクリエイティブ制作の自動化 研究はまだ端緒についたばかりである.例えばクリエイ ティブのレイヤ構造は明示的に言語化したラベルを付け ることが難しいケースも多く,それゆえ教師データを用 いた判別モデルの学習も困難なケースが多い.短期的に は制作現場の支援ツールのような形で現場への自動化技 術の導入を図り,中長期的には例えばキーワードを入稿 するだけで説得力のある広告クリエイティブを自動で生 成する技術に取り組んでいく予定である.

4.動画広告の自動生成

画像の自動生成を進める一方で,インフィード広告に おける動画広告の配信は,今後も需要の拡大に伴いソー シャルメディア以外への配信にも広がり,2022 年には インフィード広告市場全体の 1/4 のシェアを占めると予 測されている. 動画広告は,広告を動画で表現するもので,従来の画 像やテキストを利用した広告よりも一度に伝えられる情 報量が多く,広告クリエイティブとしてのバリエーショ ンも非常に多い.画像の広告と同様にクリックという概 念は存在するが,動画の場合は「どこまで視聴したか」, 「視聴完了したのか」などの指標が設けられている.ま た,配信するメディアによって動画のサイズや最大再生 時間,自動再生される場合は何秒視聴したことで再生と するかなどが異なっている. 動画の自動生成の研究は 2016 年から Deep Learning を応用した研究が発表され始めており,PredNet [Lotter 16]や Video GAN [Vondrick 16] のような研究が行われ ている.動画そのものを自動で生成するだけではなく, 動画の自動要約 [Otani 16] などの研究も今後重要になる ものと考えられる.本研究では複数の動画素材を組み合 わせて 1 本,または複数の動画を生成することに注力す る. 4・1 利用するデータ 本研究で利用するデータは,画像の場合と同じく当社 内で制作された広告クリエイティブで実際に配信まで行 われたものを対象に,実際に配信された動画とその素材 動画を収集している.素材動画は主にテレビ CM で利用 されているものと新たに Web 用に撮影された動画があ る. 4・2 自動生成のフレームワーク 動画を生成するフローはまず,動画の各フレームに対 して物体認識を行い,内部のコンテンツや被写体などに タグを付ける.次に動画に対してシーン検出を行い,1 本の動画を複数のシーンに分割する.最後に得られた複 数のシーンを用いて 1 本の動画に結合していく. § 1 画像物体認識 動画広告の配信効果に大きな影響を与えるものの一つ が動画内に写っているコンテンツや被写体である.画像 内の物体認識の分野は Deep Learning の登場により,最 も大きく発展した分野の一つといえる.2012 年に開催さ れた ImageNet Large Scale Visual Recognition Challenge (ILSVRC)では,Deep Convolutional Neural Network (CNN)[Krizhevsky 12] の登場で 2011 年の ILSVRC の優勝チームの精度を大きく上回った.これがきっかけ となり,2013 年以降もより層を重ねた DeepCNN の手 法が精度を大きく改善し続けている. 画像内から物体認識を行うためには,まずはじめに 物体の領域を抽出する必要がある.Region with CNN features(R-CNN)[Girshick 14] は物体検出と認識を 同時に行うアルゴリズムとして 2014 年に提案されて以 降,高速な物体検出手法が数多く提案されている [Liu 16, Redmon 16, Ren 15].我々は画像の自動生成の際に 利用するタグ付きの画像データを所持しているので,こ れらの画像を用いて物体認識のモデルを構築することが 可能であると考えられる.また,近年は Google Cloud Vision API*8や Amazon Rekognition*9など SaaS 環 境でより大規模なデータを学習させたモデルを利用する ことが可能になったため,これらを活用することも十分 想定される. § 2 シーン検出 ある動画から利用するシーンを決定する場合,あらか じめ各素材動画をシーンに分割しておくことは重要であ る.シーン検出とは,動画中に前後のフレームで異なる カメラに切り替わったフレームを検出することでシーン の分割を可能にする. 本研究で次のような簡易なアルゴリズムを用いてシー ン検出を行っている. (1)動画から 1 フレームごとに画像を取得し,画像に 対して HSV のカラー変換を行う. (2)変換した HSV 画像を領域分割する. (3)各領域,前後のフレームで HSV の値のヒストグ *8 https://cloud.google.com/vision *9 https://aws.amazon.com/jp/rekognition/

(7)

ラムの距離を計算し,各領域ごとにしきい値以上の ものをカウントする. (4)しきい値を超えた領域の数がしきい値(前述と は別のしきい値)以上だった場合にシーンが切り替 わったとする. このアルゴリズムで実際の動画にシーン検出を行った 結果が図 5 である.図 5 のグラフは縦軸が検出したフ レームを示している.検出したフレームのうち,シーン として検出できていなかったフレームには破線を入れて いる.図を見てもわかるとおり,高精度にシーン変化点 を検出できていることがわかる. § 3 動画の再構成 最後に抽出した複数のシーンを最初に指定された動画 の長さを制約にして結合する.指定された長さに収まる ようにシーンを適切に選択するほか,シーンの内容が前 後でシームレスにつながるように選択することが望まし い.シーンの選択や動画の長さに制約がある点は [Otani 16]のような Video Summarization の技術と深く関係が あるといえる.Video Summarization において重要な キーフレームやシーンを決めることは利用するシーンを 決めることや動画の長さを短縮するうえで非常に重要と なる.動画の再構成については現在調査中にあり,今後 は上記の技術について研究を進めていく予定である. 4・3 動画自動生成の展望 本章では動画の自動生成について紹介してきたが,ま だ多くの課題が残っている.実際の動画広告では動画内 に静止画を入れているものや,エフェクトを入れている ものが多い.これらは現在データの収集はできるが,ど のようにして自動生成に反映させるかを議論できていな い.また,動画の音に関して現時点では何も考慮できて いない点があげられる.これはシーン特有の盛り上がり などを音で表現している場合,音がずれてしまい,適切 な表現ができない.これらは今回紹介した手法などの改 善に加えて,今後の展望としたいと考えている.

5.お わ り に

本稿では広告クリエイティブの自動生成について画像 と動画の両方について紹介した.画像の自動生成では, クリエイティブ画像に合わせたデータ収集・分析基盤に ついて紹介し,その後自動生成のフレームワークについ て各エンジンについて説明した.動画の自動生成では, 素材動画を組み合わせて 1 本の動画を作成する方法に ついて,その要素技術となる物体認識,シーン検出につ いて紹介した.クリエイティブ制作の自動化支援はイン ターネット広告市場において喫緊の課題となっており, 今後の研究の進展が期待される. 謝 辞 本研究において普段よりデータ収集に御協力いただい ている株式会社モノクラム,ならびにバナー画像の掲載 許可をいただいた株式会社マッチングエージェントに謹 んで感謝の意を表する.

◇ 参 考 文 献 ◇

[Chen 16] Chen, J., Sun, B., Li, H., Lu, H. and Hua, X.-S.: Deep CTR prediction in display advertising, Proc. 2016 ACM on Multimedia Conference, pp. 811-820ACM(2016)

[Girshick 14] Girshick, R., Donahue, J., Darrell, T. and Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation, Proc. 2014 IEEE Conf. on Computer Vision and Pattern Recognition, CVPR14, pp. 580-587, Washington, DC, USA, IEEE Computer Society(2014) [Goodfellow 14] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu,

B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.: Generative adversarial nets, Advances in Neural Information Processing Systems, pp. 2672-2680(2014)

[Griffin 07] Griffin, G., Holub, A. and Perona, P.: Caltech-256 object category dataset, Caltech Technical Report(2007) [Grundmann 11] Grundmann, M., Kwatra, V. and Essa, I.:

Autodirected video stabilization with robust l1 optimal camera paths, 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 225-232, IEEE(2011)

[Ha 17] Ha, D. and Eck, D.: A neural representation of sketch drawings, arXiv preprint, arXiv:1704.03477(2017)

[Iizuka 16] Iizuka, S., Simo-Serra, E. and Ishikawa, H.: Let there be color!: Joint end-to-end learning of global and local image Priors for automatic image colorization with simultaneous classification, ACM Trans. on Graphics(SIGGRAPH), Vol. 35, No. 4(2016)

[Khosla 14] Khosla, A., Das Sarma, A. and Hamid, R.: What makes an image popular?, Proc. 23rd Int. Conf. on World Wide Web, pp. 867-876, ACM(2014)

[Krizhevsky 12] Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet classification with deep convolutional neural networks, in Pereira, F., Burges, C. J. C., Bottou, L. and Weinberger, K. Q., eds., Advances in Neural Information Processing Systems, Vol. 25, pp. 1097- 1105, Curran Associates, Inc.(2012)

[Liu 16] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y. and Berg, A. C.: SSD: Single shot multibox detector, European Conf. on Computer Vision, pp. 21-37, Springer (2016)

[Lotter 16] Lotter, W., Kreiman, G. and Cox, D.: Deep predictive coding networks for video prediction and unsupervised learning, arXiv preprint, arXiv:1605.08104(2016)

[Mirza 14] Mirza, M. and Osindero, S.: Conditional generative adversarial nets, arXiv preprint, arXiv:1411.1784(2014) [O’Donovan 14] O’Donovan, P., Agarwala, A. and Hertzmann, A.:

Learning layouts for single-page graphic designs, TVCG, Vol. 図 5  シーン検出の結果

(8)

20, No. 8, pp. 1200-1213(2014)

[Otani 16] Otani, M., Nakashima, Y., Rahtu, E., Heikkilä, J., and Yokoya, N.: Video summarization using deep semantic features, ACCV(2016)

[Pan 16] Pan, J., Sayrol, E., Nieto, Giro-i X., McGuinness, K. and O’Connor, N. E.: Shallow and deep convolutional networks for saliency prediction, IEEE Conf. on Computer Vision and Pattern Recognition(CVPR)(2016)

[Radford 15] Radford, A., Metz, L. and Chintala, S.: Unsupervised representation learning with deep convolutional generative adversarial networks, arXiv preprint, arXiv:1511.06434(2015) [Redmon 16] Redmon, J. and Farhadi, A.: YOLO9000: Better,

faster, stronger, arXiv preprint, arXiv:1612.08242(2016) [Ren 15] Ren, S., He, K., Girshick, R. and Sun, J.: Faster R-CNN:

Towards real-time object detection with region proposal networks, Advances in Neural Information Processing Systems, pp. 91-99(2015)

[Simo-Serra 16] Simo-Serra, E., Iizuka, S., Sasaki, K. and Ishikawa, H.: Learning to simplify: Fully convolutional networks for rough sketch cleanup, ACM Trans. on Graphics (SIG-GRAPH), Vol. 35, No. 4(2016)

[Vondrick 16] Vondrick, C., Pirsiavash, H. and Torralba, A.: Generating videos with scene dynamics, Advances in Neural Information Processing Systems, pp. 613-621(2016)

[Yashima 16] Yashima, T., Okazaki, N., Inui, K., Yamaguchi, K. and Okatani, T.: Learning to describe E-commerce images from noisy online data, ACCV(2016)

[Zhang 16] Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X., Wang, X. and Metaxas, D.: StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks, arXiv preprint, arXiv:1612.03242(2016)

[Zhu 16] Zhu, J.-Y., Krähenbühl, P., Shechtman, E. and Efros, A. A.: Generative visual manipulation on the natural image manifold, Proc. European Conf. on Computer Vision(ECCV) (2016) 2017年 5 月 22 日 受理

著 者 紹 介

谷口 和輝 株式会社サイバーエージェント研究員.2014 年株 式会社サイバーエージェント新卒入社.入社後,所 属するアドテク本部初の研究開発チームの立上げを 担当.在学中機械学習を用いた二次元画像の超解像 技術や脳梗塞の画像診断の研究に従事. 2014 年立 命館大学大学院情報理工学研究科修士課程修了. 大田 和寛 株式会社サイバーエージェント研究員.2011 年株式 会社サイバーエージェント新卒入社.2016 年まで 同社におけるインターネットサービスのシステム開 発に従事.2011 年会津大学大学院コンピュータ理工 学研究科修士課程修了.在学中 Sun Microsystems, Inc. キャンパスアンバサダ,心臓 MRI スライス画像 における三尖弁三次元モデリングの研究開発に従事. 山口 光太 株式会社サイバーエージェント研究員.2017 年ま で東北大学大学院情報科学研究科助教.深層学習 を用いた Web ビジュアルデータの分析研究に従事. 2014 年 Stony Brook 大学コンピュータ科学の Ph.D. 取得.在学中 Google Inc. エンジニアインターン, Johns Hopkins 大学にて自然言語処理ワークショッ プ参加など研究活動に従事.2006 年東京大学工学 部計数工学科卒業.2008 年同大学院情報理工学系研究科修士課程修了. 2015年,2016 年 MIRU 優秀賞受賞.IEEE,情報処理学会,電子情報 通信学会各会員.

図 1  インフィード広告のサンプル画像
図 5  シーン検出の結果

参照

関連したドキュメント

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

再生可能エネルギー電気の利用の促進に関する特別措置法(以下「再生可能エネル

* 広告や機能は条件によってはご利用いただけない場合があります。

廃棄物の再生利用の促進︑処理施設の整備等の総合的施策を推進することにより︑廃棄物としての要最終処分械の減少等を図るととも

 工学の目的は社会における課題の解決で す。現代社会の課題は複雑化し、柔軟、再構

 大都市の責務として、ゼロエミッション東京を実現するためには、使用するエネルギーを可能な限り最小化するととも

 大都市の責務として、ゼロエミッション東京を実現するためには、使用するエネルギーを可能な限り最小化するととも

  NACCS を利用している事業者が 49%、 netNACCS と併用している事業者が 35%おり、 NACCS の利用者は 84%に達している。netNACCS の利用者は netNACCS