視線情報と美的評価則に基づく画像系列要約に関する研究利用統計を見る

(1)

学位論文博士 (情報科学)

視線情報と美的評価則に基づく

画像系列要約に関する研究

Image Sequence Summarization Based on Visual Attention and Aesthetic Measure

2015 年 3 月

山梨大学大学院医学工学総合教育部

澤田友哉

Tomoya Sawada

指導教官茅暁陽

(2)

(3)

要旨

近年，スマートフォンに代表されるディジタルデバイスの普及とソフトウェアの充実によって，エンドユーザが多量のデータを使用する場面が増えている．例えば，インターネット上の映像コンテンツの視聴や日常的に撮影する写真を考えてみても，解像度はますます上がり，利便性が日増しに高まってきている．一方で，高解像度のデータを利用する環境が整いこれが広まったことは，社会におけるデータ量が爆発することを意味する．すなわち，今後も増加し続ける映像や写真などのマルチメディアコンテンツに対して，重要な情報を要約する手段が求められている．特に，近年のインターネットショッピングにおける利用者の購買履歴に基づく購買予測・促進に代表されるように，利用者個々の興味・嗜好を把握し，利用者の感性を反映させるような要約技術を創造できれば，個々のニーズに即した多岐に渡るサービスが実現される．動画に対しては，映像内の情報を時間的・空間的に解析し特徴を得て重要なシーンのみを検出しまとめる動画要約の研究が行われている．応用例として，動画におけるインデキシングやダイジェスト，圧縮などがある．また，静止画に対しては画像内の情報を空間的に解析することで重要箇所を推定し，重要な箇所のみを残して加工することで静止画における要約を行う研究もなされている．これらの研究では対象とするコンテンツが異なっており，例えば動画要約に関してはニュース・ホームビデオ・監視カメラ・CG やアニメーション・スポーツ・映画などがある．また，静止画における研究ではスナップショットや自然画像をターゲットとしている．本研究では，映像や画像などのコンテンツにおける要約のための手法を提案する．要約技術は，データ中のどこが重要かを定める“情報の抽出”という意味合いだけでなく，それを適切に加工して利用者に提供する“要約結果の提示”という意味合いまで含めることができる．これを踏まえて，重要情報の抽出から加工結果の提示までを一貫して行うシステムを提案する．特に，本研究において着目したのは人の興味を要約結果にいかにして反映させるかという点である．本研究では，映像コンテンツの要約に関しては鑑賞者と映像内のシーンとのインタラクションに着目し，鑑賞者の視線情報から特異なパターンを抽出しこれを鑑賞者の興味の変化ととらえて自動でコミック調の編集を行う．また，静止画の要約に関しては写真撮影を対象として，構図を決める際の撮影者と撮影シーンとのインタラクションに注目し，その過程から撮影者の意図を推定することにより自動でベストショットを撮影する．こうした人の自然な振る舞いから意味のある情報を抽出し，またそれを適切に整形して提

(4)

示することで，情報の抽出から要約結果の提示まで一貫して提供するシステムの開発を目指す．はじめに，映像コンテンツから鑑賞者の視線情報を利用して自動でコミック調画像に合成する技術を提案する．フィルムコミックとは，映像コンテンツをコミック調画像に変換したものである．従来，フィルムコミックの作成のためには，専門家が人手で以下の処理を行っていた．すなわち，映像内に含まれる膨大な数のフレーム画像の中から重要なものを選出し，シーンの内容に応じたレイアウトを設計し，レイアウトの形状に沿って選択したフレーム画像を加工し，セリフのあるシーンではセリフを配置して完成する．以上の工程において，重要フレームの選出は絵コンテに示されることが多いようにシーンの内容をよく描画するように選ばなくてはならず，またフレーム画像の加工やセリフの配置は画像内における重要箇所を切り取ったり隠したりしてしまわないようにして実現しなくてはならない．さらに，レイアウト設計はシーンの内容をよりわかりやすく整形する必要がある．しかし，重要フレームや重要箇所の検出には，映像作品そのものの理解が不可欠であり，画像処理技術のみからこれを実現することは難しい．そこで本研究では，人の興味を時空間的に抽出することで，以下の処理の自動化を実現した．1)映像コンテンツから人の興味を引くような，重要なフレーム画像の選出．2)見栄えの良さだけでなく，内容が把握しやすいレイアウト設計．3)重要箇所を切り取らず，元の構図を維持したトリミング．4) 重要箇所を隠さず，読みやすく加工したセリフ配置．人の興味を捉えるための手段として，本研究では視線情報を利用した．これによって，実際の人の興味を直接反映するようなコミックの自動生成を実現した．次に，撮影時におけるユーザのカメラ移動から最適構図を探索し，オートフレーミングを実現する手法を提案する．オートフレーミングとは，被写体を発見し被写体位置が最適な位置となる構図を求めて自動で撮影する技術のことを指す．一般的に写真の構図を体得するには，長い経験とセンスが必要であり素人にとっては構図の良い写真を撮ることは難しい．本研究ではシステム側が自動で良い構図で切り取ることで素人でも構図の良い写真が撮れることを目指し，オートフレーミングの実現に際して以下の手法を提案する．まず，予備実験の結果，撮影者は写真を撮る前に構図を決めかねてカメラを移動させることがわかった．そこで，1)このときのカメラ移動から，撮影者が何を撮ろうとしているのか，その主観的な被写体の推定を行う．そして，2)被写体位置が構図として良いかを調べるために三分割法というカメラ撮影におけるヒューリスティックなルールを用いて客観的に美観評価を行う．撮影者が何を撮りたいのかを知るには撮影者の興味の推定に踏み込む必要がある．撮影者の興味を捉えるための手段として，本研究ではユーザのカメラ移動を利用した．これによって，撮影者の意図を反映した被写体が美しい構図でオートフレーミングされるようにした．最後に，静止画や動画において人の目を引く箇所を画像処理的に求める顕著性マップの要素として，特に写真工学で用いられるリーディングライン効果を付与した顕著性マップの作成技術を提案する．リーディングライン効果とは，空間上に直線成分や線群が一点に収束するように構成された場面では，人の目はリーディングラインの収束先に引かれやすいという経験則である．本研究では，検証実験により視線はリーディングラインの収束先に誘導されることが示されたため，リーディングラインを含む画像において既存の顕著性マップとリーディングラインの重みとを視線情報を用いて学習して求め，リーディングラインを付与した顕著性マップの実現に成功した．これを基にして最適構図を求める問題を

(5)

解決することで，より実際の人の興味を反映した構図結果が得られることが期待できる．以上のように，本研究では映像コンテンツおよび写真における要約技術に関するプロセスを確立し，人の興味を反映した要約技法を提案した．人の興味の推定は，実際のコンテンツを視聴中の鑑賞者の視線や，撮影中のユーザのカメラ移動に基づくものであり，こうした人の自然な振る舞いからユーザに負荷なく，意味のある情報を抽出でき，かつそれを整形して提示することで，情報の抽出から要約結果の提示まで一貫して提供するシステムの開発に成功した．今後もますます増大するコンテンツに対して，人の興味や意図を反映した要約技術は近い将来必ず必要となってくる．その時，本研究で提案した人の自然な振る舞いから内容理解に踏み込む研究が大きく貢献するものであると確信する．

(6)

ABSTRUCT

The popularization of digital devices such as smartphones together with the enhancement of software environments has recently calls for the necessity to deal with massive amount of image and video contents. A large amount of video contents are now conveniently available on the Internet. On the other hand, the rapid improvement of camera performance makes it possible to take photographs of very high resolution. Many people have established the style of sharing their own lives with others by using Social Networking Service (SNS). Since photographs and videos are the major contents of lifelog, many applications for sharing high quality Image/Video contents have been provided. All of these imply that tremendous amount of data is in flood, and the methods for extracting real valuable information from Image/Video contents are becoming more and more important.

Considering such background, some researchers have been working on Video Summarization which is a technology for extracting important scenes from a video by analyzing the video spatially and temporally. Image Retargeting is another technology related to the information extraction from a large image. It analyzes an image spatially and detects the informative areas so as to keep those areas not changed as possible when change the size or aspect ratio of the image. Various video summarization and image retargeting techniques have been developed for dealing with different contents. For example, in case of video summarization, the major types of contents include news, home videos, surveillance videos, CG/animation, sport TV programs, movies and so on. The contents of image retargeting can be divided into two major types: snapshots and natural images.

This thesis proposes the novel techniques for summarizing Image/Video contents. Summarization technique means not only “information extraction” which is to detect the important area or frames from Image/Video contents but also “information presentation” which is to edit the extracted information and present it to users in an easy to understand and aesthetically pleasing way. The proposed technology deals with the whole process of Image/Video summarization from extracting key information to the presentation of extracted information

(7)

intention in the summarization. For summarizing video contents, eye tracking data is used to predict the users’ interest. By analyzing the relationship between viewer’s eye movement patterns and the contents of the video, it is found that some particular eye movement patterns can be used to infer the shift of viewer’s interests. By detecting the moment when such eye movements occur, it is possible to extract important frames from a video. As an image summarization problem, how to take a best shot reflecting users’ intentions was studied. When taking a photograph, the user usually tries to take a shot with best composition by moving his/her camera around. Such camera movement can be used to predict the user’s intention. In other words, meaningful information can be extracted based on users’ natural gestures/behaviors. The thesis presents 3 main contributions.

First, I propose a novel way to generate film comic from video automatically by using viewer’s eye-tracking data. A film comic is generated from the frame images of a movie. Automatic generation of film comic requires solving several challenging problems such as selecting important frames well conveying the whole story, creating comic layout attracting readers, trimming frames to fit into panels in pages, and arranging speech balloons without hiding important objects. These problems are story dependent, and even user dependent, and hence cannot be solved with naive Image/Video processing. The key idea of the proposed technique is to employ eye-tracking data of multiple viewers. Specific eye movement patterns provide clues for understanding the whole story. The best frame selection and the best layout of panels/balloons are obtained by analyzing the eye movement patterns. Computational Heat map, which combines eye position information and image features, is computed to indicate the importance of frames and regions in a frame. The speech balloon arrangement and image trimming are realized as the result of optimizing an energy function defined with the Heat map. The effectiveness of the proposed method was confirmed through subject studies.

Next, I propose an Auto-Framing technique for automatically generating a photograph with the best composition based on the camera motion right before a user release the shutter. The proposed method solves the issue of how to determine the best composition by detecting the user intended object and considering the aesthetic measure. Generally, taking photos of good composition requires rich experience and good aesthetic sense, and therefore, it’s usually a difficult for naive users. Through a preliminary study observing how users take photos, it is found that almost all users move camera around before releasing shutter due to the hesitation in deciding the composition, and the object of interest is likely being included in most candidate shots during the whole process for finding best composition. Such founding suggests the possibility of using such camera motion to predict the user’s subjective intention. Auto-Framing technique is implemented in the following steps. First, the user’s subjective intention is predicted with an Importance map by combining Saliency map and Master map computed by accumulating all the local image features captured during the camera movement. Then the position of the user intended object is decided

(8)

based on Rule of Thirds, which is known as a typical heuristics rule for deciding a balanced composition. The experiment result demonstrates that the proposed approach succeeded in generating aesthetically pleasing photos reflecting the subjective intention of users.

Finally, I propose a new kind of Saliency map taking account of leading line effect. Saliency map is known as the computation model for predicting human’s visual attention. It is know that in photographs and paintings, lines converging to a point attract viewer's attention. Those lines are called as leading lines. Such phenomenon was confirmed in the primary study. During the experiment, the eye positions of subjects are recorded and used as the training data to learn the weight for combining existing Saliency map and the Saliency map based on leading lines. Through evaluation experiment, it is confirmed that the new Saliency map generated with the proposed technique provides a better prediction to the visual attention than the traditional method based on center-surrounding difference of major visual features. In the future, I plan to incorporate the new Saliency map into the Auto-Framing technique so as to generate photos reflecting users’ attention more accurately.

To summarize, this thesis proposes novel summarization methods for Image/Video contents by considering the user’s interest or intention as well as the aesthetic measure. For predicting users’ interests, eye-tracking data or camera motion is used. By using these natural gestures/behaviors, meaningful information can be extracted and edited properly without adding extra load to users. The implemented prototype system provides consist supports to the whole process of Image/Video content summarization, from extracting key information to the presentation of the edited result. Such technique is sure to be needed for solving the massive data problem in the future.

(9)

(10)

概要概要概要概要 ... エラーエラーエラーエラー! ブックマークが定義されていません。ブックマークが定義されていません。ブックマークが定義されていません。ブックマークが定義されていません。 ABSTRUCT ... 6 第１章第１章第１章第１章序論序論序論序論画像系列要約の目的と実現方法画像系列要約の目的と実現方法画像系列要約の目的と実現方法_{画像系列要約の目的と実現方法 ... 14} 1.1 研究背景 ... 14 1.2 研究概要 ... 23 1.2.1 フィルムコミックの自動生成... 23 1.2.2 オートフレーミングカメラ ... 24 1.2.3 リーディングライン効果を付与した顕著性マップ ... 25 1.3 論文構成 ... 26 第２章第２章第２章第２章視線パターンに基づく視線パターンに基づく視線パターンに基づく視線パターンに基づく映像コンテンツからの映像コンテンツからの映像コンテンツからのフィルムコミックの自動生成映像コンテンツからのフィルムコミックの自動生成フィルムコミックの自動生成_{フィルムコミックの自動生成..27} 2.1 はじめに ... 27 2.2 関連研究 ... 29 2.3 提案手法概要 ... 32 2.4 フレーム選出 ... 33 2.4.1 鑑賞者の視線移動に基づく重要シーン検出のための予備実験 ... 33 1. 視線の分散値の急変 ... 33 2. まとまった状態での集団の視線の大きな移動 ... 37 2.4.2 予備実験に基づくアルゴリズムの開発 ... 39 2.5 レイアウト設計 ... 40 2.5.1 コマの初期形状 ... 42 2.5.2 ページ生成 ... 43 2.6 コマ編集 ... 44 2.6.1 Heat Map の作成 ... 44 2.6.2 画像のトリミング ... 46 2.6.3 セリフ配置 ... 47 2.7 実験と結果 ... 48 2.7.1 フレーム選出に対する評価 ... 49 2.7.2 レイアウト設計に対する評価... 54 2.7.3 コマ編集に対する評価 ... 55 2.7.4 追加実験 ... 58 2.8 おわりに ... 59 第３章第３章第３章第３章カメラ移動に基づくカメラ移動に基づくカメラ移動に基づくカメラ移動に基づくオートフレーミングの実現オートフレーミングの実現オートフレーミングの実現_{オートフレーミングの実現 ... 61} 3.1 はじめに ... 61 3.2 関連研究 ... 62 3.3 システム概要 ... 65 3.4 主観的興味の抽出による被写体発見 ... 66 3.4.1 画像合成手法 ... 68 3.4.2 Master Map の作成 ... 69

(11)

3.5 客観的美観評価による最適構図の自動決定 ... 72 3.5.1 三分割法 ... 72 3.5.2 評価関数の作成 ... 73 3.6 実験と結果 ... 76 3.7 おわりに ... 84 第４章第４章第４章第４章リーディングライン効果を付与したリーディングライン効果を付与したリーディングライン効果を付与したリーディングライン効果を付与した顕著性マップの開発顕著性マップの開発顕著性マップの開発_{顕著性マップの開発 ... 86} 4.1 はじめに ... 86 4.2 関連研究 ... 87 4.3 リーディングラインを含む画像における視覚注意に関する検証実験 .... 88 4.4 提案手法 ... 90 4.4.1 リーディングライン顕著性マップと中心周辺差分顕著性マップの統合 ... 90 4.4.2 リーディングラインの検出 ... 90 4.4.3 学習用視線データの収集 ... 91 1. 視線データの収集 ... 91 2. 使用する視線データの決定 ... 92 4.4.4 マップの作成 ... 93 4.5 結果と評価 ... 94 4.6 おわりに ... 98 第５章第５章第５章第５章結論結論結論結論画像系列要約のまとめと今後の課題画像系列要約のまとめと今後の課題画像系列要約のまとめと今後の課題_{画像系列要約のまとめと今後の課題 ... 100} 5.1 本研究のまとめ ... 100 5.2 本研究におけるアプローチ ... 100 5.3 今後の課題および展望 ... 102 謝辞謝辞謝辞謝辞 ... 105 参考文献参考文献参考文献 参考文献 第１章第１章第１章第１章 ... 106 第２章第２章第２章第２章 ... 109 第３章第３章第３章第３章 ... 111 第４章第４章第４章第４章 ... 113

(12)

図目次

1.1 フィルムコミックの自動生成の概念図… ……… 23 1.2 オートフレーミングの概念図… ……… 24 1.3 リーディングライン効果を付与した顕著性マップの概念図……… 25 2.1 提案手法概要… ……… 32 2.2 シーン A における視線の振る舞い… ……… 34 2.3 シーン B における視線の振る舞い ……… 34 2.4 シーン C における視線の振る舞い ……… 34 2.5 シーン D における視線の振る舞い… ……… 35 2.6 シーン E における視線の振る舞い ……… 35 2.7 シーン F における視線の振る舞い ……… 36 2.8 シーン G における視線の振る舞い……… 36 2.9 シーン H における視線の振る舞い……… 37 2.10 シーン I における視線の振る舞い ……… 37 2.11 シーン J における視線の振る舞い……… 38 2.12 シーン K における視線の振る舞い… ……… 38 2.13 シーン L における視線の振る舞い……… 38 2.14 オートレイアウトシステム概要… ……… 41 2.15 カメラワークを反映したレイアウト例… ……… 42 2.16 レイアウトの整形例… ……… 43 2.17 Heat Map の作成… ……… 45 2.18 Heat Map に基づく画像のトリミング… ……… 47

2.19 The Wacky Wabbit における既存手法との比較……… 50

2.20 My Artistical Temperature における既存手法との比較……… 51

2.21 シーン M における視線の振る舞い……… 51

2.22 My Artistical Temperature における各手法のフレーム選出の違い…… 52

2.23 The Wacky Wabbit における各手法のフレーム選出の違い……… 54

2.24 提案手法により作成したフィルムコミック例 ……… 55

2.25 Walther らによる Saliency Map と提案手法による Heat Map の比較 … 56 2.26 Heat Map に基づくトリミング例 ……… 57 2.27 Heat Map に基づくセリフ配置例 ……… 57 2.28 選出フレームと Heat Map の透過画像……… … 58 2.29 パラメータ調整後のフィルムコミック例 ……… 60 3.1 提案手法概要 ……… 65 3.2 シーン A におけるカメラの予備動作 ……… 67 3.3 シーン B におけるカメラの予備動作……… 67 3.4 シーン C におけるカメラの予備動作……… 67 3.5 Stitching 技術による画像合成の概要及び実行例……… 69 3.6 Structure Map 作成方法 ……… 71 3.7 提案手法における各マップの要素の違いと Master Map の結果…….. 72 3.8 三分割法に則る写真例 ……… 73 3.9 Hou ら[13]による周波数解析アプローチに基づく顕著性マップ……... 74

(13)

3.10 トリミング後の顕著性マップの違い………. 74 3.11 重要箇所とそうでない箇所の比率… ……… 76 3.12 異なるアスペクト比における最適構図の探索結果 (シーン A) ……… 77 3.13 異なるアスペクト比における最適構図の探索結果 (シーン B) ……… 77 3.14 異なるアスペクト比における最適構図の探索結果 (シーン C) ……… 78 3.15 異なるアスペクト比における最適構図の探索結果 (シーン D) ……… 78 3.16 異なるアスペクト比における最適構図の探索結果 (シーン E) ……… 79 3.17 異なるアスペクト比における最適構図の探索結果 (シーン F) ……… 80 3.18 異なるアスペクト比における最適構図の探索結果 (シーン G)……… 81 3.19 異なるアスペクト比における最適構図の探索結果 (シーン H)……… 82 3.20 アスペクト比の違いと正解との一致率……… 82 3.21 アスペクト比 1:1 における各マップの正解との近さ……… 83 3.22 アスペクト比 3:2 における各マップの正解との近さ……… 83 3.23 アスペクト比 16:9 における各マップの正解との近さ……… 84 4.1 提案手法によるリーディングラインを含む顕著性マップ………. 87 4.2 実験環境………. 88

4.3 Heat Map と Itti らの顕著性マップ………. 89

4.4 リーディングライン収束先の検出………. 91 4.5 収集した画像例………. 92 4.6 刺激の提示方法………. 92 4.7 被験者の順番付視線データ………. 93 4.8 画像番号 4 の顕著性マップ………. 93 4.9 画像番号 6 の顕著性マップ………. 93 4.10 画像番号 7 の顕著性マップ………. 94 4.11 顕著性マップと視線マップの差分………. 94 4.12 提案手法と既存手法[10]の比較 (シーン A) … ……… 95 4.13 提案手法と既存手法[10]の比較 (シーン B) … ……… 96 4.14 提案手法と既存手法[10]の比較 (シーン C) … ……… 96 4.15 提案手法と既存手法の性能評価(AUC) ……… 97 4.16 提案手法と既存手法の性能評価(SIM) ……… 97 4.17 提案手法と既存手法の性能評価(EMD) ……… 98 4.18 畠ら[9]の鉛筆画生成手法における顕著性マップの違い……… 98 4.19 学習用画像例……….…… 99 4.20 評価用画像……….… 99

表目次

1.1 重要箇所の推定要素と本研究の位置づけ……….……… 22 4.1 提案手法と既存手法の TC 値(%)の比較……….……… 95 4.2 式(2)により求めた各画像セットの重み k の最適値……….……… 96

(14)

第１

第１章

章

章序論

序論

画像系列要約の

画像系列要約の目的と

目的と

目的と実現

実現

実現方法

実現

方法

1.1 研究

研究

研究背景

背景

近年，エンドユーザにもスマートフォンに代表されるディジタルデバイスが普及し，日常生活において必需品となっている．また，こうした市場の拡大に伴ってソフトウェアの充実もなされており，生活を豊かにするようなアプリケーションも開発されている．このような情報化社会の著しい発展に伴って，我々の日常において多量のデータを使用する機会が増えている．例えば，インターネット上の映像コンテンツの視聴や日常的に撮影する写真を考えてみても，解像度はますます上がり，利便性は日増しに高まってきている．また，最近では SNS 等を活用して自分の生活を他人と共有するスタイルが確立されつつあり，ライフログと化して大きな人気を博している．こうしたニーズを受け，高解像度の静止画・動画を共有するためのサービスも充実してきている．一方で，高解像度のデータを利用する環境が整いこれが広まったことは，社会におけるデータ量が爆発することを意味する．こうしたデータの氾濫は，生活の利便性を高めるが，データを包括的に管理することは困難である．すなわち，今後も増加し続ける映像コンテンツや写真を含む多量のデータに対して，重要な情報を要約する手段が必要である．多量のデータを簡易に利用できる昨今，データを要約し利活用することは現代の情報化社会にとって大きな意義がある．要約技術は，データ中のどこが重要かを定める“情報の抽出”という意味合いだけでなく，アプリケーションにおける応用面では，それを加工して利用者に提供する“要約結果の提示”という意味合いまで含めることができる．近年のトレンドワードであるビッグデータにおいては，多量かつ複雑な情報の集合に対して，重要情報の抽出から結果の可視化までを一貫して解決することが望まれている[35]．このことからも，要約に対する要求が情報の抽出だけでなく，その結果の提示手段にまで及んでいることがわかる．多量のデータに対して統計的手法を適用し，情報の抽出を試みる手法はデータマイニングと呼ばれ，古くから研究が進められてきており概念とそのアプローチに関して Han ら[1] の文献で調査されておりこれを参照されたい．現代社会においては，ソーシャルメディア

(15)

は日常生活で必須の存在となっており，写真や動画の共有，ウェブブログやナレッジコミュニティなど多彩なジャンルが存在する．増え続ける膨大な情報に対して重要なものを知的に判断し自動で抽出するニーズは，今後もますます必要となってくる．特に，マルチメディア(言語，音声，映像，画像など)に対するマイニングは必要性を増している．例えば，言語処理の分野では多量のテキストに対して重要な情報の収集を行うテキストマイニングが知られている[2]．近年のインターネットの普及に伴って，爆発的に増え続けているウェブページや，多くのユーザが利用している SNS サービスに対してテキストマイニングを行うウェブマイニングが，その重要性を増している．また，音声処理の分野においては，大量に用意された音声データを利用して音声合成を行い，応用として自動テキスト読み上げ(Text To Speech)技術の提案が古くからなされており[3]，現在においてカーナビゲーションシステムや公共交通機関の案内板など，至るところで利用する機会がある．テキスト読み上げ技術(Text To Speech)は，Dutoit[4]の文献を参照されたい．また，画像処理の分野において，映像コンテンツの要約技術は動画要約(Video Summarization)と呼ばれ，膨大な映像中のシーンの中から重要な所だけを抽出する技術として用いられている[11]-[13]．さらに，近年のメディアの発展とデバイスの普及によってコンテンツを楽しむための機器が身近にあふれている背景を受け，異なるデバイス間で画像の見た目が変わらないようにコンテンツサイズを動的に変更させる研究は Image Retargeting と呼ばれ，静止画における要約技術として知られる[5, 6]．また，これを拡張して動画における空間リサイジングを実現させる技術は，Video Retargeting と呼ばれる[7]-[10]．Setlur ら[5]は Image Retargeting において，領域分割の結果と顕著性マップ(Saliency Map)を統合して重要物体を検出して背景と分離し，背景のみをユーザ任意のサイズにリサイズした後，重要物体を再度貼り付けることで重要物体の配置や形状が変化しないリサイジング方法を提案した．顕著性マップ(Saliency Map)は，動画や静止画において人の興味を引く箇所を推定する技術として知られている．Lin ら[6]は，領域分割した結果と顕著性マップを複合して重要領域を定義し，入力画像にメッシュを張って重要箇所ほど変化しにくいようにリサイズする手法を提案した．彼らの手法では，画像の直線成分のような構造情報も考慮することで，編集箇所が人目に付きにくいような自然なリサイジング結果を得ている．さらに，彼らはこの手法を動画へ拡張し，Video Retargeting においても時空間的に重要箇所を求めることでこれを解決している[7]．また，Kang ら[8]は，時空間的に顕著な箇所を求め顕著でない箇所を省略して時空間的に合成することで，動画における時空間的なモンタージュ技法を提案している．Zhang ら[9]は，動画に対してカット検出を行った後に各ショットに対して顕著性・動き・テクスチャの 3 要素からなる重要度マップを作成し，重要な所が残るようにクロッピングを行って大雑把に画面サイズを縮小し，列方向のみのメッシュ変形を用いたリサイジングを行うことで，重要箇所の変形が少なく人目に編集痕が分かりにくい Video Retargeting 技術を提案している．また，Li ら[10]は，グリッドベースで毎フレームトラッキングを行うことでグリッドの流れからキーフレームを選出し，キーフレームに対してリサイジングをしてそれ以外のフレームをリサイジング結果に合わせて補間することで Video Retargeting を行う手法を提案した．この手法では，フレーム間の対応がとれているためフレーム毎に重要箇所のリサイジング結果が異なることが少ない．既存研究[5]-[10]では，映像や画像においてリサイジングを実現するために重要箇所を求め，空間的に要約を行うアプローチがなされていたが，要約技術はデータ中のどこが重要かを定める“情報の抽出”という意味合いだけでなく，それを適切に加工して利用者に提供する“要約結果の提示”という意味合いまで含めることができる．これを踏まえて，

(16)

本研究では重要情報の抽出から加工結果の提示までを一貫して行う要約技術を提案する．特に，本研究において着目したのは人の興味を要約結果にいかにして反映させるかという点である．要約技術の実現のためには時間的・空間的・時空間的な重要箇所を推定することが必要であるが，本研究では“視線”を用いてこの解決を図る．すなわち，人の自然な振る舞いから意味のある情報を抽出し，またそれを適切に整形して提示することで，情報の抽出から要約結果の提示まで一貫して提供する手法の開発を目指す．システムの実現に際し，フィルムコミックの自動生成フィルムコミックの自動生成フィルムコミックの自動生成フィルムコミックの自動生成・オートフレーミングカメラオートフレーミングカメラオートフレーミングカメラ・リーディングラインオートフレーミングカメラリーディングラインリーディングラインリーディングラインを付与した顕著性マップのを付与した顕著性マップのを付与した顕著性マップのを付与した顕著性マップの作成作成作成という 3 つの応用アプリケーションを提案する．これに先作成立って，関連する要素技術を以下に述べる．フィルムコミックの自動生成フィルムコミックの自動生成フィルムコミックの自動生成フィルムコミックの自動生成．本研究では，映像コンテンツを見る際の鑑賞者とシーンとのインタラクションに注目し，その間の視線移動から鑑賞者の興味を推定し，鑑賞者の興味を反映させながら読みやすく最適化されたコミック編集を自動で行う手法を提案する．フィルムコミックとは，CG やアニメーションなどの映像コンテンツをコミックにしたものであり，映像中からシーンを代表するような画像を抽出する必要がある．映像の中から重要なシーンを選んでくる手法は動画要約(Video Summarization)技術と呼ばれよく研究されている．例えば，Fiss ら[11]は，ビデオチャットのように人の顔が写っている動画を対象として，顔の動き(瞬き・目線の動き・口の動き・顔の表情の動き)と顔のテクスチャ解析の結果を特徴とし評価関数を定め，人手で評価させた良い顔のフレーム画像におけるパラメータを学習することで重要フレームの選出手法に成功している．また，You ら [12]は，鑑賞者の興味を集める，映像内の動き・コントラストの変化・顔やセリフなどの高次の情報・分割したシーンの時間的長さの 4 つを時系列的な特徴として利用し，これらを組み合わせて映像コンテンツからキーフレームを選出する動画要約技術を提案している．Geetha[13]らは，人の視覚特性を利用した静的な特徴量と動作検出を利用した動的な特徴量によって重要度を算出し，映像から重要シーンを検出する手法を提案している．動画要約(Video Summarization)は，本研究と密接に関連するため，特に第 2 章において詳述している．また，本研究では人の興味を反映した動画要約を行うため，鑑賞者の視線情報を利用する．映像と鑑賞者の視線に関する研究として，Hillaire ら[14]は，ウェブカメラを使った安価な視線追跡技術を実現し，顕著性マップ(Saliency Map)を用いることによって視線位置の取得精度を飛躍的に高めている．Häkkinen ら[15]は，立体視を利用した 3D 映像において 2D の映像よりも鑑賞者の興味箇所が散漫してしまい，視線位置がより広範囲に分布することを調べた．また，Jain ら[16]は，コミック作品における製作者の意図が鑑賞者の視線を誘導すると考え，検証実験により以下を示した．すなわち，ロボットや素人の撮った写真が人の視線を誘導する効果に欠け，鑑賞者の視線がばらついてしまうのに対して，コミック製作者の描くシーンはどの鑑賞者に見せても見るべきところが一致する傾向にあることが示されている．DeCarlo ら[36]は，静止画において鑑賞者の視線を利用した抽象画作成手法を提案している．鑑賞者の視線は興味領域(Region of Interest)を含み，顕著箇所を容易に推定できる．彼らの手法では，領域分割結果と視線位置を利用して視線が多く存在する箇所を詳細に，それ以外を抽象的に描くことで鑑賞者の興味を反映した抽象画作成手法を提案した．彼らの抽象画は現実世界をコミック調にした画像にも利用できる．フィルムコミックの自動生成においては，セリフ情報を適切に配置する必要があるがこれに関連して，Vollick ら[17]は，図に各部の説明をする注釈をつける際，最適な位置に注釈をつける方法を提案している．本研究における研究チームはこれまでに，鑑賞者の視線と映像コンテンツのインタラクションを利用し，視線移動のパターンから重要シーンを検出

(17)

し，コミック調に合成して要約する技術を提案している[18]-[20]．オートフレーミングカメラオートフレーミングカメラオートフレーミングカメラオートフレーミングカメラ．本研究では，構図を決める際の撮影者とシーンとのインタラクションに注目し，その過程から撮影者の意図を推定し，ルールベースの美的尺度と合わせて最適化を行う新たな Computational Photography 技術を提案する．まず，写真における構図に関する著書としては Krages[21]で調査されており，これを参照されたい．本研究では，ユーザのカメラ移動を動画として捉え，その移動課程を Stitching 技術により合成することでユーザの見ている世界を再現するが，複数枚の画像の合成技術に関して以下の関連研究を挙げる．Hays ら[22]は，入力画像において編集したい箇所を選択し，似ている箇所を多量の画像から検索し，選択した候補をシームレスにつなぎ合わせる技術を提案した．また，Chen ら[23]は，ユーザのスケッチと描いたものを説明するテキストから，現実世界の写真を作成する技術を提案した．彼らの手法では，入力のシーンに最も類似した背景画像を検索し，またユーザの意図を汲んだ物体検索を行う．そして，背景と物体の組み合わせを最適化することでより自然な合成画像を得ている．Bae ら[24]は，歴史的な建物などで過去に撮られた画像を参照画像とし，同じ場所でユーザを誘導しながら位置合わせをして写真を撮らせることで，過去の写真と現在の写真を融合させる Re-Photography 技術を提案した．He ら[25]は，三脚を使わずに撮影した写真が傾いてしまうことを考慮し，撮影後の写真をシステムが自動で傾きを補正する技術を提案した．彼らの手法では，エッジ・物体形状・境界線が保たれるようにメッシュを利用した画像変形によって，写真の内容が変化しないような傾き補正を実現した．リーディングラインを付与した顕著性マップのリーディングラインを付与した顕著性マップのリーディングラインを付与した顕著性マップのリーディングラインを付与した顕著性マップの作成作成作成作成．本研究では，リーディングラインと呼ばれる，一点に収束する直線成分が人の視線を誘導する効果があることを利用し，静止画や動画から人の視線を集める箇所を推定する技術として知られる顕著性マップにこれを付与することで，より正確な顕著性マップの作成技術を提案する．近年の顕著性マップのアプローチについて以下にまとめる．まず，画像内の特徴のみを利用した低次の特徴量を用いた顕著性マップを以下に挙げる[26]-[32]．Klein ら[26]は，画像の色・彩度・方向性の各特徴に対し，周辺と中央がどれ程異なるかを情報量の差異を求める尺度である KLD(Kullback Leibler Divergence)を用いて計算し，それらを統合して顕著性マップを作成した．Achanta ら[27]は，入力画像を代表する色を抽出し入力画像にガウシアンフィルタかけたものからこれを引くことで，簡易的な手法でありながら高解像度な顕著性マップが得られることを示した．Liu ら[28]は，多重解像度のコントラスト，ヒストグラムの中心周辺差分値，色の空間分布を特徴量として各特徴の重みを学習によって求め，前景と背景を分離しやすい顕著性マップを提案した．Cheng ら[29]は，画像内のすべてのピクセルに対して色の差分を求め，ヒストグラムを平滑化することで領域分割のような効果を付与してこれを顕著性マップとして提案した．Perazzi ら[30]は，画像を抽象化してコントラストの特異性と空間的分布を特徴量として抽出し，これを統合して前景と背景を完全に分離するような顕著性マップを提案した．Chang ら[31]は，物体推定と顕著箇所推定の両方を兼ね備えた顕著性マップを提案している．彼らの手法では，物体らしさと顕著らしさをエネルギーとしこれをピクセルベースで最小化問題として解くことで，どちらの性質も持ち合わせた顕著性マップを作成した．一方，Wei ら[32]は，物体らしさや前景ではなく背景に着目し，境界付近では色差が大きくなることを期待し，グラフの枝の重みを隣接パッチの色の差分として枝の重みが最小になるようなパスを探索することでグラフ理論を利用した顕著性マップを提案した．さらに，これらの低次の特徴だけではなく，人の認知レベル

(18)

の高次の特徴を含んだ顕著性マップが提案されている[33, 34, 37]．Borji[33]は，色・輝度・方向性等を使って求められる低次の特徴量を基に求められる顕著性マップと，人・顔・車等の認知的な要素を含む高次の特徴を基に求められる顕著性マップとを，人の視線を学習して統合することで，より精度の高い顕著性マップを提案した．また，Goferman ら[34] は，コントラストや色などの低次の特徴，画像全体に対する標準からのずれ特徴，見かけの構成ルール，人の顔などの高次の特徴を複合した顕著性マップを提案した．彼らの手法では，顕著な領域は局所的に存在し，そうでないものは広域に存在するとして，エッジや前景物体によく反応する顕著性マップを提案した．また，Judd ら[37]は多量の自然画像を被験者に見せてその間の視線を記録し，視線を学習して顕著性マップを作成する方法を提案した．彼らの手法では，画像特徴を輝度・色・方向性などの Low level，垂直・水平成分の Middle level，顔や人物といった認識レベルを表す High level，画像の中心に被写体がある場合が多いことを考慮した中央バイアスである Center prior に分け，各要素に対する識別器を鑑賞者の視線から学習して統合している．以上のように，本研究では複数の研究要素が関連する．表 1.1 に関連する研究分野と本研究の位置づけを示す．まず，本研究で明らかにするのは時間・空間・時空間における重要箇所の推定手法に関する研究分野である．時間における重要箇所の推定は，研究分野として動画要約が挙げられる．空間における重要箇所の推定は，Image Retargeting，Saliency Map，コミック作成要素技術，Image Synthesis・Stitching，最適構図探索などの研究分野が挙げられる．時空間における重要箇所の推定は，Video Retargeting，動画要約，コミック作成などの研究分野が挙げられる．また，それぞれの研究分野に対するアプローチとして画像処理技術によるアプローチと人の生体情報を取得して興味の推定を図るアプローチに分けられる．画像処理によるアプローチはさらに，画像特徴だけを利用するアプローチと人の視覚特性を考慮した画像処理技術に分類できる．各研究分野とアプローチの違いを以下に示す．動画要約．動画要約．動画要約． 動画要約． 動画は一秒間に 30～60 枚以上の画像群からなっており，こうした膨大な画像群の中から重要な瞬間を手動で検出することは困難である．動画の中から重要なシーンを検出し，一覧や短い動画クリップなどの形式で提示する研究を動画要約 (Video Summarization)という．応用として，Video Indexing やイベント検知，映像のダイジェスト作成などが挙げられる．まず，時間要素に対する重要箇所の推定手法について述べる．画像特徴を利用したアプローチでは主にモーション解析に基づくものが多く，ヒストグラム・輝度の差分を用いて変化の大きい所を抽出する方法や，人物・物体の動作などから重要なシーンを検出する手法がある(第 2 章[15]-[18])．視覚特性を考慮したアプローチでは，これに加えて人物の顔・唇を検出して各フレームの重要度を決定する(第 1 章 [11]-[13]，第 2 章[12, 20])．生体情報を利用するアプローチでは，人の興味を正確に推定するために fMRI を用いて脳血流を計測し血流の変化と脳内の反応箇所から重要フレームを抽出したり，人の視線情報の注視時間を利用して時系列で重要度の推定を行ったりする (第 2 章[6, 7, 19, 21])．時空間要素における重要箇所の推定方法では，視覚特性を利用したアプローチによるものが多く，顕著性マップ(Saliency Map)を用いて空間的な重要度を推定したのち，これを時系列に拡張して時空間的な重要度を求め動画要約を行う(第 2 章 [1]-[5])．画像処理を用いる手法が重要なシーンを客観的に選ぶのに対して，生体情報を利用する手法はユーザの興味を反映した主観的なシーン検出手法だといえる． Image Retargeting．．．．メディアの発展とデバイスの普及により，コンテンツを楽しむ

(19)

ための機器が身近に多く存在する．異なるデバイスに共通のコンテンツを配信する際，デバイス間で画面サイズや操作方法が違うことを考慮して，アスペクト比の変更やレイアウトの変更をしてコンテンツの再配信を行うことを Contents Retargeting という．画像コンテンツに対して，特にコンテンツ内容が変わらないようにしながらサイズを動的に変更させる技術を Image Retargeting や Image Summarization という．サイズを自在に変化させるためには，画像における空間的重要箇所を推定する必要がある．すなわち，重要箇所ほどサイズ変更による変化の影響を受けにくくする．画像特徴を用いたアプローチでは，画像の勾配情報を利用して重要箇所を推定し，人目に付きにくい一行・一列を探索して削除・挿入を繰り返すことで動的なサイズ変更を可能にする(第 3 章[8])．視覚特徴を利用した手法では，空間上の重要箇所の推定を顕著性マップ(Saliency Map)を利用して求め，領域分割やメッシュ変形手法を組み合わせて重要箇所ほど変化が少ないようにサイズを変更する (第 1 章[5, 6]，第 3 章[6])． Saliency Map．．．．画像上における人の興味を引く箇所を推定する画像処理技術を顕著性マップ(Saliency Map)と呼び，空間における重要度の定義に用いられることが多い．人の視線は，画像上で選択的に重要箇所を探索して重要箇所を見る．こうした人の生理学的な視覚刺激の探索過程を計算機的にシュミレーションしたモデルとして顕著性マップが定義された．視覚特性を模したアプローチであり，低レベルの特徴量として色・輝度・エッジ方向性・動き特性に基づく統合モデルや周波数解析に基づくもの，局所的な情報量を周辺と比較するものなど様々な手法がある(第 1 章[26]-[32]，第 2 章[23, 24]，第 3 章[13]，第 4 章[1, 3, 10])．これに加えて，人の顔や車などの認知的な要素を物体検出技術により検出して顕著性マップに統合する，高次の特徴レベルを持った顕著性マップも研究されている(第 1 章[33, 34]，第 4 章[4]-[6])．低レベル特徴量を基にした顕著性マップを bottom up アプローチといい，高次の特徴レベルを付与した顕著性マップを top down アプローチという．さらに，生体情報を用いたアプローチとして実際の視線から低レベル特徴の重みを求める手法もある(第 1 章[37])．本研究では，リーディングラインという特殊な構造を持つ画像に対して，実際の人の視線が構造に導かれる空間バイアスを有することから，これを視線情報を利用して学習し統合する手法を提案する．リーディングラインのような構造が視線を誘導するという認知心理学的に知られる知見を利用している(第 4 章[2])．なお，画像の構造情報を空間バイアスとして顕著性マップに付与する試みは，既存手法では用いられていない．コミック作成．コミック作成．コミック作成．コミック作成．コミック作成においては，コミックらしいレイアウトを作成する技術や話者を推定しセリフを配置する技術が必要になる．こうした工程では，各フレーム画像における重要箇所の推定のほか，フレーム毎の重要度を定義し 1 ページのコミックにおけるコマの大きさを決める必要がある．画像特徴を利用したアプローチでは，背景にコミックらしい効果線を付与して話者方向に吹き出しを向けてセリフを配置したり，多量のマンガレイアウトデータベースから現在のシーンに最も適したレイアウトを検索してマッピングしたりするものがある(第 2 章[9, 10, 14])．生体情報を利用したものには，鑑賞者の視線を学習して読みやすい位置にセリフを配置し視線の誘導効果を考慮したレイアウトを作成するものや，視線が向けられている箇所ほど詳細に描きそれ以外を抽象的に描くことで写真をコミック調に抽象化するものがある(第 1 章[36]，第 2 章[26])．また，これに関連し視線情報が内容理解(Scene Understanding)にどれ程迫れるかを検証する研究もなされている(第 1 章[16]，第 2 章[27])．さらに，これに動画要約の効果を合わせて時空間的

(20)

に重要箇所を求めることで，自動でコミックを作成する研究もなされている．画像特徴を利用した研究では，カメラワークを検出してそれを代表的なテンプレートレイアウトへマッピングする手法や，映画の脚本情報を利用して吹き出し形状にシーンに適した変形を付けながら自動でコミック生成する手法，動画要約結果の時系列における重要度をコマのサイズへマッピングしてコミック調にする手法などがある(第 2 章[11, 13, 22])．また，視覚特性を用いたものには顔・唇認識技術と字幕情報を利用して話者を推定しセリフを配置し動画要約技術によりシーン検出を行ってテンプレートレイアウトにマッピングすることにより自動でコミック生成を行うものがある(第 2 章[12])．本研究では，人の興味を正確にかつ簡易的に取得するために生体情報として視線を利用し，複数の鑑賞者の視線の振る舞いの変化から動画要約を実現し，この振る舞いの変化をレイアウトへ反映させて，視線位置により話者推定を行ってセリフ配置やトリミングを行う．すなわち，視線情報を時間的・空間的・時空間的において活用することで，コミック作成における種々の問題を一貫して解決する(第 2 章[18]-[20])．

Image Synthesis・・・Stitching．・．．．静止画における画像処理の需要として，複数枚のシー

ムレスな画像合成技術が挙げられる．手法としては，局所的な小さなパッチの自己複製によるテクスチャ合成技術や，画像の欠損部分に対する補間技術，また近年のカメラに搭載されているようなパノラマ撮影技術などがある．シームレスな画像合成とは，すなわち人の目に付きにくい箇所を見つけて複数枚の画像の合成面であるつなぎ目を目立たなくさせることである．この実現のためには，空間的な重要度を求める必要があり，ピクセル値の近傍との差分やエッジ情報がよく使われる．パノラマ撮影技術に代表される Stitching 手法では，各画像における位置合わせの自動化が求められる．これまでの研究では，局所特徴量を算出し画像間の全特徴量の差分が最小となる位置を求めることで位置合わせを行う(第 3 章[5, 10]，[14]-[17]，[19]-[21])．一方，人の意図を反映させた手法として，ユーザのスケッチからユーザの意図を反映させたシーンを作り出す研究もある(第 1 章[23])．最適構図探索．最適構図探索．最適構図探索．最適構図探索．写真を撮った後の画像は，構図や被写体位置に不満が残っても再度撮り直したところでうまく撮れないものである．そこで，撮影後の画像における被写体位置を自動で最適位置へ移動させる画像再構成技術がある．また，入力画像内における構図が最適となる位置を検出しトリミングして再撮影する研究もなされている．こうした研究では，画像空間上で被写体となる重要箇所を検出し構図位置の評価を行うことで最適構図を計算する．画像特徴を用いた手法では，領域分割を繰り返すことで被写体を推定し，また直線成分となる領域分離線を求めて，これらの要素が構図として良い位置を計算する (第 3 章[4])．視覚特性を用いた手法では，被写体推定に顕著性マップ(Saliency Map)を利用している(第 3 章[3, 7, 9])．また，人の意図を反映させた研究としては，視線を利用して被写体推定を行い最適位置でトリミングを行う研究や，多量に用意した写真データベースに対し人手で評価値を与え，写真に対する評価の与え方を学習する手法などがある(第 3 章 [1, 2])．本研究における Auto Framing 技術は，Stitching 技術と最適構図探索技術の両方を必要とする．人の意図を反映させるため，ユーザのカメラ移動を利用し局所画像特徴量の時系列合成によって被写体を推定し，画像特徴の分布形状からなる構造情報と顕著性マップ(Saliency Map)を利用して構図の美的な評価を行う．これまでの研究と違い，重要度の推定の要素として時空間情報を利用することで，ユーザの意図の反映を実現している．

(21)

Video Retargeting．．．． Image Retargeting 技術を動画へ拡張した研究を Video Retargeting という．Image Retargeting と同様，コンテンツの中身が変わらないようにして動画サイズを自在に変更することを目的としている．この実現には，コンテンツにおける時空間的な重要箇所の類推が必須である．例えば，あるフレーム画像における顕著なオブジェクトや構造情報を空間的に推定し，それが前後のフレームにおいてシームレスにつながるように時間方向に対しても補正を掛ける．こうして時空間的な重要度を推定したのち，大きく分けて Cropping・Seam Carving・Warping という 3 つのアプローチによって Video Retargeting を実現する．まず，Cropping 技術を利用した手法では，重要箇所を避けて動画を望ましいサイズへ切り取ることで Video Retargeting を行う．Seam Carving を利用した手法では，人の目に付きにくいような行・列を探索し，削除・挿入をしながらサイズを変更させることで Retargeting を実現する．Warping を利用した手法では，画面にメッシュを張り，重要でない所を大きく変化させてサイズを変えることで重要箇所ほど変化しないような Video Retargeting が実現できる(第 1 章[7]-[10])．

(22)

(23)

1.2 研究概要

研究概要

本研究では対象を画像系列とし，情報の抽出と要約結果の提示という要約技術の満たすべき要素に対して，人の自然な振る舞いという新しい概念を取り込むことで情報の抽出を行い，また要約結果の提示にあたり美的に整形が取れているかを考慮してユーザに提示するシステムを提案する．要約技術の実現には関連要素技術で述べたように，時間・空間・時空間における重要度の推定が必要である．本研究では，視線という共通の解決法を利用し，簡易的でありながら正確な人の興味を反映した要約技術の実現を目指す．

1.2.1 フィルムコミックの自動生成

フィルムコミックの自動生成

はじめに，映像コンテンツから鑑賞者の視線情報を利用して自動でコミック調に合成する技術を提案する(図 1.1 参照)．フィルムコミックとは，主に CG やアニメーションなどの映像コンテンツをコミック調画像に変換したものである．従来，フィルムコミックの作成は専門家が人手で以下の処理を行っていた．すなわち，映像内に含まれる膨大な数のフレーム画像の中からシーンを代表するような重要なものを選出し，シーンの内容に応じたレイアウトを設計し，レイアウトの形状に合わせて選択したフレーム画像を加工し，セリフのあるシーンではセリフを配置して完成する．以上の工程において，重要フレームの選出は絵コンテに示されることが多いようにシーンの内容をよく描画するように選ばなくてはならず，またフレーム画像の加工やセリフの配置は画像内における重要箇所を切り取ったり隠したりしてしまわないようにして実現しなくてはならない．さらに，レイアウト設計はシーンの内容をよりわかりやすく内容が把握しやすいように整形する必要がある．しかし，重要フレームや画像空間内の重要箇所の検出には，映像作品そのものの理解が不可欠であり，画像処理技術のみからこれを実現することは難しい．そこで本研究では，人の興味を時空間的に抽出することで，以下の処理の自動化を実現した．1)映像コンテンツから人の興味を引くような，重要なフレーム画像の選出．2)見栄えの良さだけでなく，内容が把握しやすいレイアウト設計．3)重要箇所を切り取らず，元の構図を維持したトリミング．4)重要箇所を隠さず，読みやすく加工したセリフ配置．図 1.1 フィルムコミックの自動生成の概念図

(24)

鑑賞者の興味を捉えるための手段として，本研究では視線情報を利用している．まず， 1)に関して複数人の鑑賞者の視線位置を視線追跡装置によって取得し，視線移動における特異なパターンを抽出する．このパターンが生じるシーンは，映像コンテンツ内に変化を持つ箇所であることが予備実験の結果わかった．そこで，鑑賞者の視線移動のパターンから重要フレームの選出を行うことで，鑑賞者の興味を反映した動画要約を実現する．2) に関して，鑑賞者の視線情報は時間的な移動情報と空間的な分布情報を持つ．そこで，実際のコミックにみられるレイアウト作成法を視線の時空間情報と対応付け，鑑賞者の興味を反映するような内容が把握しやすいレイアウトを自動生成する．3)，4)に関して，視線情報の時空間分布と映像コンテンツの持つ局所画像特徴を統合することで，画像空間における情報を持つ領域を確率分布として表現し，これを利用して自動で最適な画像の編集を行う．これにより，視線移動という人の自然な振る舞いから重要情報の抽出を行いかつこれを最適に加工して提示する，フィルムコミックの自動生成技術を実現した．

1.2.2 オートフレーミングカメラ

オートフレーミングカメラ

次に，撮影時におけるユーザのカメラ移動から被写体を発見し，最適構図を探索して自動撮影をするオートフレーミングを実現する手法を提案する(図 1.2 参照)．オートフレーミングとは，被写体を発見し被写体位置が最適な位置となる構図を求めて自動で撮影する技術のことを指す．本研究では，オートフレーミングの実現に際して以下の手法を提案する．まず，予備実験の結果，撮影者は写真を撮る前に構図を決めかねてカメラを移動させることがわかった．そこで，1)このときのカメラ移動から，撮影者が何を撮ろうとしているのか，その主観的な被写体を推定する．そして，2)被写体位置が構図として良いかを調べるために三分割法というカメラ撮影におけるヒューリスティックなルールを用いて客観的に美観評価を行う．図 1.2 オートフレーミングの概念図撮影者の興味を捉えるための手段として，本研究では撮影者のカメラ移動を利用している．1)に関して，カメラ移動から被写体を推定するために，まずカメラ移動を動画としてとらえ一定間隔でサンプリングしてくることによって，ユーザのカメラ移動の経緯に関する情報を得る．そして，取得したサンプリングフレームに対して局所画像特徴を求め各フレーム間における画像の相対的な位置の対応を取り，すべてのサンプリングフレームを合

(25)

成する．重要な被写体はカメラ移動に対してどのフレームにも入っていると仮定し，時系列に沿って局所画像特徴の出現頻度を求めることで撮影者の主観的な被写体推定を試みる．また，構図を決めるために被写体の構造情報も重要な要素として考えらえるため，局所画像特徴の空間的な分布を求めて被写体構造を抽出する．これらを統合して被写体情報の確率分布を得る．2)に関して，求めた被写体情報の確率分布を基に最適なトリミング位置とスケールを探索する．ここで，重要な被写体ほど三分割法の線上・交点上によく乗るように評価することで，写真工学における一般的な構図が満たされる．これにより，カメラ移動という撮影者にとって自然な振る舞いから重要な被写体情報の抽出を行いかつこれを最適に加工して提示する，オートフレーミング技術を実現した．

1.2.3 リーディングライン効果を付与した顕著性マップ

リーディングライン効果を付与した顕著性マップ

最後に，静止画や動画において人の目を引く箇所を画像処理的に求める顕著性マップの要素として，特に写真工学で用いられるリーディングライン効果を付与した顕著性マップの作成技術を提案する(図 1.3 参照)．リーディングライン効果とは，空間上に直線成分や線群が一点に収束するように構成された場面では，人の目はリーディングラインの収束先に引かれやすいという経験則である．本研究では，検証実験により視線はリーディングラインの収束先に誘導されることを示した．そこで，リーディングラインを含む画像において既存の顕著性マップとリーディングラインの重みとを被験者の視線情報を用いて学習して求め，リーディングラインを付与した顕著性マップを実現した．図 1.3 リーディングライン効果を付与した顕著性マップの概念図

(26)

顕著性マップにリーディングラインを考慮する試みはこれまでになされておらず [26]-[34]，既存手法を用いたところ，実際の視線位置とは程遠い顕著箇所を推定した．提案手法では，様々なリーディングラインを含む画像について被験者の視線位置を用いて，リーディングラインの収束先を示す箇所と既存手法の顕著箇所の重みを学習した．これによって，未知の画像に対してもリーディングラインの収束箇所とそれ以外の顕著箇所を考慮して，より実際の視線を引く領域に近い顕著箇所を空間的に推定することが可能となる．また，これを基にして最適構図を求める問題を解決することで，より人の興味を反映した構図結果が得られることが期待できる．

1.3 論文構成

論文構成

本論文の構成を以下に示す．まず，第 2 章では映像コンテンツにおける要約技術を提案する．この研究では応用として，映像コンテンツをコミック調に加工して要約する“フィルムコミックの自動生成”技術を述べる．第 3 章では，写真における要約技術を提案する．この研究では応用として，自動でユーザの意図する被写体を推定し最適構図で撮影する“オートフレーミング”技術を提案する．第 4 章では，静止画における要約技術の基幹研究となる，重要領域の推定技術を提案する．この研究では対象をリーディングラインを含む写真として，“リーディングライン効果を付与した顕著性マップ”の実現方法を述べる．第 2 章～第 4 章内ではそれぞれの研究背景と特に関連する研究を述べ，提案手法を説明して評価結果を考察しまとめる．そして最後に，第 5 章で本研究のまとめを行い，本研究における提案技術の課題と今後の展望を述べる．

視線情報と美的評価則に基づく画像系列要約に関する研究 利用統計を見る

学位論文 博士 (情報科学)