[13] ipod PC 2 DVD ( 1) Foulke [6] Vemuri [15] [2] Vazquez-Alvarez [17]. PluralMediaPlayer, MultiWindowMediaPlayer, WmpSxunl [9] Cheng [3]

(1)

推薦論文●WISS

CinemaGazer:

動画の極限的な高速鑑賞のための

システムの開発と評価

栗原一貴

本論文では動画を高速に鑑賞する技術について検討する．映画 DVD などで一般的である字幕付きの動画を対象として，字幕のない箇所は高速再生し，字幕のある箇所については字幕を読むことが可能なように再生することで，鑑賞の娯楽的価値を保ちつつ鑑賞時間を通常よりも短時間にすることを可能にする．さらに高速鑑賞時の負荷軽減のための字幕表示インタフェースとしてセンタリング，フェーディングを実装する．また再生速度，文字読み速度，総鑑賞時間の指定により動画を出力でき，モバイル機器などの一般的な動画プレイヤーで再生可能なフォーマットに変換可能な汎用性の高いエンコーダを実装および公開し，評価実験により有効性を示した．

This paper presents a technology that enables the watching of videos at very high speed. Subtitles are widely used in DVD movies, and provide useful supplemental information for understanding video contents. We propose a “two-level fast-forwarding” scheme for videos with subtitles, which controls the speed of playback depending on the context: very fast during segments without language, such as subtitles or speech, and “un-derstandably fast” during segments with such language. This makes it possible to watch videos at a higher speed than usual while preserving the entertainment values of the contents. We also propose “centering” and “fading” features for the display of subtitles to reduce fatigue when watching high-speed video. We implement and publish a versatile video encoder that enables movie viewing with two-level fast-forwarding on any mobile device by specifying the speed of playback, the reading rate, or the overall viewing time. The eﬀectiveness of our proposed method was discussed and demonstrated in an evaluation study.

1 はじめに

インターネットの普及により，我々個人の扱う可能性のある情報の量は飛躍的に増加し続けている．例えば資料[7]によると動画投稿サイトYoutubeに1分間に投稿される動画数は600にのぼり，それは25時間分にも及ぶという．また，我々の扱う可能性のある情報メディアの多様化も著しい．テキスト文書情報に加えて，Podcastなどによる音声情報，及び動画共有・中継サービスによる動画情報など多岐にわたってきており，それぞれの

CinemaGazer: Development and Evaluation of a Sys-tem for Watching Videos at Very High Speed. Kazutaka Kurihara, 産業技術総合研究所, National

Institute of Advanced Industrial Science and Technology. コンピュータソフトウェア, Vol.29, No.4 (2012), pp.293–304. [研究論文] 2012 年 2 月 28 日受付. 情報量が増加の一途を辿っている．扱わなければならない情報の総量が増えたとき，一般的にその解決策として2つの戦略が独立に検討可能である．1つは，渡邊らのCastOven[16]のように情報処理にあてる時間を日常生活の中から捻出する戦略である．もう1つは，そのような努力により獲得した情報処理用の時間の有効活用をはかる戦略である．時間の有効活用をはかる戦略に注目すると，これはさらに2つのアプローチに分類される．1つは，情報を適切にフィルタリングして適正量に削減するアプローチである．もう1つは，ユーザの情報受容速度を向上するアプローチである．前者については，情報要約，検索，推薦などの分野で研究が今なお盛んであり，その革新的な成果は広く我々の社会に既に浸透している．しかし今後どれだけそれらが高機能化しても最終的にはある意味のある単位にまとまった情報がユーザに提供され，受容されるという構図は変わらな

(2)

図1 システム概要 いだろう．従って結局はユーザ個人の情報受容速度がボトルネックとなるため，後者の検討も必要となる．本論文では後者の，ユーザの情報受容速度向上を支援するアプローチをとる．テキスト情報については，「速読」と呼ばれる技術が従来から提唱されてきており[13]，そのような啓蒙書は多数存在する．一方で音声および動画についても，市販のビデオレコーダー， iPod等の音楽プレーヤーやPC上の一般のメディアプレーヤーで搭載されているように，再生速度を任意にコントロールすることにより高速な情報受容が可能になる．しかし情報として理解可能な再生速度には上限があり，これらの機器においても通常は2倍程度の高速再生が設定上の限度である．本研究は，動画の高速な情報受容の研究の第一歩として，映画などの娯楽動画を主に対象とし，画像としての動画の受容速度と音声言語および文字言語の受容速度の違いを考慮に入れた高速な動画鑑賞手法を検討する．具体的にはそのような動画の一般的な配信形態であるDVDメディアなどに付随している字幕情報を活用して，字幕のない箇所は高速再生し，字幕のある箇所については字幕を読むことが可能なように再生することで，鑑賞の娯楽的価値を保ちつつ鑑賞時間を単純な高速再生と比べて短時間にすることを可能にする(図1)．本論文では，まず関連研究との関係性を論じる．その後，動画の高速鑑賞方法の検討を行い，プロトタイプの実装について詳細に記述する．さらに，評価実験について報告し，提案手法がもたらしうる動画鑑賞体験の変容について議論する．

2 関連研究

本研究は動画メディアの高速鑑賞を検討するものである．メディアの高速再生に関しては，一般的なメディアプレーヤーで既に再生速度の調整は広く実装されている．Foulkeらは，音高を変えない音声の高速再生が理解の上で有効であることを示した[6]．Vemuri らは音声情報の高速再生時に，その音声の音声認識結果のテキスト情報を提示することによるユーザの情報処理速度の向上の試みを検討した[15]．また青木ら [2]は聴覚のみを用いた音楽検索インターフェースとして高速再生を導入している．我々は音声だけではなく映像も同時に鑑賞するという，マルチモーダルな高速鑑賞に関する諸問題を検討する．特に高速再生時の複数モダリティ間の理解可能速度の違いの検討が重要である．別のアプローチでの高速化の事例として，並列化を扱ったものが挙げられる．音声・音楽情報の検索・選択の際，三次元的な音像提示を行ない一度に複数の音源を扱えるようした手法はこれまで提案されてきているが，Vazquez-Alvarezらはその認知的負荷とインタフェース設計指針について議論している[17]. また，動画の鑑賞の効率化のために同時に複数の動画を再生したいというニーズがあり，PluralMediaPlayer, MultiWindowMediaPlayer, WmpSxunlなど，そのようなソフトウェアが多数公開されている．我々は動画鑑賞の並列化は一般のユーザへの負担が大きいと考え，単一のストリームの動画メディアの高速鑑賞のみを取り扱う．一方で我々の高速動画鑑賞方式を用いた上で複数の動画メディアを並列的に提示することも技術的には容易であるため，将来的には並列化のアプローチとの統合も可能である．動画の鑑賞を扱った研究として，清山らはテレビなどのリアルタイム放送の鑑賞時に高齢者等にも理解が容易になるよう，音声再生速度を通常より下げて再生する機能を開発している[9]．Chengらは映像の変化率に合わせて再生速度を自動調整するアプローチを提案しているが，消音状態でコンテンツを扱っており，音声モダリティについての検討がなされていない[3]．我々は本論文で，動画を最初から最後まで本来の時

(3)

系列順のまますべて鑑賞するシステムを提案する．これは特定の動画箇所の完全な削除や時系列順の入れ替えを伴う「切り貼りに基づく要約」を行わないことがユーザの鑑賞の快適さ，特にエンタテインメントコンテンツの鑑賞の快適さに重要な影響を与えると考えているからである．[1] [12] [11] [5] [4] [10] [14] などの多くの動画要約の研究と本研究とはこの点で異なる．

3 高速鑑賞方式

本章では動画の高速な鑑賞を可能にする方式を総合的に検討する． 3. 1 高速鑑賞方式の分類と検討映画DVDコンテンツを念頭においた場合，その構成要素として，「主映像」，「言語情報1:字幕映像」，「言語情報2:字幕映像に対応する音声」，「字幕映像に対応しない音情報」，の4種に分解可能である．主映像とは，視覚情報として提示されるもののうち，字幕以外の「地の映像」のことである．字幕映像とは，主映像に重畳して表示される字幕の映像のことである．これは言語情報のひとつである．字幕映像に対応する音声とは，すべての音情報のうち，字幕に対応付けられている「声」の情報である．これも言語情報のひとつである．それ以外の，BGMや効果音等は字幕映像に対応しない音情報となる．動画の高速鑑賞方法として，主映像と言語情報の同期(言語情報の提示開始と終了のタイミングが主映像と一致していること)を保存するかどうか，および言語情報を選別し完全に削除することを許すかどうかによりいくつかのアプローチが考えられる．図2は，考えられるアプローチを時系列の模式図で可視化したものである．(1)は通常の再生を表している．(2)の単純高速再生は単純に再生速度を増加させる鑑賞方式である．この際，音声の周波数は変化しないように調整される場合もある．主映像と言語情報は常に同期している．近年のビデオレコーダーには 1.3倍もしくは2倍程度の単純高速再生が実装されている．さらなる高速化を本方式で図る場合，音声が聞き取れなかったり対応する字幕が読み取りきれなくなる可能性がある．図2 高速鑑賞方式の模式図 (3)は[9]などで実装されている機能で応用可能な高速鑑賞方式である．主映像の高速再生中，言語情報の一部もしくは全部を切りだして，速度を変換し提示する．主映像の速度は固定であるため，言語情報を理解可能な速度にするために主映像との同期を諦めている．情報を選別し完全に削除することを許容せず，言語情報のすべてを理解可能な速度にして主映像に重ねると，両者の間に深刻なズレが生じる可能性がある．我々が本論文で提案する(4)「変速再生」は，主映像と言語情報の同期を保存し，かつすべての言語情報を保存するアプローチを取る．すなわち，主映像のみの箇所については理解が可能な限界の速度で再生し，言語情報の提示箇所ではその言語情報が理解可能な限界の速度で再生する，というアプローチである．動画の再生速度を構成要素別に制御することで，単純高速再生を超える速度での高速鑑賞を可能とする．また情報を選別し完全に削除することがなく，主映像と言語情報は同期がとれている．本論文では字幕映像，およびそれに対応する音声という2種の利用可能な言語情報のうち，学習を前提とすればより高速な理解が可能となる文字情報モダリティである字幕映像に特に注目する．字幕映像は一般に流通している映画DVDなどで広く利用可能であり，DVDの規格からその表示タイミング情報および

(4)

発話された内容のテキスト情報が容易に抽出できる利点がある． 3. 2 変速再生の定量的検討本節では変速再生方式における再生速度や鑑賞に必要な時間などを定式化し検討する．対象の動画の自然速度における鑑賞時間をL[sec]とする．主映像のみの箇所はSm倍速，字幕の付与された箇所はSs倍速で再生されることとする．動画中の主映像のみの箇所と字幕映像箇所の時間比をr : 1 − rとすると，対象動画の鑑賞に必要な総時間L_Q[sec]は， LQ= rL Sm+ (1− r)L Ss (1) と表せる．比LQ/Lを圧縮率と定義すると，全体としてどの程度時間圧縮が実現したかがわかる．上式でわかるように，本再生方式はSmとSsがユーザ依存パラメータだが，L_Qへの寄与が独立している点が特徴である．適切なインタフェースを備えることで，SmとSsそれぞれについてユーザが高速化に向けた学習を行うことが実現できると考えられる．式1における主映像のみ・字幕映像比率rは対象動画に依存するパラメータである．実際の映画から rの分布を見積もった．対象は日本語字幕のある映画DVDで，以下の15本である．アバター，クライマーズハイ，デスノート1，カイジ，南極料理人，ペイフォワード，流星の絆1，三文オペラ，SAW，SP 野望篇，シンレッドライン，月の輝く夜に，バンデージポイント，夕凪の街桜の国，ドラえもん・のび太の結婚前夜である．新旧さまざまなジャンルのものを選んだ．その結果，rの平均値は0.578であり，標準偏差は 0.118であった．ここから，およそ5∼7割程度は主映像のみの箇所であることがわかる．すなわち，調査対象の映画に限定すればSsよりもSmの方が圧縮率への寄与率が平均的には大きいことがわかる．

4 インタフェース

4. 1 鑑賞方法指定インタフェースここでは変速再生を前提とした動画の鑑賞方法の指定方法について検討する．これは具体的には式1におけるユーザ依存パラメータであるSmおよびSsを指定する方法についての検討である．提案システムでは以下の3種類のインタフェースを開発した． 1. S_mとS_sの直接指定 2. S_mと文字読み速度による指定 3. 総鑑賞時間とSsによる指定最も単純なのは1.のSmとSsについて，通常速度を1.0とした時の倍率として直接的に指定するものである．これは各ユーザが自分に最適な速度をそれまでの使用経験から知っている場合に有効である． 2.は字幕の付与された箇所の速度について，倍率ではなく文字読み速度St[文字/min]で指定するものである†1．この場合は式1に修正が必要である．i 番目の字幕映像として表示されるテキストの総量を Nti[文字]とすると，対象動画の鑑賞に必要な総時間 LQ[sec]は， LQ=_SrL m+ 60ΣNti St (2) と表せる．試みに3. 2節で挙げた15映画における総数10913 の字幕において，OCRを用いて†2得られた字幕内部の文字数を字幕表示時間で割ると平均は329.9[文字/min]，標準偏差は288.1[文字/min]である．これはユーザの文字読み速度が329.9[文字/min]であれば平均的には字幕を読み終わることができることを示している．ここで一般の日本人の文字読み速度は 500から1000[文字/min]程度であり[13]，訓練次第で10000[文字/min]程度に至ると提唱する速読手法もあることから[13]，一般の文字読み速度であっても本インタフェースによって通常速度以上の鑑賞が可能であり，訓練によりさらなる高速鑑賞が可能になると考えられる． 3. は「どうしてもこの映画を30分で見たい」のように動画の鑑賞に必要な時間をもともとの動画の総時間Lとは無関係にユーザが指定するインタフェースである．任意の時間を分単位で入力すると，式1から字幕情報速度をなるべく変えないよう主映像速度 †1 英語などでは word 単位の方が適切な指標である． †2 一般的な DVD の字幕はテキストではなく画像とし て本編とは別のチャネルに埋めこまれていることが多い．

(5)

を変化させる．本インタフェースは日常生活におけるユーザと情報との新たな接点を模索したCastOven [16]に適用することもでき，システムの機能拡張が可能である． 4. 2 字幕表示インタフェース我々は更に字幕付き動画の高速鑑賞時の負荷軽減のため，以下の2つのインタフェースを開発した．センタリング: 高速で字幕付き動画を鑑賞する際に問題となると考えられるのは，字幕映像と主映像との間の視線移動である．通常速度の鑑賞であれば字幕映像の表示時間は十分あるため問題とならないが，高速鑑賞時は頻繁な視線移動により疲労が蓄積するか，もしくは字幕のみに注目してしまい主映像を快適に鑑賞できなくなる可能性がある．本研究では栗原ら[8]の提唱した「聴衆の視線移動の局所化」の概念に基づき，冗長な視線移動を最小化する．通常，主映像は画面中央部を中心としてコンテンツが構成される．一方で字幕はそのような主映像の邪魔にならないよう，画面周辺部，主に画面下部に表示される．センタリングは，字幕を画面中央部に表示することで主映像と字幕の中心を一致させる手法である．鑑賞者が画面中央部を常に注視するだけで鑑賞が可能になる効果があると予想される．一方で本手法は主映像コンテンツを結果的に「邪魔する」状態になるため，鑑賞の快適さに与える影響について評価する必要がある．フェーディング: フェーディングは，ある字幕の表示が終わった際，次の字幕が表示されるまでの区間，直前に表示していた字幕を半透明化し継続表示する手法である(図3) ．これにより各字幕の表示時間が延長されるため，高速鑑賞が快適になると考えられる．また半透明化することで既にその言語情報の提示が本来終了していることが可視化されるため，主映像との同期が主観的には保たれると考えられる．延長される表示時間はSmとSsとの比の組み合わせにより異なるが，両者が一致している場合，3. 2節で挙げた15映画における総数10913の字幕の平均で2.62 倍の延長を実現できた．その他のインタフェースの検討: 本論文では対象と図3 フェーディング する字幕形式として画面上に固定された字幕のみを扱った．一方で動画投稿サイト「ニコニコ動画」や海外のニュースなどで用いられている「流れる字幕」については，基礎的な検討のみ行った．具体的には，過去の字幕を画面外方向にスクロールさせ，最新の字幕としばらく共存させるインタフェースを試作したが，高速鑑賞時の視線移動が激しくなり疲労の度合いが非常に大きかったため，実用化にはさらなる検討が必要と判断し本稿では割愛した．

5 システムの実装

我々は変速再生を実現するビデオエンコーダ， Cin-emaGazerを実装し公開した†3．当初はリアルタイムに再生速度を変更する動画プレーヤーとしての実装を試みたが，2倍を超える任意のS_m，S_sをリアルタイム制御しながら映像と音声を安定して出力することが難しかったため断念した．一方で実装した動画エンコーダを用いれば任意のSm，Ssの組み合わせの動画ファイルを瞬時に出力できるため，あらゆる再生倍率の動画ファイルを事前準備し切り替えることでリアルタイム倍率制御と同等のことが通常の動画プレーヤーで実現可能である．実装した動画エンコーダを使用する前処理として，字幕付き動画を用意する必要がある．DVDをソースとして用いる場合，DVD Fab†4などのGUIによる DVDリッパーのオプション設定により簡便に行なうことが可能である．CUIではVSRip†5を用いて行な †3 https://sites.google.com/site/qurihara/home/ cinemagazer †4 http://www.dvdfab.jp/ †5 http://sourceforge.net/projects/guliverkli/ﬁles/

(6)

うことができる．前処理の結果，動画ファイルと一般的なフォーマットの字幕ファイル(.idxおよび.sub) が生成される．前処理で得られたファイルを入力として変速再生動画を出力するのが実装したエンコーダであり，C#を用いて実装した．これはGUIからのSmおよびSs の直接指定，もしくは文字読み速度[文字/min]の指定，および総鑑賞時間の指定に基づき，動画ファイルを適切に伸縮・結合したAviSynthスクリプト†6として生成するものである．映像および音声の伸縮には AviSynthの組み込み関数であるTimeStretch関数， AssumeFPS関数，ChangeFPS関数を用いて，音高が変化しないようにした．字幕情報はLayer関数を用いて画像として重畳した．AviSynthスクリプトはテキストファイルでありながら，直接Windows Media Playerで動画として再生できる．さらにﬀmpeg†7を用いてMP4やWMVなどの一般的な動画フォーマットに変換し，スマートフォンなどの広範なデバイスで再生可能とする機能を内蔵した．

6 評価実験

本節では提案システムを用いた評価実験について報告する．実験には視聴覚が健常な10名(30代男性 2名，20代男性7名，20代女性1名)が実験協力者として参加した． 6. 1 方法全ての実験協力者が(1)文字読み速度測定，(2)音声言語受容速度測定，(3)文字言語受容速度測定，(4) 主映像受容速度測定，(5)総合的動画鑑賞，の5つのタスクを遂行した．タスクの実行順は(1)が最初， (5)が最後で固定であるが，(2),(3),(4)については順序効果の相殺のため実験協力者ごとにランダム化した．(1)は他の4つのタスクと独立しており，最初に配置した．一方(5)はタスク(3)および(4)の結果を利用するため，最後に配置した．環境としてノートパソコンSony VAIO VPCF1(ス VSRip/ †6 http://avisynth.org/mediawiki/Main Page †7 http://ﬀmpeg.org/ クリーンサイズは縦20.0cm，横36.4cm)を机上に置き，椅子に実験協力者が座り通常のPC操作時と同様の距離を液晶画面からとった．音声についてはヘッドフォンを用い，音量を各実験協力者が適切に設定した．タスク(1)ではInternet Explorer上にマウスククリックと同時に夏目漱石の「こころ」の一節を横書きで1行30文字，16行表示し，終了時のマウスクリックまでにかかった時間を取得し，読書速度を[文字/min]で得た．タスク(2),(3),(4),(5)については液晶画面に Win-dows Media Playerをフルスクリーン表示した．そ

こで様々に速度等を変更した上でエンコード(映像：

mp4 VGA 8bit AVC/h264 23.98fps 1200kb/sec,音声：AAC 48kHz 2.0ch 128kb/sec)したアニメ映画「ドラえもん・のび太の結婚前夜」の冒頭7分間ぶん (通常速度再生時)を再生した． (2)では字幕のない動画について主映像と音声を鑑賞させ，言語として音声内容の理解が可能な上限の速度を求めた．速度の変化範囲は1.0倍から10.0倍まで0.5倍刻みで，音高の変化のない単純高速再生である． (3)では字幕のついた動画について字幕のみに注目させ，言語として字幕内容の理解が可能な上限の速度を求めた．ここでも速度の変化範囲は1.0倍から10.0 倍まで0.5倍刻み，音高の変化のない単純高速再生である． (4)では音声をミュートし字幕のない動画を鑑賞させ，主映像が映像として理解可能であり流れを追うことができる上限の速度を求めた．この場合発話される言語の内容は判別できないため，発話内容の理解については行わなくてもよいように教示を行なった．ここでも速度の変化範囲は1.0倍から10.0倍まで0.5倍刻みの単純高速再生である． (5)では(3)および(4)で求めた主映像と字幕の理解可能速度の上限を組み合わせた字幕付き動画を鑑賞させて，鑑賞の快適さを主観評価させた．たとえば (3)で2.5倍が上限と答え，(4)で6倍が上限と答えた場合は，S_mが6倍でS_sが2.5倍であるような音高の変化のない変速再生動画を鑑賞する．この際，字幕の表示位置について，オリジナルの字幕と同様に

(7)

図4 読書速度 [文字/min](横軸) と字幕付き動画の 字幕鑑賞時の文字読み速度[倍](縦軸) の相関 画面の下部に表示するO条件，センタリングを行なうC条件，センタリングかつフェーディングを行なうCF条件の3条件を試行した．主観評価は1をとても不快，3を普通，5をとても快適とする1から5 までの実数値の申告により行なった．また本タスクでは一部(2名)の実験協力者について，画面上での視線の注視点座標を非装着型視線計測器Tobii X60で計測して60Hzで記録した． 5つのタスクの終了後，実験協力者に自由回答で感想を得た． 6. 2 結果タスク(1)とタスク(3)から，読書時と字幕付き動画の字幕鑑賞時の文字読み速度の相関が得られる．図4に散布図を示す．相関係数は0.143であり，低かった．タスク(2),(3),(4)から，音声情報，字幕情報，主映像の速度変化に対する実験協力者の鑑賞可能人数比率がプロットできる(図5)．図中の実線は，2パラメータのロジスティック関数f(x) = 1/(1+exp(a(x−b))) を最小二乗法で当てはめたものである．なお，主映像速度については，今回の最大速度である10倍でも10 名中7名が限界と感じていない．10倍以上の動画は試験しなかったため，真の限界は不明なままである．タスク(5)から，限界的な速度の変速再生における 3種類の字幕表示条件の快適さが得られる．図6は全実験協力者についてそれを示したものである．O， C，CF条件の平均値はそれぞれ1.95，3.43，3.75であり，標準偏差は0.599，0.778，0.677であった．図5 鑑賞の速度倍率 (横軸) と実験協力者の 鑑賞可能人数比率(縦軸) の関係 図6 3 つの字幕表示条件における快適さ 6. 3 考察まず図4の相関係数が0.143と低かった点について，通常の読書と字幕鑑賞は異なるスキルを鑑賞者に要求する可能性が示唆される．通常の読書では文字の分量や改行位置の予想が事前に可能であるため眼球の運動計画が立てやすいが，字幕鑑賞では事前に字幕の更新のタイミング，表示される分量が予想できないため，このような違いが生じているのかもしれない．本論文で実装したシステムには，文字読み速度[文字/min]に基づいて字幕表示速度を字幕毎に自動設定する機能を有しているが，今後本機能の有効性を詳しく検証する必要がある．次に図5について，音声情報，字幕情報，主映像の順に鑑賞可能性の速度耐性が高くなることが確認された．音声情報鑑賞可能速度は特に個人差が小さく，次いで字幕情報，主映像の順で個人差が大きくなっていくことが確認された．パラメータb(鑑賞可能人数比率が0.5になる速度)を鑑賞可能速度の代表値として捉えると，それぞれ音声情報で1.55倍，字幕情報

(8)

図7 O 条件と CF 条件における画面上の注視点分布 (横軸は x 座標 [pixel]，縦軸は y 座標 [pixel]) で5.91倍,主映像で11.1倍であり，音声言語の耳からの理解を諦めることによって式1により変速再生方式は鑑賞時間の85.5%の削減を実現できる可能性があるという著しい結果を得た．しかし，今回得られた結果は実験に使用した動画素材に依るところが大きい．まず，使用した動画素材は短時間のものであるため，極限的な高速鑑賞時に疲労が蓄積されるほどの分量ではなかった†8．また全体的にシーンの切り替え速度やカメラ視野の移動速度が小さく，言語も比較的明瞭であまり高速にならないような配慮がされている可能性のあるアニメ動画である．したがって今回の実験で得られたのは提案システムを用いて実現可能な動画の高速鑑賞の上限に近い結果が得られるケースであったと考えられる．より長時間の鑑賞時，およびアクション映画やサスペンス映画など，より激しい映像変化や速い会話のやりとりが多いコンテンツでは，今回と異なる結果が得られると考えられる．我々のインフォーマルな調査ではそのような会話の速いコンテンツであっても音声言語情 †8 ただし本動画を最後まで視聴したとしても Sm= 11.1， Ss= 5.91 のときわずか 3 分 44 秒である．図8 O 条件と CF 条件における画面上の注視点分 布ヒストグラム(横軸は注視時間の相対頻度，縦 軸はy 座標 [pixel]) 報よりも字幕言語情報の方が高速に鑑賞できるという関係は保存されているため，提案手法は有効であると予想している．さらに[3]と組み合わせ，映像の時間当たりの変化率を定量的に求め主映像速度に反映させることにより，映像変化の激しさを補正した見やすい速度での鑑賞も実現可能であると考えられる．これは今後の課題である．次に図6に示した3種類の字幕表示条件での快適さについて考察する．O条件が他の2条件よりも快適であると回答した実験協力者が1人もいなかったことから，動画の変速再生を行う上でセンタリングが相対的に有効である可能性が示唆された．実験協力者のコメントからも，限界に近い速度での動画鑑賞においてはO条件では字幕・主映像間の視線の移動が不快さにつながっている可能性が示唆された．一方字幕が画面中央に表示されるCおよびCF条件では，基本的に視線は画面中央付近に向けられるため，そのような不快さは軽減されていると考えられる．その確認のため1人の実験協力者(ID:10番)について，タスク(5)におけるO条件とCF条件での画面上の視線の注視点座標分布を，xy座標上の散布図，及び y座標(鉛直方向)のみに限定した注視時間の相対頻度のヒストグラムとしてプロットした(図7，8)．確かにCF条件では注視点は画面中央(y = 600)付近に集中しており，O条件では字幕表示位置である画面下部(y = 350)と画面中央(y = 600)付近に注視点が分散していた．これはCF条件により「聴衆の視

(9)

線の局所化[8]」が達成され有効に機能していることを示唆するものである．また，C条件とCF条件で顕著な差が得られなかった点については，CF条件がフェーディングにより1 字幕あたりの表示時間の増加に寄与するものの，矢継ぎ早な会話のやり取りのある箇所では字幕と字幕の間の沈黙区間が短く，フェーディング時間がほぼゼロに近くなってしまう問題，会話のない長い区間に直前の字幕がずっとフェーディング表示されてしまい主映像にそぐわなくなる問題などが実験協力者のコメントから示唆された．前者については原理的に対処不可能であるが，後者についてはフェーディング表示時間の上限を設定し字幕を消去することで対応が可能であると考えられる．最後に，今回我々は実験協力者の主観的な理解度および鑑賞の快適さを取得し分析を行い，理解度テストなどに基づく客観的理解の取得を行なわなかった．これは動画鑑賞の娯楽的な価値の保存の度合いを評価する上では主観的な理解度および快適さが適切な評価基準だと考えたためである．一方でニュースや講義などのように，そこから何らかの知識を習得しなければならないような性質のコンテンツに関しては，客観的理解に基づく評価が必要になるだろう．これは今後の課題である．

7 議論

提案システムは，ユーザの動画鑑賞体験を変容する可能性を持っている．これには2つの側面がある． 1つは，変速再生方式により動画鑑賞そのものの形式と質を従来と異なるものにしてしまう可能性である．もう1つは，ユーザの生活の中での動画鑑賞との関わり方を従来と異なるものにしてしまう可能性である．本節ではこのような体験の変容について，議論を深める．これは提案システムを日常的に使用して久しい筆者個人の経験に基づく議論であるため一般化は難しいが，今後の関連研究の発展に役立つことを期待する． 7. 1 鑑賞の変容提案した変速再生方式は，コンテンツ中の言語提示箇所をやや高速に，そして言語非提示箇所をより高速に再生するものである．これはいわば明示的に表現された言語に大きな重みをおいた「コンテンツ鑑賞の再構成」とみなすことができる．また結果的に， 2種類の速度で再生された動画片たちが交互に接続された動画として出力される．したがって非言語情報が主体となるようなコンテンツや，一定のテンポで進行することが重要なコンテンツ，たとえば音楽動画やダンス・カンフーなどの身体表現を楽しむ動画，およびコンピュータグラフィックスの美しさを楽しむ動画などの鑑賞には提案手法は明らかに不向きである．提案手法が適するのは，物語性をもった動画の鑑賞であると考えられる．物語性とはここでは「起承転結」のように，正しい順でコンテンツを鑑賞することによって得られる価値と定義する．提案手法により動画鑑賞は，動画中の物語性に大きな重みをおき，他の要素を比較的軽視する体験へと変容するといえるかもしれない．必然的に，対象ユーザはそのような重み付けを甘受できる人々のみに限定される．多くの動画の物語性は明示的な言語情報と非明示的な言語情報の時系列的な接続が繰り返された総体として生じていると考えられる．総体として生じているため，ユーザは最初から最後まで正しい順にコンテンツを鑑賞しなければその物語性を享受した満足感が得られにくい．ここから「切り貼りに基づく要約」手法に対する，「コンテンツ全体の高速鑑賞」手法の妥当性も正当化できる．また，物語性をもった動画の代表例として映画が挙げられるが，多くの映画は小説を原作としている．必然的に会話やナレーションなどの明示的な言語情報を主体として物語が構築される傾向にあり，そこに重みをおいた提案鑑賞形式は相性が良いと考えられる．さらに明示的な言語情報がないシーンであっても，そこから読み取るべき言語メッセージは明確である場合が多く，明示的な言語提示部と比較してより高速な鑑賞に堪えうるのではないかと予想している．次に，提案手法は言語提示箇所に重みをおいた鑑賞手法だが，言語非提示箇所を完全に捨てているわけではない点が特徴である．類似の観点で言語情報に注目

(10)

して動画鑑賞の変容を実現した例として，TED†9やソースネクスト社の「超字幕」シリーズ†10などが挙げられる． TEDのウェブサイトでは，講演動画中の音声の書き起こしテキストをクリックすると該当箇所に映像が頭出しされるInteractive transcript機能が実装されている．これは提案手法よりも極端に言語提示箇所への重みを強めた設計といえる．なぜなら，原則的には言語情報(テキスト)のみを表示させ，必要に応じてインタラクティブに映像を表示させているからである．この手法は講演やニュース動画のように，言語情報がコンテンツの中心となるような様式・構造をもっており，映像の補助がなくとも文脈が理解しやすい場合に有効であることが予想される．一方で提案手法は，そのような構造化がなされておらず，明示的な言語情報のみから文脈が理解しにくい場合に有効であろう．一般に映画などの娯楽用動画コンテンツは，そのような様式や構造に縛られないため，非言語情報の鑑賞も重要になってくる．超字幕シリーズでは，映画を題材として英語を学ぶためのインタラクティブな機能が多数実装されている．TEDと同様に字幕と対応映像箇所を関連付ける機能や，マウスクリックにより前後の字幕提示箇所にスキップできる機能などである．この場合，映画の物語性は英語学習の動機づけに用いられているにすぎないため，必ずしも重要ではない．すなわち，最初から最後までコンテンツを正しい順で鑑賞することや，言語非提示箇所を含めて内容を理解することは必ずしも求められない．一方，提案手法においても，言語提示箇所の再生速度を1倍以下にすることで，外国語を聴きやすく・見やすくすることができるため，外国語学習の支援に活かすことは可能である．これは物語性の鑑賞を担保した，軽度な外国語学習の支援という位置づけになるだろう． 7. 2 生活の変容先述したTEDや超字幕シリーズのような事例では，もともと受動的だったコンテンツ鑑賞にインタラ †9 http://www.ted.com/ †10 http://www.sourcenext.com/product/chj/home/ クティブな機能を導入し，鑑賞の効率化や英語学習などの支援を行なっている．しかし提案手法は，視線移動を含めあえて鑑賞中のユーザインタラクションを最小化することで鑑賞の受動性を保存し，ユーザが鑑賞に没入することを促している．これは鑑賞の高速化の限界に挑むことを意図したものだが，副次的に提案システムが使われるシチュエーションにも影響を与えている可能性がある．本節では設計時に意図した，しないにかかわらず，提案手法が結果的に日常生活に与えうるこのような影響について議論する．まず，日常生活における動画鑑賞の機会を増大させる可能性がある．提案手法はユーザインタラクションの最小化の良い副作用によりシステムの出力が単純なビデオファイルとなり，モバイルデバイスを含む多様なデバイス上での高速鑑賞が可能である．また，総鑑賞時間の指定により，利用可能な時間に合わせた動画鑑賞が可能になった．これらは動画鑑賞において障壁となる，ユーザの空間的制約(どこにいるか)，時間的制約(何分使えるか)を同時に緩和するものである．また，鑑賞時のインタラクティブな入力が不要なので，同時に複数人での鑑賞も従来通り可能である．これらの特徴により，1節で分類した「情報処理用にあてる時間を日常生活の中から捻出する戦略」との柔軟な統合が期待できる．一方で，特に極限的な速度における鑑賞についてはユーザに高度な集中力を要求するため，動画の鑑賞と別の作業とを同時進行させる「ながら鑑賞」が行いにくくなる可能性がある．通勤・通学時の待ち時間での利用などでは問題ないが，歩行中の利用などの場合は交通安全に対する注意が必要である．同様に，運転中，料理中，勉強中などのタスク実行中の利用も現実的ではないだろう．これは逆に言えば，「観ようと思ったら観ることしかできない」ことを意味しており，非効率で効用も低い「ながら鑑賞」に陥りがちな人々にとっては，動画鑑賞の時間を生活の中で独占的に確保できるように強制できることも意味する．次に，動画鑑賞に臨む際のユーザの心理状態を変容する可能性がある．多くの人々は通常，余暇の時間にリラックスするために動画鑑賞を行なっている．そのような状況の人々には提案システムのような高速鑑賞

(11)

支援は不要であり，むしろ変速再生が必然的にもたらす「慌ただしさ」は，リラックスしたいという主目的に対し悪影響を与えることだろう．しかし1節で述べたように，我々が扱う可能性のある動画情報は飛躍的に増加しており，一方で我々に与えられた時間は有限である．時にユーザは社会的圧力や義務感から動画鑑賞に臨まなければならず，また時に「うしろめたさ」を感じながら動画鑑賞に臨まなければならない．知人との話題作りや教養のために，自分には興味のない流行の映画やドラマを見る場合や，ある作業をしなければならないが気が進まず，逃避行動として動画鑑賞をする場合がその具体例である．このような心理状態のユーザに対し，提案手法は鑑賞時間の適切な圧縮により，「これくらいの時間で終わるならば観てもいいかな」という安堵を与えることができる可能性がある．これは，鑑賞対象動画とユーザの興味・心理状態に関するミスマッチの緩和である．

8 まとめ

本論文では動画の高速な鑑賞方法として主映像と言語情報の再生速度を独立して制御する変速再生方式を提案し，字幕付きDVDを対象としたビデオエンコーダとして実装した．評価実験により字幕のセンタリングが高速鑑賞に有効であることが示され，また鑑賞時間を平均85.5%削減できる可能性のある事例が示された．今後はよりフォーマルなユーザスタディを行い，動画のジャンルに依存するユーザの高速鑑賞の限界速度の調査等を行ないたい．また，音響情報処理や音声認識技術により，字幕のない任意の動画の高速鑑賞を可能にすることも検討したい．謝辞本研究の一部は科研費(23700155)の助成を受けたものである．参考文献 [ 1 ] 青木秀憲，宮下芳明: ニコニコ動画における映像要約とサビ検出の試み, 情報処理学会研究報告 2008-HCI-128/2008-MUS-75，Vol. 2008, No. 50 (2008), pp. 37– 42. [ 2 ] 青木秀憲，宮下芳明: 視覚を用いない状況下での高速楽曲探索インタフェースの設計と検証，情報処理学会論文誌, Vol. 51, No. 2 (2010), pp. 356–364.

[ 3 ] Cheng, K., Luo, S., Chen, B. and Chu, H.: SmartPlayer: User-Centric Video Fast-Forwarding, in Proceedings of CHI’09, 2009, pp. 789–798. [ 4 ] Dragicevic, P., Ramos, G., Bibliowitcz, J.,

Nowrouzezahrai, D., Balakrishnan, R. and Singh, K.: Video browsing by direct manipulation, in

Pro-ceedings of CHI’08, 2008, pp. 237–246.

[ 5 ] Fabro, M. D., Schoeﬀmann, K. and Boszor-menyi, L.: Instant video browsing: a tool for fast non-sequential hierarchical video browsing, in

Pro-ceedings of USAB’10, 2010, pp. 443–446.

[ 6 ] Foulke, W. and Sticht, T. G.: Review of research on the intelligibility and comprehension of acceler-ated speech, Psychological Bulletin, Vol. 72 (1969), pp. 50–62.

[ 7 ] INFOGRAPHIC: What Happens Online Every 60 Seconds, http://www.scribbal.com/ 2011/06/ infographic-what-happens-online-every-60-seconds/. [ 8 ] Kurihara, K., Nagano, N., Watanabe, Y., Fu-jimura, Y., Minaduki, A., Hayashi, H. and Tutiya, Y.: Toward localizing audiences’ gaze using a multi-touch electronic whiteboard with sPieMenu, in

Pro-ceedings of IUI’11, 2011, pp. 379–382.

[ 9 ] 清山信正, 今井篤, 三島剛, 都木徹, 宮坂栄一: 高品質リアルタイム話速変換システムの開発, 電子情報通信学会誌, Vol. J84-D-II, No. 6 (2001), pp. 918–926. [10] Pongnumkul, S., Wang, J., Ramos, G. and

Co-hen, M.: Content-aware dynamic timeline for video browsing, in Proceedings of UIST’10, 2010, pp. 139– 142.

[11] Schoeﬀmann, K., Taschwer, M. and Boeszoer-menyi, L.: The video explorer: a tool for naviga-tion and searching within a single video based on fast content analysis, in Proceedings of MMSys’10, 2010, pp. 247–258.

[12] Schoeﬀmann, K.: Facilitating interactive search and navigation in videos, in Proceedings of MM’10, 2010, pp. 1609–1612.

[13] 速読を始めよう, http://www.ponp.jp/info/ speed.html.

[14] Valdes, V. and Martinez, J. M.: Introducing risplayer: real-time interactive generation of per-sonalized video summaries, in Proceedings of

SAP-MIA’10, 2010, pp. 9–14.

[15] Vemuri, S., DeCamp, P., Bender, W. and Schmandt, C.: Improving speech playback using time-compression and speech recognition, in

Pro-ceedings of CHI’04, 2004, pp. 295–302.

[16] Watanabe, K., Matsuda, S., Yasumura, M., In-ami, M. and Igarashi, T.: CastOven: a microwave oven with just-in-time video clips, in Proceedings of

Ubicomp ’10, 2010, pp.385–386.

[17] Yolanda, V. A. and Stephen, B. A.: Designing spatial audio interfaces to support multiple audio streams, in Proceedings of MobileHCI ’10, 2010, pp. 253–256.

(12)

栗原一貴 2007年東京大学大学院情報理工学系研究科コンピュータ科学専攻博士課程修了．PhD．日本学術振興会特別研究員(DC2)を経て同年，産業技術総合研究所に入所，現在メディアインタラクション研究グループ研究員．ユーザインタフェース，特にプレゼンテーションツール，ICT技術の教育応用，及びユビキタスコンピューティングに関する研究に興味をもつ．