推薦論文●WISS
CinemaGazer:
動画の極限的な高速鑑賞のための
システムの開発と評価
栗原 一貴
本論文では動画を高速に鑑賞する技術について検討する.映画 DVD などで一般的である字幕付きの動画を対象とし て,字幕のない箇所は高速再生し,字幕のある箇所については字幕を読むことが可能なように再生することで,鑑賞 の娯楽的価値を保ちつつ鑑賞時間を通常よりも短時間にすることを可能にする.さらに高速鑑賞時の負荷軽減のため の字幕表示インタフェースとしてセンタリング,フェーディングを実装する.また再生速度,文字読み速度,総鑑賞 時間の指定により動画を出力でき,モバイル機器などの一般的な動画プレイヤーで再生可能なフォーマットに変換可 能な汎用性の高いエンコーダを実装および公開し,評価実験により有効性を示した.This paper presents a technology that enables the watching of videos at very high speed. Subtitles are widely used in DVD movies, and provide useful supplemental information for understanding video contents. We propose a “two-level fast-forwarding” scheme for videos with subtitles, which controls the speed of playback depending on the context: very fast during segments without language, such as subtitles or speech, and “un-derstandably fast” during segments with such language. This makes it possible to watch videos at a higher speed than usual while preserving the entertainment values of the contents. We also propose “centering” and “fading” features for the display of subtitles to reduce fatigue when watching high-speed video. We implement and publish a versatile video encoder that enables movie viewing with two-level fast-forwarding on any mobile device by specifying the speed of playback, the reading rate, or the overall viewing time. The effectiveness of our proposed method was discussed and demonstrated in an evaluation study.
1 はじめに
インターネットの普及により,我々個人の扱う可能 性のある情報の量は飛躍的に増加し続けている.例え ば資料[7]によると動画投稿サイトYoutubeに1分間 に投稿される動画数は600にのぼり,それは25時間 分にも及ぶという. また,我々の扱う可能性のある情報メディアの多様 化も著しい.テキスト文書情報に加えて,Podcastな どによる音声情報,及び動画共有・中継サービスによ る動画情報など多岐にわたってきており,それぞれのCinemaGazer: Development and Evaluation of a Sys-tem for Watching Videos at Very High Speed. Kazutaka Kurihara, 産 業 技 術 総 合 研 究 所, National
Institute of Advanced Industrial Science and Technology. コンピュータソフトウェア, Vol.29, No.4 (2012), pp.293–304. [研究論文] 2012 年 2 月 28 日受付. 情報量が増加の一途を辿っている. 扱わなければならない情報の総量が増えたとき,一 般的にその解決策として2つの戦略が独立に検討可 能である.1つは,渡邊らのCastOven[16]のように 情報処理にあてる時間を日常生活の中から捻出する 戦略である.もう1つは,そのような努力により獲 得した情報処理用の時間の有効活用をはかる戦略で ある.時間の有効活用をはかる戦略に注目すると,こ れはさらに2つのアプローチに分類される.1つは, 情報を適切にフィルタリングして適正量に削減するア プローチである.もう1つは,ユーザの情報受容速 度を向上するアプローチである.前者については,情 報要約,検索,推薦などの分野で研究が今なお盛んで あり,その革新的な成果は広く我々の社会に既に浸透 している.しかし今後どれだけそれらが高機能化して も最終的にはある意味のある単位にまとまった情報が ユーザに提供され,受容されるという構図は変わらな
図1 システム概要 いだろう.従って結局はユーザ個人の情報受容速度が ボトルネックとなるため,後者の検討も必要となる. 本論文では後者の,ユーザの情報受容速度向上を支 援するアプローチをとる.テキスト情報については, 「速読」と呼ばれる技術が従来から提唱されてきてお り[13],そのような啓蒙書は多数存在する.一方で音 声および動画についても,市販のビデオレコーダー, iPod等の音楽プレーヤーやPC上の一般のメディア プレーヤーで搭載されているように,再生速度を任意 にコントロールすることにより高速な情報受容が可 能になる.しかし情報として理解可能な再生速度には 上限があり,これらの機器においても通常は2倍程度 の高速再生が設定上の限度である. 本研究は,動画の高速な情報受容の研究の第一歩と して,映画などの娯楽動画を主に対象とし,画像とし ての動画の受容速度と音声言語および文字言語の受 容速度の違いを考慮に入れた高速な動画鑑賞手法を 検討する.具体的にはそのような動画の一般的な配信 形態であるDVDメディアなどに付随している字幕情 報を活用して,字幕のない箇所は高速再生し,字幕の ある箇所については字幕を読むことが可能なように 再生することで,鑑賞の娯楽的価値を保ちつつ鑑賞時 間を単純な高速再生と比べて短時間にすることを可 能にする(図1). 本論文では,まず関連研究との関係性を論じる.そ の後,動画の高速鑑賞方法の検討を行い,プロトタイ プの実装について詳細に記述する.さらに,評価実験 について報告し,提案手法がもたらしうる動画鑑賞体 験の変容について議論する.
2 関連研究
本研究は動画メディアの高速鑑賞を検討するもの である.メディアの高速再生に関しては,一般的なメ ディアプレーヤーで既に再生速度の調整は広く実装さ れている.Foulkeらは,音高を変えない音声の高速再 生が理解の上で有効であることを示した[6].Vemuri らは音声情報の高速再生時に,その音声の音声認識結 果のテキスト情報を提示することによるユーザの情 報処理速度の向上の試みを検討した[15].また青木ら [2]は聴覚のみを用いた音楽検索インターフェースと して高速再生を導入している.我々は音声だけではな く映像も同時に鑑賞するという,マルチモーダルな高 速鑑賞に関する諸問題を検討する.特に高速再生時の 複数モダリティ間の理解可能速度の違いの検討が重要 である. 別のアプローチでの高速化の事例として,並列化を 扱ったものが挙げられる.音声・音楽情報の検索・選 択の際,三次元的な音像提示を行ない一度に複数の 音源を扱えるようした手法はこれまで提案されてき ているが,Vazquez-Alvarezらはその認知的負荷とイ ンタフェース設計指針について議論している[17]. ま た,動画の鑑賞の効率化のために同時に複数の動画を 再生したいというニーズがあり,PluralMediaPlayer, MultiWindowMediaPlayer, WmpSxunlなど,その ようなソフトウェアが多数公開されている. 我々は動画鑑賞の並列化は一般のユーザへの負担が 大きいと考え,単一のストリームの動画メディアの高 速鑑賞のみを取り扱う.一方で我々の高速動画鑑賞方 式を用いた上で複数の動画メディアを並列的に提示す ることも技術的には容易であるため,将来的には並列 化のアプローチとの統合も可能である. 動画の鑑賞を扱った研究として,清山らはテレビな どのリアルタイム放送の鑑賞時に高齢者等にも理解が 容易になるよう,音声再生速度を通常より下げて再生 する機能を開発している[9].Chengらは映像の変化 率に合わせて再生速度を自動調整するアプローチを提 案しているが,消音状態でコンテンツを扱っており, 音声モダリティについての検討がなされていない[3]. 我々は本論文で,動画を最初から最後まで本来の時系列順のまますべて鑑賞するシステムを提案する.こ れは特定の動画箇所の完全な削除や時系列順の入れ替 えを伴う「切り貼りに基づく要約」を行わないことが ユーザの鑑賞の快適さ,特にエンタテインメントコン テンツの鑑賞の快適さに重要な影響を与えると考え ているからである.[1] [12] [11] [5] [4] [10] [14] などの 多くの動画要約の研究と本研究とはこの点で異なる.
3 高速鑑賞方式
本章では動画の高速な鑑賞を可能にする方式を総 合的に検討する. 3. 1 高速鑑賞方式の分類と検討 映画DVDコンテンツを念頭においた場合,その 構成要素として,「主映像」,「言語情報1:字幕映像」, 「言語情報2:字幕映像に対応する音声」,「字幕映像に 対応しない音情報」,の4種に分解可能である.主映 像とは,視覚情報として提示されるもののうち,字幕 以外の「地の映像」のことである.字幕映像とは,主 映像に重畳して表示される字幕の映像のことである. これは言語情報のひとつである.字幕映像に対応する 音声とは,すべての音情報のうち,字幕に対応付けら れている「声」の情報である.これも言語情報のひと つである.それ以外の,BGMや効果音等は字幕映像 に対応しない音情報となる. 動画の高速鑑賞方法として,主映像と言語情報の同 期(言語情報の提示開始と終了のタイミングが主映像 と一致していること)を保存するかどうか,および言 語情報を選別し完全に削除することを許すかどうか によりいくつかのアプローチが考えられる. 図2は,考えられるアプローチを時系列の模式図 で可視化したものである.(1)は通常の再生を表して いる.(2)の単純高速再生は単純に再生速度を増加さ せる鑑賞方式である.この際,音声の周波数は変化し ないように調整される場合もある.主映像と言語情報 は常に同期している.近年のビデオレコーダーには 1.3倍もしくは2倍程度の単純高速再生が実装されて いる.さらなる高速化を本方式で図る場合,音声が聞 き取れなかったり対応する字幕が読み取りきれなくな る可能性がある. 図2 高速鑑賞方式の模式図 (3)は[9]などで実装されている機能で応用可能な 高速鑑賞方式である.主映像の高速再生中,言語情報 の一部もしくは全部を切りだして,速度を変換し提示 する.主映像の速度は固定であるため,言語情報を理 解可能な速度にするために主映像との同期を諦めてい る.情報を選別し完全に削除することを許容せず,言 語情報のすべてを理解可能な速度にして主映像に重ね ると,両者の間に深刻なズレが生じる可能性がある. 我々が本論文で提案する(4)「変速再生」は,主映 像と言語情報の同期を保存し,かつすべての言語情 報を保存するアプローチを取る.すなわち,主映像の みの箇所については理解が可能な限界の速度で再生 し,言語情報の提示箇所ではその言語情報が理解可能 な限界の速度で再生する,というアプローチである. 動画の再生速度を構成要素別に制御することで,単 純高速再生を超える速度での高速鑑賞を可能とする. また情報を選別し完全に削除することがなく,主映像 と言語情報は同期がとれている. 本論文では字幕映像,およびそれに対応する音声と いう2種の利用可能な言語情報のうち,学習を前提 とすればより高速な理解が可能となる文字情報モダ リティである字幕映像に特に注目する.字幕映像は一 般に流通している映画DVDなどで広く利用可能であ り,DVDの規格からその表示タイミング情報および発話された内容のテキスト情報が容易に抽出できる 利点がある. 3. 2 変速再生の定量的検討 本節では変速再生方式における再生速度や鑑賞に 必要な時間などを定式化し検討する.対象の動画の自 然速度における鑑賞時間をL[sec]とする.主映像の みの箇所はSm倍速,字幕の付与された箇所はSs倍 速で再生されることとする.動画中の主映像のみの箇 所と字幕映像箇所の時間比をr : 1 − rとすると,対 象動画の鑑賞に必要な総時間LQ[sec]は, LQ= rL Sm+ (1− r)L Ss (1) と表せる.比LQ/Lを圧縮率と定義すると,全体と してどの程度時間圧縮が実現したかがわかる. 上式でわかるように,本再生方式はSmとSsが ユーザ依存パラメータだが,LQへの寄与が独立して いる点が特徴である.適切なインタフェースを備える ことで,SmとSsそれぞれについてユーザが高速化 に向けた学習を行うことが実現できると考えられる. 式1における主映像のみ・字幕映像比率rは対象 動画に依存するパラメータである.実際の映画から rの分布を見積もった.対象は日本語字幕のある映 画DVDで,以下の15本である.アバター,クライ マーズハイ,デスノート1,カイジ,南極料理人,ペ イフォワード,流星の絆1,三文オペラ,SAW,SP 野望篇,シンレッドライン,月の輝く夜に,バンデー ジポイント,夕凪の街桜の国,ドラえもん・のび太の 結婚前夜である.新旧さまざまなジャンルのものを選 んだ. その結果,rの平均値は0.578であり,標準偏差は 0.118であった.ここから,およそ5∼7割程度は主 映像のみの箇所であることがわかる.すなわち,調査 対象の映画に限定すればSsよりもSmの方が圧縮率 への寄与率が平均的には大きいことがわかる.
4 インタフェース
4. 1 鑑賞方法指定インタフェース ここでは変速再生を前提とした動画の鑑賞方法の指 定方法について検討する.これは具体的には式1に おけるユーザ依存パラメータであるSmおよびSsを 指定する方法についての検討である.提案システムで は以下の3種類のインタフェースを開発した. 1. SmとSsの直接指定 2. Smと文字読み速度による指定 3. 総鑑賞時間とSsによる指定 最も単純なのは1.のSmとSsについて,通常速度 を1.0とした時の倍率として直接的に指定するもので ある.これは各ユーザが自分に最適な速度をそれまで の使用経験から知っている場合に有効である. 2.は字幕の付与された箇所の速度について,倍率 ではなく文字読み速度St[文字/min]で指定するも のである†1.この場合は式1に修正が必要である.i 番目の字幕映像として表示されるテキストの総量を Nti[文字]とすると,対象動画の鑑賞に必要な総時間 LQ[sec]は, LQ=SrL m+ 60ΣNti St (2) と表せる. 試みに3. 2節で挙げた15映画における総数10913 の字幕において,OCRを用いて†2得られた字幕内 部の文字数を字幕表示時間で割ると平均は329.9[文 字/min],標準偏差は288.1[文字/min]である.これ はユーザの文字読み速度が329.9[文字/min]であれ ば平均的には字幕を読み終わることができることを 示している.ここで一般の日本人の文字読み速度は 500から1000[文字/min]程度であり[13],訓練次第 で10000[文字/min]程度に至ると提唱する速読手法 もあることから[13],一般の文字読み速度であっても 本インタフェースによって通常速度以上の鑑賞が可能 であり,訓練によりさらなる高速鑑賞が可能になると 考えられる. 3. は「どうしてもこの映画を30分で見たい」のよ うに動画の鑑賞に必要な時間をもともとの動画の総 時間Lとは無関係にユーザが指定するインタフェー スである.任意の時間を分単位で入力すると,式1か ら字幕情報速度をなるべく変えないよう主映像速度 †1 英語などでは word 単位の方が適切な指標である. †2 一般的な DVD の字幕はテキストではなく画像とし て本編とは別のチャネルに埋めこまれていることが多 い.を変化させる.本インタフェースは日常生活におけ るユーザと情報との新たな接点を模索したCastOven [16]に適用することもでき,システムの機能拡張が可 能である. 4. 2 字幕表示インタフェース 我々は更に字幕付き動画の高速鑑賞時の負荷軽減の ため,以下の2つのインタフェースを開発した. センタリング: 高速で字幕付き動画を鑑賞する際に 問題となると考えられるのは,字幕映像と主映像との 間の視線移動である.通常速度の鑑賞であれば字幕映 像の表示時間は十分あるため問題とならないが,高 速鑑賞時は頻繁な視線移動により疲労が蓄積するか, もしくは字幕のみに注目してしまい主映像を快適に 鑑賞できなくなる可能性がある. 本研究では栗原ら[8]の提唱した「聴衆の視線移動 の局所化」の概念に基づき,冗長な視線移動を最小化 する.通常,主映像は画面中央部を中心としてコンテ ンツが構成される.一方で字幕はそのような主映像の 邪魔にならないよう,画面周辺部,主に画面下部に表 示される.センタリングは,字幕を画面中央部に表示 することで主映像と字幕の中心を一致させる手法で ある.鑑賞者が画面中央部を常に注視するだけで鑑賞 が可能になる効果があると予想される.一方で本手法 は主映像コンテンツを結果的に「邪魔する」状態にな るため,鑑賞の快適さに与える影響について評価する 必要がある. フェーディング: フェーディングは,ある字幕の表 示が終わった際,次の字幕が表示されるまでの区間, 直前に表示していた字幕を半透明化し継続表示する手 法である(図3) .これにより各字幕の表示時間が延 長されるため,高速鑑賞が快適になると考えられる. また半透明化することで既にその言語情報の提示が 本来終了していることが可視化されるため,主映像 との同期が主観的には保たれると考えられる.延長 される表示時間はSmとSsとの比の組み合わせによ り異なるが,両者が一致している場合,3. 2節で挙げ た15映画における総数10913の字幕の平均で2.62 倍の延長を実現できた. その他のインタフェースの検討: 本論文では対象と 図3 フェーディング する字幕形式として画面上に固定された字幕のみを 扱った.一方で動画投稿サイト「ニコニコ動画」や海 外のニュースなどで用いられている「流れる字幕」に ついては,基礎的な検討のみ行った.具体的には,過 去の字幕を画面外方向にスクロールさせ,最新の字幕 としばらく共存させるインタフェースを試作したが, 高速鑑賞時の視線移動が激しくなり疲労の度合いが 非常に大きかったため,実用化にはさらなる検討が必 要と判断し本稿では割愛した.
5 システムの実装
我々は変速再生を実現するビデオエンコーダ, Cin-emaGazerを実装し公開した†3.当初はリアルタイム に再生速度を変更する動画プレーヤーとしての実装 を試みたが,2倍を超える任意のSm,Ssをリアルタ イム制御しながら映像と音声を安定して出力するこ とが難しかったため断念した.一方で実装した動画エ ンコーダを用いれば任意のSm,Ssの組み合わせの 動画ファイルを瞬時に出力できるため,あらゆる再生 倍率の動画ファイルを事前準備し切り替えることで リアルタイム倍率制御と同等のことが通常の動画プ レーヤーで実現可能である. 実装した動画エンコーダを使用する前処理として, 字幕付き動画を用意する必要がある.DVDをソース として用いる場合,DVD Fab†4などのGUIによる DVDリッパーのオプション設定により簡便に行なう ことが可能である.CUIではVSRip†5を用いて行な †3 https://sites.google.com/site/qurihara/home/ cinemagazer †4 http://www.dvdfab.jp/ †5 http://sourceforge.net/projects/guliverkli/files/うことができる.前処理の結果,動画ファイルと一 般的なフォーマットの字幕ファイル(.idxおよび.sub) が生成される. 前処理で得られたファイルを入力として変速再生動 画を出力するのが実装したエンコーダであり,C#を 用いて実装した.これはGUIからのSmおよびSs の直接指定,もしくは文字読み速度[文字/min]の指 定,および総鑑賞時間の指定に基づき,動画ファイル を適切に伸縮・結合したAviSynthスクリプト†6とし て生成するものである.映像および音声の伸縮には AviSynthの組み込み関数であるTimeStretch関数, AssumeFPS関数,ChangeFPS関数を用いて,音高 が変化しないようにした.字幕情報はLayer関数を用 いて画像として重畳した.AviSynthスクリプトはテ キストファイルでありながら,直接Windows Media Playerで動画として再生できる.さらにffmpeg†7を 用いてMP4やWMVなどの一般的な動画フォーマッ トに変換し,スマートフォンなどの広範なデバイスで 再生可能とする機能を内蔵した.
6 評価実験
本節では提案システムを用いた評価実験について 報告する.実験には視聴覚が健常な10名(30代男性 2名,20代男性7名,20代女性1名)が実験協力者 として参加した. 6. 1 方法 全ての実験協力者が(1)文字読み速度測定,(2)音 声言語受容速度測定,(3)文字言語受容速度測定,(4) 主映像受容速度測定,(5)総合的動画鑑賞,の5つ のタスクを遂行した.タスクの実行順は(1)が最初, (5)が最後で固定であるが,(2),(3),(4)については順 序効果の相殺のため実験協力者ごとにランダム化し た.(1)は他の4つのタスクと独立しており,最初に 配置した.一方(5)はタスク(3)および(4)の結果を 利用するため,最後に配置した. 環境としてノートパソコンSony VAIO VPCF1(ス VSRip/ †6 http://avisynth.org/mediawiki/Main Page †7 http://ffmpeg.org/ クリーンサイズは縦20.0cm,横36.4cm)を机上に置 き,椅子に実験協力者が座り通常のPC操作時と同 様の距離を液晶画面からとった.音声についてはヘッ ドフォンを用い,音量を各実験協力者が適切に設定し た.タスク(1)ではInternet Explorer上にマウスク クリックと同時に夏目漱石の「こころ」の一節を横書 きで1行30文字,16行表示し,終了時のマウスク リックまでにかかった時間を取得し,読書速度を[文 字/min]で得た. タスク(2),(3),(4),(5)については液晶画面に Win-dows Media Playerをフルスクリーン表示した.そこで様々に速度等を変更した上でエンコード(映像:
mp4 VGA 8bit AVC/h264 23.98fps 1200kb/sec,音 声:AAC 48kHz 2.0ch 128kb/sec)したアニメ映画 「ドラえもん・のび太の結婚前夜」の冒頭7分間ぶん (通常速度再生時)を再生した. (2)では字幕のない動画について主映像と音声を鑑 賞させ,言語として音声内容の理解が可能な上限の 速度を求めた.速度の変化範囲は1.0倍から10.0倍 まで0.5倍刻みで,音高の変化のない単純高速再生で ある. (3)では字幕のついた動画について字幕のみに注目 させ,言語として字幕内容の理解が可能な上限の速度 を求めた.ここでも速度の変化範囲は1.0倍から10.0 倍まで0.5倍刻み,音高の変化のない単純高速再生で ある. (4)では音声をミュートし字幕のない動画を鑑賞さ せ,主映像が映像として理解可能であり流れを追うこ とができる上限の速度を求めた.この場合発話される 言語の内容は判別できないため,発話内容の理解につ いては行わなくてもよいように教示を行なった.ここ でも速度の変化範囲は1.0倍から10.0倍まで0.5倍 刻みの単純高速再生である. (5)では(3)および(4)で求めた主映像と字幕の理 解可能速度の上限を組み合わせた字幕付き動画を鑑 賞させて,鑑賞の快適さを主観評価させた.たとえば (3)で2.5倍が上限と答え,(4)で6倍が上限と答え た場合は,Smが6倍でSsが2.5倍であるような音 高の変化のない変速再生動画を鑑賞する.この際,字 幕の表示位置について,オリジナルの字幕と同様に
図4 読書速度 [文字/min](横軸) と字幕付き動画の 字幕鑑賞時の文字読み速度[倍](縦軸) の相関 画面の下部に表示するO条件,センタリングを行な うC条件,センタリングかつフェーディングを行な うCF条件の3条件を試行した.主観評価は1をと ても不快,3を普通,5をとても快適とする1から5 までの実数値の申告により行なった.また本タスクで は一部(2名)の実験協力者について,画面上での視 線の注視点座標を非装着型視線計測器Tobii X60で 計測して60Hzで記録した. 5つのタスクの終了後,実験協力者に自由回答で感 想を得た. 6. 2 結果 タスク(1)とタスク(3)から,読書時と字幕付き 動画の字幕鑑賞時の文字読み速度の相関が得られる. 図4に散布図を示す.相関係数は0.143であり,低 かった. タスク(2),(3),(4)から,音声情報,字幕情報,主映 像の速度変化に対する実験協力者の鑑賞可能人数比率 がプロットできる(図5).図中の実線は,2パラメー タのロジスティック関数f(x) = 1/(1+exp(a(x−b))) を最小二乗法で当てはめたものである.なお,主映像 速度については,今回の最大速度である10倍でも10 名中7名が限界と感じていない.10倍以上の動画は 試験しなかったため,真の限界は不明なままである. タスク(5)から,限界的な速度の変速再生における 3種類の字幕表示条件の快適さが得られる.図6は 全実験協力者についてそれを示したものである.O, C,CF条件の平均値はそれぞれ1.95,3.43,3.75で あり,標準偏差は0.599,0.778,0.677であった. 図5 鑑賞の速度倍率 (横軸) と実験協力者の 鑑賞可能人数比率(縦軸) の関係 図6 3 つの字幕表示条件における快適さ 6. 3 考察 まず図4の相関係数が0.143と低かった点につい て,通常の読書と字幕鑑賞は異なるスキルを鑑賞者 に要求する可能性が示唆される.通常の読書では文 字の分量や改行位置の予想が事前に可能であるため 眼球の運動計画が立てやすいが,字幕鑑賞では事前 に字幕の更新のタイミング,表示される分量が予想で きないため,このような違いが生じているのかもし れない.本論文で実装したシステムには,文字読み速 度[文字/min]に基づいて字幕表示速度を字幕毎に自 動設定する機能を有しているが,今後本機能の有効性 を詳しく検証する必要がある. 次に図5について,音声情報,字幕情報,主映像の 順に鑑賞可能性の速度耐性が高くなることが確認さ れた.音声情報鑑賞可能速度は特に個人差が小さく, 次いで字幕情報,主映像の順で個人差が大きくなって いくことが確認された.パラメータb(鑑賞可能人数 比率が0.5になる速度)を鑑賞可能速度の代表値とし て捉えると,それぞれ音声情報で1.55倍,字幕情報
図7 O 条件と CF 条件における画面上の注視点分布 (横軸は x 座標 [pixel],縦軸は y 座標 [pixel]) で5.91倍,主映像で11.1倍であり,音声言語の耳か らの理解を諦めることによって式1により変速再生 方式は鑑賞時間の85.5%の削減を実現できる可能性 があるという著しい結果を得た. しかし,今回得られた結果は実験に使用した動画素 材に依るところが大きい.まず,使用した動画素材は 短時間のものであるため,極限的な高速鑑賞時に疲労 が蓄積されるほどの分量ではなかった†8.また全体的 にシーンの切り替え速度やカメラ視野の移動速度が 小さく,言語も比較的明瞭であまり高速にならないよ うな配慮がされている可能性のあるアニメ動画であ る.したがって今回の実験で得られたのは提案システ ムを用いて実現可能な動画の高速鑑賞の上限に近い 結果が得られるケースであったと考えられる.より長 時間の鑑賞時,およびアクション映画やサスペンス映 画など,より激しい映像変化や速い会話のやりとりが 多いコンテンツでは,今回と異なる結果が得られる と考えられる.我々のインフォーマルな調査ではその ような会話の速いコンテンツであっても音声言語情 †8 ただし本動画を最後まで視聴したとしても Sm= 11.1, Ss= 5.91 のときわずか 3 分 44 秒である. 図8 O 条件と CF 条件における画面上の注視点分 布ヒストグラム(横軸は注視時間の相対頻度,縦 軸はy 座標 [pixel]) 報よりも字幕言語情報の方が高速に鑑賞できるとい う関係は保存されているため,提案手法は有効であ ると予想している.さらに[3]と組み合わせ,映像の 時間当たりの変化率を定量的に求め主映像速度に反 映させることにより,映像変化の激しさを補正した見 やすい速度での鑑賞も実現可能であると考えられる. これは今後の課題である. 次に図6に示した3種類の字幕表示条件での快適 さについて考察する.O条件が他の2条件よりも快 適であると回答した実験協力者が1人もいなかった ことから,動画の変速再生を行う上でセンタリング が相対的に有効である可能性が示唆された.実験協 力者のコメントからも,限界に近い速度での動画鑑 賞においてはO条件では字幕・主映像間の視線の移 動が不快さにつながっている可能性が示唆された.一 方字幕が画面中央に表示されるCおよびCF条件で は,基本的に視線は画面中央付近に向けられるため, そのような不快さは軽減されていると考えられる.そ の確認のため1人の実験協力者(ID:10番)について, タスク(5)におけるO条件とCF条件での画面上の 視線の注視点座標分布を,xy座標上の散布図,及び y座標(鉛直方向)のみに限定した注視時間の相対頻 度のヒストグラムとしてプロットした(図7,8).確 かにCF条件では注視点は画面中央(y = 600)付近 に集中しており,O条件では字幕表示位置である画 面下部(y = 350)と画面中央(y = 600)付近に注視 点が分散していた.これはCF条件により「聴衆の視
線の局所化[8]」が達成され有効に機能していること を示唆するものである. また,C条件とCF条件で顕著な差が得られなかっ た点については,CF条件がフェーディングにより1 字幕あたりの表示時間の増加に寄与するものの,矢継 ぎ早な会話のやり取りのある箇所では字幕と字幕の 間の沈黙区間が短く,フェーディング時間がほぼゼロ に近くなってしまう問題,会話のない長い区間に直前 の字幕がずっとフェーディング表示されてしまい主映 像にそぐわなくなる問題などが実験協力者のコメン トから示唆された.前者については原理的に対処不可 能であるが,後者についてはフェーディング表示時間 の上限を設定し字幕を消去することで対応が可能で あると考えられる. 最後に,今回我々は実験協力者の主観的な理解度お よび鑑賞の快適さを取得し分析を行い,理解度テス トなどに基づく客観的理解の取得を行なわなかった. これは動画鑑賞の娯楽的な価値の保存の度合いを評 価する上では主観的な理解度および快適さが適切な 評価基準だと考えたためである.一方でニュースや講 義などのように,そこから何らかの知識を習得しな ければならないような性質のコンテンツに関しては, 客観的理解に基づく評価が必要になるだろう.これは 今後の課題である.
7 議論
提案システムは,ユーザの動画鑑賞体験を変容す る可能性を持っている.これには2つの側面がある. 1つは,変速再生方式により動画鑑賞そのものの形式 と質を従来と異なるものにしてしまう可能性である. もう1つは,ユーザの生活の中での動画鑑賞との関わ り方を従来と異なるものにしてしまう可能性である. 本節ではこのような体験の変容について,議論を深め る.これは提案システムを日常的に使用して久しい筆 者個人の経験に基づく議論であるため一般化は難しい が,今後の関連研究の発展に役立つことを期待する. 7. 1 鑑賞の変容 提案した変速再生方式は,コンテンツ中の言語提示 箇所をやや高速に,そして言語非提示箇所をより高 速に再生するものである.これはいわば明示的に表 現された言語に大きな重みをおいた「コンテンツ鑑 賞の再構成」とみなすことができる.また結果的に, 2種類の速度で再生された動画片たちが交互に接続さ れた動画として出力される.したがって非言語情報が 主体となるようなコンテンツや,一定のテンポで進行 することが重要なコンテンツ,たとえば音楽動画やダ ンス・カンフーなどの身体表現を楽しむ動画,および コンピュータグラフィックスの美しさを楽しむ動画な どの鑑賞には提案手法は明らかに不向きである. 提案手法が適するのは,物語性をもった動画の鑑賞 であると考えられる.物語性とはここでは「起承転 結」のように,正しい順でコンテンツを鑑賞すること によって得られる価値と定義する.提案手法により動 画鑑賞は,動画中の物語性に大きな重みをおき,他の 要素を比較的軽視する体験へと変容するといえるか もしれない.必然的に,対象ユーザはそのような重み 付けを甘受できる人々のみに限定される. 多くの動画の物語性は明示的な言語情報と非明示 的な言語情報の時系列的な接続が繰り返された総体 として生じていると考えられる.総体として生じてい るため,ユーザは最初から最後まで正しい順にコンテ ンツを鑑賞しなければその物語性を享受した満足感 が得られにくい.ここから「切り貼りに基づく要約」 手法に対する,「コンテンツ全体の高速鑑賞」手法の 妥当性も正当化できる. また,物語性をもった動画の代表例として映画が挙 げられるが,多くの映画は小説を原作としている.必 然的に会話やナレーションなどの明示的な言語情報 を主体として物語が構築される傾向にあり,そこに重 みをおいた提案鑑賞形式は相性が良いと考えられる. さらに明示的な言語情報がないシーンであっても,そ こから読み取るべき言語メッセージは明確である場合 が多く,明示的な言語提示部と比較してより高速な鑑 賞に堪えうるのではないかと予想している. 次に,提案手法は言語提示箇所に重みをおいた鑑賞 手法だが,言語非提示箇所を完全に捨てているわけで はない点が特徴である.類似の観点で言語情報に注目して動画鑑賞の変容を実現した例として,TED†9や ソースネクスト社の「超字幕」シリーズ†10などが挙 げられる. TEDのウェブサイトでは,講演動画中の音声の書 き起こしテキストをクリックすると該当箇所に映像が 頭出しされるInteractive transcript機能が実装され ている.これは提案手法よりも極端に言語提示箇所へ の重みを強めた設計といえる.なぜなら,原則的には 言語情報(テキスト)のみを表示させ,必要に応じて インタラクティブに映像を表示させているからであ る.この手法は講演やニュース動画のように,言語情 報がコンテンツの中心となるような様式・構造をもっ ており,映像の補助がなくとも文脈が理解しやすい場 合に有効であることが予想される.一方で提案手法 は,そのような構造化がなされておらず,明示的な言 語情報のみから文脈が理解しにくい場合に有効であ ろう.一般に映画などの娯楽用動画コンテンツは,そ のような様式や構造に縛られないため,非言語情報の 鑑賞も重要になってくる. 超字幕シリーズでは,映画を題材として英語を学ぶ ためのインタラクティブな機能が多数実装されてい る.TEDと同様に字幕と対応映像箇所を関連付ける 機能や,マウスクリックにより前後の字幕提示箇所に スキップできる機能などである.この場合,映画の物 語性は英語学習の動機づけに用いられているにすぎ ないため,必ずしも重要ではない.すなわち,最初か ら最後までコンテンツを正しい順で鑑賞することや, 言語非提示箇所を含めて内容を理解することは必ず しも求められない.一方,提案手法においても,言語 提示箇所の再生速度を1倍以下にすることで,外国 語を聴きやすく・見やすくすることができるため,外 国語学習の支援に活かすことは可能である.これは物 語性の鑑賞を担保した,軽度な外国語学習の支援とい う位置づけになるだろう. 7. 2 生活の変容 先述したTEDや超字幕シリーズのような事例で は,もともと受動的だったコンテンツ鑑賞にインタラ †9 http://www.ted.com/ †10 http://www.sourcenext.com/product/chj/home/ クティブな機能を導入し,鑑賞の効率化や英語学習な どの支援を行なっている.しかし提案手法は,視線移 動を含めあえて鑑賞中のユーザインタラクションを最 小化することで鑑賞の受動性を保存し,ユーザが鑑賞 に没入することを促している.これは鑑賞の高速化 の限界に挑むことを意図したものだが,副次的に提 案システムが使われるシチュエーションにも影響を与 えている可能性がある.本節では設計時に意図した, しないにかかわらず,提案手法が結果的に日常生活に 与えうるこのような影響について議論する. まず,日常生活における動画鑑賞の機会を増大させ る可能性がある.提案手法はユーザインタラクション の最小化の良い副作用によりシステムの出力が単純 なビデオファイルとなり,モバイルデバイスを含む多 様なデバイス上での高速鑑賞が可能である.また,総 鑑賞時間の指定により,利用可能な時間に合わせた動 画鑑賞が可能になった.これらは動画鑑賞において障 壁となる,ユーザの空間的制約(どこにいるか),時 間的制約(何分使えるか)を同時に緩和するものであ る.また,鑑賞時のインタラクティブな入力が不要な ので,同時に複数人での鑑賞も従来通り可能である. これらの特徴により,1節で分類した「情報処理用に あてる時間を日常生活の中から捻出する戦略」との柔 軟な統合が期待できる. 一方で,特に極限的な速度における鑑賞について はユーザに高度な集中力を要求するため,動画の鑑 賞と別の作業とを同時進行させる「ながら鑑賞」が行 いにくくなる可能性がある.通勤・通学時の待ち時間 での利用などでは問題ないが,歩行中の利用などの 場合は交通安全に対する注意が必要である.同様に, 運転中,料理中,勉強中などのタスク実行中の利用も 現実的ではないだろう.これは逆に言えば,「観よう と思ったら観ることしかできない」ことを意味してお り,非効率で効用も低い「ながら鑑賞」に陥りがちな 人々にとっては,動画鑑賞の時間を生活の中で独占的 に確保できるように強制できることも意味する. 次に,動画鑑賞に臨む際のユーザの心理状態を変容 する可能性がある.多くの人々は通常,余暇の時間に リラックスするために動画鑑賞を行なっている.その ような状況の人々には提案システムのような高速鑑賞
支援は不要であり,むしろ変速再生が必然的にもたら す「慌ただしさ」は,リラックスしたいという主目的 に対し悪影響を与えることだろう.しかし1節で述べ たように,我々が扱う可能性のある動画情報は飛躍的 に増加しており,一方で我々に与えられた時間は有限 である.時にユーザは社会的圧力や義務感から動画鑑 賞に臨まなければならず,また時に「うしろめたさ」 を感じながら動画鑑賞に臨まなければならない.知人 との話題作りや教養のために,自分には興味のない流 行の映画やドラマを見る場合や,ある作業をしなけれ ばならないが気が進まず,逃避行動として動画鑑賞を する場合がその具体例である.このような心理状態の ユーザに対し,提案手法は鑑賞時間の適切な圧縮によ り,「これくらいの時間で終わるならば観てもいいか な」という安堵を与えることができる可能性がある. これは,鑑賞対象動画とユーザの興味・心理状態に関 するミスマッチの緩和である.
8 まとめ
本論文では動画の高速な鑑賞方法として主映像と 言語情報の再生速度を独立して制御する変速再生方 式を提案し,字幕付きDVDを対象としたビデオエン コーダとして実装した.評価実験により字幕のセンタ リングが高速鑑賞に有効であることが示され,また 鑑賞時間を平均85.5%削減できる可能性のある事例 が示された.今後はよりフォーマルなユーザスタディ を行い,動画のジャンルに依存するユーザの高速鑑賞 の限界速度の調査等を行ないたい.また,音響情報処 理や音声認識技術により,字幕のない任意の動画の高 速鑑賞を可能にすることも検討したい. 謝辞 本研究の一部は科研費(23700155)の助成を 受けたものである. 参 考 文 献 [ 1 ] 青木秀憲,宮下芳明: ニコニコ動画における映像要 約とサビ検出の試み, 情報処理学会研究報告 2008-HCI-128/2008-MUS-75,Vol. 2008, No. 50 (2008), pp. 37– 42. [ 2 ] 青木秀憲,宮下芳明: 視覚を用いない状況下での高 速楽曲探索インタフェースの設計と検証,情報処理学会 論文誌, Vol. 51, No. 2 (2010), pp. 356–364.[ 3 ] Cheng, K., Luo, S., Chen, B. and Chu, H.: SmartPlayer: User-Centric Video Fast-Forwarding, in Proceedings of CHI’09, 2009, pp. 789–798. [ 4 ] Dragicevic, P., Ramos, G., Bibliowitcz, J.,
Nowrouzezahrai, D., Balakrishnan, R. and Singh, K.: Video browsing by direct manipulation, in
Pro-ceedings of CHI’08, 2008, pp. 237–246.
[ 5 ] Fabro, M. D., Schoeffmann, K. and Boszor-menyi, L.: Instant video browsing: a tool for fast non-sequential hierarchical video browsing, in
Pro-ceedings of USAB’10, 2010, pp. 443–446.
[ 6 ] Foulke, W. and Sticht, T. G.: Review of research on the intelligibility and comprehension of acceler-ated speech, Psychological Bulletin, Vol. 72 (1969), pp. 50–62.
[ 7 ] INFOGRAPHIC: What Happens Online Every 60 Seconds, http://www.scribbal.com/ 2011/06/ infographic-what-happens-online-every-60-seconds/. [ 8 ] Kurihara, K., Nagano, N., Watanabe, Y., Fu-jimura, Y., Minaduki, A., Hayashi, H. and Tutiya, Y.: Toward localizing audiences’ gaze using a multi-touch electronic whiteboard with sPieMenu, in
Pro-ceedings of IUI’11, 2011, pp. 379–382.
[ 9 ] 清山信正, 今井篤, 三島剛, 都木徹, 宮坂栄一: 高品 質リアルタイム話速変換システムの開発, 電子情報通信 学会誌, Vol. J84-D-II, No. 6 (2001), pp. 918–926. [10] Pongnumkul, S., Wang, J., Ramos, G. and
Co-hen, M.: Content-aware dynamic timeline for video browsing, in Proceedings of UIST’10, 2010, pp. 139– 142.
[11] Schoeffmann, K., Taschwer, M. and Boeszoer-menyi, L.: The video explorer: a tool for naviga-tion and searching within a single video based on fast content analysis, in Proceedings of MMSys’10, 2010, pp. 247–258.
[12] Schoeffmann, K.: Facilitating interactive search and navigation in videos, in Proceedings of MM’10, 2010, pp. 1609–1612.
[13] 速 読 を 始 め よ う, http://www.ponp.jp/info/ speed.html.
[14] Valdes, V. and Martinez, J. M.: Introducing risplayer: real-time interactive generation of per-sonalized video summaries, in Proceedings of
SAP-MIA’10, 2010, pp. 9–14.
[15] Vemuri, S., DeCamp, P., Bender, W. and Schmandt, C.: Improving speech playback using time-compression and speech recognition, in
Pro-ceedings of CHI’04, 2004, pp. 295–302.
[16] Watanabe, K., Matsuda, S., Yasumura, M., In-ami, M. and Igarashi, T.: CastOven: a microwave oven with just-in-time video clips, in Proceedings of
Ubicomp ’10, 2010, pp.385–386.
[17] Yolanda, V. A. and Stephen, B. A.: Designing spatial audio interfaces to support multiple audio streams, in Proceedings of MobileHCI ’10, 2010, pp. 253–256.
栗 原 一 貴 2007年東京大学大学院情報理工学 系研究科コンピュータ科学専攻博士 課程修了.PhD.日本学術振興会特 別研究員(DC2)を経て同年,産業技 術総合研究所に入所,現在メディアインタラクション 研究グループ研究員.ユーザインタフェース,特にプ レゼンテーションツール,ICT技術の教育応用,及 びユビキタスコンピューティングに関する研究に興味 をもつ.