3次元地図を用いた自動索引付き映像データベースシステム-映像データの格納と検索法-
7
0
0
全文
(2) ースに格納するか,あるいはそのように自動索引. 本 研 究 で 実 装 す る 映 像 デ ー タ 格 納・検 索 部 で は ,. 付けされた映像データをどのように検索するかの. 撮影した映像データがビデオクリップとして. 体 系 に つ い て は ,今 後 の 課 題 と し て 残 さ れ て き た .. VIDEO DB の Video テ ー ブ ル に 格 納 さ れ 検 索 に 供. そこで,本研究では,まず撮影されたビデオク. される.. リップを映像データベースに最適に格納するため の ,格 納 サ イ ズ の 検 証 と 実 験 を 行 う .続 い て ,映. 像に写しこまれている被写体オブジェクトの 連 続 し た フ レ ー ム 列 を ユ ニ ッ ト (unit) と 定 義 し , こ れ は Allen が 導 入 し た 時 区 間 で あ る と いう特徴に着目して,映像問合せ言語,これを ユ ニ ッ ト 論 理 (unit calculus)と 名 付 け る , を 提 案 す る . こ れ に よ り , 例 え ば 「 銀 座 三 越 が 10 秒 以上映っている映像が欲しい」といった検索要求 に答えられるようになる.. 映像データの格納. 3. 3.1.. 映 像 データ格 納 法. 圧縮した映像データをリレーショナルデータベ ースに格納していく.格納方法には,以下の 2 つ の方法が考えられる. ①映像格納場所であるファイルパスのみを格納 ②映像そのものを格納 まず,①の場合,データベースには映像格納場 所の文字列しか格納しないため,データベースの 容量をそれほど取らなくてもすむ利点があるが,. 2.. 被写体建物オブジェクト自動索引付け. ユーザがデータベースサーバにアクセスしてもフ. 検索システムの概要. ァイルパスのみしか得ることが出来ない.一方,. ビデオカメラの撮影者はビデオ撮影者の位置と. ②の場合,映像をデータベースに格納するため,. 時 刻 を 取 得 す る た め に GPS を 身 に つ け ,ビ デ オ カ. データベースの容量は相当なものになるが,サー. メラに撮影者の姿勢を知るためにジャイロセンサ. バに接続すれば誰でもアクセスして映像を閲覧,. を取り付けて撮影する.また,ウェアラブルコン. 取得可能であり,映像編集中にシステム障害など. ピュータを用いてこれらのデータとそこに格納さ. に合った場合障害時回復の対象になる.本研究で. れている 3 次元地図データを総合的に処理し映像. は,このような理由から,映像データの共有性や. データに被写体建物オブジェクトの自動索引付け. データベースの一貫性を考えて②の手法を用いる.. をリアルタイムで行い,それを利用した映像検索. また,映像データは非圧縮時で 1 時間分のデー. システムを実現する.図1は我々が開発している. タ の 場 合 40∼ 50GByte も の 容 量 を 必 要 と す る .そ. システムの全体像を表している.. こ で 圧 縮 技 術 と し て MPEG-1 を 用 い て デ ー タ 圧 縮. 映 像 自 動 索 引 部 で は ,撮 影 者 の GPS デ ー タ ,ジ. を 行 う こ と に よ り ,デ ー タ は 約 700MByte と な る .. ャイロデータを取得し(建物名称を取得するため. こ の 圧 縮 を 行 う と ,15 フ レ ー ム( 1 フ レ ー ム は 1/30. の )2 次 元 ,3 次 元 地 図 を 用 い て リ ア ル タ イ ム に 被. 秒 ご と に 撮 ら れ る )を 1GOP (Group Of Pictures)と. 写体建物オブジェクト抽出と索引付けを行う.そ. し て 圧 縮 さ れ る の で ,映 像 の 制 御 を 行 う 際 は GOP. れ に よ り INDEX DB の XBuilding テ ー ブ ル が 作 成. の整数倍単位での制御が好ましい.. される.. 野 中 ら の 研 究 [6]で は ,オ ブ ジ ェ ク ト 指 向 デ ー タ ベ ー ス シ ス テ ム に GOP 単 位 で 映 像 を 格 納 し て い るが,現在リレーショナルデータベースでは画像 や動画などをバイナリデータとして格納できる可 変 長 デ ー タ 型 の BLOB(Binary Large OBject)型 を 持 つので,本研究ではリレーショナルデータベース シ ス テ ム を 用 い て 格 納 す る .こ の BLOB 型 1 カ ラ ム へ は 最 大 4GByte ま で の デ ー タ が 格 納 可 能 で あ る.. 3.2.. Video テーブルの作 成. 映像データ(=ビデオクリップ)を格納するた め Video テ ー ブ ル を 定 義 す る . こ の テ ー ブ ル の カ ラムには図 2 に示すように映像の取り出しに必要 図 1 3 次元地図を用いた被写体建物オブジェクトの 索引付け,検索システムの概念. と な る VideoID, 格 納 さ れ た 映 像 そ の も の を 示 す V_file, 映 像 の フ ァ イ ル 名 と な る V_name を 設 定 す. −144−.
(3) る.また,長時間の映像は等時間長に分割され, Partition_Num が 1 か ら 順 に 付 与 さ れ る .. 図 3 再生待ち時間コスト. 3.3.2. 格 納 サイズ 図 2 Video テーブル. 映 像 を 分 割 す る に あ た り ,GOP の 整 数 倍 を グ ル ープにして,それを一つの分割として格納し,ユ. 3.3.. 映 像 の格 納 サイズの検 証. ニット単位で再生を行う.そこで,コスト最小と なる分割サイズを定量的に検証する.. 3.3.1. 再 生 待 ち 時 間 コ ス ト 映像の格納はユニットの再生と密接に関係する. 例えば再生したいユニットが 1 時間の映像データ. (1)分 割 による再 生 待 ち時 間 の実 験 この分割サイズを決定するため,映像ファイル. の 46 分 目 か ら 5 分 間 で あ っ た と す る .も し 映 像 を. を 3 秒 ,15 秒 ,30 秒 ご と に 分 割 し て 格 納 し た も の. 分割しな. と ,6 分 52 秒 の ビ デ オ 1 本 分 を そ の ま ま 格 納 し た. い で , 1 時 間 の ビ デ オ を そ の ま ま BLOB デ ー タ と. 時 の 130 秒 目 か ら の 映 像 の 再 生 待 ち 時 間 の 比 較 を. して格納した場合,不要部分の切り出し処理のた. 行った.実験環境は以下のとおりである:. めに相当の待ち時間を要することが想定される. そこで,映像を d 秒ごとに分割して格納するこ とによりその短縮が可能かを再生待ち時間のコス. Server: Windows2000. (HDD:90G ). デ ー タ ベ ー ス シ ス テ ム : Oracle 9i( JDBC) イ ン タ フ ェ ー ス : Java サ ー ブ レ ッ ト. ト で 検 証 す る .そ の た め 映 像 を d 1 , d 2 秒 (d 1 <d 2 )ご とに分割するとし,1 ユニットの時間長を u 秒で. 結 果 は ,3 秒 分 割 時 の 再 生 待 ち 時 間 が 10 秒 ,15 秒 分 割 時 の 再 生 待 ち 時 間 が 9 秒 ,30 秒 分 割 時 の 再. あるとする. (1)SQL 発 行 回 数 によるコスト. 生待ち時間が 8 秒,ビデオ 1 本時の再生待ち時間. ⎡ u ⎤ ⎡ u ⎤ ⎢ d 1 ⎥ ⎢ d 2 ⎥ ⎢ ⎥ ⎢ ⎥. た コ ス ト 式 の 最 小 値 を 実 現 す る の は d2= 6 分 52. と な り , 1 分 割 サ イ ズ が 大 と な る ほ ど SQL 発 行. 秒 と す る と , d1= 30 秒 の 時 と な る .. が 14 秒 で 図 4 に 示 す よ う に な り , 3.3.1 で 検 証 し. 回 数 は 減 る . d1, d2 の 比 率 を ,. ⎡ u ⎤ ⎡ u ⎤ d2 ⎢ d1 ⎥ ÷ ⎢ d 2 ⎥ ≒ d1 ⎢ ⎥ ⎢ ⎥. とし,これを x とおく.. (2)ファイルの fetch コスト fetch の コ ス ト は (1)と は 逆 に , 分 割 サ イ ズ が 大 と な る ほ ど ユ ニ ッ ト 外 の 部 分 も fetch し て し ま う こ と に な る . よ っ て (1)の 逆 数 の. 1 となる. x. し た が っ て , 再 生 待 ち 時 間 コ ス ト は (1) + (2)で , 次のように定式化される.. cos t = ax +. 図 4 再生待ち時間比較. b x. つまり,図 3 に示すグラフの最小点が定性的なコ. (2)1 ユニットの時 間 長 からの検 証. スト最小値を示す.. ユニットは一つの建物が写し込まれている単位 であるので,ビデオクリップの(格納のための) 分割サイズを,ユニットの時間長データの分布に 基づき検証する.人間がオブジェクトを「写って. −145−.
(4) いる」と認識できるのは 3 秒以上同じオブジェク. ー ム ( eと す る ) ま で 連 続 し て 写 し こ ま れ て い る ,. ト を 見 た と き と さ れ て い る た め [7], 3 秒 以 上 の 時. 第 i番 目 の 部 分 と す る ( i≧ 1). こ の ビ デ オ フ レ ー. 間長のユニットを用いる.. ム の 連 続 を u v , o , i =(v, o, i, b, e)で 表 し ,. 図 5 にユニット時間長分布データを示す.1 ユ. ユ ニ ッ ト( unit)と 呼 ぶ .ビ デ オ ク リ ッ プ vの 中 に. ニットあたり 5 秒程度のものが多く,また大きい. 存在する全てのユニットのなす集合をUVと記す.. 建 物 は 写 し こ ま れ る 時 間 が 長 く 30 秒 前 後 に 集 中. 図 7 に被写体建物オブジェクトとユニットの関 係を示す.例では,建物O1とそれが連続して写っ. していることが観測できた. 以 上 , (1), (2)の 結 果 よ り , 再 生 待 ち 時 間 が 最 小. て い る ユ ニ ッ ト の 対 が INDEX デ ー タ ベ ー ス の. と な る 分 割 サ イ ズ は 30 秒 付 近 に 存 在 す る こ と が. XBuildingテ ー ブ ル に 記 録 さ れ る の で ,少 な く と も. 明らかとなったので,実装ではビデオクリップを. (O 1 , u v , o , 1 ) と (O 1 , u v , o , 2 )の 2 つ の タ ッ プ ル. 30 秒 ご と に 分 割 し て 格 納 す る こ と と し た .. が 存 在 す る .そ の 結 果 ,建 物 IDで 問 い 合 わ せ る と , その建物が写っているユニット全てを知ることが できる.. 図5. 4.. ユニット時 間 長 分 布 データ 図 7 被写体建物オブジェクトとユニットの関係. ユニット論理の導入と映像データの検 索. 4.2.. 4.1. ユ ニ ッ ト 図 1 の映像自動索引部で抽出された被写体建物 オ ブ ジ ェ ク ト の デ ー タ は XBuilding テ ー ブ ル に 格 納 さ れ る . 図 6 に 示 す よ う に , XBuilding テ ー ブ ル の 属 性 は 映 像 番 号 ( VideoID ), 建 物 番 号 (BuildingID), 建 物 名 (BuildingName), 開 始 フ レ ー ム 番 号( Fs),終 了 フ レ ー ム 番 号 (Fe),ユ ニ ッ ト 番 号 (UnitID)で あ る .. ユニットのオブジェクト指向表現. 検索の対象となるユニットは連続したフレーム 列 な の で , そ れ は Allen の 時 区 間 [8]で あ る と 捉 え ることができる.さらにユニットは,ビデオ映像 であり,ビデオクリップ構成要素であることを考 慮 す る と ,図 8 に 示 す よ う な TimeInterval,Video, VideoClip, Unit の ク ラ ス 階 層 が 成 り 立 つ . TimeInterval ク ラ ス は 開 始 時 刻 (start time point: stp), 終 了 時 刻 (end time point: etp)の 属 性 を 持 つ . ま た , etp –stp で そ の 時 区 間 の 時 間 長 (duration)を 計 算 で き る の で , そ れ を メ ッ ソ ド ( method) と し て 定 義 す る . stp(), etp()は そ れ ぞ れ stp 値 と etp 値 を返すメソッドとする. Video ク ラ ス は 再 生 を 行 う playback(),映 像 の 開 始 フ レ ー ム 番 号 (start frame number: sfn)と 終 了 フ レ ー ム 番 号 (end frame number: efn)を 返 す sfn()と efn()と い う メ ソ ッ ド を 持 つ . VideoClip ク ラ ス は 撮 影 さ れ た 映 像 そ の も の を. 図 6 Xbiuilding テーブル. 表すクラスで,ビデオクリップを識別する. 撮 影 さ れ た 映 像 の 中 で , u v, o, i は 建 物 オ ブ ジ ェ ク ト ( oと す る ) が , ビ デ オ ク リ ッ プ ( vと す る ) の あ る フ レ ー ム( bと す る )か ら 始 ま り ,あ る フ レ. vcid(Video Clip ID)と , 撮 影 さ れ た 日 時 (date)を 属 性 に 持 ち ,ビ デ オ ク リ ッ プ の ID 番 号 を 返 す vcid(), 日 時 を 返 す date()と い っ た メ ソ ッ ド を 持 つ .ま た , ビ デ オ ク リ ッ プ は ユ ニ ッ ト を 導 出 す る の で Unit. −146−.
(5) ク ラ ス の オ ブ ジ ェ ク ト 群 を 指 す 属 性 derives と , derives()と い う メ ソ ッ ド を 持 つ . Unit ク ラ ス は , ユ ニ ッ ト 独 自 の 性 質 と し て , 被 写 体 建 物 オ ブ ジ ェ ク ト の. ID を 表 す. bid. (BuildingID)を 属 性 に 持 つ .ユ ニ ッ ト に 一 貫 し て 写 っ て い る 建 物 の ID を 返 す bid(), ユ ニ ッ ト の ビ デ オ ク リ ッ プ を 返 す vc(), そ の ユ ニ ッ ト の 被 写 体 建 物 オ ブ ジ ェ ク ト( 仮 に A と す る )が ,ビ デ オ ク リ ップ内に写っている A の何番目の出現であるかを 表 現 す る sequence()を メ ソ ッ ド と し て 定 義 す る . VideoClip ク ラ ス は 図 1 に お け る Video テ ー ブ ル に , Unit ク ラ ス は 図 1 に お け る Xbuilding テ ー ブ ルに該当し,それぞれデータベースに格納されて いる.. 図 9 Allen の時区間の 13 種の時間的関連 図 8 ユニットの クラス階層図. 4.4. 4.3.. Allen の 時 区 間 論 理. Allen の 時 区 間 論 理 の 拡 張. Allen の 時 区 間 論 理 で は , 例 え ば 時 区 間 X と Y. 2 つの時区間の間に存在する時間的関連は,. が X before Y の 関 係 に あ る と し て も , X が Y の. Allen の 時 区 間 論 理 が 示 し て い る よ う に , 図 9 に. 何秒前に終了していたのか,ということは表現で. 示 す 13 種 で あ る . し か し , 例 え ば ”X before Y”で. きない.しかしながら,映像の表現においては,. あ る こ と と ”Y after X”で あ る こ と は 同 値 な の で ,. このような時間関連を直接表現できる関連性を定. {before,. after} , {meets,. overlapped-by},. {during,. met-by}, contains},. {overlaps, {starts,. 義しておいたほうが使いやすい. そ こ で ,我 々 は Allen の 時 区 間 論 理 を 図 10 に 示. started-by}, {finishes, finished-by}の 対 に つ い て は ,. さ れ る よ う に 拡 張 す る .例 え ば ,X before(= , δ ) Y. そ れ ぞ れ {before, meets, overlaps, during, starts,. は X が 終 了 し て ,丁 度 δ 秒 後 に Y が 生 起 す る 関 連. finishes}を 代 表 元 と し て 使 用 し て か ま わ な い .. を表す. 以 降 ,本 論 文 で は ,時 区 間 論 理 と 言 う 場 合 に は , (特に,断りのない限り)拡張された時区間論理 を指すこととする.. −147−.
(6) 【 問 合 せ 表 現 例 1】 Q: 時 間 長 が 30 秒 以 上 の ユ ニ ッ ト X を 求 め. θ:<,>,≦,≧,=,≠ δ:秒. る. E: {X | (∃ v)(U v ∋ X ∧ X.duration()≧ 30)} こ こ に ,Q は 問 合 せ を ,E は ユ ニ ッ ト 論 理 表 現を,v はビデオクリップを表す. 【 問 合 せ 表 現 例 2】 Q:ユ ニ ッ ト Y と before の 関 係 に あ り , そ の 間 隔 が 25 秒 以 上 の ユ ニ ッ ト X を 求 め る . E:{X | (∃ v)(U v ∋ X ∧ X before(≧ ,25) Y)} ( 2) ビ デ オ レ ベ ル の 問 合 せ 表 現 ユニットをビデオとみなした時の問合せ体系 で あ る .こ の 時 ,次 の( 構 成 )要 素 を 使 え る . 関 数 playback(), sfn(), efn(), 比 較 演 算 子 θ ( <,>,≦ ,≧ ,=,≠ ), 定 値 (constant) c. 【 問 合 せ 表 現 例 3】 Q:開 始 フ レ ー ム 番 号 が 3000 番 以 降 の ユ ニ ッ ト X を求める . E:{X | (∃ v)(U v ∋ X ∧ X.sfn()≧ 3000)} ( 3) ユ ニ ッ ト レ ベ ル の 問 合 せ 表 現 この時,次の(構成)要素を使える. 図 10 Allen の時区間論理の拡張. 関 数 bid(),vc(),sequence(),比 較 演 算 子 θ( <,>, ≦ ,≧ ,=,≠ ), 定 値 c.. 4.5.. 【 問 合 せ 表 現 例 4】. ユニット論理の提案と基礎的考察. Q:SONY ビ ル (BildingID=12)が 写 っ て い る ユ ニ. 本節では,映像をユニット単位で検索するため. ットを求める.. の 問 合 せ 表 現 の 体 系 と し て , ユ ニ ッ ト 論 理 (unit. E:{X | (∃ v)(U v ∋ X ∧ X.bid()=12)}. calculus)を 提 案 し , 基 礎 的 考 察 を 加 え る . X を ユ ニ ッ ト ( を 表 す ) 変 数 と し ,P(X)を X の. ( 4) 混 合 問 合 せ 表 現 例 以上に示したレベルの質問を混合した問合せ. み を 自 由 変 数 と す る 式 (formula) と す る と き , {X| P(X)} を ユ ニ ッ ト 論 理 表 現 (unit. calculus. 表現. 【 問 合 せ 表 現 例 5】. expression)と い う . こ の 表 現 は 映 像 デ ー タ ベ ー ス に 対 す る 問 合 せ 表 現 で あ る .図 8 に 示 し た よ う に ,. Q:SONY ビ ル が 写 っ て い る ユ ニ ッ ト (Y)と 10. ユ ニ ッ ト は ビ デ オ で あ り ,ビ デ オ は 時 区 間 な の で ,. 秒 以 上 Overlap し ,時 間 長 が 50 秒 以 下 の ユ. ユニットの検索論理は階層性を持つ.以下,この. ニット X を求める. E:{X | ( ∃ v)(U v ∋ X ∧ X overlaps( ≧ ,10) Y. 階層のレベルに合わせて,代表的な問合せ表現を. ∧ Y.bid()=12 ∧ X.duration()≦ 50)}. 考察する. ( 1) 時 区 間 レ ベ ル の 問 合 せ 表 現 こ の レ ベ ル の 問 合 せ は ,ユ ニ ッ ト を ”閉 ”時 区 間. まとめと今後の課題. 5.. と み な し ,時 区 間 の 性 質 の み を 使 っ た 問 合 せ で. 本論文では,索引付けされた映像データの格納. あ る .こ の 問 合 せ 表 現 に は ,次 の( 構 成 )要 素. に お い て ,そ の 最 適 な 格 納 サ イ ズ の 検 証 を 定 性 的 ,. を使える.. 定量的に行い,格納サイズを決定した.また,検. (a) 関 数 stp(), etp(), duration(), 比 較 演 算 子. 索の対象となるユニットは時区間であるという点. θ ( <,>,. ≦ ,≧ ,=,≠ ), 時 間 長 δ (ま た は. δ 1 , δ 2 ), 時 刻 τ .. 理を拡張したユニット論理を提案し,代表的な問. (b) 図 10 に 示 さ れ た ユ ニ ッ ト 同 士 の 時 間 的 関 連.. に着目し,映像問合せ表現の体系として時区間論 合せ表現を考察した. 今後の課題として,ユニット論理の厳密な定義 と,検索対象をユニットのみならずビデオクリッ. −148−.
(7) プをも包含するように拡張した問合せの体系化を 目指すこと,およびリアルタイム索引付けを含む 全ての機能をウェアラブル環境で実装したシステ ムの完成を目指すことが挙げられる.. 文. 献. [1] Vaughan, G., Smeaton, A., Gurrin, C., Lee , H. , and McDonald , K.: “Design , Implementation and Testing of an Interactive Video Retrieval System, ” Proceedings of the 5 t h ACM SIGMM International Workshop on Multimedia Information Retrieval, pp.23-30, November 2003. [2] Wang, Y., Ostermann, J. and Zhang, Y-Q.: “Video Processing and Communications , ” (book) Prentice Hall, 2002. [3] 石 黒 玲 , 佐 藤 有 紀 子 , 増 永 良 文 3 次 元 地 図 を用いたビデオコンテンツの自動索引法− 被写体建物オブジェクトの自動抽出− ,情 報 処 理 学 会 研 究 報 告( DBWS2003),Vol2003, № 133-55, 2003 年 7 月 . [4] 佐 藤 有 紀 子 , 石 黒 玲 , 増 永 良 文 3 次 元 地 図 を用いたディジタルビデオコンテンツの自 動索引法の提案と検証 ,日本データベース 学 会( DBSJ Letters),Vol.3,No.1,pp.149-152, 2004 年 6 月 . [5] Yukiko Sato and Yoshifumi Masunaga: ”A Novel Indexing Method for Digital Video Contents using a 3-Dimentional City Map ”, Proceedings of the 4 t h International Workshop on Web and Wireless Geographical Information Systems (W2GIS) , pp.333-343 , Springer, November 2004. [6] 野 中 和 明 ,増 永 良 文 MPEG-1 動 画 像 デ ー タ ベースシステムのプロトタイプ実装 ,情報 処 理 学 会 第 53 回 全 国 大 会 , 7R-7 , vol.3, pp.89-91, 1996.9 [7] HonJian Zhang, Chien Yong Low, Stephen W.Smoilar, JianHua Wu:” Video Parsing, Retrieval and Browsing” , Intelligent Multimedia Information Retrieval , ed. Mark T.Maybury, PP.139-158, MIT Press, Massachusetts, 1997. [8] J. Allen: Maintaining Knowledge about Temporal Intervals , Communications of the ACM , Vol.26, No.11, pp.832-843, November 1983.. −149−.
(8)
図
関連したドキュメント
position by processing the image of preceding the cost function is concerned with the errors control.. of
「Skydio 2+ TM 」「Skydio X2 TM 」で撮影した映像をリアルタイムに多拠点の遠隔地から確認できる映像伝送サービ
はたらき 本機への電源の供給状態、HDC-RH100-D またはツイストペアケーブル対 応製品との接続確立、映像信号の HDCP
ImproV allows the users to mix multiple videos and to combine multiple video effects on VJing arbitrary by data flow editor. We employ a unified data type, we call, Video Type which
HD 映像コミュニケーションユニット、HD コム Live、HD コムモバイルから HD コム Live リンクの接続 用
200 インチのハイビジョンシステムを備えたハ イビジョン映像シアターやイベントホール,会 議室など用途に合わせて様々に活用できる施設
現行の HDTV デジタル放送では 4:2:0 が採用されていること、また、 Main 10 プロファイルおよ び Main プロファイルは Y′C′ B C′ R 4:2:0 のみをサポートしていることから、 Y′C′ B
(1)東北地方太平洋沖地震発生直後の物揚場の状況 【撮影年月日(集約日):H23.3.11】 撮影者:当社社員 5/600枚.