• 検索結果がありません。

映像検索への音声工学からのアプローチ

N/A
N/A
Protected

Academic year: 2021

シェア "映像検索への音声工学からのアプローチ"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2014-MUS-103 No.6 2014/5/24. 情報処理学会研究報告 IPSJ SIG Technical Report. [招待講演] 映像検索への音声工学からのアプローチ 篠田 浩一1,a). 概要:インターネット上の大量の消費者映像から,そのコンテンツを解析して,情報を抽出する映像意味 検索技術が盛んに研究されている.その中で,毎年米国で開催されている TRECVID は,世界の有力研究 機関が集まって共通のタスクでの性能を競い合うワークショップで,最先端技術のショーケースとなって いる.ここでは,TRECVID タスクのうち,特に意味インデクシングとマルチメディアイベント検出の 2 つに焦点を当て,それらにおいて,音声工学でこれまで培われてきた方法論や開発されてきた特徴量がど のように貢献しているかを解説する.さらに,今後のマルチメディア検索技術の展開を予想する.. インターネット上の映像の中身 (コンテンツ) を解析し. 生日を祝っている」などがその例である.従来は,SIN の. て,そこから意味の情報を抽出する技術,Content-Based. 手法をそのまま適用するアプローチが主流であったが,近. Video Retrieval (CBVR) の研究が盛んに行われている.映. 年,意味インデクシング,音声認識,OCR などの識別器や. 像信号の特徴 (低次特徴) と人間にとって意味のある概念. 入力特徴量のクラスタリングから得られた情報を「中間表. (高次特徴)の間には大きな乖離があり,このセマンティッ. 現」とし,それらを入力とした検出器を設計するアプロー. ク・ギャップの克服がもっとも大きな課題となっている.. チが試みられている.. TRECVID [1], [2] は米国の国立標準技術研究所 (NIST). 音声工学発の技術は主に以下の 3 つの側面で重要な役割. 主催の映像検索のワークショップである.TREC から 2001. を果している [3].. 年に独立した.共通のタスクを設定してその性能を競うク. ( 1 ) 多くのコンセプト・イベントを検出するために,音声・. ローズドな競争型のワークショップである.IBM, CMU,. Columbia 大, アムステルダム大などが参加しており,日本. 音響特徴が画像特徴を補完する役割を果たす.. ( 2 ) 音声で培われた GMM, HMM などの統計・確率的ア. からも NII, NTT, 東工大などが参加している.映像検索. プローチ,及び,その頑健性を高める様々な手法は,. のトップクラスの研究者が集まっており,いわば最先端技. しばしば有効である [4].また,Deep Learning も今後. 術のショーケースとなっている.. の展開が期待される [5].. 例えば Semantic INdexing(SIN) は映像のショットから. ( 3 ) リアルタイム動作の必要性から培われた高速化技術が. 「コンセプト」を抽出するタスクである.ここでのショッ トとはカメラの切り替わりで区切られる区間を指し,通常 数秒∼30 秒程度である.コンセプトは,オブジェクト (犬, 椅子など),シーン (夜景,屋外など),アクション (歌う,踊. 開発効率の向上に貢献している. 謝辞 映像検索の研究についてご支援いただいたキヤノン (株), 及び,研究室の諸氏,特に井上中順氏に感謝する.. るなど) である.主な手法は SIFT(Scale Invariant Feature. Transform) などの局所特徴を量子化したコードブックを. 参考文献. 用いる BoW(Bag of Words) である. また,Multimedia Event Detection (MED) は映像のク. [1] [2]. リップから「イベント」を検出するタスクである.クリッ. [3]. プの長さは 30 秒∼3 分程度であり,通常複数のショットか ら成る.ここで,イベントとは,人間と人間との間や人間 から事物への行動を指す.「タイヤを交換している」, 「誕 1. a). 東京工業大学 Tokyo Institute of Technology, Meguro-ku, Tokyo 152–8552, Japan [email protected]. ⓒ 2014 Information Processing Society of Japan. [4]. [5]. http://trecvid.nist.gov/ A. F. Smeaton et al., “Evaluation campaigns and TRECVid”, Proc. MIR’06, 2006. K. Shinoda et al., “Reusing speech techniques for video semantic indexing”, IEEE Signal Processing Magazine, vol. 30, no. 2, pp. 118–122. N. Inoue et al., “A fast and accurate video semanticindexing system using fast MAP adaptation and GMM Supervectors”, IEEE Trans. Multimedia, vol. 14, no. 4-2, pp. 1196–1205, 2012. C. Snoek et al., “Deep nets for detecting, combining, and localizing concepts in video”, Proc. TRECVID, 2013.. 1.

(2)

参照

関連したドキュメント

et al.: Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. et al.: Patterns and rates of exonic de novo mutations in autism

6.. : Magneto- strictive Properties of Body-Centered Cubic Fe-Ga and Fe- Ga-Al Alloy, IEEE Trans. : Magneto- strictive property of Galfenol alloys under compressive

et al., Determination of Dynamic Constitutive Equation with Temperature and Strain-rate Dependence for a Carbon Steel, Transactions of the Japan Society of Mechanical Engineers,

The construction given just before the discussion of double Riemann nets in Section 1.4 shows that θ has a unique extension to an HP-function in C \{ 0 } , so that for convenience

For a brief history of the Fekete- Szeg¨o problem for class of starlike, convex, and close-to convex functions, see the recent paper by Srivastava et

(v) It is worth mentioning here that the Banach contraction principle [2] and its generalizations give the existence of a unique …xed point for a self map (for instance, Baradol et

Based on the asymptotic expressions of the fundamental solutions of 1.1 and the asymptotic formulas for eigenvalues of the boundary-value problem 1.1, 1.2 up to order Os −5 ,

Using a method developed by Ambrosetti et al [1, 2] we prove the existence of weak non trivial solutions to fourth-order elliptic equations with singularities and with critical