• 検索結果がありません。

2012年度論文賞の受賞論文紹介:コンテンツの解析からインタラクションの解析へ

N/A
N/A
Protected

Academic year: 2021

シェア "2012年度論文賞の受賞論文紹介:コンテンツの解析からインタラクションの解析へ"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)コンテンツの解析から インタラクションの解析へ 河原 達也 京都大学・学術情報メディアセンター 〔受賞論文〕 音声会話コンテンツにおける聴衆の反応に基づく音響イベントとホットスポットの検出 河原達也,須見康平(京都大学情報学研究科) ,緒方淳,後藤真孝 (産業技術総合研究所) 情報処理学会論文誌,Vol.52, No.12, pp.3363-3373(2011). 「情報爆発」や「ビッグデータ」の波が,音声や画像・ 映像などにも及んできている.現在このようなマルチメディ アコンテンツを検索できるようにするには,基本的に人手 でタグを付与する必要があり,自動化のためのコンテンツ 解析に関する研究が世界的に行われている.これにあわ せて,音声認識・文字認識・顔認識などのパターン認識 2012年度論文賞の受賞論文紹介. 技術が急速に進展している.筆者の専門である音声認 識技術についても,近年のスマートフォンアプリや,2011 年度喜安記念業績賞をいただいた国会の会議録作成シ ステムなどで実用化が進んでいる.しかしながら,我々が ふだん話しているような会話をテキストにするのはまだ遠い 夢物語である. これは例えると,多くの日本人が外国に行って,旅行. を対象として,マルチモーダルな情報処理に展開してい. 会話や(自分の分野の)学会講演の理解はできても, トー. る.このプロジェクトでは,カメラやマイクアレイを搭載した. クショーやテレビドラマをあまり聞き取れないのと同様であ. 電子掲示板(大型 LCD)で行うポスターセッションで,訪. る.皆さんもバンケットのスピーチでジョークが理解できなか. れた聴衆の顔・視線(顔向け) ・発話を検出し,興味・. った経験はないでしょうか? たとえ内容が理解できなくて. 理解度を推定することを目指している.講演形式の口頭. も,周囲の聴衆の反応を見ていると,どこが面白くて,ど. 発表の多くが録音・録画されて,音声認識等の研究も. こが話のポイントであったかは推測可能である.このような. 進められているが,ポスターセッションでは発表者と聴衆と. アイディアを実現したのが,本論文の内容である.このア. のインタラクションが重要であり,このモデル化・アノテーシ. イディアは,Web ページのランクがそこに書かれている内. ョンを行う試みはほかにない.写真は国際会議でのデモ. 容よりもリンク数(他の人の反応)に基づいているのと少し. 風景である.まださまざまな技術的課題があるが,あと数. 類似している.本研究では具体的に,会話における聞き. 年でシステムの形にしていきたい.. 手の笑い声や, 「へー」などの特定のパターンの相槌に着. 最後に,本研究の主要部分を実装してくれた当時大. 目し,それらを検出することで,会話コンテンツの重要個所. 学院生の須見康平君 (現在ヤマハ (株)) ,研究協力をい. (=ホットスポット)を抽出することを試みた.アイディア自体. ただいた産業技術総合研究所の緒方淳さん・後藤真孝. は,従来の音声認識や対話処理とまったく異なる斬新な. さん,日頃から議論していただく京都大学の研究室の皆. ものであったが,初期的な段階であったので,論文賞を. さん,ならびに CREST 関係者の皆さんに深い感謝の意. いただけるとは思わなかった.. を表したい. (2013 年 5 月 10 日受付). 現在,JST CREST のプロジェクト「マルチモーダルな 場の認識に基づくセミナー・会議の多層的支援環境」に おいて,学会やオープンラボで行われるポスターセッション. 河原 達也(正会員) [email protected] 1989 年京都大学大学院工学研究科情報工学専攻修士課程修了.現 在,京都大学学術情報メディアセンター教授.京大博士(工学).音 声言語処理,特に音声認識および対話システムに関する研究に従事.. 情報処理 Vol.54 No.8 Aug. 2013. 813.

(2)

参照

関連したドキュメント

Mochizuki, Topics Surrounding the Combinatorial Anabelian Geometry of Hyperbolic Curves III: Tripods and Tempered Fundamental Groups, RIMS Preprint 1763 (November 2012).

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

Kambe, Acoustic signals associated with vor- page texline reconnection in oblique collision of two vortex rings.. Matsuno, Interaction of an algebraic soliton with uneven bottom

TRACG は,オリジナルの原子炉過渡解析コード(TRAC)[1]の GE Hitachi Nuclear Energy

そこで本研究ではまず、乗合バス市場の変遷や事業者の経営状況などを考察し、運転手不

解析モデル平面図 【参考】 修正モデル.. 解析モデル断面図(その2)

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

2 次元 FEM 解析モデルを添図 2-1 に示す。なお,2 次元 FEM 解析モデルには,地震 観測時点の建屋の質量状態を反映させる。.