様式8の1の1 別紙1
博士論文の内容の要旨
No. 専攻名 システム創成工学専攻 氏 名 黒木 速人 (2,000字程度とし,1行43文字で記入) 聴覚障害者に対する情報保障手段を実現するとき,音声認識装置を活用した情報保障手段は, 音声-文字変換による情報呈示をリアルタイムに行うことが期待できるため,新しい情報保障手 段として有望視されている.しかしながら,話者の音声を直接音声認識装置に入力・処理させて も正しい認識結果を得ることはできず,そのままでは実用的な情報保障手段にはなり得ない.現 状の音声認識装置には不特定話者認識や話し言葉認識など技術的制約となる条件が存在し,それ らの条件下では技術的課題が露呈することになる. 一方,ヒトは,不特定話者認識や話し言葉認識など,認識すべき対象や状況が変わっても,特 に認識に問題が生じることはなく,認識に対する柔軟性を備えていると言える.そこで,ヒトと 機械が相互に補完できる仕組みを開発中の音声-字幕変換システムの字幕生成過程において復唱 認識方式と認識結果確認修正方式として適用させ,呈示する字幕の精度を向上させる研究・開発 に対する取り組みを行ってきた.本研究では,システムの性能をより発展させるために,字幕生 成過程だけでなくシステムの字幕呈示過程においても,ヒトの認識や情報統合に対する柔軟性を 活用するアプローチを採用し,音声認識処理後の限られた精度の字幕からより高い内容理解を得 るための字幕とノンバーバル情報の適する呈示方法に関する知見を得ることを目的とする.加え て,システム運用における将来的な対遠隔地運用を見据え,運用場所にシステム全てを持ち込む ローカルシステムによる運用だけでなく,システムをネットワーク化した際に懸念される影響に 対して評価・検証を行う. 以下に,本論文の構成と内容を示す. 第1章「序論」では,本研究に関わる背景と,本研究の目的および本論文の構成が示されてい る. 第2章「従来研究と本研究の位置付け」では,聴覚障害者に対して行われる一般的な情報保障 手段に関して概略および分類し,その中で比較的新しい技術として期待されている音声-字幕変 換技術に関する従来技術の研究・開発と本研究との位置付けを示している. 第3章「遠隔型音声同時字幕システムの構築・運用・評価」では,システムの実運用的な視点 から,将来的に主流となる対遠隔地運用のためのネットワークシステムを構築し,実運用試験を 行い,その結果を基に評価を行っている.本章では,まず,評価の基準となるシステム全体を運 用場所のローカルに組み上げるローカルシステムに関して,ある国際会議にて聴覚障害者のため の情報保障手段として運用した際の結果に対して評価を行っている.次に,対遠隔地運用のためのネットワークシステムを構築し,別の国際会議にて情報保障手段として運用した際の結果に対 して評価を行っている.この章では最後にローカルシステムとネットワークシステムのそれぞれ に関して,字幕精度,変換所要時間,および実用的視点からシステムの評価を行っている.その 結果,ネットワークシステムは,従来から運用されているローカルシステムと同等の性能を有し, 遠隔運用に耐えうると言う見通しを得ている. 第4章「不完全文の内容理解向上を目的とした顔映像の呈示方法」では,従来のシステムを基 盤とし,システムの性能を発展させるための字幕呈示課程における研究課題に取り組んだ結果が 示されている.システムの字幕生成課程において技術上どうしても字幕中の誤認識は避けられず, また一方,音声を文字などの離散記号として変換する際にはどうしても話者の発話情報などのノ ンバーバル情報が失われてしまう.欠落するノンバーバル情報を字幕呈示過程において適した条 件で呈示することで,誤認識字幕を含む字幕においても最終的な内容理解を向上させることがで きるかどうかを検証した.本章では,はじめに,音声認識処理後の誤認識を含む不完全文に対し, ノンバーバル情報である話者の発話時の顔映像を同時呈示した条件において,内容理解が促進さ れるかを検証している.次に,音声認識処理後の誤認識を含む不完全文とノンバーバル情報であ る話者の発話時の顔映像の呈示順序・呈示時間差を様々に組み合わせた呈示条件において,不完 全文に対する内容理解が促進・阻害されるかを検証している.これらの実験を通して,誤認識字 幕に発話時の話者顔情報を適した条件で付加することで,内容理解が向上することを明らかにし ている. 第5章「結言」では,本研究における様々な実験を要約し,論文の結論と,本研究で得た知見 の今後の展望等に関して論じている.