聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究

(1)

様式８の１の１別紙１

博士論文の内容の要旨

No. 専攻名システム創成工学専攻氏名黒木速人（2,000字程度とし，1行43文字で記入）聴覚障害者に対する情報保障手段を実現するとき，音声認識装置を活用した情報保障手段は，音声-文字変換による情報呈示をリアルタイムに行うことが期待できるため，新しい情報保障手段として有望視されている．しかしながら，話者の音声を直接音声認識装置に入力・処理させても正しい認識結果を得ることはできず，そのままでは実用的な情報保障手段にはなり得ない．現状の音声認識装置には不特定話者認識や話し言葉認識など技術的制約となる条件が存在し，それらの条件下では技術的課題が露呈することになる．一方，ヒトは，不特定話者認識や話し言葉認識など，認識すべき対象や状況が変わっても，特に認識に問題が生じることはなく，認識に対する柔軟性を備えていると言える．そこで，ヒトと機械が相互に補完できる仕組みを開発中の音声-字幕変換システムの字幕生成過程において復唱認識方式と認識結果確認修正方式として適用させ，呈示する字幕の精度を向上させる研究・開発に対する取り組みを行ってきた．本研究では，システムの性能をより発展させるために，字幕生成過程だけでなくシステムの字幕呈示過程においても，ヒトの認識や情報統合に対する柔軟性を活用するアプローチを採用し，音声認識処理後の限られた精度の字幕からより高い内容理解を得るための字幕とノンバーバル情報の適する呈示方法に関する知見を得ることを目的とする．加えて，システム運用における将来的な対遠隔地運用を見据え，運用場所にシステム全てを持ち込むローカルシステムによる運用だけでなく，システムをネットワーク化した際に懸念される影響に対して評価・検証を行う．以下に，本論文の構成と内容を示す．第1章「序論」では，本研究に関わる背景と，本研究の目的および本論文の構成が示されている．第2章「従来研究と本研究の位置付け」では，聴覚障害者に対して行われる一般的な情報保障手段に関して概略および分類し，その中で比較的新しい技術として期待されている音声-字幕変換技術に関する従来技術の研究・開発と本研究との位置付けを示している．第3章「遠隔型音声同時字幕システムの構築・運用・評価」では，システムの実運用的な視点から，将来的に主流となる対遠隔地運用のためのネットワークシステムを構築し，実運用試験を行い，その結果を基に評価を行っている．本章では，まず，評価の基準となるシステム全体を運用場所のローカルに組み上げるローカルシステムに関して，ある国際会議にて聴覚障害者のための情報保障手段として運用した際の結果に対して評価を行っている．次に，対遠隔地運用のため

(2)

のネットワークシステムを構築し，別の国際会議にて情報保障手段として運用した際の結果に対して評価を行っている．この章では最後にローカルシステムとネットワークシステムのそれぞれに関して，字幕精度，変換所要時間，および実用的視点からシステムの評価を行っている．その結果，ネットワークシステムは，従来から運用されているローカルシステムと同等の性能を有し，遠隔運用に耐えうると言う見通しを得ている．第4章「不完全文の内容理解向上を目的とした顔映像の呈示方法」では，従来のシステムを基盤とし，システムの性能を発展させるための字幕呈示課程における研究課題に取り組んだ結果が示されている．システムの字幕生成課程において技術上どうしても字幕中の誤認識は避けられず，また一方，音声を文字などの離散記号として変換する際にはどうしても話者の発話情報などのノンバーバル情報が失われてしまう．欠落するノンバーバル情報を字幕呈示過程において適した条件で呈示することで，誤認識字幕を含む字幕においても最終的な内容理解を向上させることができるかどうかを検証した．本章では，はじめに，音声認識処理後の誤認識を含む不完全文に対し，ノンバーバル情報である話者の発話時の顔映像を同時呈示した条件において，内容理解が促進されるかを検証している．次に，音声認識処理後の誤認識を含む不完全文とノンバーバル情報である話者の発話時の顔映像の呈示順序・呈示時間差を様々に組み合わせた呈示条件において，不完全文に対する内容理解が促進・阻害されるかを検証している．これらの実験を通して，誤認識字幕に発話時の話者顔情報を適した条件で付加することで，内容理解が向上することを明らかにしている．第5章「結言」では，本研究における様々な実験を要約し，論文の結論と，本研究で得た知見の今後の展望等に関して論じている．