第 3 章 遠隔型音声同時字幕システムの構築・運用・評価
3.2 音声同時字幕システムの基本構成
3.2.1 ローカルシステムにおける実運用試験
本システムの第1 と第 2 の特徴である,復唱者による復唱音声認識方式および修正 者による誤認識修正方式に関する実運用試験を行った.実運用は第6 回DPI(Disabled People International;障害者インターナショナル)の本大会[6](2002年10月15〜18日,
北海道立体育総合センター)のプログラム一部で実施し,システム稼働と同時にデータ の計測を行った.計測内容は音声-字幕変換における精度・所要時間(変換時間)に関 して測定を行った. 実運用中の壇上スクリーンの様子を図3.2に示す.
図3.2 DPIにおけるスクリーンの様子
図3.2を見て分かるとおり,スクリーン上段に右側に日本語字幕,左側に英語字幕を 投影した.いずれの字幕も本システムの処理結果を表示している.スクリーン中央に講 演者映像,その右側に日本手話通訳映像,左側にアメリカ手話(ASL)通訳映像を表示 させた.
この運用で用いたシステムの構成を図3.3に示す.この運用では,図3.1のシステム
第3章 遠隔型音声同時字幕システム
基本構成において,英語字幕を作成する系統において修正者を配置しない構成を採用し た.
図3.3 DPIにおけるローカルシステムの構成
3.2.1.1 精度
精度とは,比較する文間の形態素レベルでの一致率のことを指す.形態素とはそれ 自体で文法的に意味を担うことのできる最小の単位である.比較する文間の形態素レベ ルでの一致率は,以下の式(3.1)で表される.
ここで,N は比較元となる文の総形態素数,D は比較対象文において脱落した形態 素数(脱落誤り),以下同様にSは変換誤りをした形態素数(挿入誤り),I は挿入誤り をした形態素数(挿入誤り)である.比較対象文において総形態素数より誤りが多い場 合,精度の値は負の値を取ることもある.
極端な例ではあるが,ある原文を音声認識処理した結果の例文を表3.1に示す.
第3章 遠隔型音声同時字幕システム
表3.1 音声認識処理結果の例
“学生はレポートを置くとちょっと頭を下げて出て行った”
↓
“学生はサポートを北東ちょっと頭を下げてから出て行った”
表3.1の例文において,音声認識処理後の文の精度を算出すると以下となる.まず原 文を形態素解析すると,“学生/は/レポート/を/置く/と/ちょっと/頭/を/下げ/て/出/て/行っ /た”となり,N=15 である.一方,音声認識処理後の文では,“学生/は/サポート/を/北東/ ちょっと/頭/を/下げ/て/から/出/て/行っ/た”となる.音声認識処理後の文における形態素 の誤りは,“サポート”が置換誤り(S),“北東”が置換誤り(S),原文の“と”が欠けているため に脱落誤り(D),“から”は挿入誤り(I)であるため,式(3.1)より不完全文の文完全率は,73%
と算出される.
本試験では「日本語発話者→日本語字幕」過程における復唱精度・音声認識率・修 正前字幕精度・字幕精度を算出した.それぞれの精度が何と何を比較した値であるかを 図3.4に示す.
図3.4に示すとおり,精度の中でも字幕精度は,発話者が発した発話内容と会場に最 終的に呈示される字幕とを比較したものであり,会場の情報取得者が目にする字幕に関 する精度という意味において特に重要な値である.
図3.4 精度参照図
比較する文の形態素解析には「茶筌[7],[8](ChaSen) version2.1 for Windows」を用
第3章 遠隔型音声同時字幕システム
いた.以下本論文では,精度の算出には式(3.1)を用い,文の形態素解析には「茶筌」
を用いることとする.
3.2.1.2 所要時間
所要時間は,発話者が言葉を発してから該当する単語が会場の字幕用スクリーンに 呈示されるまでの時間を計測した.通訳者を介す場合(発話者と字幕の言語が異なる場 合)は,発話者の発した単語に該当する訳出単語が字幕用スクリーンに呈示されるまで の時間を計測した.
「日本語話津話者→日本語字幕」・「日本語発話者→英語字幕」・「英語発話者→英語 字幕」・「英語発話者→英語字幕」の4経路に関して測定を行った.講演後と講演中で計 測値が偏らないように,全講演に関して一講演中の前半・中盤・後半で計測を行い,全 ての平均値を求めた.