第 3 章 遠隔型音声同時字幕システムの構築・運用・評価
3.3 遠隔型音声同時字幕システム
本システムの第 3 の特徴であるシステムのネットワーク化において,実際に遠隔地 に対して問題なく字幕を提供させる運用ができれば,「誰がどこに居ても」稼働させら れる運用形態としての可能性が開けることになる.そこでシステムネットワーク化の第 一歩として,UD2002(国際ユニバーサルデザイン会議2002)[7]において実運用試験を 行った.会議の会場である横浜と字幕変換の中核システムを設置した札幌をネットワー クで接続して運用を行った.会議初日のプログラムである,開会式から公開シンポジウ ム終了まで,合計約4時間システムを稼働させ実運用試験を行った.ネットワーク化し たシステムの構成を図3.5に示す.また実運用中の横浜会場の正面スクリーンの様子を 図3.6に示す.
第3章 遠隔型音声同時字幕システム
図3.5 UD2002におけるネットワークシステム図
図3.6 UD2002正面スクリーン
図3.5に示すとおり,この運用におけるシステムの構成は,図3.1のシステム基本構 成において,会場(横浜)と中核システム(札幌)をISDN回線で接続し,英語字幕の 系統において修正者を配置しない構成とした.また,図3.6に示すとおり,会場正面ス
第3章 遠隔型音声同時字幕システム
クリーンには4枚のスクリーンを配置させ,右から英語字幕,講演者映像,日本手話通 訳映像,日本語字幕とした.
3.3.1 ネットワークシステムにおける実運用試験
3.3.1.1 精度
ローカルシステムにおける算出式同様,精度とは,比較する文間の形態素レベルで の一致率のことを指す.比較する文間の形態素レベルでの一致率は,以下の式(3.2) で表される.
ここで,N は比較元となる文の総形態素数,D は比較対象文において脱落した形態 素数(脱落誤り),以下同様にSは変換誤りをした形態素数(挿入誤り),I は挿入誤り をした形態素数(挿入誤り)である.比較対象文において総形態素数より誤りが多い場 合,精度の値は負の値を取ることもある.
ある原文を音声認識処理した結果の例文を表3.4に示す.
表3.4 音声認識処理結果の例
“学生はレポートを置くとちょっと頭を下げて出て行った”
↓
“学生はサポートを北東ちょっと頭を下げてから出て行った”
表3.4の例文において,音声認識処理後の文の精度を算出すると以下となる.まず原 文を形態素解析すると,“学生/は/レポート/を/置く/と/ちょっと/頭/を/下げ/て/出/て/行っ /た”となり,N=15 である.一方,音声認識処理後の文では,“学生/は/サポート/を/北東/
第3章 遠隔型音声同時字幕システム
ちょっと/頭/を/下げ/て/から/出/て/行っ/た”となる.音声認識処理後の文における形態素 の誤りは,“サポート”が置換誤り(S),“北東”が置換誤り(S),原文の“と”が欠けているため に脱落誤り(D),“から”は挿入誤り(I)であるため,式(3.1)より不完全文の文完全率は,73%
と算出される.
ネットワークシステムにおいてもローカルシステムと同様に,「日本語発話者→日本 語字幕」過程における復唱精度・音声認識率・修正前字幕精度・字幕精度を算出した.
それぞれの精度が何と何を比較した値であるかを図3.5に示す.
図3.5 精度参照図
比較する文の形態素解析には「茶筌[7],[8](ChaSen) version2.1 for Windows」を用 いた.以下本論文では,精度の算出には式(3.1)を用い,文の形態素解析には「茶筌」
を用いることとする.
3.3.1.2 所要時間
所要時間は,発話者が言葉を発してから該当する単語が会場の字幕用スクリーンに 呈示されるまでの時間を計測した.通訳者を介す場合(発話者と字幕の言語が異なる場 合)は,発話者の発した単語に該当する訳出単語が字幕用スクリーンに呈示されるまで の時間を計測した.測定は,横浜会場側で行い,ネットワークを介した時間,つまりネ ットワークによる遅延等を含んだ時間をネットワークシステムにおける所要時間とし た.
「日本語話津話者→日本語字幕」・「日本語発話者→英語字幕」・「英語発話者→英語 字幕」・「英語発話者→英語字幕」の4経路に関して,システムの各要素において可能な 限り細かい要素になるように配慮した.計測値が偏らないように,全講演に関して一講
第3章 遠隔型音声同時字幕システム
演中の前半・中盤・後半で計測を行い,全ての平均値を求めた.
3.3.2 ネットワークシステムにおける実運用試験の結果
3.3.2.1 精度
精度はローカルシステムの実運用試験と同様,「日本語発話者→日本語字幕」過程に おける復唱精度・音声認識率・修正前字幕精度・字幕精度を算出した.それぞれの精度 が何を比較した値であるかは図3.3に示す通りである.システム稼働中に取得したデー タの一部(約10分)に対して解析を行った結果を表3.5に示す.
表3.5 ネットワークシステムにおける精度
総形態素数 N
脱落誤り D
変換誤り S
挿入誤り I
精度 [%]
復唱精度 4458 41 19 4 98.6
音声認識率 4453 78 169 128 91.2 修正前字幕精度 4458 118 185 132 90.2
字幕精度 4458 73 33 17 97.2
表3.5より,字幕精度は97.2%であった.復唱精度と音声認識率はそれぞれ98.6%と
91.2%であった.修正前字幕精度は 90.2%であり,この値は復唱精度と音声認識率を掛
けた値とほぼ同じであることがわかる.
形態素の誤りの内訳を見てみると,ローカルシステムの傾向と同様に,復唱精度に 関しては脱落誤り(D)が比較的多く,音声認識率に関しては変換誤り(S)が比較的 多いことが見て取れる.
3.3.2.2 所要時間
ローカルシステムの実運用試験と同様,「日本語発話者 → 日本語字幕」・「日本語発 話者 → 英語字幕」・「英語発話者 → 英語字幕」・「英語発話者 → 英語字幕」の4経路 に関して測定を行った.また通訳者を介す経路においては,通訳者の訳出単語が発せら れるタイミングにおいても時間を計測し,「発話者 → 通訳者」・「通訳者 → 字幕」区 間における所要時間も求めた.所要時間の計測は横浜会場側で行った.結果を表3.4に
第3章 遠隔型音声同時字幕システム
示す.
表3.6より,所要時間は「話者(日)→字幕(日)」で11秒,「話者(英)→字幕(日)」で17 秒,「話者(英)→字幕(英)」で4秒,「話者(日)→字幕(英)」で12秒であった.
通訳者で区間を区切った所要時間に関しては,「話者(英)→通訳」まで4秒,「通訳→字 幕(日)」まで13 秒,「話者(日)→通訳」まで5秒,「通訳→字幕(英)」まで7 秒であり,
それぞれ「話者(英)→字幕(日)」と「話者(日)→字幕(英)」における途中区間における所 要時間を示していることが見て取れる.
表3.6 ネットワークシステムにおける所要時間
字幕 経路 所要時間
[秒] 話者(日)→ → 復唱 → 認識 → 修正 → 字幕(日) 11 話者(英)→ 通訳 → 復唱 → 認識 → 修正 → 字幕(日) 17
話者(英)→ 通訳 4
日本語
通訳 → 復唱 → 認識 → 修正 → 字幕(日) 13 話者(英)→ → 復唱 → 認識 → → 字幕(英) 4 話者(日)→ 通訳 → 復唱 → 認識 → → 字幕(英) 12
話者(日)→ 通訳 5
英語
通訳 → 復唱 → 認識 → → 字幕(英) 7