遠隔型音声同時字幕システム

第 3 章遠隔型音声同時字幕システムの構築・運用・評価

3.3 遠隔型音声同時字幕システム

本システムの第 3 の特徴であるシステムのネットワーク化において，実際に遠隔地に対して問題なく字幕を提供させる運用ができれば，「誰がどこに居ても」稼働させられる運用形態としての可能性が開けることになる．そこでシステムネットワーク化の第一歩として，UD2002（国際ユニバーサルデザイン会議2002）[7]において実運用試験を行った．会議の会場である横浜と字幕変換の中核システムを設置した札幌をネットワークで接続して運用を行った．会議初日のプログラムである，開会式から公開シンポジウム終了まで，合計約4時間システムを稼働させ実運用試験を行った．ネットワーク化したシステムの構成を図3.5に示す．また実運用中の横浜会場の正面スクリーンの様子を図3.6に示す．

第3章遠隔型音声同時字幕システム

図3.5 UD2002におけるネットワークシステム図

図3.6 UD2002正面スクリーン

図3.5に示すとおり，この運用におけるシステムの構成は，図3.1のシステム基本構成において，会場（横浜）と中核システム（札幌）をISDN回線で接続し，英語字幕の系統において修正者を配置しない構成とした．また，図3.6に示すとおり，会場正面ス

第3章遠隔型音声同時字幕システム

クリーンには4枚のスクリーンを配置させ，右から英語字幕，講演者映像，日本手話通訳映像，日本語字幕とした．

3.3.1 ネットワークシステムにおける実運用試験

3.3.1.1 精度

ローカルシステムにおける算出式同様，精度とは，比較する文間の形態素レベルでの一致率のことを指す．比較する文間の形態素レベルでの一致率は，以下の式（3.2）で表される．

ここで，N は比較元となる文の総形態素数，D は比較対象文において脱落した形態素数（脱落誤り），以下同様にSは変換誤りをした形態素数（挿入誤り），I は挿入誤りをした形態素数（挿入誤り）である．比較対象文において総形態素数より誤りが多い場合，精度の値は負の値を取ることもある．

ある原文を音声認識処理した結果の例文を表3.4に示す．

表3.4 音声認識処理結果の例

“学生はレポートを置くとちょっと頭を下げて出て行った”

↓

“学生はサポートを北東ちょっと頭を下げてから出て行った”

表3.4の例文において，音声認識処理後の文の精度を算出すると以下となる．まず原文を形態素解析すると，“学生/は/レポート/を/置く/と/ちょっと/頭/を/下げ/て/出/て/行っ /た”となり，N=15 である．一方，音声認識処理後の文では，“学生/は/サポート/を/北東/

第3章遠隔型音声同時字幕システム

ちょっと/頭/を/下げ/て/から/出/て/行っ/た”となる．音声認識処理後の文における形態素の誤りは，“サポート”が置換誤り(S)，“北東”が置換誤り(S)，原文の“と”が欠けているために脱落誤り(D)，“から”は挿入誤り(I)であるため，式(3.1)より不完全文の文完全率は，73%

と算出される．

ネットワークシステムにおいてもローカルシステムと同様に，「日本語発話者→日本語字幕」過程における復唱精度・音声認識率・修正前字幕精度・字幕精度を算出した．

それぞれの精度が何と何を比較した値であるかを図3.5に示す．

図3.5 精度参照図

比較する文の形態素解析には「茶筌[7],[8]（ChaSen） version2.1 for Windows」を用いた．以下本論文では，精度の算出には式（3.1）を用い，文の形態素解析には「茶筌」

を用いることとする．

3.3.1.2 所要時間

所要時間は，発話者が言葉を発してから該当する単語が会場の字幕用スクリーンに呈示されるまでの時間を計測した．通訳者を介す場合（発話者と字幕の言語が異なる場合）は，発話者の発した単語に該当する訳出単語が字幕用スクリーンに呈示されるまでの時間を計測した．測定は，横浜会場側で行い，ネットワークを介した時間，つまりネットワークによる遅延等を含んだ時間をネットワークシステムにおける所要時間とした．

「日本語話津話者→日本語字幕」・「日本語発話者→英語字幕」・「英語発話者→英語字幕」・「英語発話者→英語字幕」の4経路に関して，システムの各要素において可能な限り細かい要素になるように配慮した．計測値が偏らないように，全講演に関して一講

第3章遠隔型音声同時字幕システム

演中の前半・中盤・後半で計測を行い，全ての平均値を求めた．

3.3.2 ネットワークシステムにおける実運用試験の結果

3.3.2.1 精度

精度はローカルシステムの実運用試験と同様，「日本語発話者→日本語字幕」過程における復唱精度・音声認識率・修正前字幕精度・字幕精度を算出した．それぞれの精度が何を比較した値であるかは図3.3に示す通りである．システム稼働中に取得したデータの一部（約10分）に対して解析を行った結果を表3.5に示す．

表3.5 ネットワークシステムにおける精度

総形態素数 N

脱落誤り D

変換誤り S

挿入誤り I

精度 [%]

復唱精度 4458 41 19 4 98.6

音声認識率 4453 78 169 128 91.2 修正前字幕精度 4458 118 185 132 90.2

字幕精度 4458 73 33 17 97.2

表3.5より，字幕精度は97.2%であった．復唱精度と音声認識率はそれぞれ98.6%と

91.2%であった．修正前字幕精度は 90.2%であり，この値は復唱精度と音声認識率を掛

けた値とほぼ同じであることがわかる．

形態素の誤りの内訳を見てみると，ローカルシステムの傾向と同様に，復唱精度に関しては脱落誤り（D）が比較的多く，音声認識率に関しては変換誤り（S）が比較的多いことが見て取れる．

3.3.2.2 所要時間

ローカルシステムの実運用試験と同様，「日本語発話者 → 日本語字幕」・「日本語発話者 → 英語字幕」・「英語発話者 → 英語字幕」・「英語発話者 → 英語字幕」の4経路に関して測定を行った．また通訳者を介す経路においては，通訳者の訳出単語が発せられるタイミングにおいても時間を計測し，「発話者 → 通訳者」・「通訳者 → 字幕」区間における所要時間も求めた．所要時間の計測は横浜会場側で行った．結果を表3.4に

第3章遠隔型音声同時字幕システム

示す．

表3.6より，所要時間は「話者(日)→字幕(日)」で11秒，「話者(英)→字幕(日)」で17 秒，「話者(英)→字幕(英)」で4秒，「話者(日)→字幕(英)」で12秒であった．

通訳者で区間を区切った所要時間に関しては，「話者(英)→通訳」まで4秒，「通訳→字幕(日)」まで13 秒，「話者(日)→通訳」まで5秒，「通訳→字幕(英)」まで7 秒であり，

それぞれ「話者(英)→字幕(日)」と「話者(日)→字幕(英)」における途中区間における所要時間を示していることが見て取れる．

表3.6 ネットワークシステムにおける所要時間

字幕経路所要時間

[秒] 話者(日)→ → 復唱 → 認識 → 修正 → 字幕(日) 11 話者(英)→ 通訳 → 復唱 → 認識 → 修正 → 字幕(日) 17

話者(英)→ 通訳 4

日本語

通訳 → 復唱 → 認識 → 修正 → 字幕(日) 13 話者(英)→ → 復唱 → 認識 → → 字幕(英) 4 話者(日)→ 通訳 → 復唱 → 認識 → → 字幕(英) 12

話者(日)→ 通訳 5

英語

通訳 → 復唱 → 認識 → → 字幕(英) 7

ドキュメント内聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究 (ページ 50-55)

第 3 章 遠隔型音声同時字幕システムの構築・運用・評価

3.3 遠隔型音声同時字幕システム

第 3 章遠隔型音声同時字幕システムの構築・運用・評価