精度 - 実運用試験結果の考察 - 遠隔型音声同時字幕システムの構築・運用・評価 - 聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究

第 3 章遠隔型音声同時字幕システムの構築・運用・評価

3.4 実運用試験結果の考察

3.4.1 精度

第3章遠隔型音声同時字幕システム

示す．

表3.6より，所要時間は「話者(日)→字幕(日)」で11秒，「話者(英)→字幕(日)」で17 秒，「話者(英)→字幕(英)」で4秒，「話者(日)→字幕(英)」で12秒であった．

通訳者で区間を区切った所要時間に関しては，「話者(英)→通訳」まで4秒，「通訳→字幕(日)」まで13 秒，「話者(日)→通訳」まで5秒，「通訳→字幕(英)」まで7 秒であり，

それぞれ「話者(英)→字幕(日)」と「話者(日)→字幕(英)」における途中区間における所要時間を示していることが見て取れる．

表3.6 ネットワークシステムにおける所要時間

字幕経路所要時間

[秒] 話者(日)→ → 復唱 → 認識 → 修正 → 字幕(日) 11 話者(英)→ 通訳 → 復唱 → 認識 → 修正 → 字幕(日) 17

話者(英)→ 通訳 4

日本語

通訳 → 復唱 → 認識 → 修正 → 字幕(日) 13 話者(英)→ → 復唱 → 認識 → → 字幕(英) 4 話者(日)→ 通訳 → 復唱 → 認識 → → 字幕(英) 12

話者(日)→ 通訳 5

英語

通訳 → 復唱 → 認識 → → 字幕(英) 7

第3章遠隔型音声同時字幕システム

表3.7に，各々の形態素誤り数を総形態素数で割った値を形態素誤りの出現率として計算した結果を示す．先程の精度の比較（表 3.2 と表 3.5）では，各段階における精度はローカルシステムとネットワークシステムでほぼ同等の値を示した．表3.7より，ローカルシステムとネットワークシステム間を比較すると，復唱精度に関しては，脱落誤りの出現率と挿入誤りの出現率がそれぞれ2.118％から0.9197%，0.7462%から0.0897%

と大幅に減少していることが分かる．音声認識率に関しては，挿入誤りが0.8617％から

2.874％と大幅に上昇する結果となった．修正前字幕精度は復唱精度と音声認識率が掛

け合わさった結果と考えられ，実際に数値的にもこの傾向が見られる．先程の音声認識率と復唱精度の誤りの出現率の内訳がローカルとネットワークで異なる傾向を示した訳だが，修正前字幕精度で見ると，誤りが結果的に相殺される値であったため，精度には増減がない結果となった．字幕精度に関してもローカルシステムとネットワークシステム間の差はほとんど見られないため，修正者による修正はローカル・ネットワークともにほぼ同じ傾向であったと推察される．

字幕精度が高いと言うことは，発話者の発話内容を漏らさず字幕化し，内容が要約されていないことを意味していることと言える．PC を用いた要約筆記を複数の入力者で行った場合，作成文字数は 200〜250 文字/分[10]と言われる．人が話す速度はおよそ 400 文字/分[11]と言われるため，要約筆記の字幕精度は作成文字-話速換算で単純に 50

〜60%となる．要約筆記と比較して単に高い字幕精度を達成することが一概に良いとは言えないが，「要約することなく」と言う意味において，本システムは発話者の発話内容を漏らさずに字幕化していると言えよう．ただし，これらの値はあくまでも話者の発言内容と音声認識結果の字幕との形態素一致率で比較した結果であるため，字幕の精度を単なる定量的な精度として捉えるのではなく，質的に捉えた精度（正解部分の文中における意味的な重要性による重み付けなど）に関する研究も今後行う必要がある．同様の意味で，聴覚障害者が誤認識を修正する際，音韻的な類似さを持った誤認識はむしろ聴覚障害者にとっては混乱のもととなりかねないため（聴覚障害であるために生じる，

語の音韻的な類推の困難さ），音声認識の誤認識を聴覚障害者が見てどう判断・修正されるかの研究も行って行く必要があろう．

第3章遠隔型音声同時字幕システム

表3.7 各システムにおける総形態素に対する形態素誤り出現率

精度脱落誤り出現率[%]

変換誤り出現率[%]

挿入誤り出現率[%]

精度 [%]

復唱精度 2.118 0.5542 0.7462 96.6

音声認識率 1.186 3.299 0.8617 94.7 修正前字幕精度 3.233 3.390 1.492 91.9 ローカル

システム

字幕精度 2.402 0.8172 0.6111 96.2

復唱精度 0.9197 0.4262 0.0897 98.6

音声認識率 1.752 3.795 2.874 91.2 修正前字幕精度 2.647 4.150 2.961 90.2 ネットワーク

システム

字幕精度 1.638 0.7402 0.3813 97.2

修正作業に関して更に言及する．表3.5より修正前字幕精度における誤りの内訳は，

復唱精度と音声認識率における誤りの内訳の和とほぼ同じ値になっていることがわかる．このことは，復唱・音声認識における誤りは独立して生じ，生じた誤りは途中で正されずに蓄積することを示している．修正前字幕精度と字幕精度の誤りの内訳を比較してみると，字幕精度においていずれの誤りも減少しており，修正作業により誤りが修正されたことがわかる．両方の精度の差である7 points（=97.2%-90.2%）の修正がなされたことになる．誤りの差を算出してみると，脱落誤り（D）も減少しているが，修正者から「脱落部分の修正は難しい」と言う内観報告を得ていることからも，脱落部分の修正は困難であると言える．

脱落誤り（D）は，復唱・音声認識の何れにおいても発生しているが，復唱において比較的多く発生しており，復唱における脱落誤り（D）の減少が特に重要であると言える．このことを念頭に置いた復唱の訓練方法を確立することで，より高いシステムパフォーマンスの獲得に繋がるであろう．

図3.1と図3.5に示した通りローカルシステムとネットワークシステムの構成の違いはネットワーク（ISDN）の利用の有無だけであり，他は同じ構成である．システムのネットワーク化により懸念される，ネットワーク上で発生するデータ欠損による音声 -字幕変換過程の精度低下と，データ遅延による音声-字幕変換過程における所要時間の増加は認められなかった．これはISDN回線と言う狭帯域ではあるが品質の良い，言わば専用線を利用したことにも起因すると言える．通信路にインターネット回線を用いた

第3章遠隔型音声同時字幕システム

運用の場合，回線品質の不安定さが懸念として考えられるが，本システムが取り扱っているデータが音声および文字と言った少量のデータであり，また昨今のインターネットにおける通信品質の向上により，インターネット回線を利用した場合における不安定さの懸念は以前ほど大きなものではない．ちなみにネットワークシステムにおける運用においては，会場から中核システムへ音声データ（日本語・英語）を送信するためにISDN

回線1回線分（2B; 128kbps）を用い，中核システムから会場へ日本語の文字データと英

語の文字データを送信するためにそれぞれ1回線（1B; 64kbps）ずつ使用し，総じてISDN 回線を 3 回線分使用した．音声データの送・受信にはテレホンハイブリッド（TELOS

社製Zephyr XSTREAM）を使用し，32kHzでサンプリングしたモノラル音声をMPEG4

AAC-LD（Advanced Audio Coding - Low Delay）コーデックを使用して送信した．

復唱と同様の方式をリスピーク（re-speak）と呼ぶ方式にて音声認識を行う方法を採用している研究[12],[13]において，本論文における音声認識率に該当する単語正解精度は95%を越えており，本システムより高い値を示している．これは，リスピーク方式では独自の音声認識エンジンを使用しており，放送用途に特化した音響モデル・辞書・言語モデルを製作し最適化させているためであると推察される[12]．表 3.5 の音声認識率の誤りの内訳を見てみると，本システムの音声認識装置においては変換誤り（S）が比較的多く出現しており，音響モデル・辞書・言語モデルが会議の内容に対して十分最適化し切れていなかったことが推察される．運用を行う会議・講演の内容に応じた音響モデル・辞書・言語モデルをどれだけ揃えられるかが，今後のシステムパフォーマンスを向上させる鍵の一つであると言える．

本論文ではデータとして取得していないため詳細は言及できないが，各精度は話者の話す速度（話速）に大きく依存していることが認められた．発話者は話速を制御した話し方を心がけたり，話速の変換ができる装置をシステム中に組み込んだりすることで，

音声-字幕変換の精度をより安定させることができると推察される．

ドキュメント内聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究 (ページ 55-58)

精度

第 3 章 遠隔型音声同時字幕システムの構築・運用・評価

3.4 実運用試験結果の考察

3.4.1 精度

第 3 章遠隔型音声同時字幕システムの構築・運用・評価