• 検索結果がありません。

第 3 章  遠隔型音声同時字幕システムの構築・運用・評価

3.4 実運用試験結果の考察

3.4.1 精度

3章  遠隔型音声同時字幕システム

示す.

3.6より,所要時間は「話者()→字幕()」で11秒,「話者()→字幕()」で17 秒,「話者()→字幕()」で4秒,「話者()→字幕()」で12秒であった.

通訳者で区間を区切った所要時間に関しては,「話者()→通訳」まで4秒,「通訳→字 幕()」まで13 秒,「話者()→通訳」まで5秒,「通訳→字幕()」まで7 秒であり,

それぞれ「話者()→字幕()」と「話者()→字幕()」における途中区間における所 要時間を示していることが見て取れる.

3.6  ネットワークシステムにおける所要時間

字幕 経路 所要時間

[] 話者()→ → 復唱 → 認識 → 修正 → 字幕() 11 話者()→ 通訳 → 復唱 → 認識 → 修正 → 字幕() 17

話者()→ 通訳 4

日本語

通訳 → 復唱 → 認識 → 修正 → 字幕() 13 話者()→ → 復唱 → 認識 → → 字幕() 4 話者()→ 通訳 → 復唱 → 認識 → → 字幕() 12

話者()→ 通訳 5

英語

通訳 → 復唱 → 認識 → → 字幕() 7

3章  遠隔型音声同時字幕システム

3.7に,各々の形態素誤り数を総形態素数で割った値を形態素誤りの出現率として 計算した結果を示す.先程の精度の比較(表 3.2 と表 3.5)では,各段階における精度 はローカルシステムとネットワークシステムでほぼ同等の値を示した.表3.7より,ロ ーカルシステムとネットワークシステム間を比較すると,復唱精度に関しては,脱落誤 りの出現率と挿入誤りの出現率がそれぞれ2.118%から0.9197%0.7462%から0.0897%

と大幅に減少していることが分かる.音声認識率に関しては,挿入誤りが0.8617%から

2.874%と大幅に上昇する結果となった.修正前字幕精度は復唱精度と音声認識率が掛

け合わさった結果と考えられ,実際に数値的にもこの傾向が見られる.先程の音声認識 率と復唱精度の誤りの出現率の内訳がローカルとネットワークで異なる傾向を示した 訳だが,修正前字幕精度で見ると,誤りが結果的に相殺される値であったため,精度に は増減がない結果となった.字幕精度に関してもローカルシステムとネットワークシス テム間の差はほとんど見られないため,修正者による修正はローカル・ネットワークと もにほぼ同じ傾向であったと推察される.

字幕精度が高いと言うことは,発話者の発話内容を漏らさず字幕化し,内容が要約 されていないことを意味していることと言える.PC を用いた要約筆記を複数の入力者 で行った場合,作成文字数は 200250 文字/[10]と言われる.人が話す速度はおよそ 400 文字/[11]と言われるため,要約筆記の字幕精度は作成文字-話速換算で単純に 50

60%となる.要約筆記と比較して単に高い字幕精度を達成することが一概に良いとは 言えないが,「要約することなく」と言う意味において,本システムは発話者の発話内 容を漏らさずに字幕化していると言えよう.ただし,これらの値はあくまでも話者の発 言内容と音声認識結果の字幕との形態素一致率で比較した結果であるため,字幕の精度 を単なる定量的な精度として捉えるのではなく,質的に捉えた精度(正解部分の文中に おける意味的な重要性による重み付けなど)に関する研究も今後行う必要がある.同様 の意味で,聴覚障害者が誤認識を修正する際,音韻的な類似さを持った誤認識はむしろ 聴覚障害者にとっては混乱のもととなりかねないため(聴覚障害であるために生じる,

語の音韻的な類推の困難さ),音声認識の誤認識を聴覚障害者が見てどう判断・修正さ れるかの研究も行って行く必要があろう.

3章  遠隔型音声同時字幕システム

3.7  各システムにおける総形態素に対する形態素誤り出現率

精度 脱落誤り 出現率[%]

変換誤り 出現率[%]

挿入誤り 出現率[%]

精度 [%]

復唱精度 2.118 0.5542 0.7462 96.6

音声認識率 1.186 3.299 0.8617 94.7 修正前字幕精度 3.233 3.390 1.492 91.9 ローカル

システム

字幕精度 2.402 0.8172 0.6111 96.2

復唱精度 0.9197 0.4262 0.0897 98.6

音声認識率 1.752 3.795 2.874 91.2 修正前字幕精度 2.647 4.150 2.961 90.2 ネットワーク

システム

字幕精度 1.638 0.7402 0.3813 97.2

修正作業に関して更に言及する.表3.5より修正前字幕精度における誤りの内訳は,

復唱精度と音声認識率における誤りの内訳の和とほぼ同じ値になっていることがわか る.このことは,復唱・音声認識における誤りは独立して生じ,生じた誤りは途中で正 されずに蓄積することを示している.修正前字幕精度と字幕精度の誤りの内訳を比較し てみると,字幕精度においていずれの誤りも減少しており,修正作業により誤りが修正 されたことがわかる.両方の精度の差である7 points=97.2%-90.2%)の修正がなされ たことになる.誤りの差を算出してみると,脱落誤り(D)も減少しているが,修正者 から「脱落部分の修正は難しい」と言う内観報告を得ていることからも,脱落部分の修 正は困難であると言える.

脱落誤り(D)は,復唱・音声認識の何れにおいても発生しているが,復唱において 比較的多く発生しており,復唱における脱落誤り(D)の減少が特に重要であると言え る.このことを念頭に置いた復唱の訓練方法を確立することで,より高いシステムパフ ォーマンスの獲得に繋がるであろう.

3.1と図3.5に示した通りローカルシステムとネットワークシステムの構成の違い はネットワーク(ISDN)の利用の有無だけであり,他は同じ構成である.システムの ネットワーク化により懸念される,ネットワーク上で発生するデータ欠損による音声 -字幕変換過程の精度低下と,データ遅延による音声-字幕変換過程における所要時間の 増加は認められなかった.これはISDN回線と言う狭帯域ではあるが品質の良い,言わ ば専用線を利用したことにも起因すると言える.通信路にインターネット回線を用いた

3章  遠隔型音声同時字幕システム

運用の場合,回線品質の不安定さが懸念として考えられるが,本システムが取り扱って いるデータが音声および文字と言った少量のデータであり,また昨今のインターネット における通信品質の向上により,インターネット回線を利用した場合における不安定さ の懸念は以前ほど大きなものではない.ちなみにネットワークシステムにおける運用に おいては,会場から中核システムへ音声データ(日本語・英語)を送信するためにISDN

回線1回線分(2B; 128kbps)を用い,中核システムから会場へ日本語の文字データと英

語の文字データを送信するためにそれぞれ1回線(1B; 64kbps)ずつ使用し,総じてISDN 回線を 3 回線分使用した.音声データの送・受信にはテレホンハイブリッド(TELOS

社製Zephyr XSTREAM)を使用し,32kHzでサンプリングしたモノラル音声をMPEG4

AAC-LDAdvanced Audio Coding - Low Delay)コーデックを使用して送信した.

復唱と同様の方式をリスピーク(re-speak)と呼ぶ方式にて音声認識を行う方法を採 用している研究[12],[13]において,本論文における音声認識率に該当する単語正解精度 は95%を越えており,本システムより高い値を示している.これは,リスピーク方式で は独自の音声認識エンジンを使用しており,放送用途に特化した音響モデル・辞書・言 語モデルを製作し最適化させているためであると推察される[12].表 3.5 の音声認識率 の誤りの内訳を見てみると,本システムの音声認識装置においては変換誤り(S)が比 較的多く出現しており,音響モデル・辞書・言語モデルが会議の内容に対して十分最適 化し切れていなかったことが推察される.運用を行う会議・講演の内容に応じた音響モ デル・辞書・言語モデルをどれだけ揃えられるかが,今後のシステムパフォーマンスを 向上させる鍵の一つであると言える.

本論文ではデータとして取得していないため詳細は言及できないが,各精度は話者 の話す速度(話速)に大きく依存していることが認められた.発話者は話速を制御した 話し方を心がけたり,話速の変換ができる装置をシステム中に組み込んだりすることで,

音声-字幕変換の精度をより安定させることができると推察される.