• 検索結果がありません。

英日講義音声翻訳に対する音声認識誤りを考慮したパラレルコーパスの利用

N/A
N/A
Protected

Academic year: 2021

シェア "英日講義音声翻訳に対する音声認識誤りを考慮したパラレルコーパスの利用"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report. 英日講義音声翻訳に対する音声認識誤りを考慮した パラレルコーパスの利用 後藤 統興1,a). 山本 一公1,b). 中川 聖一1,c). 概要:自動音声認識と統計的機械翻訳を組み合わせた英語講義音声を日本語文へ翻訳する音声翻訳システ ムの改善を検討した. 翻訳対象ドメインに近い話し言葉の英語講演音声に対して音声認識を行い, 音声認識 誤りを持つ書き起こしを作成し, 正しい書き起こしに対する人手の日本語訳と対にすることで, 音声認識誤 り付きのパラレルコーパスを作成した. これを翻訳モデルの学習に利用することで, 音声認識誤りによる翻 訳への影響を軽減した. 利用手法として, 機械翻訳の学習に利用する誤りのないコーパスに追加する手法 と, 誤りのないコーパスのみで作成したフレーズテーブルに対して誤り付きのコーパスのみで作成したフ レーズテーブルを統合する手法を比較した. 性能の比較には自動評価指標 BLEU を用いた. 対象ドメイン の音声認識結果を翻訳した結果, 誤り付きのパラレルコーパスを学習コーパスへ加えることにより, 最大で 10.0(BLEU) を得ることができ, ベースラインの 7.7(BLEU) を上回った. また, 学生を対象に, 翻訳対象の講 義音声の書き起こしと音声の翻訳実験を行い, 機械による音声認識と翻訳結果との比較を行った.. Utilization of Parallel Corpus with Speech Misrecognition for English to Japanese Lecture Speech Translation G OTO N ORIOKI1,a). YAMAMOTO K AZUMASA1,b). 1. はじめに 近年, ウェブ上において利用可能な講義映像が増加して いる (例 MITOpenCourseWare (MITOCW)[1]). しかし, これ らの講義映像は一般的に, その言語が母国語でない学生に とって学習意欲や効率を減少させる外国語である. この問 題に対して, 字幕付きの講義映像は有効である [2]. 我々は 時間やコストのかかる人手による書き起こしの翻訳に対し, 機械によって少ないコストでそれらを翻訳することに焦点 を当てている [3], [4]. 本稿で提案する音声翻訳のためのシステムは, 繰り返し やポーズなどを含む英語講義音声を扱う. 講義は旅行アシ スト対話システムのようなドメインの翻訳 [5] に比べて広 いトピックを持つ傾向があり, 翻訳が困難になる. また, あ らかじめ用意されたスピーチや短い発話などに比べて, し ばしば会話的で砕けた発話スタイルとなる講義は, タスク に対して複雑さを増加させる. このことから, 講義音声に対する, 自動音声認識 (ASR) と 1 a) b) c). 豊橋技術科学大学 TUT, Toyohashi, Aichi 441–8580, Japan [email protected] [email protected] [email protected]. ⓒ 2016 Information Processing Society of Japan. NAKAGAWA S EIICHI1,c). 統計的機械翻訳 (SMT) を組み合わせて作成される音声翻 訳 (SLT) システムは困難なものとなる. 音声翻訳システム のもっとも簡単な手法は ASR の 1 ベストの出力を SMT の 入力として翻訳することである. これまで ASR と SMT は 個々の改善が報告されている [6]. Kolss らはドイツ語-英語講義の翻訳システムにおいて音 声翻訳の進捗を報告している [5]. 同一グループの Stuker ら の KIT のコンピュータサイエンスの講義ドメインにおけ るドイツ語-英語翻訳実験では, リファレンスに対する書き 起こしの BLEU[7] が 30.2,ASR 出力の翻訳性能は BLEU が 21.0 であった [8]. 一般的にフランス語やドイツ語といった ヨーロッパ圏の言語と英語との翻訳は, 日本語への翻訳よ りも容易である [9], [10]. 例えば, 日本語に近い統語構造を 持つトルコ語やヘブライ語, ヒンディー語に対して, 英語講 演音声の BLEU は 10 以下である [11]. ASR 出力における音声の誤認識は翻訳精度に対して大 きな悪影響を持つ. この問題に対処するために,Quan らは ASR の N-best のリランキングを行い, 誤認識による影響を 削減した (BLEU で約 1 向上)[12]. また,Tsvetkov らは ASR の認識誤りをシミュレーションし, 疑似的な ASR の出力を 生成した [11]. その疑似的な ASR の出力を用いたフレーズ テーブルの拡張は 4 つの言語において翻訳性能を改善して いる (BLEU 値で約 1 向上). また,Segal らは全文の ASR の. 1.

(2) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report. 結果を含むパラレルコーパスを用いた翻訳性能の改善を報 告している (BLEU 値で約 1 向上)[13]. 音声翻訳の性能評価について, 菅谷らは人手による音声 翻訳と機械による音声翻訳の性能を比較する実験を行っ ている [14]. この実験では旅行対話という限られたドメ イン内 (パープレキシティ約 50, 1 文平均 8 単語程度)[15] で,TOEIC スコア別に機械と人との日本語-英語の翻訳性能 を比較しており, 入力をテキストとし, 翻訳部のみを用いた 場合に機械翻訳性能は TOEIC スコア 708 点と同等である という結果を示したている. また, 音声認識も含めた場合に は TOEIC スコア 548 点の人間の翻訳精度と同等であると いう結果も示している. 我々のベースラインである英語-日本語の話し言葉翻訳 システムは以前報告を行った [3], [4]. この音声翻訳システ ムは DNN-HMM に基づいた ASR に対してインドメインの 講義による追加学習を行ったものと, アウトドメインであ る TED のパラレルコーパスと少ないインドメインを用い た SMT によって構成されている. 本稿では SMT に対する ASR の認識誤りへの適応を行う. 認識誤りへの適応のために, 我々は実際の原言語の ASR の 認識誤りと正しい目的言語への翻訳をパラレルコーパスと して用いる. 認識精度の低すぎる出力は SLT システムに対 して悪影響になると思われるため, 一定以上の精度を持つ, 高い信頼性のある認識結果のみを認識誤り付きのコーパス として用いている. 作成した音声認識誤り付きの書き起こ しは,SMT の学習コーパスに対して追加するか, 学習済み のフレーズテーブルに誤り付きのコーパスのみを用いて学 習したフレーズテーブルを統合する形で利用する. 本稿で は,TED コーパスの音声認識誤り付きの書き起こしを用い ることで,MITOCW の講義に対する英語-日本語の機械翻訳 システムの改善結果を報告する. また,TOEIC スコアが 400 から 700 の日本人学生に対し て, 専門性や自由度の高い英語が用いられる MITOCW の講 義の書き起こしや音声に対してどの程度翻訳ができるのか を調査し, 本システムの性能と比較する.. 2. システム概要 本研究で用いる英日 SLT システムは ASR と SMT によっ て構成されている. ASR は英語の発話から抽出される特徴 量パラメータ列 X が与えられたとき, 以下の統計的な音声 認識の定式化を用いて最適な単語列 W を探索する.. ˆ = arg max p(W |X) = arg max p(X|W )p(W ) W W. (1). W. ここで,p(W ) は英語の言語モデルによって計算される単語 列の出現確率であり,p(x|w) は音響モデルによって計算さ れる観測パターンの出現確率である. ASR 出力の英語の文である単語列 W が与えられたと き,SMT は以下の統計的な定式化によって最適な目的言語 の単語列 Y を探索する.. Yˆ = arg max p(Y |W ) = arg max p(W |Y )p(Y ) Y. (2). Y. ここで p(Y ) は日本語の言語モデルによって計算される単 語列の出現確率であり,p(W |Y ) は翻訳モデルによって計算 される翻訳確率である. 我々の目的は MIT の講義映像に対. ⓒ 2016 Information Processing Society of Japan. して,SLT システムを通して SMT の出力である日本語の文 を出力することである. 本稿では ASR の認識誤りを利用す る手法によって SMT の改善を報告する.. 3. ASR システムの適応 我々は追加学習をすることで発話スタイルと話者適応を DNN-HMM の音響モデルに対して行った [3], [4]. 本実験で 用いる音響モデルはモデルパラメータの初期値として Wall Street Journal(WSJ) コーパスで学習された DNN を使用し ている. このモデルに対し, 音声認識対象である MIT 講義 のテスト話者を除く 23 名の話者約 4 時間の音声と, テスト 話者の約 5 分の音声によって追加学習を行うことでドメイ ンに対する講義の発話スタイルと話者の適応を行った.. 4. ASR による認識誤り付き書き起こしの利用 SMT のための学習コーパスは講演の映像とそれに対応す る原言語と目的言語の書き起こしが存在している. 発話の 単位として, 音声は原言語の書き起こしにあるピリオドご とに音声が区切られる. 原言語の文はその翻訳文にそれぞ れ対応付けられている. SMT の ASR の認識誤りに対する 適応は, 実際の講演の映像の音声に対する複数認識結果と それに対応する人手による目的言語への翻訳を用いて行う. 4.1 低 WER 認識結果の作成 誤り付きの書き起こしを作成する際に用いる発話は話し 言葉の講演音声であるため, 音楽や観客の声, 拍手といっ た背景雑音が含まれており, また話題も多岐にわたりパー プレキシティーも大きく (約 450), 先行研究で用いていた ASR[3], [4] による音声認識では精度が著しく減少してしま う. 信頼性の低い認識結果を用いると, かえって翻訳モデル に対して悪影響をもたらすことが考えられる. このため, 利 用可能な信頼性の高い認識結果を増やすために,ASR の言 語モデルの適応を行った. まず,TED の英語書き起こしを約 1000 発話になるように講演毎に分割し, 言語モデルを作成 する. その後, 分割したセットごとに全コーパスを用いて作 成した言語モデルに対して線形重み付き統合を行い, 各分 割したセットに対するパープレキシティを減少させる. 音 声認識時には分割した書き起こしに対応する認識モデルを 用いてを認識する. この言語モデルは誤り付きのコーパス を作成するための TED 音声に対して非常にクローズなも のになっているが, 本研究の評価に用いる対象は MITOCW であり, 評価対象に対してクローズになっていないため翻 訳実験に支障はない. 4.2 認識結果の選択と利用 精度の低すぎる認識結果では SMT に対してかえって悪 影響を及ぼしてしまうと考えられるため, 一定の単語誤り 率 (WER) 以下の発話を認識誤り付きのコーパスとして採 用した. WER の値を基準にし, 各発話ごとに ASR による音 声認識結果を採用するかどうかの選択を行っている. これ らを以下の二つの方法で利用する • 選択された ASR の認識誤りを持つ発話文集合コーパ スを SMT の学習コーパスに追加する • 認識誤り付きのコーパスをフレーズテーブルの作成に. 2.

(3) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report. 使用し, そのフレーズテーブルを認識誤りを含まない 元のパラレルコーパスによって作成されたフレーズ テーブルと統合を行う. 4.3 複数 ASR による認識結果の作成 信頼性の高い音声認識結果を用いる場合, その誤りは発話 ごとに部分的なものになると考えられる. 誤りのバリエー ションを増やすことによる誤りそのものに対する翻訳や, 誤りの周辺にある正しい書き起こしの翻訳に対する性能へ の影響を調査するため, 学習コーパスの異なる複数の音響 モデル・言語モデルを作成し, 誤りの異なる認識結果の影 響や複数システムの統合の効果を検討した. すべての ASR システムにおいて, 上述の 4.2 節に示した言語モデルの適応 を行っている.. 5. 人手による音声翻訳実験 本研究の音声翻訳システムが, 使用している評価基準に おいてどの程度学生の理解に近いかを調査するために, 日本 人学生に対して本稿で対象とする MITOCW の翻訳実験を 行った. 翻訳実験では講義の正確な書き起こしへの翻訳と, 学生自身による講義音声の書き起こしとその翻訳を行った. 正確な書き起こし (テキスト入力) の翻訳には講義映像が 提供されている Web サイトから講義の書き起こしを取得 し, それを提示して被験者による日本語訳を行う. 講義音声 (音声入力) に対する翻訳では, まず講義映像が 提供されている Web サイトから動画を取得し, 音声へと変 換したのちに被験者に提示し, その英語書き起こしを実施 した. その後, 被験者自身が書き起こした英語文に対する日 本語への翻訳を実施した. 得られた学生による英語音声の 書き起こし結果 (認識結果) は ASR による認識結果と WER を用いて比較する. テキスト入力・音声入力の両実験の際には実際の講義を 聞き取る環境に近づけるためにいくつかの条件を設けた (6.4 節参照).. 6. 実験条件 6.1 テストデータに対する ASR システム 6.1.1 音響モデル 本稿で用いるテストデータを認識する ASR システムの 音響モデルには,WSJ コーパスから得られる 129 話者のア メリカ英語 49190 発話を用いて学習された DNN-HMM を 用いた. また, 音素には 39 音素の CMU 音素語彙を用いた. モデルの詳細を表 1 に示す. DNN-HMM の教師データとし て, 同じコーパスによって学習された GMM-HMM による 自動アライメントされた状態ラベルファイルを使用してい る. 特徴量パラメータは平均 0, 分散 1 に正規化している. ネットワークは 7 層で,429 ユニット (39 次元の特徴量× 11 フレームコンテキスト) の入力層,4096 ユニットをそれぞれ 持つ 5 つの隠れ層,2001 ユニットの出力層で構成されてい る. 学習プロセスの速度向上のため, 事前学習を行わず, 一 般的に学習に用いられているシグモイド関数の代わりにリ クティファイド・リニア関数を用いている. また先行研究 同様に, 発話スタイルと話者の特徴を DNN-HMM 音響モ デルを追加学習によって適応している [3], [4]. モデルパラ. ⓒ 2016 Information Processing Society of Japan. メータの初期値として WSJ コーパスを用いて DNN モデル を学習し, その後にテスト話者を除く 23 名分の MITOCW の話者の音声と, テスト話者 1 名分の音声を合わせて追加 学習用のコーパスとして, 発話スタイルの適応と話者適応 を行っている. 上記の話者適応のためのテスト話者のデー タ量は同じ音声を 3 回重複している. 音声のデータベース を表 2 に示す. テストデータのパープレキシティは 110.5, 平均文長は 22 単語であり, 部分文や複文を含んでいる. 特徴量 入力層 隠れ層 出力層 目的関数 活性化関数. 表 1 DNN-HMM 構成 12 MFCCs+∆+∆∆+energy+∆energy+∆∆energy 11 フレームコンテキスト [429 ノード] 7 層 [各 2048 ノード] 2001 ノード クロスエントロピー リクティファイドリニア. コーパス. 話者. WSJ. 129 23. MIT. 2 (A,B). 表 2 ASR データベース 発話時間 発話数. 85 時間 4 時間 10 分 10 分. 49190 300000 1672 125 159. 用途 DNN モデル学習 英語言語モデル学習 英語言語モデル学習 発話スタイル適応 話者適応 認識精度評価. 6.1.2 言語モデル テストデータ認識用の ASR システムに使用する言語モデ ルのために,1987 年から 1989 年の WSJ コーパス 85445 文書 (36754891 単語) と MITOCW の講義書き起こしの PDF800 ファイルから得られた 300000 文を用いて 3gram の言語モ デルを作成した. モデルの作成にはオープンソースの SRI 言語モデルツールキットを用いている [16]. WSJ と MIT コーパスを組み合わせた辞書を用いることで, テストデー タに対するパープレキシティは適応前である 305.0 から 110.5 に減少し, 未知語率は 3.96%から 0.20%に減少してい る. 音素辞書には WSJ コーパスのモノに加え,MITOCW の コーパスを組み込んだ約 40000 の語彙を持つ辞書を使用し ている [3], [4]. 6.2 SMT システム テストデータを翻訳する SMT システムの翻訳モデルは 単語アライメントツールキット GIZA++を伴った MOSES デコーダのツールを用いて作成している [17]. また, 言語モ デルには SRI 言語モデルツールキットを用いて 3gram の日 本語の言語モデルを作成した. 6.2.1 パラレルコーパス 本研究の SMT システムの学習には英語と日本語の文対 応がとられたパラレルコーパスが必要となる. Web サイト 上から得られる TED Talks のページから英語の書き起こし と, それに対する日本語訳を収集した. 得られた英日の TED Talks コーパスに対して, 時間的な対応を取り, 翻訳に適さ ないタグデータ等の文を取り除く処理を行い, 約 140000 文 のパラレルコーパスを作成した. 表 3 にパラレルコーパス の詳細を示す. MIT 講義の英語書き起こしは MITOCW の Web サイトから参照することができる [1]. ASR と SMT の システムに対する開発・評価データには” コンピュータプロ グラミング” に関する講義を行う 2 話者の 284 発話を選択 した. 選択したデータのうち 159 発話を評価データとし,125. 3.

(4) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report. 発話を話者適応及び開発データとして切り分けた.SMT の 翻訳モデルパラメータ調整には 125 発話のうち, 話者 A の 発話である 54 発話を使用している. 評価データと開発デー タは MITOCW のサイトから取得した英語の書き起こしに 対して, プロの翻訳家に依頼し, 日本語データを作成した. 6.2.2 パラメータ調整 翻訳モデルの言語モデル重み等のパラメータを調整する ために, 開発データ 54 文を用いて Moses に搭載されている 最少エラー率学習 (Minimum Error Rate Training; MERT) を 行った. MERT の際に, 開発データの少なさからパラメータ に対する偏りを軽減させるため, 同じモデルに対して 5 度 乱数を用いた調整を行い, そのパラメータの平均値を用い ている. 表3. コーパス TED Talk (パラレル). MIT (パラレル) TED Talk (日本語). SMT データべース 文数 用途 翻訳モデル学習 140,000 誤り付きコーパスの作成 54 (話者 A) 翻訳モデルパラメータ調整 159 (話者 A:65, 翻訳精度評価 話者 B:94) 140,000. 日本語言語モデル学習. 6.3 ASR による認識誤り付き書き起こしの利用 誤認識付きの書き起こしを作成するために,SMT の学習 に用いる TED パラレルコーパスに対応する音声 140,000 発 話に対し, 音声認識を行った. 音声認識には 2 種類の音響モ デルと 2 種類の言語モデルの組み合わせ, 計 4 種類の ASR システムを作成した. それぞれの認識結果, またはすべての 認識結果を, テストデータを翻訳するための SMT システム に対するパラレルコーパスに追加する学習データとして使 用した場合の翻訳結果を比較・調査した. また, 学習データ として使用する際に, 認識結果の信頼性とその文数につい て調査を行うため,WER が 0%より大きく 10%以下, 20%以 下, 30%以下のみの認識結果を用いる場合と全文を用いる 場合について比較を行った. 表 4 に使用した音響モデルお よび言語モデルのデータを示す. なお, 表中の+は該当する コーパス同士を合わせて一つの学習コーパスで用いたもの であり,&は左項のコーパスによって学習済みの言語モデル または音響モデルに対して, 右項のコーパスを用いて適応 または追加学習を行ったモデルである. また,ASR 識別番号 は便宜上 ASR を区別するために用いる識別用の番号であ る. 音響モデルの追加学習に用いる TED コーパスは ASR-1 で認識した場合の WER が 20%以下 (WER = 0 も含む) の ものを使用している. これらの認識結果である誤り付きの 英語文は, 正しい書き起こしの日本語翻訳と対応付けられ, 誤認識付きのパラレルコーパスとなる. オリジナルのコーパスを使用して作成されたフレーズ テーブルに認識誤り付きのフレーズテーブルを統合する場 合, オリジナルのフレーズテーブルの重みは誤認識付きの フレーズテーブルよりも,5 倍大きく設定した. 6.4 人手による音声翻訳実験 正確な書き起こし (テキスト入力) の翻訳の実験には, 表 3 で示した翻訳精度評価のためのデータのうち,100 文を選 択し, 被験者に対してランダムに提示した. また, 音声の書 き起こし翻訳 (音声入力) の実験には同様に翻訳精度評価 ⓒ 2016 Information Processing Society of Japan. 表4. 誤り付きコーパス抽出のための ASR に使用したデータベース.+ は左項と右項を合わせて一つのデータベースとして学習に用い たモデル.&は左項で学習したモデルに対して右項のデータを用 いて適応を行ったモデル 言語モデル (文数). TED&MIT (145032&348952). WSJ+TED&MIT (49180+145032&348952). 音響モデル (発話数) WSJ&MIT (49180&1780) WSJ+TED&MIT (49180+42012&MIT) WSJ&MIT (49180&1780) WSJ+TED&MIT (49180+42012&MIT). ASR 識別番号 ASR-1 ASR-2 ASR-3 ASR-4. データから被験者の負担を軽減するために 20 文のみを選 択し, 対応する音声を提示した. 人手による MITOCW の講義書き起こし及び講義音声へ の日本語訳を被験者に依頼する際に, 実際の英語講義を閲 覧する環境に近づけるため条件を設けた. 英語の音声を再 生する場合は 3 回まで全体の再生を可能とし, それまでに 聞き取ることのできた英語文の書き起こしを入力する条件 とした. この際,1 回目の音声再生時に同じ個所を 2 度聞く といったような時間的に遡る動作を禁止とした. 一時再生・ 中断は許可している. また, 英語書き起こしの翻訳や, 被験者自身の書き起こし の翻訳には一文当り 2 分 30 秒の制限時間を設け, その時間 を過ぎた場合に速やかに翻訳を終了する様指示を行った. 翻訳の際に, 被験者にとって意味の分からない単語が出現 した場合には, 大規模辞書を持つ機械の優位性の差を避け るため, 紙・電子辞書等の使用を許可した. ただし, 辞書上 の例文検索機能や Web 上の翻訳サイトを用いる等の使用 は禁止した. 被験者は講義内容 (コンピュータプログラミング) が理解 できる情報系の学生を対象とし,TOEIC スコアが 400 から 700 の者 12 名に依頼した (大学生の全国平均は 568 点, 大 学院生の全国平均は 605 点 *1 ).. 6.5 評価基準 テストデータの翻訳精度の評価には, 翻訳で広く用いら れている以下の BLEU を用いた. BLEU = BP × exp(. N ∑ 1 logPn ) N n=1. (3). ここで BP は参照訳に対する機械翻訳文の単語数のペナ ルティであり, 機械翻訳文が短いほどペナルティが大きく なる. また,Pn は ngram の一致率である. 本稿では 1 から 4gram の BLEU の幾何平均を用いた. この評価値は値が高 くなるほど, 参照した正解の日本語訳に対して近い質の翻 訳結果であることを示している. 書き起こしの音声認識率を求める際, 冠詞の有無 (an, a, the の種類・挿入・脱落) や過去形 (ed 等), 複数形や三人称 単数現在形 (s 等), 単語がわかる程度のスペルミスの誤りは 日本語への翻訳に大きな影響を及ぼさないと考え, それら の認識誤りを訂正した場合の WER も比較対象としている. *1. http://www.toeic.or.jp/library/toeic data/toeic/pdf/data/DAA.pdf. 4.

(5) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report. 7. 実験結果 7.1 テストデータに対する ASR MIT の発話スタイルおよび話者への適応なしでは, ベー スラインの WER は 29.7%であった. 発話スタイルと話者 適応をベースラインに対して同時に実行することにより, テストセットに対して 21.0%の認識精度を得た [3], [4]. 7.2 認識誤り付きの書き起こしデータの利用 7.2.1 認識誤り付きデータ量 表 5 に認識する TED の講演音声 140000 に対する認識 結果と各 WER の条件下での使用可能な文数を示す. ここ で,ASR-1∼4 は 4 つの誤り付きコーパス抽出用の ASR の 認識結果をすべて合わせた場合である. 各 ASR において, 全文の数が誤りなしのコーパスの全文よりも減少している が, 大きすぎる認識誤り (WER1000%以上) のものやデコー ダによって出力が得られなかった発話があり, システム的な エラーにより翻訳モデルの学習を行うことができなくなる ため, そういった文を除外しているからである. なお, 言語 モデルの適応なしの場合は, パープレキシティは約 450 程 であり,WER は約 50%と本目的に使用するには精度が低す ぎた. そのため,4 節で述べた言語モデルの人為的な適応を 行うことにより, パープレキシティは平均約 40 になった.. において翻訳性能の向上が高いことがあげられる. 最高性 能は ASR-1 を用いた場合であり,WER10%以下の誤り付き コーパスを用いた場合にテキスト翻訳の結果とほぼ同等の 精度である 10.0 を得た. ASR-1∼4 を用いることで誤りの バリエーションが増加し, もっともよい精度が出ることを 期待したが, そうではなかった. 表6. 原コーパスへの認識誤り付きコーパス追加後の SMT 翻訳結果 (テキスト入力) BLEU [使用 WER 条件] 使用 ASR 重複回数 [全文] [30%] [20%] [10%] ベースライン 10.3 1 10.8 11.0 10.9 9.3 2 10.1 9.0 9.9 11.5 ASR-1 5 11.2 10.2 10.6 10.7 1 10.7 10.2 10.9 10.8 2 10.9 10.3 10.6 9.9 ASR-2 5 10.3 9.6 10.1 10.5 1 10.7 10.7 10.1 10.5 2 10.5 10.7 9.4 11.1 ASR-3 5 12.2 10.8 10.5 10.5 1 10.6 10.1 10.9 10.3 2 10.1 10.7 10.8 9.9 ASR-4 5 10.9 10.2 9.9 11.2 1 10.9 10.2 10.1 9.3 2 10.8 9.7 10.2 9.9 ASR-1∼4 5 10.1 10.3 11.5 10.5. 原コーパスへの認識誤り付きコーパス追加後の SMT 翻訳結果 (音声認識結果入力) BLEU [使用 WER 条件] 使用 ASR 重複回数 [全文] [30%] [20%] [10%] ベースライン 7.7 1 8.9 9.1 8.6 8.1 2 8.2 7.8 8.5 10.0 ASR-1 5 8.8 8.7 8.5 8.7 1 9.5 8.4 8.8 8.9 2 8.6 8.9 8.6 8.6 ASR-2 5 8.8 8.8 8.3 9.3 1 9.6 9.1 8.8 8.5 2 8.1 9.5 8.6 8.8 ASR-3 5 9.5 8.8 8.6 9.3 1 9.0 8.8 8.7 8.8 2 8.3 8.7 8.6 8.6 ASR-4 5 8.3 8.7 8.6 9.3 1 9.3 8.6 8.2 8.6 2 9.0 8.6 8.5 8.0 ASR-1∼4 5 9.0 8.8 9.6 8.8. 表5. 表7. 7.2.2 認識誤り付き書き起こしの学習コーパスへの追加 認識誤り付きの書き起こしを学習コーパスへ加えて SMT の学習を行い, テストデータの書き起こしを翻訳した結果 (テキスト入力) を表 6 に示す. ベースラインには誤りコー パスを利用しない場合の翻訳モデルを用いた結果を示して いる. また, 重複倍数の列には元のコーパスを重複して用い た回数を示している. テキストデータを入力した場合は, 誤 りコーパスを加えると翻訳精度の低下を招くのではと考え られたが, ベースラインと同等か, それ以上の翻訳精度を示 すものが多くあった. 下線はベースラインと比べて 0.5 以 上の BLEU の減少があった場合を示している. WER の使 用条件として全文を用いた場合でも 0.5 以上の BLEU の減 少は見られなかった. テキスト入力の翻訳において,ASR-1 と ASR-3 に良い性能が見られることが多いという傾向が ある. ASR-1 と ASR-3 には音響モデルに TED コーパスを 使用していないという共通点があげられる. また, テストデータに対する ASR を用いて認識を行った 結果 (音声入力) を翻訳した結果を表 7 に示す. 全ての場合 においてベースラインの BLEU を上回っており, 認識誤り による翻訳性能への悪影響を軽減できていることがわかる (BLEU で約 2.0 の向上). 傾向として重複回数が少ない場合. 7.2.3 認識誤り付き書き起こしのフレーズテーブルの追加 誤りのないパラレルコーパスによって学習されたフレー ズテーブルに対して, 誤りのあるパラレルコーパスのみを 用いて学習されたフレーズテーブルを統合し, テストデー タの書き起こしを翻訳した結果 (テキスト入力) を表 8 に示 す. また, テストデータに対する ASR を用いて認識を行っ た結果 (音声入力) を翻訳した際の結果を表 9 に示す. テキ スト入力の場合は精度が向上するといった場合が存在しな かった. これは, 誤りコーパスを利用する場合に, 誤りを含 むコーパスのみを用いてフレーズテーブルを作成したこと で正しいフレーズ対応を取ることができず, 本来正しく対 応の取れているフレーズに対して悪影響を与えているもの と考えられる. 誤りを含むフレーズを利用する場合には正 しいパラレルコーパスと共に用いなければ, 認識誤りの起. TED140000 発話に対する各誤り付きコーパス導出用の ASR の 認識結果 文数 TED 全文 30% 20% 10% ASR WER 全文 以下 以下 以下 誤りなし 145032 ASR-1 125328 60112 39439 13605 29.20% ASR-2 117733 65091 44924 17319 25.52% ASR-3 121905 62080 41457 14924 28.54% ASR-4 117871 64764 44607 17210 25.40% ASR-1∼4 482837 252047 170427 63058 -. ⓒ 2016 Information Processing Society of Japan. 5.

(6) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report 表8. フレーズテーブルへの認識誤り付きコーパス追加後の SMT 翻 訳結果 (テキスト入力) BLEU [使用 WER 条件] 使用 ASR [全文] [30%] [20%] [10%] ベースライン 10.3 ASR-1 9.9 10.4 9.7 10.6 ASR-2 10.3 10.2 9.7 10.5 ASR-3 9.9 10.2 10.3 10.1 ASR-4 10.1 10.3 9.9 9.3 ASR-1∼4 8.1 9.7 8.7 10.3. 表9. フレーズテーブルへの認識誤り付きコーパス追加後の SMT 翻 訳結果 (音声認識結果入力) BLEU [使用 WER 条件] 使用 ASR [全文] [30%] [20%] [10%] ベースライン 7.7 ASR-1 8.7 8.6 8.6 8.0 ASR-2 8.3 7.8 8.4 7.5 ASR-3 8.4 8.0 7.9 8.1 ASR-4 8.2 7.9 6.8 7.4 ASR-1∼4 6.8 8.4 7.3 8.5. こった周辺の学習ができないと思われる. 一方, 音声認識結果入力 (音声入力) の場合はパラレル コーパスへの追加と比べて, 改善率は小さいが, 一定の効果 は認められる. 傾向としては学習コーパスに追加したとき 同様,ASR-1 と ASR-3 の翻訳精度が良かった. 全ての ASR による認識結果を用いた場合 (ASR1∼4, 全文) に翻訳精度 が減少していることから, 誤りパターンの登録を多くしす ぎると悪影響を及ぼすと考えられる.. 7.3 人手による音声翻訳実験 MITOCW の講義書き起こし (テキスト入力)100 文に対す る学生の翻訳結果と, 我々のシステムを用いた場合の翻訳 結果を表 10 に示す. 正確な人手による書き起こしを入力す る場合 (テキスト入力), 人の手による翻訳は機械翻訳を上 回っている場合が多いが, 機械翻訳の性能は一部の被験者 (4 名) と同等であった. MITOCW の講義 20 発話の音声 (音声入力) に対する学生 の書き起こし精度と, その翻訳結果を表 11 に示す. WER* は日本語への翻訳に影響がないような認識誤りを許容した 場合 (5 節参照) の認識精度を示している. 人による認識精 表 10 英語講義音声書き起こし 100 文に対する人手による翻訳精度 (テキスト入力) 被験者 ID TOEIC スコア BLEU 01 495 14.3 02 635 16.3 03 450 13.1 04 640 14.8 05 630 10.8 06 570 12.5 07 475 10.0 08 475 11.7 09 565 11.1 10 475 10.2 11 480 13.0 12 560 10.5 被験者平均 537.5 12.4 ベースライン (機械) 10.1 ASR-1∼4 学習コーパス追加 10.6 (5 回重複;WER <= 20%). ⓒ 2016 Information Processing Society of Japan. 表 11. 英語講義音声 20 発話に対する人手による書き起こしと翻訳精 度 (音声入力) TOEIC 被験者 ID WER WER* BLEU スコア 01 495 72.1 71.8 1.4 02 635 46.2 35.5 5.3 03 450 54.7 46.1 4.7 04 640 60.2 51.4 7.5 05 630 56.9 46.5 2.6 06 570 69.3 64.5 5.3 07 475 70.7 65.4 3.7 08 475 64.3 55.3 4.5 09 565 72.6 66.5 4.3 10 475 78.2 69.5 0.0 11 480 67.0 62.3 2.7 12 560 65.1 57.3 5.5 被験者平均 537.5 64.8 57.7 4.0 ベースライン (機械) 23.8 19.5 7.5 ASR-1∼4 学習コーパス追加 23.8 19.5 7.3 (5 回重複;WER <= 20%). 度は非常に悪く, 多くが単語誤り率は 50%を超えており, 日 本人学生が講義音声を聞き取ることの困難さを示している. 実験条件ではある程度の反復した聴講を許可しているため, オンラインで講義を聴取するような現実的な場面では, よ り精度が低くなると思われ, 機械による音声認識の優位性 が確認できる. また, 書き起こし正解率 (認識精度) が低いた め翻訳の BLEU は機械よりも非常に悪く, その翻訳文もほ ぼ意味をなしていない結果となった. 聞き取りにおいて専 門用語等を聞き逃してしまうと内容の理解ができなくなっ てしまうため, 認識精度に頑健で, 専門用語を理解すること のできる音声翻訳システムが有用であると考えられる. 表 12 に書き起こしに対する, 人間の翻訳結果, 機械翻訳 による翻訳結果の例を示す (テキスト入力). また, 表 13 に 音声入力に対する, 人間の書き起こしと翻訳結果, 機械によ る認識結果と翻訳結果の例を示す (音声入力). テキスト入力の英語言語モデルに対するパープレキシ ティは 122.6, 平均文長は 16 単語であり, 音声入力の正解書 き起こし文のパープレキシティは 130.3, 平均文長は 18 単 語である. 今回提案した音声認識誤りに頑健な SMT システ ムを用いた場合, 音声翻訳実験に用いた 20 文のテストセッ ト全体ではベースラインに比べ,BLEU の劣化 (7.5→7.3) が 見られたが, 表 13 に示すように, 日本語としてある程度自 然な文となっており, 内容の理解の助けになる翻訳が出現 していることがわかる.. 8. まとめ 本稿では MITOpenCourseWare の Web 上の講義映像に対 する自動音声翻訳システムの改善について検討した. 認識 誤りの適応のために,TED Talk の音声に対して 4 つの ASR を用いて認識誤り付きの書き起こしを作成し, 翻訳モデル の学習へ利用した. 一文内の誤りを小さいものに限定する ため,WER の大きさ毎に使用の可否を決定し, それぞれ使 用した場合の比較を行った. 結果として, 書き起こしを入 力した際のベースラインの BLEU10.3 に対し, 最大で 12.2 の BLEU を得ることができた. また, 音声認識結果を入力 した際のベースラインの BLEU 7.7 に対して最大で 10.0 の. 6.

(7) Vol.2016-SLP-114 No.18 2016/12/20. 情報処理学会研究報告 IPSJ SIG Technical Report 表 12. 翻訳者 書き起こし文 正解文 (プロ) 被験者 01 被験者 02 被験者 03 被験者 04 ベースライン ASR-1. テキスト入力に対する翻訳例 翻訳結果 The semantics was what caused the problem, because the operator was expecting a particular kind of structure there. 問題を引き起こした原因は意味です演算子がそこに特定の構造を期待していたからです セマンティックはオペレータが特定の構造の種類を期待していたために問題の原因となったものでした 意味論は問題を起こすことでしたなぜなら演算子はそこで個々の構造の種類を無視するからです 意味はプログラムで何が起こったかすなわちオペレーターは特定の種類の構造を期待しているということです オペレーターは特定の種類の構造をここでは想定していたため意味論はこのような問題を引き起こしました 何を期待してたのは特殊な構造を引き起こしたのでしたからですの SEMANTICS のオペレータの問題があります 問題の原因は何を期待してたのはある特定の種の構造が SEMANTICS のオペレータでしたからです 表 13. 書き起こし/翻訳者 正解 書き起こし 正解 翻訳 (プロ) 被験者 01      書き起こし 被験者 01 翻訳 被験者 02      書き起こし 被験者 02 翻訳 被験者 03      書き起こし 被験者 03 翻訳 音声認識結果 ベースライン翻訳. ASR-1 翻訳. 音声入力に対する翻訳例 書き起こし/翻訳結果 Because if you did what I suggested with the list, the time to look up the key would be linear in the length of the list. なぜならもし皆さんがリストについて私の指示する通りにしたならキーを探す時間はリストの長さ に比例するでしょう BECAUSE I DID I SUGGESTED WITH THE LIST THE TIME TO LOOK UP THE KEY WOULD BE LINEAR IN LINE TO THE LISTS なぜなら私はリストで示唆しましたキーを検索する時間はリストの列に線形であると BE LOOK AT THIS JUST WAY TO THE LIST THE TIME TO LOOK AT KEY THE LIST. BLEU 100 25.7 0.0 23.1 17.4 17.7 17.8. これを見てくださいリストのキーを見つける時間の方法です BECAUSE I DID I SAY JUST WITH THE LIST THE TIME TO LOOK UP THE KEY WOULD BE LINEAR ちょうどリストといったので時間が線形になります COULD THAT YOU DIDN’T WORK RIGHT SUGGESTED WITH THE LIST THE TIME TO LOOK UP THE KEY WOULD BE LINEAR IN THE LENGTH OF THE LIST あなたができるのリストを調べ鍵となるでしょうリストの長さで時間の仕事をしていませんでした 正しい線形 あなたが正しいことを提案していませんでしたが鍵となるでしょうリストの長さで線形時間のリス トを調べたのです. BLEU(テキスト入力のベースラインと同等) を得ることが でき, 認識誤りによる翻訳への悪影響を軽減することを示 すことができた. また, 本稿でテスト対象となる MITOCW の書き起こし 及び音声に対する学生による翻訳実験を行った. 書き起こ しの実験では人手による翻訳性能が機械翻訳を上回ったが, 音声に対する翻訳では人の認識精度・翻訳精度が非常に悪 く, 音声翻訳システムの利便性の可能性を示した. 謝辞 本研究は JSPS 科研費 25280062 の助成を受けたも のです。. [7]. [8]. [9]. [10] [11]. 参考文献 [1]. [2]. [3]. [4]. [5]. [6]. Abelson, H.: The creation of opencourseware at MIT, Jour. Science Education and Technology, Vol. 17, No. 2, pp. 164– 174 (2008). Ferdiansyah, V. and S.Nakagawa: English to Japanese Spoken Language Translation System for Classroom Lectures, Proc. ICAICTA, pp. 34–38 (2014). Goto, N., Yamamoto, K. and Nakagawa, S.: English to Japanese Spoken Lecture Translation System by Using DNNHMM and Phrase-based SMT, Proc. ICAICTA (2015). 後藤統興,山本一公,中川聖一:対象ドメイン内高頻出 句の対訳作成による講義音声翻訳の検討,日本音響学会 講演論文集,pp. 201–204 (2016). Kolss, M., Wolfel, M., Kraft, F., Niehues, J., Paulik, M. and Waibel, A.: Simultaneous German-English Lecture Translation, Proc. IWSLT, pp. 174–181 (2008). Matusov, E., Kanthak, S. and Ney, H.: Integrating Speech Recognition and Machine Translation: Where Do We Stand?,. ⓒ 2016 Information Processing Society of Japan. [12]. [13] [14]. [15]. [16] [17]. WER[%]. BLEU. 0. 100. 26.9. 11.5. 65.4. 0.0. 42.3. 0.0. 19.2. 11.2 10.1. Proc. ICASSP, pp. 1217–1220 (2006). Papineni, K., Roukos, S., Ward, T. and Zhu, W.: BLEU: A method for automatic evaluation of machine translation, Proc. ACL, pp. 311–318 (2002). St´’uker, S., Kraft, F., Mohr, C., Herrmann, T., Cho, E. and Waibel, A.: The KIT lecture corpus for speech translation, Proc. LREC, pp. 3409–3414 (2012). Cettolo, M., Niehues, J., St¨uker, S., Bentivogli, L. and Federico, M.: Report on the 11th IWSLT Evaluation Campaign, IWSLT 2014, Proc. IWSLT, pp. 2–17 (2014). Eck, M. and Hori, C.: Overview of the IWSLT 2005 evaluation campaign, Proc. IWSLT, p. 22 (2005). Tsvetkov, Y., Metze, F. and Dyer, C.: Augmenting Translation Models with Simulated Acoustic Confusions for Improved Spoken Language Translation, Proc. EACL, pp. 616– 625 (2014). Quan, V., Federico, M. and Cettolo, M.: Integrated n-best reranking for spoken language translation, Proc. EuroSpeech (2005). Segal, N. and et al.: LIMSI English-French Speech Translation System, Proc. IWSLT, pp. 106–112 (2014). 菅谷史昭,竹沢寿幸,横尾昭男,山本誠一:音声翻訳シス テムと人間との比較による音声翻訳能力評価手法の提案 と比較実験,信学誌,Vol. J84-D-, No. 11, pp. 2362–2370 (2001). 松田 繁樹他:多言語音声翻訳システム”VoiceTra” の構 築と実運用による大規模実証実験,信学誌,Vol. J86-D, No. 10, pp. 2549–2561 (2001). Stolcke, A.: SRILM – An Extensible Language Modeling Toolkit, Proc. ICSLP, pp. 901–904 (2002). Koehn, P. and et al.: Moses: Open Source Toolkit for Statistical Machine Translation, Proc. ACL, pp. 177–180 (2007).. 7.

(8)

表 8 フレーズテーブルへの認識誤り付きコーパス追加後の SMT 翻 訳結果 ( テキスト入力 )
表 12 テキスト入力に対する翻訳例

参照

関連したドキュメント

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

これらの媒体は、あらかじめ電気信号に変換した音声以外の次の現象の記録にも使