• 検索結果がありません。

邨ア蜷医す繧ケ繝Β髢狗匱螳、

N/A
N/A
Protected

Academic year: 2021

シェア "邨ア蜷医す繧ケ繝Β髢狗匱螳、"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

66 ■概要 本開発室では、先進的音声翻訳研究開発推進センター の研究成果である音声認識、音声合成、言語翻訳などの 技術を利用した各種統合システムを開発して広く世間に 周知することにより、研究成果の成果展開と社会還元を 進めている。具体的には、多言語音声翻訳システム、聴 障者と健聴者とのコミュニケーション支援アプリ等を開 発するとともに、それぞれの共通プラットフォーム化を 図ることによりスムーズな成果展開に寄与している。さ らに、今後の研究課題である同時通訳システムの研究プ ラットフォームの整備を行っている。 ■平成 30 年度の成果 1 . 多言語音声翻訳システムVoiceTraの機能拡張 VoiceTra(https://voicetra.nict.go.jp/)の機能拡張に ついて以下に述べる。 (1)海外で利用した場合の応答時間短縮 以前の方式では、①音声を音声認識サーバに送信して 音声認識結果を受信し、②音声認識結果を翻訳サーバに 送信して翻訳結果を受け取り、③翻訳結果を音声合成 サーバに送信して合成音声を受け取り、④翻訳結果を翻 訳サーバに送信して逆翻訳結果を受け取る、という 4 回のリクエストと結果の送受信を行っていた。このため 海外で利用した場合には、 1 回の送受信にかかる通信 時間が大きいため、例えば、ヨーロッパで使用した場合 は、話し終わってから音声翻訳結果が表示されるまでの 応答時間が、約 6 秒から 8 秒かかっていた。これを改 善するために音声データを音声翻訳サーバに送信するだ けで、音声認識結果、翻訳結果、合成音声と逆翻訳結果 の 4 つの結果がサーバ内で実行されて逐次クライアン トに返る方式(一括音声翻訳方式)に変更した。その結 果、ヨーロッパで使用した場合の応答時間は、約 2 秒 に短縮され、日本国内で使用する場合とほぼ同じ応答時 間となった。 (2)音声合成が可能な言語の追加 フランス語、スペイン語、フィリピン語、ドイツ語、 ロシア語、クメール語の音声合成が可能となった。特に 重点整備しているGC10言語に含まれるフランス語、ス ペイン語の音声合成が可能となったことにより、GC10 言語について音声認識及び音声合成が全て揃った。 (3)言語識別機能の試験実装 音声データを入力することで何語の音声かを識別する 機能を音声翻訳サーバに組み込んだ。この機能を使うと あらかじめ指定した言語セット(最大 8 言語:日本語、 英語、中国語、韓国語、インドネシア語、ベトナム語、 タイ語、ミャンマー語)の中から最も確からしい言語を 識別し、その言語で音声認識を実行することができる。 また、応答速度を高速にするために言語識別処理と並列 に、あらかじめ指定した言語セットで音声認識を複数稼 働させることもできる。この言語識別機能を展示会等で デモンストレーションするためにVoiceTraアプリに言語 自動識別モードを試験実装した。このモードでは、相手 の言語を指定せずに音声翻訳を実行することができる。 今後、このモードを実用的に利用できるユーザインター フェースを検討及び実装し、一般公開する予定である。 2 . 音声翻訳SDK(Software Development Kit)の一括 音声翻訳方式対応 VoiceTraで実装した一括音声翻訳方式を音声翻訳SDK にも適用し、民間企業向けにライセンス供与を開始し た。このSDKと一括音声翻訳方式に対応した音声翻訳 サーバを使用することで、応答時間の短い高速な音声翻 訳システムを民間企業が構築することができるように なった。 3 . リアルタイム多言語字幕付与システム 将来の同時通訳システムの研究開発を見据えて、研究 プラットフォームの整備を進めている。そのための研究 用プロトタイプシステムとして、「リアルタイム多言語 字幕付与システム」を開発した。VoiceTraのような対面 で 1 文ずつ翻訳することにより対話を進めるシステム では、 1 発話ごとに音声認識、翻訳、音声合成の処理 を行えば十分であるが、講演音声や会議の発言など一人 の話者が長時間発話する場合では、発話してから結果が 出力されるまでの遅延時間が非常に大きくなり、リアル タイム性が失われてしまう(図 1 )。したがって、本シ

3.6.3

統合システム開発室

室長  葦苅 豊 ほか3名

音声コミュニケーションシステムの開発と研究成果の社会還元

(2)

67

3

創 つく る ● データ利活用基盤分野 ステムでは、音声認識、翻訳、音声合成をできるだけ細 かい単位で稼働させることによって遅延を最小化してい る(図 2 )。動作の概略は以下のとおりである。 (1)音声認識では、認識結果が確定した単語から逐 次出力を行う (2)音声認識の最小単位と翻訳できる最小単位は異 なるため、音声認識結果を翻訳できる単位にな るまで蓄積し、出力する (3)翻訳できる最小単位ごとに翻訳する (4)翻訳結果の音声合成を実行し、合成できた音声 波形を逐次出力する この方式では、話者が長時間発話しても逐次に処理が 実行されて、人間の同時通訳と同様に翻訳結果が少ない 遅延で出力し続けることが可能である。本システムでは、 音声認識結果及び翻訳結果の文字列をリアルタイムでビ デオ画像に重畳して表示することができ、また、翻訳結 果の合成音声を出力することもできる。さらに動画ファ イルとして保存することも可能である。システム構成を 図 3 に示す。また、実際の出力画面例を図 4 に示す。 4 . 同時通訳研究プラットフォームの設計 上記「リアルタイム多言語字幕付与システム」の開発 で得られた知見を基礎として、同時通訳を研究するため の研究プラットフォームの開発に着手した。今後、同時 通訳用の各種モジュールやモデルができた際に研究者が 簡単にそれらを置き換えて性能評価ができることを主た る要件としている。また、現時点でも十分実用になると 思われるTV字幕付与システムなどが容易に構築できる ことも要件のひとつとして設計を進めている。 図1 発話単位の処理 音声認識 翻訳

音声合成 It’s fine today. It’s going to be hot.

連続して話すとまとめて処理される 今日は良い天気ですね暑くなりそうです《ポーズ》 今日は良い天気ですね暑くなりそうです。 図2 最小単位の逐次処理 音声認識 翻訳単位の 判定 翻訳 今日は良い天気ですね。 今日は

音声合成 It’s fine today.

暑く 暑くなりそうです。 It’s going to be hot. 認識できた単位に出力 単語列を翻訳できる単位にまとめる 今日は良い天気ですね暑くなりそうです《ポーズ》 良い 天気 ですね なり そう です 。 短い文だと翻訳/合成の 処理時間が短くなる 図3 システム構成 音声翻訳サーバ ① 話す ② 音声を継続して送信 ③ 音声翻訳結果 音声 このシステムの説明をします。 ④ 撮影中の動画に字幕を オーバーレイ表示 図4 画面例 3.6 先進的音声翻訳研究開発推進センター

参照

関連したドキュメント

研究開発活動の状況につきましては、新型コロナウイルス感染症に対する治療薬、ワクチンの研究開発を最優先で

本稿 は昭和56年度文部省科学研究費 ・奨励

音節の外側に解放されることがない】)。ところがこ

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

それは,教育工学センターはこれで打切りで ございますけれども,名前を代えて,「○○開

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

今回の調査に限って言うと、日本手話、手話言語学基礎・専門、手話言語条例、手話 通訳士 養成プ ログ ラム 、合理 的配慮 とし ての 手話通 訳、こ れら