• 検索結果がありません。

先進的音声技術研究室 室長 河井 恒 ほか20名

N/A
N/A
Protected

Academic year: 2021

シェア "先進的音声技術研究室 室長 河井 恒 ほか20名"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

62

■概要

当研究室では、機械を介した音声コミュニケーション の基盤となる音声認識、音声合成、音声対話処理の各技 術の研究開発に取り組んでいる。東京2020オリンピッ ク・パラリンピック競技大会までに音声翻訳技術の社会 実装を実現することを目指して、実用的な性能を有する 多言語の音声認識・音声合成技術の開発を推進した。一 方、2020年以降の世界を見据えて、生活支援ロボット 向け音声対話技術の研究を行った。

■平成29年度の成果

1 .2020年に向けた多言語音声認識技術の研究開発 音声認識技術の基盤として、韓国語500時間、タイ語 542時間、ミャンマー語516時間など合計2,265時間の 音声コーパスを構築した。また、旅行・生活分野におけ る音声翻訳精度向上のため、日英対訳辞書に10万語追 加して30万語とするとともに、中国語と韓国語の訳を 10万語から21万語に増強した。さらに、対訳が未構築 であったタイ語、ベトナム語、インドネシア語、ミャン マー語、スペイン語、フランス語についてそれぞれ 6 万語を翻訳した。

音声認識に関して、音声認識モデルの改良により、日 本語、タイ語、ベトナム語、インドネシア語、ミャン マー語の音声認識精度を大幅に改善した(単語の認識誤 りが28~42%減少)。改良した音声認識モデルを順次実 証実験システムVoiceTra(ボイストラ)に搭載し、一般 に公開した。

2 .2020年に向けた多言語音声合成技術の研究開発 韓国語とベトナム語の音声合成システムの実用性向上 のため、各言語の音響モデル訓練用音声コーパスの規模 を、従来の約 2 ~ 5 倍に相当する男女声各 1 万 5 千~

2 万発話(15~20時間)に拡張し、音響モデルを高精 度化して合成音声品質を改善した。また、それぞれの言 語について、数字や記号等の非表音文字列を読み上げに 適した表音文字列に変換するテキスト正規化処理を新た に導入し発音付与精度を改善した。これらの改良を施し た音声合成システムをVoiceTraに搭載し、一般公開した。

音声認識と同様に音声合成の分野においても近年深層 学習の導入が進み、従来の隠れマルコフモデル(HMM)

に基づく手法に比べ高品質な音声を合成できることが報 告されている。当研究室においても2015年から研究を 進めており、その成果を活用してディープニューラル ネットワーク(DNN)を導入した音声合成システムを 新規に開発した。従来のHMM方式との比較を図 1 に示 す。日本語女声のDNN音響モデルを構築して、合成音 声の聴取実験を行った結果を図 2 に示す。DNN版シス テムの音声品質は、従来システムに比べて平均オピニオ ンスコアが0.6ポイント向上しており、明確な優位性が あることが確認された。日本語女声のDNN版合成シス テムは、VoiceTraで一般公開した。

3 .クメール語音声認識システムの開発

クメール語はアンコールワットで知られるカンボジア 王国の国民数とほぼ重なるおよそ 1 千 5 百万人の母語 話者を持ち、ベトナム語とともにオーストロアジア語族 に属する。1400年前以上の長い歴史を誇るとともに、

その正書法であるクメール文字はタイ文字やミャンマー 文字の源流に重なる古い特徴を残す(図 3 に例示)。当 研究室ではカンボジア国立郵便・電気通信・情報通信研 究所(NIPTICT)との共同作業により、平成28年度途中 にクメール語音声認識システムの開発に着手、旅行会話

先進的音声技術研究室

室長  河井 恒 ほか20名

3.6.1

グローバルコミュニケーション計画に向けた音声技術の研究開発

図1 音声合成の流れ.HMMに基づく従来方式とDNN方式の比較

(2)

63

3

創るデータ利活用基盤分野

3.6 先進的音声翻訳研究開発推進センター

を基本とし、より広範な語彙にも対応した実用システム を開発した。音声データがゼロの状態から開始し、リ ソースが潤沢ではない中でも、当研究室で実績のある DNNの導入などにより、話者オープン条件の読み上げ 音声で単語誤り率5.44%を達成した。開発したシステ ムをVoiceTraに搭載するとともに、情報通信フェア

2017にて一般公開した。複雑なクメール文字の綴りが 音声入力で確認できるため実用性が高いと現地の日本人 からも好評である。平成29年 7 月の公開以来、平成30 年 3 月31日までに64,141発話の利用があった。

4 .生活支援ロボット向け音声対話技術の開発

少子高齢化社会における生活支援ニーズの増加に資す る音声対話技術構築のため、生活支援ロボット向け音声 言語理解技術の構築に取り組んだ。本課題では、曖昧性 を有するユーザの命令を可能な限り少ないユーザ操作数 で理解することが利便性につながる。

平成29年度は、生活支援ロボットの主要タスクであ る物体操作において、変化する状況に応じてユーザの命 令を理解し、対象物体のもっともらしさを推定するマル チモーダル言語理解手法(精度78%)を開発した。ト ヨタ自動車と連携して生活支援ロボットHSR上に概念検 証システムを構築し、けいはんな情報通信フェア2017 において一般公開を行った(図 4 )。図 4 の例では、「お 茶と八ツ橋を取ってきて」という指示文(どこから取っ てくるかについて情報が欠損)に対し、環境中の物体集 合のうち尤ゆうが最も高い候補を提示している。

また、マルチモーダル言語理解タスクにおける基盤技 術の開発を並行して行った。マルチモーダル言語理解は データ収集コストが高い教師あり学習であるので、汎化 性能向上にはデータ拡張が有効であることが多い。そこ で、敵対的生成ネットワーク(GAN)によるデータ拡張 と分類を同時に行う手法Latent Classifier GAN(LAC- GAN)を構築した。LAC-GANは、分類に有効な潜在空 間上でデータ拡張を行うため、既存手法に比べ効率の良 いデータ拡張が可能であるという特徴を持つ。Visual QA分野で標準的に用いられているVisual Genomeデータ セットをベースとしたマルチモーダルデータセットを構 築し、ベースライン手法に比べ言語理解精度を改善でき ることを示した。

図2 平均オピニオンスコア(MOS)による合成音声客観品質。

HMMに基づく従来方式とDNN方式の比較

図3 VoiceTraのクメール語入力画面

図4 けいはんな情報通信フェアにおける生活支援ロボット音声対話システムの展示

参照

関連したドキュメント

5.2

それで大船 まで行 き, そのま ま朝早 く予告な しに酒井先生宅 (現在の家でな く 筆者 はこれまでに先生宅 を尋 ねている) へ直行 し, おやすみの酒井先生を起

5.2

方言としては不完全なものであるだろうが, それでもなお標準 的な言語と比較すれば特殊な例が頻

ところが大である. 語学教育の効果は, その理論的背景と しての言語学上の研究の進展に挨つ

(GAIA)の高解像度化・高機能化を行い、下層大気の影

データ収集エージェントが、受講者が演習受講に関連し

知覚実験