多言語音声翻訳・対話システム構築ツールの公開に向けて

(1)

多言語音声翻訳・対話システム構築ツールの公開に向けて

Towards the Release of MCML Spoken Language Communication SDK

水上悦雄

1

_岡本拓磨

1

_堀智織

1

Etsuo Mizukami

1

_{, Takuma Okamoto}

1

_{and Chiori Hori}

1

_{情報通信研究機構}

1

_{National Institute of Information and Communications Technology}

Abstract: This paper introduces a network-based multilingual speech translation and spoken dialog system

development tool kit (MCML Spoken Language Communication SDK) developed by NICT. This tool kit provides APIs and sample applications which enable to construct multilingual communication applications connecting to NICT’s ASR, TTS, MT and DM server with MCML communication protocol. We are planning to release a new version of SDK including the DM function (DM Builder). In this paper, we illustrate the outline of the MCML SLC SDK and the DM Builder.

1 はじめに

2014 年 4 月，総務省から世界の「言葉の壁」をなくすことをミッションとし，2020 年の東京オリンピックに向けた多言語音声翻訳サービスの社会実装計画「グローバルコミュニケーション計画」が発表された（http://www.soumu.go.jp/menu_news/kaiken/）．高精度な多言語音声翻訳システムが実現すれば，訪日外国人にとっても，誘致する自治体側にとっても，有益なものとなるであろう．また，多言語・多地域での観光案内音声対話システムがあれば，人的コストをかけずに多言語サービスが提供できる．今後，音声翻訳技術，音声対話技術およびその要素技術であるところの音声認識や音声合成，機械翻訳の精度向上への期待は，益々高まっていくであろう．筆者ら (以降，NICT)は，音声認識技術の精度を磨くとともに，この多言語音声翻訳・音声対話技術の研究開発を進めてきた．その研究成果の公開と実証実験を目的として，2010 年 8 月に，6 言語間の相互音声翻訳を可能にする多言語音声翻訳アプリ VoiceTra，2012 年 7 月には，NICT が牽引する多言語音声翻訳技術の国際研究コンソーシアム U-STAR （http://www.ustar-consortium.com/）の活動の下，言語数を 30 言語(入力音声は 17 言語)と大幅に増やした VoiceTra4U を公開した．音声対話システムとしては， Siri 公開に先駆けて，2011 年 6 月，京都観光案内音声対話アプリ AssisTra を，その英語版 Kyo-no Hanna を 2012 年 3 月，一般公開してきた．

さらに NICT では，これら多言語音声翻訳システムおよび多言語音声対話システムを，誰もが容易に

構築できるツールの開発も進めており，2011 年 9 月には，STML（Speech Translation Markup Language）を用いた音声翻訳 SDK を，2014 年 6 月には，MCML （Modality Conversion Markup Language）を採用した MCML 音声コミュニケーション（ SLC ） SDK （http://www2.nict.go.jp/univ-com/slc/application/）を公開した．現在，この SDK に対話機能を追加した新たなバージョンを開発中である．本稿では，この MCML 音声コミュニケーション SDK について簡単に説明するとともに，追加予定機能としての多言語対話システム構築ツールについて紹介する．

2 MCML SLC SDK

MCML SLC SDK は，VoiceTra4U や AssisTra のような多言語音声翻訳・音声対話システムなどの音声アプリケーションを開発するためのツールキットである．通信プロトコルとしては，前述の U-STAR の活動において国際標準化された MCML 規格を採用している．MCML は，テキスト，音声，画像，ジェスチャなど，様々なモダリティを扱える通信仕様となっており，世界中の言語を接続・変換し，言語の壁を超えたコミュニケーションを実現するために設計されている．本 SDK を用いることで，図 1 に示すように NICT が所有する高精度の音声認識（ASR），機械翻訳（MT），音声合成（TTS），対話制御（DM）の各サーバを容易に接続することができ，利用者が独自の音声アプリケーションを開発可能になる．人工知能学会研究会資料 SIG-SLUD-B402-11 − 63 −

(2)

図 1：MCML SLC SDK の実装概略図現時点では音声翻訳アプリケーションの開発を可能とする部分の API，サンプルアプリケーション（iOS， Android）が提供されており，非商用目的に限り無償で公開されている．2014 年 10 月現在で，154 件のダウンロードがあり，個人から企業，教育研究機関まで広く利用されている．

3 多言語対話システム構築ツール

さらに NICT では，WFST（Weighted Finite State Transducer）に基づく音声対話システム[1]を構築できる，ネットワーク型の多言語音声対話システム構築ツール DM ビルダーを開発した．DM ビルダーでは音声理解部（Spoken Language Understanding: SLU）や対話シナリオ等のパーツを入れ替え，適宜編集することで，一つの音声対話システムから，異なる言語，異なるタスク，ドメインの対話制御を構築する（図 2）．ユーザは，Web ブラウザから DM ビルダーを介して対話サーバに接続し，対話シナリオ等を編集し，クライアントアプリを開発することで，音声対話システムを構築することができる（図 1 の緑の部分）．これを MCML SLC SDK の追加機能として 2015 年 3 月に公開する予定である．現状のシステムは，SLU，シナリオの二つのメインコンポーネントと，シナリオ内，あるいは，データベース(DB) 内から生成文を引くような形で発話生成が構成されており，DM ビルダーのユーザは，基本，この SLU，シナリオ，DB を編集するだけでよい（詳細については[2]を参照）．図 2：DM Builder による対話制御構築イメージ DM ビルダーの基本理念は，できる人ができることを担当することで，効率よく音声対話システムを構築することにある．同様のシナリオにおいては，入力シンボルとなるユーザコンセプト (Concept) も同様のものが利用できるため，SLU 表現を追加し， DB を編集すればよい．多言語化する場合には，シナリオは言語非依存なため，SLU および DB を翻訳すればよい．現状は日英中に対応しているが，将来的には U-STAR 所属機関が保有する言語も利用できるような設計となっている． MCML SLC SDK の対話機能追加版では，API 群と iOS，Android 用のサンプルアプリケーション，DM Builder のアクセスアカウントを配布予定である．また，サンプルプロジェクトとして，AssisTra のような観光案内音声対話システムが構築可能な言語理解，シナリオ，DB が利用可能になる予定である．また，個々のユーザが，自らが作成したシナリオ，言語理解を活用するだけでなく，ユーザ間で共有することも検討している．

4 おわりに

本稿では，NICT が開発している，MCML SLC SDK について紹介した．この SDK を利用することで，例えば地方の自治体が独自の観光案内音声対話システムを容易に構築可能になる．東京オリンピックに向けて様々な音声アプリケーションが構築され，多言語音声サービスが充実していくことを期待したい．

参考文献

[１] Chiori Hori, Kiyonori Ohtake, Teruhisa Misu, Hideki Kashioka and Satoshi Nakamura, Statistical Dialog Management Applied to WFST-Based Dialog Systems, In

Proc. Icassp2009, pp 4793-4796, (2009) . [２] 水上悦雄, 堀智織, 多言語音声対話システム構築ツールによる観光案内音声対話システムの多言語化, SIG-SLUD-B303, 41-44, (2014).

多言語音声翻訳・対話システム構築ツールの公開に向けて