多言語音声翻訳・対話システム構築ツールの公開に向けて
Towards the Release of MCML Spoken Language Communication SDK
水上悦雄
1岡本拓磨
1堀智織
1Etsuo Mizukami
1, Takuma Okamoto
1and Chiori Hori
11
情報通信研究機構
1
National Institute of Information and Communications Technology
Abstract: This paper introduces a network-based multilingual speech translation and spoken dialog system
development tool kit (MCML Spoken Language Communication SDK) developed by NICT. This tool kit provides APIs and sample applications which enable to construct multilingual communication applications connecting to NICT’s ASR, TTS, MT and DM server with MCML communication protocol. We are planning to release a new version of SDK including the DM function (DM Builder). In this paper, we illustrate the outline of the MCML SLC SDK and the DM Builder.
1 はじめに
2014 年 4 月,総務省から世界の「言葉の壁」をな くすことをミッションとし,2020 年の東京オリンピ ックに向けた多言語音声翻訳サービスの社会実装計 画「グローバルコミュニケーション計画」が発表さ れた(http://www.soumu.go.jp/menu_news/kaiken/).高 精度な多言語音声翻訳システムが実現すれば,訪日 外国人にとっても,誘致する自治体側にとっても, 有益なものとなるであろう.また,多言語・多地域 での観光案内音声対話システムがあれば,人的コス トをかけずに多言語サービスが提供できる.今後, 音声翻訳技術,音声対話技術およびその要素技術で あるところの音声認識や音声合成,機械翻訳の精度 向上への期待は,益々高まっていくであろう. 筆者ら (以降,NICT)は,音声認識技術の精度を磨 くとともに,この多言語音声翻訳・音声対話技術の 研究開発を進めてきた.その研究成果の公開と実証 実験を目的として,2010 年 8 月に,6 言語間の相互 音 声 翻 訳 を 可 能 に す る 多 言 語 音 声 翻 訳 ア プ リ VoiceTra,2012 年 7 月には,NICT が牽引する多言語 音声翻訳技術の国際研究コンソーシアム U-STAR (http://www.ustar-consortium.com/)の活動の下,言語 数を 30 言語(入力音声は 17 言語)と大幅に増やした VoiceTra4U を公開した.音声対話システムとしては, Siri 公開に先駆けて,2011 年 6 月,京都観光案内音 声対話アプリ AssisTra を,その英語版 Kyo-no Hanna を 2012 年 3 月,一般公開してきた.さらに NICT では,これら多言語音声翻訳システ ムおよび多言語音声対話システムを,誰もが容易に
構築できるツールの開発も進めており,2011 年 9 月 には,STML(Speech Translation Markup Language) を用いた音声翻訳 SDK を,2014 年 6 月には,MCML (Modality Conversion Markup Language)を採用した MCML 音 声 コ ミ ュ ニ ケ ー シ ョ ン ( SLC ) SDK (http://www2.nict.go.jp/univ-com/slc/application/)を公 開した.現在,この SDK に対話機能を追加した新た なバージョンを開発中である. 本稿では,この MCML 音声コミュニケーション SDK について簡単に説明するとともに,追加予定機 能としての多言語対話システム構築ツールについて 紹介する.
2 MCML SLC SDK
MCML SLC SDK は,VoiceTra4U や AssisTra のよ うな多言語音声翻訳・音声対話システムなどの音声 アプリケーションを開発するためのツールキットで ある.通信プロトコルとしては,前述の U-STAR の 活動において国際標準化された MCML 規格を採用 している.MCML は,テキスト,音声,画像,ジェ スチャなど,様々なモダリティを扱える通信仕様と なっており,世界中の言語を接続・変換し,言語の 壁を超えたコミュニケーションを実現するために設 計されている. 本 SDK を用いることで,図 1 に示すように NICT が所有する高精度の音声認識(ASR),機械翻訳(MT), 音声合成(TTS),対話制御(DM)の各サーバを容易 に接続することができ,利用者が独自の音声アプリ ケーションを開発可能になる. 人工知能学会研究会資料 SIG-SLUD-B402-11 − 63 −図 1:MCML SLC SDK の実装概略図 現時点では音声翻訳アプリケーションの開発を可能 とする部分の API,サンプルアプリケーション(iOS, Android)が提供されており,非商用目的に限り無償 で公開されている.2014 年 10 月現在で,154 件のダ ウンロードがあり,個人から企業,教育研究機関ま で広く利用されている.
3 多言語対話システム構築ツール
さらに NICT では,WFST(Weighted Finite State Transducer)に基づく音声対話システム[1]を構築で きる,ネットワーク型の多言語音声対話システム構 築ツール DM ビルダーを開発した.DM ビルダーで は音声理解部(Spoken Language Understanding: SLU) や対話シナリオ等のパーツを入れ替え,適宜編集す ることで,一つの音声対話システムから,異なる言 語,異なるタスク,ドメインの対話制御を構築する (図 2).ユーザは,Web ブラウザから DM ビルダー を介して対話サーバに接続し,対話シナリオ等を編 集し,クライアントアプリを開発することで,音声 対話システムを構築することができる(図 1 の緑の 部分).これを MCML SLC SDK の追加機能として 2015 年 3 月に公開する予定である. 現状のシステムは,SLU,シナリオの二つのメイ ンコンポーネントと,シナリオ内,あるいは,デー タベース(DB) 内から生成文を引くような形で発話 生成が構成されており,DM ビルダーのユーザは, 基本,この SLU,シナリオ,DB を編集するだけでよ い(詳細については[2]を参照). 図 2:DM Builder による対話制御構築イメージ DM ビルダーの基本理念は,できる人ができるこ とを担当することで,効率よく音声対話システムを 構築することにある.同様のシナリオにおいては, 入力シンボルとなるユーザコンセプト (Concept) も 同様のものが利用できるため,SLU 表現を追加し, DB を編集すればよい.多言語化する場合には,シナ リオは言語非依存なため,SLU および DB を翻訳す ればよい.現状は日英中に対応しているが,将来的 には U-STAR 所属機関が保有する言語も利用できる ような設計となっている. MCML SLC SDK の対話機能追加版では,API 群と iOS,Android 用のサンプルアプリケーション,DM Builder のアクセスアカウントを配布予定である.ま た,サンプルプロジェクトとして,AssisTra のような 観光案内音声対話システムが構築可能な言語理解, シナリオ,DB が利用可能になる予定である. また,個々のユーザが,自らが作成したシナリオ, 言語理解を活用するだけでなく,ユーザ間で共有す ることも検討している.4 おわりに
本稿では,NICT が開発している,MCML SLC SDK について紹介した.この SDK を利用することで,例 えば地方の自治体が独自の観光案内音声対話システ ムを容易に構築可能になる.東京オリンピックに向 けて様々な音声アプリケーションが構築され,多言 語音声サービスが充実していくことを期待したい.参考文献
[1] Chiori Hori, Kiyonori Ohtake, Teruhisa Misu, Hideki Kashioka and Satoshi Nakamura, Statistical Dialog Management Applied to WFST-Based Dialog Systems, In
Proc. Icassp2009, pp 4793-4796, (2009) . [2] 水上悦雄, 堀智織, 多言語音声対話システム構築ツ ールによる観光案内音声対話システムの多言語化, SIG-SLUD-B303, 41-44, (2014).