• 検索結果がありません。

音声対話による観光案内システムAssisTra

N/A
N/A
Protected

Academic year: 2021

シェア "音声対話による観光案内システムAssisTra"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2013-HCI-151 No.8 Vol.2013-SLP-95 No.8 2013/2/1. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声対話による観光案内システム AssisTra 翠 輝久1,a). 水上 悦雄1. 柏岡 秀紀1. 概要:本稿では,我々が研究・開発しているスマートフォン用音声対話システム AssisTra について述べ る.さらに,対話システムを多言語化する際に必要な人手によるコストを削減するための言語ポータビリ ティ技術について説明し,それを利用して構築した英語版のシステム Kyo-no Hanna について概説する.. 1. はじめに 情報通信研究機構ユニバーサルコミュニケーション研究 所音声コミュニケーション研究室では,いつでもどこでも だれとでも自然なコミュニケーションを実現するため,音 声言語処理に関わる要素技術として音声認識,音声合成, および対話制御の研究開発を進めている.さらに,これら 技術を統合し,音声対話システムに関する研究開発を推し 進めている.この取り組みの中で,実用上の課題や社会か らの要望を探ることを目的として,2011 年 6 月にスマー トフォン用音声対話システム AssisTra*1 ,2012 年 3 月に. 表 1. U1: S1: U2: S2: U3: S3:. U4: S4: U5: S5:. システムとの対話例 (音声による対話). こんにちは. こんにちは,京都の観光案内をしている,はんなです. お好みの観光スポットをご案内します. 散策できるところがいいな. 散策でお勧めの観光スポットは,平野神社,錦市場,石 清水八幡宮などがあります. 平野神社について教えて. 毎年花見の時期には,連日夜桜を見る人達で,大変な 混雑となる平野神社ですが,桜の季節以外は,ゆっくり 苑内の散策ができます.. . . 地図を見せて. 平野神社周辺の地図を表示します. 行き方を教えて. 京都駅から平野神社へのアクセス方法を表示します.. 同システムの英語版 Kyo-no Hanna*2 を公開している [1].. のシステムである.システムを開発するに当たり,単なる. これらシステムの公開を通じて収集する実利用ログを利用. 一問一答形式の対話ではなく,対話の前後の文脈を考慮し. した,システムのさらなる改善手法について研究すると共. て情報の要求・提示を行うことができる対話システムを目. に,システムの効果を確認し,実サービスとして有効性を. 指して研究開発を進めている.システムは大きく分けて 1). 確認することが目的である.. ユーザの発話をテキストに書き起こす音声認識,2) 認識さ. 2. AssisTra の概要. れたテキストの発話意図を推定する言語理解,3) 対話の文 脈を考慮した検索・応答生成を実行する対話制御,4) シス. 音声対話システム AssisTra は,自然言語音声によるユー. テムの発話文を生成する応答文生成,5) 応答文の音声を. ザの観光案内要求を受け取り,要求された情報を合成音声. 生成する音声合成の 5 つの要素技術から構成されるスタン. およびスマートフォンのディスプレイを用いて提示するシ. ダードな構成をしている.なお,AssisTra で用いるこれら. ステムである.具体的には表 1 のような音声による対話を. のモジュールは全て,音声コミュニケーション研究所で独. することができ,合成音声とともに図 1 のような情報がス. 自に開発したものを利用している.. マートフォンの画面に表示される*3 .. 3. システムの構築. 3.1 言語理解・対話制御 日本語版の開発の際には,模擬旅行対話データ [2] や,. AssisTra は,観光案内においてユーザ (観光客) が必要. システムの実証実験で収集したログデータにラベル付けを. な情報にシステムとの音声対話を通じてアクセスするため. し,また,人手により書いたルールなども利用して,言語. 1. a) *1 *2 *3. 情報通信研究機構 NICT, Chiyoda, Kyoto 619-0289, Japan [email protected] http://mastar.jp/assistra/ http://mastar.jp/kyo-no hanna/ システムの動作を含むビデオなどをサポートページ (http://mastar.jp/assistra/) で公開している.. ⓒ 2013 Information Processing Society of Japan. 理解用の WFST [3] を学習している.対話制御も言語理解 同様に,言語理解用の WFST により記述している.シス テムを動作させる際には,言語理解,対話制御の WFST を 結合して,一つの大きな WFST を作成し,デコーディン グ処理を行うことにより (図 2),効率のよい言語理解・対. 1.

(2) Vol.2013-HCI-151 No.8 Vol.2013-SLP-95 No.8 2013/2/1. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 1 システムとの対話例 (表示画面). 言語理解 FST. 対話シナリオ (管理)FST. グデータには,音声認識や言語理解誤りを含むデータが含. 応答文生成 FST. まれている可能性が高く,また,機械翻訳により誤りを含 む学習データを作成してしまう可能性がある.これらの誤. FST合成(compose). りを含むデータを除去するために,翻訳元のテキストと,. 対話制御FST. テキストの折り返し翻訳結果を比較した.この用いてデー 音声認識結果. 音声認識. 自然言語文. WFSTDM (対話制御FSTに対するデコーダ). タ選択を行い,学習データを利用することで,音声言語理 音声合成. 図 2 対話制御フレームワーク WFSTDM. 話制御を行っている.なお,これらの処理は NICT が研究 開発したフレームワーク WFSTDM [3] を利用している.. 3.2 音声合成 音声合成には,大量の音声データから作成した音声対話 用の音響モデルを用いて,自然な音声を作成している.な お,音響モデルの学習データは,プロのガイドと模擬旅行 者の音声対話の書き起こしを,2 名の声優に対話中の掛け 合いを再現するように指示して収録した.約 40 名の聴取 実験により合成音の評価を行ったところ,多くのユーザが 従来の新聞記事の読み上げデータから学習したモデルと比 較して,システムにふさわしい自然な音声であると評価し た [4].. 4. 英語版の開発. 解の性能を改善することができた [5].. 5. まとめ 情報通信研究機構で開発,公開しているスマートフォン 用音声対話システム AssisTra について述べた.システム は,音声言語処理に関わる要素技術である音声認識,音声 合成,および対話制御を組み合わせて開発しており,一般 向けのシステムとして公開している.さらに,システムの 多言語化における開発コスト削減を目指し,言語ポータビ リティ技術を開発・利用して英語版システムを開発し,公 開した.今回開発したシステムは,京都の観光案内を対象 として扱っているが,コンテンツ情報,語彙を組み替える ことにより他の観光地に対しても容易にシステムを立ち上 げることができると考えている.また,さらなる多言語化 を進める際のコストを減らす技術の開発を進めていきたい. 参考文献 [1]. 英語版の言語理解を作成するにあたり WFST ベースの 言語理解から,機械学習を利用したコーパスベースの手法. [2]. を採用した.これにより,対話技術と語学の両方のスキル を持った者 (WFST を読むことのできる母語話者) でない. [3]. とできなかった作業を,データ作成と学習の 2 つの作業に 分割する事ができた.ただし,このような機械学習を利用 した手法を用いる場合に,大量のタグ付き英語の学習デー. [4]. タ (発話例と,対応する言語理解結果のペア) を用意する必 要があり,データの収集方法が問題になる. そこで,言語理解結果タグ付きの学習データとして,日 本語版 AssisTra の運用により収集したログデータの翻訳 結果を利用することを考えた.しかしながら,収集したロ ⓒ 2013 Information Processing Society of Japan. [5]. 翠 輝久,水上悦雄,堀 智織,柏岡秀紀:音声対話によ る観光案内システムの開発と多言語化,人工知能学会誌, Vol. 27, No. 1, pp. – (2013). 大竹清敬, 堀智織,柏岡秀紀, 中村哲:京都観光案内 対話コーパスにおける対話行為の分析,言語処理学会第 14 会年次大会発表論文集 (2008). Hori, C., Ohtake, K., Misu, T., Kashioka, H. and Nakamura, S.: Statistical Dialog Management Applied to WFST-based Dialog Systems, Proc. ICASSP, pp. 4793– 4796 (2009). 翠 輝久,水上悦雄,志賀芳則,川本真一,河井 恒,中村  哲:ユーザの相槌・頷きを喚起する音声対話システム, 電子情報通信学会論文誌,Vol. J95-A, No. 1, pp. 16–26 (2012). Misu, T., Mizukami, E., Kashioka, H., Nakamura, S. and Li, H.: A Bootstrapping Approach for SLU Portability to a New Language by Inducting Unannotated User Queries, Proc. ICASSP, pp. 4961–4964 (2012).. 2.

(3)

図 1 システムとの対話例 ( 表示画面 ) 対話シナリオ (管理)FST言語理解FST 応答文生成FST FST合成(compose) 対話制御FST 音声認識 WFSTDM 音声合成 (対話制御FSTに対するデコーダ)音声認識結果 自然言語文(対話制御FSTに対するデコーダ) 図 2 対話制御フレームワーク WFSTDM 話制御を行っている.なお,これらの処理は NICT が研究 開発したフレームワーク WFSTDM [3] を利用している. 3.2 音声合成 音声合成には,大量の音声データから作成した

参照

関連したドキュメント

これまた歴史的要因による︒中国には漢語方言を二分する二つの重要な境界線がある︒

音節の外側に解放されることがない】)。ところがこ

題が検出されると、トラブルシューティングを開始するために必要なシステム状態の情報が Dell に送 信されます。SupportAssist は、 Windows

・ 教育、文化、コミュニケーション、など、具体的に形のない、容易に形骸化する対 策ではなく、⑤のように、システム的に機械的に防止できる設備が必要。.. 質問 質問内容

は,医師による生命に対する犯罪が問題である。医師の職責から派生する このような関係は,それ自体としては

・対象書類について、1通提出のう え受理番号を付与する必要がある 場合の整理は、受理台帳に提出方

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..