自然対話プラットフォームによる
マルチエージェント対話システムの実現
Designing of multi-agent dialogue system
by natural-language dialogue platform
田中 剛
1∗角森 唯子
1門畑 祥子
1藤本 拓
1Go Tanaka
1, Yuiko Tsunomori
1, Yoshiko Kadohata
1, Hiroshi Fujimoto
11
株式会社 NTT ドコモ サービスイノベーション部
1
Service Innovation Department, NTT DOCOMO, INC.
Abstract: We have developed a natural-language platform that enables users to communicate with variable devices and designed a multi-agent interface based on the platform. We defined new framework that instructs to multiple agents in order to achieve a more natural dialogue between a user and multiple agents. As a result, the multi-agent interface can behave like a human being and proactively generate a flow of conversation compared with an ordinal single-agent interface.
1
はじめに
近年,IoT(Internet of Things)や AI(Artificial In-telligence)市場の拡大に伴い,玩具,ロボット,車載 器,家電等の様々な機器に対する音声対話や音声操作 への需要が高まっている.今後さらに,人が日常的に 話す自然な言葉を理解する対話型エージェントの需要 は拡大していくと考えられる.そこで我々は,あらゆ る機器で対話を可能にする,自然対話プラットフォー ムを開発した.また,本プラットフォームを用いて対話 型エージェントサービスを開発していく中で,単一の エージェントとの対話では利用者が話す内容に困窮す るという課題が明らかになってきた.そこで,複数の エージェントが主体的に対話の流れを創発し,より自 然な対話を可能にする,マルチエージェント対話シス テムを実現した.本稿では,自然対話プラットフォー ムの各対話技術について説明し,本プラットフォーム 上で実現するマルチエージェントについて述べる.
2
自然対話プラットフォーム
自然対話プラットフォームの構成を図 1 に示す.自 然対話プラットフォームは主に,「シナリオ対話」「意図 解釈」「雑談対話」[1]「知識 Q&A」[2] という 4 つの言 語処理技術から成り立っており,これらを組み合わせ ることであらゆるデバイスとの対話を可能にする.対 ∗連絡先:株式会社 NTT ドコモ サービスイノベーション部 〒 239-8536 神奈川県横須賀市光の丘 3-6 NTT ドコモ R&D センタ E-mail: [email protected] 図 1: 自然対話プラットフォーム構成 話サービスの開発者は,このシナリオ対話と意図解釈 を利用デバイスや利用シーンに合わせてカスタマイズ することで自分だけの対話エージェントを容易に開発 できる.本章では,本プラットフォームのコア技術で ある,シナリオ対話と意図解釈について述べる.2.1
シナリオ対話
シナリオ対話とは,ユーザとエージェントの間でス トーリー性のある連続した対話を実現するエンジンで ある.エージェント発話は前回のエージェント発話を 考慮しつつ,直近のユーザ発話に基づいて決定される. サーバに入力されたユーザ発話は,基本的にはあらかじ め設計されたシナリオに基づいて処理され,シナリオに 用意されていないユーザ発話がされた場合でも,雑談対 話や知識 Q&A によって対話が不自然にならないよう返 答できる.シナリオは AIML[3] と呼ばれる XML ベー 人工知能学会研究会資料 SIG-SLUD-B505-09 ― 41 ―スの記述言語によって表現でき,我々は従来の AIML を独自に拡張することで柔軟かつ多様なシナリオ記述 を可能としている.さらに,天気やニュースといった 外部の情報を取得して提供する外部コンテンツ連携機 能や発話文章の曖昧性を吸収する文章正規化機能も備 えている.
2.2
意図解釈
意図解釈とは,ユーザの発話の意図を,特定の「タス ク」と呼ばれるエージェントが実行可能な機能単位に 分類するエンジンである.例えば,「電話発信」「天気検 索」などをタスクと呼び,あらかじめ設計したタスク を基にユーザの発話が意図するタスクを判定する.タ スクを判定すると共に,当該タスクの実行に必要とな るクエリを抽出し,それら意図解釈結果すべてをシナ リオ対話の AIML から呼び出しが可能であるため,シ ナリオ対話と意図解釈を連携させることでより厚みの ある柔軟な対話が実現できる.3
マルチエージェントの実現
従来の対話型サービスは単一のエージェントとの対 話が基本となっていたが,複数のエージェントとの対 話を可能にする,マルチエージェント対話システムを 開発した.本章では,本システム開発の詳細とマルチ エージェントの効果について述べる.3.1
マルチエージェント対話システムの開発
マルチエージェント対話アプリ「シロヤマさんクロ ヤマさん」の画面キャプチャを図 2 に示す.本システ ムでは,複数のエージェントに対する発話指示とモー ション指示の仕組みを新たに定義した.AIML の独自 拡張の 1 つである command タグを用いて,JSON 形 式で対象エージェント,発話内容,モーション内容の 記述ができ,記述順に複数の指示を処理できるよう設 計した.モーションは 34 パターン定義し,言葉だけで なく複数のモーションによって感情やエージェント間 の掛け合いを表現できる.これらの仕組みにより,そ れぞれのエージェント毎に,性格,口調,声,モーショ ン等を明確に分けることが可能なため,敢えて正反対 図 2: 画面キャプチャ のエージェントを設計することで複数人と対話をして いる状況を協調させた.また,音声認識誤り等で想定 外のユーザ発話が入力された場合でも,2 体のエージェ ントが互いに対話し合うことで自然に元の話題に戻し たり,話題を変えたりするようなシナリオを設計した.3.2
マルチエージェントの効果
本システムを,ドコモ R&D が提供する展示ホール 「WHARF」に展示し,マルチエージェントが対話にも たらす効果を検証した.その結果,従来の単一エージェ ント対話システムに比べ,マルチエージェント対話シ ステムでは複数のエージェントが互いに対話をし,対 話の流れを主体的にコントロールすることで,エージェ ントからユーザへのより自然な語り掛けや話題変更が 可能となった.また,対話の中にエージェント同士の対 話を組み込むことでユーザは客観的に対話に参加する ことができ,自分と機械だけで対話をしているという 違和感や,何か話さなければいけないという圧力も緩 和される.さらに,ユーザの発話に対して単一のエー ジェントが反応するだけでなく,異なるエージェント も同時に反応し,話の内容を深堀りさせることで対話 の厚みが増し,ユーザはエージェントとの対話に対し て,対話が成立している,意図が伝わっている,とい う感情を抱くことができる.以上のことから,単一の エージェントに比べ,マルチエージェントはユーザに 対してより人間らしい自然なコミュニケーションを促 す効果があると言える.4
おわりに
本稿では,自然対話プラットフォームを用いること で柔軟かつ容易に対話型エージェントを開発できるこ とを述べ,コア技術であるシナリオ対話と意図解釈に ついて説明した.また,本プラットフォーム上で実現 したマルチエージェント対話システムを紹介し,マル チエージェントの効果について述べた.今後は,対話 からの自動学習機能や自動発話生成機能の開発に取り 組み,多言語対応を進め,より高度な人工知能を搭載 した多言語対話エージェントの実現を目指す.参考文献
[1] 大西可奈子, 吉村健: ”コンピュータと自然な会話を 実現する雑談対話技術”, NTT DOCOMO テクニ カルジャーナル, Vol. 21, No. 4, pp. 17–21 (2014) [2] 内田渉, 森田千晶, 吉村健: ”自然文質問への直接回 答を実現する知識 Q&A”, NTT DOCOMO テク ニカルジャーナル, Vol. 20, No. 4, pp. 6–11 (2013) [3] AIML – The Artificial Intelligence MarkupLan-guage, http://www.alicebot.org/aiml.html