netpeople:クラウド型プラットフォームによる
音声対話アシスタント技術
netpeople: A cloud-based platform that brings conversational digital assistant to any
device.
李 惠琳
Hui-Lin Lee
イナゴ株式会社
iNAGO Inc.
Abstract: iNAGO's platform product netpeople is the launch pad that enables businesses to offer a smart
assistant in the cloud for any device and service. netpeople provides actual human-like conversation and interaction with exclusive Content-Aware Goal-Oriented technologies that work together in unison.
1. はじめに
Apple の Siri[1]がデジタルアシスタントサービスの 認知拡大に貢献したことは言うまでもない。現在で は、コネクティッド・カーやスマートホームなど、 スマートフォンに限らず、車、そして家電などあら ゆる機器が、インターネットにつながり、音声認識 機能を持つ時代となりつつある。しかしながら、人 間の言葉を理解し対話できる“対話型”アシスタント サービスはまだ少ない。また、パッケージ化された 開発ツールなどがなく個別開発となるため、サービ ス導入において大きな障壁となっている。そこでイ ナゴでは、独自の HCI(Human-Computer Interaction) 技 術 を 搭 載 し た ク ラ ウ ド 型 プ ラ ッ ト フ ォ ー ム ・ netpeople の開発を行っている。この論文では、イナ ゴの netpeople の概略を解説する。2. netpeople テクノロジーとは
デジタルアシスタントと称するサービスには、単 なるキーワード検索や、インターフェイスの工夫で 自然会話に対応しているような演出がされているだ けのものが多く見受けられる。それらは、コンテキ スト(文脈)認識に対応していない、または単純な 自然言語理解を利用したもので、実際は一発検索機 能である。また、本当に会話をしているような印象 を受けるものがあるが、それは、いくつかの会話シ ナリオを組み込んでいるだけであり、そのシナリオ にヒットしなければ、会話は成り立たない。 コンテキストを理解できるデジタルアシスタント も存在するが、自然言語理解には限界があり、文脈 把握技術も十分ではないため、積極的に会話ができ るまでには至っていないのが現状である。 これに対し netpeople は、自然な会話から利用者の 意図を理解し必要な対応を実行する。これを実現す る技術が、Goal-oriented Technology(ゴール共有型会 話技術)[2]、Context-Aware(文脈把握技術)、Natural Language Understanding(NLU:自然言語理解)である。2.1 Goal-oriented Technology(ゴール共有型
会話技術)
利用者が発話した言葉を認知するだけでなく、そ の発話の内容を文脈で記憶し、利用者の意図(ゴー ル)を理解する。同時に適切なタイミングで適切な 質問を動的に行うことで、ゴール到達に必要な条件 を追加取得し、利用者を効率的にゴールに誘導する。 図 1:Goal-oriented Technology による会話例 人工知能学会研究会資料 SIG-SLUD-B402-12 − 65 −2.2 Context-Aware(文脈把握技術)
利用者の発話内容をコンテキストとして記憶する ことで、会話の途中で話題が変わっても、次の話題 に必要な情報を引き継いで会話を行い、新しいリク エストに対応する。 図 2:Context-Aware による解析イメージ2.3 Natural Language Understanding(NLU:自
然言語理解)
一般的な音声認識は、単語がどのように使われて いるか判断できないため、言葉の意味を理解するこ とはできない。 netpeople の NLU エンジンは、単語 が会話の中でどのように使われているかを分析し、 ナレッジとともにコンテキストに保存することで、 言葉の意味を理解する。 図 3:NLU による解析イメージ3. netpeople アシスタントプラット
フォーム
イナゴでは、デジタルアシスタントサービスのビ ジネス展開における障壁の一つである、開発環境に 対するソリューションとして、プラットフォームの 開発を行っている。レストラン検索など標準のアシ スタント機能がプリセットで搭載された、クラウド 型プラットフォームで、API および各種プロトコル があらかじめ定義されており、外部システムとの統 合が自由にできる。GUI ベースで、プログラマーで なくても目的に応じた独自のデジタルエージェント の開発ができる。また、組み込みのプログラミング 言語を通して高度な機能を追加することも可能であ る。プラグインシステムを使用すれば、自由にコア 機能を拡張することもできる。 図 4:netpeople アシスタントプラットフォーム4. おわりに
Google が発表した調査結果[3]によると、アメリカ の 13~18 歳の 55%、またアダルト層の 41%がすで に音声検索を毎日利用している。 日本においても、 今後若者層を中心に音声検索の利用拡大が予想され る。イナゴでは、今後も HCI 技術のビジネス展開を 視野に入れた研究開発に取り組む。参考文献
[1] Apple Inc., Siri, https://www.apple.com/jp/ios/siri/, Copyright © 2014, (accessed: Nov. 20, 2014) [3] Google, Google Official blog, “OMG! Mobile voice
survey reveals teens love to talk”,
http://googleblog.blogspot.jp/2014/10/omg-mobile-voice-survey-reveals-teens.html, October, 14, 2014, (accessed: Nov. 20.2014)
注釈
[2] 特許出願中(2014 年 11 月 20 日現在)