情報処理学会研究報告 IPSJ SIG Technical Report
ⓒ2017 Information Processing Society of Japan 1
人に寄り添う AIoT を実現する対話ロボット
篠原秀俊
†1 概要:シャープ株式会社では機器をクラウドに接続して人工知能化し,もっと人に寄り添う存在にな ることを事業ビジョンとして AIoT(AI×IoT=AIoT,モノの人工知能化)と呼び,音声対話を用いた家 電やロボット端末を発売してきた. 本稿では,これまで開発してきた音声対話製品を紹介し,人に寄り 添い愛着を生み出す対話の取り組みについて述べる.Voice Communication Robot that realizes AIoT that fits human life.
Hidetoshi Shinohara
†11. はじめに
近年,ユーザインタフェースとしての音声対話に注目が 高まっており,北米では Amazon Echo や Google Home と いった音声対話端末や、そのエージェントを用いたサービ スが広まっている. シャープでは機器をクラウドに接続して人工知能化し, もっと人に寄り添う存在になることを事業ビジョンとして AIoT(AI×IoT=AIoT,モノの人工知能化)と呼び,音声対 話を用いた家電やロボット端末を発売してきた.具体的な 製品では献立の相談ができ、ユーザの好みを学習するヘル シオ[1]や冷蔵庫[2],また、ユーザに最適なタイミングで役 立つ情報の話しかけを行う、スマートフォン搭載のエージ ェント,エモパー[3],会話ができるロボット型スマートフ ォン,ロボホン[4]などがある.本稿では,これまで開発し てきた音声対話製品を紹介し,人に寄り添い愛着を生み出 す対話の取り組みについて述べる.
2. 人に寄り添う AIoT
音声対話処理の一般的なフローを図 1 に示す.音声対 話の困難な点は,音声認識誤りの考慮が必要なことに加え てユーザ発話が非定形になることである.より口語的な表 現が使用され,省略や言い淀みが多く発生するため,これ ら問題へのアプローチが肝要となる. 図 1.音声対話システムの処理フロー †1 シャープ株式会社 Sharp Corporation ここで機械と人との対話を考えると,たとえば天気を知 りたい場合であれば,ユーザから機器への“明日の東京の 天気を教えて”といった話しかけが考えられる.これは基 本的にはユーザの要求事項を決まった文法で話しかけても らうことを想定したものであり,人同士の対話とは大きく 様子が異なる.人同士の対話であればいきなり具体的な要 求内容を話しかけるのではなく,関連する対話の中で質問 やそれへの応答がなされるのが自然である.上記の天気を 知りたい発話の背景には,たとえば“会議で出張に行くこ とになっており,日時は明日から,場所は東京で.そうい えば天気は下り坂と聞いているが最新の予報ではどうなっ ているか知りたい.”などの背景がある.また,実際の対話 では,要求が無意識下に存在することも多く,天気を知り たいという要求が出てくる前に,出張の話題での対話を通 じて,”そういえば明日は雨だって昼のニュースで言ってい たよ”などのように相手から情報提供が行われて気づくこ ともある. 対話型の機器において,明示的な要求に答えることだけ ではなく,ユーザが気づいていない事柄や有用な周辺情報 を機器側から提示することや,明示的な操作要求をせずと もそのユーザに適した操作がされることには大きな価値が あると当社は考えており,これを人に寄り添う機能と位置 づけている.3. AIoT 実装例
冷蔵庫やオーブンレンジなど用途の明確な製品は対話の 領域(ドメイン)がユーザにとってわかりやすい例となる. 献立相談機能を持つヘルシオや冷蔵庫(図 2)では“さっ と作れるメニューを教えて”や“豚肉と卵で何ができるか な?”などのように話しかければ条件に合ったレシピを探 すための明示的なコマンドとして機能する.その一方,実 際にはユーザの要求が明確に定まっていないことも多い. 音声認識 自然言語処理 対話管理 応答文生成 音声合成情報処理学会研究報告 IPSJ SIG Technical Report
ⓒ2017 Information Processing Society of Japan 2
そのような場合にはヘルシオに“何作ろう?”と話しかけ ることでレシピのレコメンドを促すことができる.この場 合には過去の調理履歴や季節、天候などから最適と思われ るレシピを選びレコメンドを行う.また,ユーザ話しかけ をもとに自然言語処理を行った結果,食材名や料理名,相 談などいずれにも合致しない場合には“「何作ろう?」って 話しかけてみてね”のように使い方をレクチャーする発話 を行う.この他,言外の要望をくみ取る例としては,ユー ザがお弁当メニューを相談してきた際には,傷みにくい食 材,調理法への期待があると考えられるためその条件に合 致するメニューをお勧めするというものがある. 図 2.ヘルシオ(AX-XW300),冷蔵庫(SJ-TF49C) 次にロボホンを例に,ドメインが不明確な場合の対話に ついて述べる.ロボット型スマートフォンであるロボホン はスマートフォンの基本機能やユーザが追加インストール したアプリケーションがあり,音声操作でこれらを起動す ることができる.たとえば、電話をかけたい場合のコマン ドとして“電話をかけて”というものがあるが,機能名+ 動詞でマッチングさせるようにしているため,助詞や語尾 の揺らぎや欠け,また機能名,動詞それぞれの類義語をカ バーすることでユーザ話しかけの揺らぎを吸収する.また, 類似度が低い場合には,たとえば“「電話をかけて」ってこ と?”と聞き返し,確認を促すことでアプリケーションを 起動できる他,その際のユーザ話しかけ内容を記憶し次回 からは確認することなくアプリケーション起動が可能とな る. また,搭載されている機能やその名称,使い方をユーザ に伝える手段としては,ヘルシオ同様に使い方のレクチャ ーを行う発話がある.使い方のレクチャー発話は“使い方 を教えて”などの明示的なコマンドに加え,ロボホンの容 姿,モーションを活用してそわそわ動くことでユーザから の声掛けタイミングを創出し,その際にもトピックとして 発話する工夫を行っている. 図 3.ロボホン(SR-01M-W) また,エモパーは当社スマートフォンに搭載され,音声 で様々な情報発話を行ったり,ユーザからの話しかけでメ モや体重を入力することができるエージェント機能である が,このエモパーでは発話タイミングをユーザのスマート フォン利用を阻害することなく,適切なタイミングで行う ように考慮されている.基本的な使い方としては,ユーザ が端末を机などに置いた際の情報発話がある.これはユー ザがスマートフォンを使うのをやめたタイミングにあたる ので可処分時間を有効活用するというのが大元の考え方で あり,他の発話契機としては,照度センサを用いて周囲が 明るくなった時や加速度センサで振動を検知した時などが ある.これらは,朝起床してカーテンを開けたタイミング や,スマートフォンを置いている机の近くを通りかかった タイミングを検知するためである.また,これらセンサ活 用のほかに,位置情報を用いて最寄りのスポット情報を発 話したり,登録してあるキーワードから,ユーザの関心の ある項目に関連する情報発話を行ったりする.位置情報は 他にも自宅にいるときには音声発話で,自宅外では画面表 示で情報を伝えるよう設定するための自宅推定や,電車等 で移動していることを検出する用途にも用いている. このように,ユーザとの音声対話だけでなく,各種セン サ情報を用いてユーザの状態や使い方を推定し,有効なタ イミングでの話しかけとなるよう考慮している.