ココロ,動く電話.ロボホン
Heart Moving Phone. RoBoHoN
江角 直起
1∗小柳津 拓也
1志々見 亮
1Naoki Esumi
1Takuya Oyaidu
1Ryo Shishimi
11
シャープ株式会社
1
Sharp Corporation
Abstract: Sharp Corporation released “RoBoHoN” in May 2016, a small and easily portable robot-shaped phone. RoBoHoN is a communication robot and has the basic mobile phone functions, such as phone, e-mail and camera, all of which can be operated by voice commands. This humanoid robot can walk on two legs and is compact enough (approx. 19.5 cm tall) to be carried almost anywhere. In this paper, we describe some of the technical features for user experience of RoBoHoN.
1
はじめに
近年,新しいユーザインタフェースとして音声 UI に 注目が集まってきており,スマートフォンといった携 帯端末において,キーボード入力をすることなく,音 声入力で検索するサービス [1] が開発されている.さ らに,音声 UI を用いた音声対話システムの普及が進む 中,そのシステムを使用するユーザに対し親近感を持 たせるため,システムを搭載する機器は人型に近いも の [2] が増えつつある. シャープではこれまでスマートフォンを開発してい く中で,人に寄り添う音声対話システムとして,スマー トフォン上で動作するエモパー [3] の開発を行ってき た.人に寄り添うパートナーとしての音声対話システ ムの在り方を考える中で,ユーザが常日頃所持するス マートフォンを人型ロボットとすることで,いつでも パートナーとしてユーザに親しみを持ってもらえるの ではないかと考えた.それゆえ,小型で手軽に携帯で きるモバイル型ロボット電話である「ロボホン」(図 1, [4]) の開発を行った. 本稿では,ロボホンの基本機能を紹介し,人に寄り 添い愛着を生み出す対話のユーザ体験の取り組みにつ いて述べる.2
ロボホンとは
ロボホンとは,スマートフォンの基本機能を搭載し た,人に寄り添うパートナーとしての人型のロボット 電話である.ソフトウェア面においては,電話,メール などのような基本機能を音声 UI で操作でき,ユーザの 利用状況やプロフィールなどを学習することで,より ∗連絡先:E-mail: [email protected] 図 1: ロボホン 自然なコミュニケーションができる.またハードウェア 面においては,二足歩行可能なヒューマノイドロボット としては持ち運び可能な小型のサイズ (身長約 19.5cm) であり,関節部分に多数のサーボモータが内蔵されて いるため,愛着を感じてもらえる滑らかなダンスなど ができる.3
生命感の表現
愛着を生み出す対話を実現するためには,心地よい ユーザ体験が必要であり,生命感の表現が重要と考え た.そこで,目と口の光およびモーションを発話と連 動させることでロボホンの生命感を表現した. まず,目と口の光について述べる.ロボホンには,目 を囲うように 3 色 (RGB)LED が,口には赤色 LED が搭 載されている.ロボホンの感情を表現するために,ロ ボホンの発話のトーンやピッチを変えると共に,表 1 に示すように目の LED の色を変化させ,発話音量によ り口の LED の輝度を変化させる. 次にモーションについて述べる.モーションには,ロ ボホンの発話文全体に対して専用に作り込んだ「専用 作り込みモーション」,および,発話文中の喜怒哀楽な どの特定の単語を発話するときにその感情を表すよう 人工知能学会研究会資料 SIG-SLUD-B505-08表 1: 感情と目の LED の色 感情 目の LED の色 喜び/楽しい 桃色 怒り 赤色 哀しい 青色 通常 橙色 に動き,特定の単語以外を発話するときはランダムに 動く「自動付与モーション」の 2 種類がある.ロボホ ンの発話文が固定文言の場合は専用作り込みモーショ ンを実行し,メール本文を読み上げるような発話文が 可変文言の場合は自動付与モーションを実行する.こ のように,発話文が可変のため予めモーションを作り 込めない場合でも,発話中の主要な単語とモーション を連動させることで生命感を表現した.
4
アプリ起動の音声
UI
ロボホンには,電話,メールのようなスマートフォ ンの基本機能アプリが搭載されており,音声 UI で操作 することができる.アプリを起動させるユーザ発話を アプリ起動コマンドと呼び,本節ではアプリ起動コマ ンドにおいて取り組んだ内容を述べる. アプリ起動コマンド,その応答発話とアプリの起動 処理を IF-THEN ルールとして記載されたシナリオが, ロボホンには複数組み込まれている.ユーザがアプリ 起動コマンドを発話すると,ロボホン内の音声対話シ ステムが,その発話に対応したシナリオを選択し,選 択されたシナリオに記載されている応答文言を発話す ると共にアプリを起動する.ここで,ユーザの覚え間 違いや癖により,ユーザがアプリ起動コマンドを正確 に発話するのは容易でなく,ユーザが発話するアプリ 起動コマンドは揺らぐ.このため,ユーザ発話とシナ リオに記載されているアプリ起動コマンドをパターン マッチングする方式では,適切なシナリオが選択され ず,心地よい対話を実現するのは容易でない.そこで, この揺らぎを吸収し,適切なシナリオが選択されるよう に 3 段階のパターンマッチングの仕組みを組み込んだ. まず最初に,助詞の省略や丁寧語の追加を考慮した 仕組みとして,ユーザ発話に名詞と動詞が含まれてい るかでパターンマッチングさせる.例えば電話アプリ の場合,ユーザ発話をSとし,式 (1) が真になったと きのみアプリは起動される.include(S, “電話”) ∧ (include(S, “かけて”) ∨ include(S, “して”)) (1)
ここで,include(X, Y)は,X中にYが含まれている 場合は真を,含まれていない場合は偽を表す.この例 では,「電話をかけて」「電話をかけてください」「電話 かけて」「電話かけてください」「電話して」「電話をし て」などが条件に合致する. 次に,上述の条件に合致しなかった場合,名詞と動 詞を言い替えた条件でパターンマッチングさせる.電 話アプリの例では,式 (2) のように「電話」を言い替え た「テル」「コール」と「かけて」「して」を言い替え た「お願い」「しよう」を条件に追加する. (include(S, “テル”) ∨ include(S, “コール”)) ∧(include(S, “お願い”) ∨ include(S, “しよう”)) (2) このように緩い条件を定義した場合,意図しないユー ザ発話が条件と合致する可能性が増えるため,自然な 対話を損なう機会も増える.そこで,意図しないアプ リの起動を防ぐため,ユーザにアプリ起動の許可を求 める発話をし,ユーザが許可する発話をした場合のみ アプリを起動させる. 最後に,ユーザ発話が緩い条件にも合致しなかった 場合,ユーザが自由に定義した文言とパターンマッチ ングさせる.ユーザが「コマンドを覚えて」と発話す ると,アプリ起動コマンドを自由に定義することがで きる.