愛嬌は失敗をおぎなえるか
Does robot’s familiarity make up for recognition failures?
土井美和子、山本大介
Miwako Doi, Daisuke Yamamoto
(株)東芝 研究開発センター
Corporate Research & Development Center, TOSHIBA CORP.
Abstract
将来的に家庭や街で、人間のパートナーとして個々人 を支援するロボットの活躍が期待されている。インタ フェースデバイスとしてみたときの情報機器とロボッ トとの違いに注目し、ロボットゆえのメリットを生か した設計について実験を踏まえ考察する。1 ロボットのサービスと形状
身体性を有するロボット(ここでは、ビジブルロボ ットと呼ぶ)には、どのようなサービスが期待されて いるのであろうか。表1 は、愛知万博に出展されてい るあるいは出展予定のもの(NEDO の新聞発表をもと に)を中心に、現存のビジブルロボットを、用途と形 状・移動性により分類したものである。用途としては、 ヒトとの対 話性が強い ものを左に、 自律性の強 いものを右 になるよう に並べてあ る。左から 順 に 、 家 族・友人・ パートナー、 家事アシス ト、受付接 客、警備/案 内、移動介 助、屋内外 労働補助、 レスキュー、 その他とな っている。 人間の形状に近いものほど上に、無機的なものほど下 に並べてある。上から順に、アンドロイド型、純正ヒ ューマノイド型、変形ヒューマノイド型、動物・その 他の生物型、車・車椅子型、道具型、その他となって いる。それぞれに対し、非移動と移動とを表 1a)と b) に分類している(ただし、車・車椅子型は移動のみ)。 表1 に記載の 77 件のうち、非移動型は約 1/4 の 18 件である。家事アシストとレスキューは移動が必須で ある。移動介助では、Aware Home やハイパーロボッ トのように部屋全体がロボット化することで、ビジブ ルロボット自体が移動することなく、介助することが 可能となっている。 残りの3/4 を占める移動型ビジブルロボットでは、 ヒトとの対話が必要なものほど、対角線より上側にあ り、ヒューマノイドあるいは動物など、生命ある形状 になっている。逆に、移動介助では車・車椅子型のように、ヒトとの対話が不要で自律的に稼動できるもの ほど、対角線より下側にあり、用途に特化した形状に なっている。 ヒトとの対話が主となるビジブルロボットでは、用 途限定のビジブルロボットと同様に、対象となるヒト はもとより、ヒトのいる環境の情報獲得が必須である。 このために、センサネットワークあるいはユビキタス ネットワークとの連携が必要なのはいうまでもないが、 画像処理や音声認識技術による認識も重要である。 ロボットが情報機器と異なる点は、ヒトや環境の状 況を獲得するために、移動性により対象物に近づき、 認識環境を改善できること、また、親和性により認識 誤りの影響を軽減できることにあると考える。 以下、本稿では、対話における距離性と、移動と親 和性による認識誤り影響の軽減についての実験を紹介 する。
2 距離性
ヒト同士の社会活動について、ここでは、距離によ り定量化を行ったホールの近接学(proxemics)を参考 にする[4]。ホールは対人空間を遠距離から順に公衆距 離、社会距離、個体距離、密接距離の4 つに分類して いる(表2)。それぞれはさらに遠方と近接に分かれてい る。公衆距離は相手との信頼関係がなく、いつでも相 手から逃れることができる。社会距離は、オフィスに 代表されるように、相手を無視して、仕事ができる距 離である。個体距離は、手足を伸ばすと届く距離であ るので、一定の信頼関係が必要となる。 密接距離は、体臭や体温までを感じ取れるほどの近距離で あり、親子とか恋人といった、非常に深い信頼関係がないと、 気詰まりな距離である。 この対話距離は情報機器の使い方にも延用してみると、お もしろいことが分かる。例えば、パソコンの作業は、目の前 表2 Hole の近接学(proxemics)[4] 距 離 (cm) 特 徴 近接相 <15 愛撫・格闘・慰め・保護の距離、 嗅覚と放射熱の感覚が鋭敏。 密 接 距 離 遠方相 15∼45 手を握ったり、身体に触れたり できる距離。親密な間柄の距離 近接相 45∼75 自分の手足で他人に何かを仕 掛けることができる距離 個 体 距 離 遠方相 75 ∼ 120 個人的関心や関係を議論でき、 相手の表情は細部まで見て取 れる距離 近接相 120 ∼ 210 フォーマルな会話、個人的でな い事柄のやり取りが行われる 距離 社 会 距 離 遠方相 210 ∼ 360 互いを隔絶して遮蔽する距離。 他人のいることころで仕事を しても礼を逸しない 近接相 360 ∼ 750 相手に脅されたときに逃げる ことができる距離 公 衆 距 離 遠方相 <750 講演や演説に使われる距離50cm ぐらいにディスプレイとキーボードがある。これは 個体距離にあたる。これに対し、音声での携帯電話は、密接 距離の近接相である。車内やバス内での、音声の携帯電話で のやり取りが異質に感じられるのは、車内は社会距離である のに、音声の携帯電話が恋人同士という非常に緊密な密接距 離であるためでないだろうか。これに対し、携帯電話でのメ ールや家電操作は、密接距離でも遠方相であり、目の前30cm ぐらいの距離である。本人にとっては、自らの手の内であり、 非常に便利ある。かつ周囲にとっては密着していないので、 耐えられる範囲なのである。 このあたりの使用者が意識する心理的な対話距離と、環境 型認識する物理的な対話距離とのギャップを図2 に示す。実 世界で行われているコミュニケーションと、情報機器を使っ ての情報空間でのコミュニケーションとで、使用者の意識す る心理的対話距離と、環境側が認識する物理的対話距離とが、 異なっていると、違和感を感じることとなる。先にあげた音 声での携帯電話の例がその典型的な例である。 では、ロボットの距離はどうであろうか。ロボットは、パ ソコンや携帯電話、家電と異なり、移動できるので、相手と の距離を変化させることが可能である。そのためには、公衆 距離である遠方から、相手の存在を認識し、社会距離、個人 距離と距離を変化させ、その結果、相手が誰であるかを認識 する方法、距離と認識結果に応じて、対話方法を変化させて いく方法が必要となる。実際に、操作対象に向かって移動さ せることで、音声認識の誤りがあっても、親和性が増すこと が実験的に確認できている[5]。 また、癒し系ロボットでは密接距離、家事ロボットや介護 ロボットでは個人距離、留守番ロボットでは社会距離といっ たように、アプリケーションにより、主とする距離空間も異 なってくる。 音声認識以外がすべて視覚によるものであること、それら は視覚の中でも周辺視に近い全体的視覚機能であること、ま た、人物追跡は、対話距離を維持あるいは変更するための機 能であることが非常に興味深い。
3 対話性
前章では、ヒトの社会活動にロボットが参加していくため に、ヒトの距離空間を参考に、社会的ロボットの越えるべき 距離について考察した。本章では、ヒトの機器やモノに対す るインタフェース設計を参考に、ロボットが実用的に機能す るために必要な対話性に関して明らかにする。 ヒトの機器やモノに対するインタフェース設計は、対話性 への重点の置き方という観点から、以下の3 つに分類できる。 ・制御/操作:やるべき操作(タスク)が決まっており、その 操作指示を与えるだけでよい。音声認識による操作などが 該当する。マウスのダブルクリックの間隔などの初期設定 や音量調整などの使い方に関してHI 設計は必要である。 操作指示を与えるという一方向性なので、対話的なHI は 不要である。 ・ナビゲーション:相手の目的や状況に応じてタスク/処理 などを選択し、実行する。カーナビゲーションや歩行者 案内などが該当する。状況認識技術と対話的なHI が重要。 ・コミュニケーション:対話自体が目的である。このため、 境界条件が定まらず、対話設計は難しい。人間同士でも コミュニケーションが上手/下手がある。談話構造理解な ど言語的、意図や感情理解、ジェスチャ認識など非言語 的対話の枠組みが重要。 現在、我々が当たり前のように使っているGUI(Graphical User Interface)は、上記の対話性から照らすと制御/操作 段階である。GUI の登場により、オフィスでも計算機の専門 家でない人々が計算機を使えるようになったが、対話性とい う観点からは、それまでの自動化路線となんら変化はなかっ たわけである。つまり、人間が一方的に指示を与える対話で ある。 そ れ が 、 カ ー ナ ビ ゲ ー シ ョ ン で は 、GPS(Global Positioning System)による位置情報によって、対話が変化 するようになった。状況に応じた対話(ナビゲーション)へ と大きく変身を遂げたわけである。つまり、人間が一方的に 指示を与えるのではなく、人間の状況を計算機を含むシステ ム側が認識し、その認識した状況に応じて、目的までの計画 を再計算し、人間に返すというように、双方向になったわけ である。 「感動」を与えるようになるには、もう1 歩進んで、対話 自身がおもしろいコミュニケーションに進化していくことが 望ましい。 ロボットは、距離性の章でも触れたように、従来の情報端 末と異なり、身体性を有し、物理空間を移動できる。そのロ ボットの対話のあり方を上記に倣って、あえて分類すると以 下のようになる。 ・操作/制御型(タスクオリエンティドなロボット):掃除ロボ ットに代表されるようにやるべきタスクが決まっていて、そ れを自動的にできるようにしたもの。 ・ナビゲーション型(支援ロボット):介護支援や受付、案内 ロボットなど、人間と協調して人間が不足している能力を補 うもの。ロボットから能動的に働きかけ、対話を開始できる 点で従来の対話方式と一線をかくす。人間とロボットが協調 するための相互の行動記述や、物理的に接触を伴うロボット の安全性を保障する技術などやわらかい制御が必要。 ・コミュニケーション型(癒しロボット):存在自身が実体を もつ。言語的コミュニケーション実現が困難なので、非言語 コミュニケーションが重視される。4.移動と親和性による認識誤りへの主観評
価実験
[2,3]
4.1 実験方法 情報機器とビジブルロボットのインタフェースの一 番の相違である移動と親和性が、認識誤りの影響軽減 にどのように寄与するかを調べることがこの実験の目 的である。ここでは、図1 のような外観と表3のよう な性能を有するホームロボットApriAlphaTMを用いて、 被験者は男性15 名、女性 13 名のあわせて 28 名であ る。20 代が 10 名、30 代が 9 名、60 代が 9 名という 年齢配分になっている。 タスクは被験者の音声を認識し、TV にチャネルを変 更するという簡単なものである。その際、ビジブルロ ボットが表4 に示した 4 条件で行動する。それぞれの 条件で被験者の音声は50%ランダムに誤認識するよう に手動でコントロールしている。ここで評価するのは TV チャネルを変更するという実用行動と、認識結果を 2 回繰り返すという聴覚的親和性、発話相手と対象の TV を見るという視覚的親和性、移動するという身体的 親和性である。 条件A では、実用行動のみで、ロボットは被験者と TV との中間点にいる。認識結果に従って、TV チャネ ルを変えるのみである。条件B は条件 A に相手の言葉 を2 回繰り返すという聴覚的親和性を追加したもので ある。条件C は、さらに発話相手と対象を交互に見る ものが追加。条件D では、さらに対象物まで移動する という身体的親和性が追加されている。 これらの実験条件をランダムにして、さらに認識誤 りもランダムに50%含めて、被験者に TV チャネル変 更の操作を発話してもらう。その後、表5に示したよ うな22 対の形容詞対に関して SD 法によりアンケート をとる。表5の右の2 列は因子分析結果を示している。 FactorI は親和性、FactorⅡは実用性に該当する成分が 出ている。 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 A B C D A B C D F ac tor Ⅰ Sc ore s Correct Error 20's 60'sFigure2 The Experiment’s Comparison for Factor I (Differences between the subjects in their 60’s and those in their 20’s)
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 A B C D A B C D F ac tor Ⅱ Sc or es Correct Error 20's 60's
Figure 3 The Experiment’s Comparison for Factor II (Differences between the subjects in their 60’s and those in their 20’s) Table 4 The 2nd Experiment’s Experimental Conditions
Practicality (Channel Changing) Familiarity (Speaking) Familiarity (Gazing) Familiarity (Moving) A ○ − − − B ○ ○ − − C ○ ○ ○ − D ○ ○ ○ ○
Table 5 The 2nd Experiment’s Evaluated Adjective Pairs and the Results
FactorⅠ FactorⅡ Unpleasant Pleasant 0.88 -0.05 Unfriendly Friendly 0.85 -0.32 Boring Interesting 0.83 -0.12 Dull Exciting 0.83 -0.25 Rigid Frank 0.83 -0.15 Difficult Easy 0.82 0.34 Disobedient Obedient 0.81 0.18 Cold Warm 0.80 -0.38 Weary Unwearied 0.79 -0.05 Blunt Sharp 0.78 0.35 Dark Light 0.78 -0.37 Ugly Pretty 0.78 -0.21 Passive Active 0.77 -0.01 Unintelligent Intelligent 0.76 0.21 Unserious Serious 0.76 0.25 Mechanical Humanlike 0.75 -0.39 Comprehensible Incomprehensible 0.73 0.13 Slow Quick 0.67 0.45 Slow Rapid 0.66 0.48 Quiet Showy 0.65 -0.46 Dangerouse Safe 0.54 0.35 Complex Simple 0.43 0.46 57.2% 9.4% Proportion of variance Adjective Pairs
4.2 実験結果 図2と図3 に、FactorI(親和性)と FactorⅡ(実用 性)に関して、60 代と 20 代の音声認識が正しいとき と誤っているときを示している。 60 代、20 代ともに、聴覚的、視覚的、身体的親和 性が追加されるに従い、音声認識が正しいときには、 親和性を強く感じている。20 代では、音声誤認識時に は、親和性の追加により、わずかではあるが、親和性 が増しているが、負であることに変りはない。しかし、 60 代では、誤認識時でも、視覚的、身体的親和性が加 わると、誤っているにも関わらず、正認識時と同程度 の親和性を感じている。実際、実験中にロボットの発 話をまねたり、身を乗り出したり、ロボットの頭をな ぜたり、被験者自身が積極的に親和性を示す行動が見 られた。 実用性では、20 代は、音声認識正誤に関わらず、親 和性が追加されることにより、所要時間の増加が影響 し、視覚的、身体的親和性の追加では、非実用的であ ると感じるようになる。これに対し、60 代では、実用 性に関しては、あまり大きく変化しない。 以上のように、高齢者に対しては、視覚的、身体的 親和性が、主観的にではあるが、音声誤認識の影響を 軽減していることが実験的に確認できた。
5.協調する未来
実験では、主観的評価ではあるが、高齢者にとって、 ビジブルロボットの移動を含めた親和性が、音声認識 誤りに影響軽減に大きく寄与することが確認された。 今後は、ビジブルロボットが情報家電などユビキタ スネットワークから獲得した情報に基づき、実用的な 動作できるフレームワークを構築し、ロボットの移動 と親和性が有用であることを実証していく。 謝辞:本研究の機会を与えていただいた奈良先端科学 技術大学院大学の木戸出正継教授、情報通信研究機構 上田博唯専攻研究員はじめ、けいはんなオープンラボ のユビキタスホーム関係者に感謝いたします。参考文献
[1] エドワード・ホール,「かくれた次元」,みすず書房(1980)( Edward T. Hall : The Hidden Dimension 1966).
[2] Yamamoto, D., DOI,M., Matsuhira, N., Ueda, H., and Kidode, M., “ Familiar Behaviors Evaluation for a Fusion Robotic Interface of Practicality and Familiarity,” ICDL2005 submitted(2005). [3] Yamamoto, D., Doi, M., and et.al., Behavior Fusion in a Robotic Interface for Practicality and Familiarity –Approach by Simultaneous Imitations–, Proc. of RO-MAN2004(2004).
Fig.1 Overview of Robotic Information Home Appliance, “ApriAlphaTM”
Table 3 Specifications of “ApriAlphaTM”
Dimensions 350 x 350 x 380mm (w x d x h) (Weight 9.5kg)
Sensors Interfaces
CCD Cameras (2), Ultrasonic Sensors (6), Microphones (3), Speakers (2),
TFT Liquid Crystal Display with Touch-Screen Movement 2 Drive Motors and Wheels; Speed: 0.5m/s 3 Motors of Camera’s Pan/Tilt Motion
1 Motors of Display Open-Close Motion
Battery High Output Lithium-Ion Battery (Integrated) 2 Hours of Uninterrupted Operation with Battery Transmission/
Communication Functions
Communication with External PCs, Home Servers, PDAs and Mobile Phones through Wireless LAN
Communication with BluetoothTM Equipment