• 検索結果がありません。

Wizard-of-Oz 対話におけるオペレータの操作戦術の分析に基づく協調的対話システムデザインの検討

N/A
N/A
Protected

Academic year: 2021

シェア "Wizard-of-Oz 対話におけるオペレータの操作戦術の分析に基づく協調的対話システムデザインの検討"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

Wizard-of-Oz

対話におけるオペレータの操作戦術の分析に基づ

く協調的対話システムデザインの検討

Analysis of an Operator’s Interaction Tactics in Wizard-of-Oz

Dialogues towards the Design of Cooperative Interactive Systems

船越孝太郎

1

小室允人

2

Kotaro FUNAKOSHI

1

Masato KOMURO

2

1

京都大学

Kyoto University

2

千葉大学

Chiba University

Abstract: This paper presents an analysis of Wizard-of-Oz dialogues in light of the robot operator, and proposes a design concept for spoken interaction based on the analysis. The robot controlled by the operator was equipped with a limited number of actions and a fixed set of short utterances. The spoken responses by the robot were slow-paced in comparison to natural human dialogues due to the operator’s manual handling. As the robot spoke to participants in English, the Japanese participants experienced communication troubles frequently. Nevertheless, the participants seemed to enjoy the interactions with the robot much. We identify the two major factors that enable this fact in the operator’s interaction tactics.

1

はじめに

人と調和し協働する未来の人工物を実現するために は,人および生物一般における協調のあり方について 知ることが欠かせない.とりわけ,自然言語という人 間に固有の手段を用いて人とインタラクションを行う 対話システムは,より高いレベルでの人との協調が求 められる典型的な人工物であろう. 協調には少なくとも,適応的 (adaptive)・集合的 (col-lective)・同調的 (coordinative)・協働的 (collaborative) な 4 つの側面があると考えられ [1],本研究ではその中 でも特に同調的側面に注目する. ここでは,Tomasello ら [14, 10] が主張するように 意図の共有が人間に固有の能力であり,Sidner[12] に 倣い,協働 (collaboration) を意図の共有されたインタ ラクション1とする立場を取る.そのため,ここで我々 が注目する同調的側面においては,協調的にみえるそ れぞれのエージェントの振る舞いは各エージェントが 勝手に行っていることであり,(お互いと対話をすると いう)両者の意図はたまたま一致しているに過ぎない, という前提での協調の分析・議論になる.我々が関心 を寄せている対象は,Levinson が提唱する Interaction Engine [5] に含まれるような要素であり,人以外の生 物との進化論的連続性を強く意識した前言語的な要素 である.エンゲージメント (engagement) [12] や社会的 信号処理 (social signal processing) [6] に強く関わる. 以上を前提とし,本研究は,オペレータが操作する

連絡先:[email protected]

1“Collaboration is distinguished from those interactions in

which the agents cooperate but do not share goals.” [12]

ロボットと,複数人の参加者の間のゲーム対話を収録 した対話データ(動画)[2] を分析し,そこから得られ た知見に基づき,音声対話・インタラクションにおけ る協調的側面の質を高めるデザイン論に寄与すること を目的とする. 分析対象とする対話を収集した際にオペレータが操 作したロボットには,ごく限られた動きと発話しか用 意されていなかった.手動操作のため,参加者への応 答も,通常の人・人対話にくらべれば非常にゆっくり としたペースで行われる.また,参加者は日本人であ るが,ロボットの発話は英語で行われるため,頻繁に コミュニケーション障害が発生する. それにもかかわらず,多くの参加者は,(我々が後に 自作したプロトタイプの自動制御ロボットとの対話や, しばしば目にする機会のある学会・展示会におけるデ モシステムとの対話,実社会に配置された会話ロボッ トとの一般人との対話の様子などに比べて,はるかに) ロボットとの対話を楽しめているように見える2.これ を成立させている大きな要因は,3つあると考える3 まず1つには,参加者の発話の言語理解がオペレー タによってなされるため,言語・意図理解の精度が高い ことがあげられる.もう1つには,オペレータが限ら れた手段を駆使して,巧みな対話戦術を取ってコミュ ニケーション障害を回避・脱している(自動対話シス 2この点は,現時点では,著者らの主観的感想(仮説)にすぎな い.本仮設の客観的・定量的実証も行いたいと考えているが別の研 究に譲る. 34 つ目として,友人や家族と一緒に取り組んでいるという要素 も影響していると考えられるが,我々が自作した自動制御ロボット との対話(MPR2016 データセットの第 2 セッション [2])ではこの 条件は同じであるため,今回は考慮しない. 人工知能学会研究会資料 SIG-SLUD-B803-15

(2)

図 1: MPR2012 対話コーパス中の 1 場面の俯瞰映像 (左),およびオペレータ操作パネル(右) テムにありがちな対話エラーの無限ループに落ち込ま ない)こと,さらにもう1つは,オペレータが発話の タイミングの調整などを用いて,参加者との対話への エンゲージメントを微細ながらも積極的に表出してい ること,と我々は考える. 本稿では,この後者の2点に関する対話データの分 析を示し,それに基づくマルチモーダル対話システム のデザインについての提言を行う.特に 3 点目に関し て,時間的要因に注目する.時間(具体的には発話の タイミング)は,限られたアクションの選択肢しか与 えられていないロボットオペレータにあって,(円滑な 対話インタラクションを行うというタスクを実現する, という制約の範囲内に限ってではあるものの)自己の 意思で自由に選択でき,多様な効果を生み出すことが できる,数少ない因子である4 以降,2 節で分析対象とする対話コーパスの概略を 述べ,3 節で対話データ(動画アノテーション)の分析 を行う.分析結果に基づく対話システムデザインの検 討を 4 節で行い,5 節でまとめと今後の課題を述べる.

2

多人数ロボット対話コーパス

本稿では,(株)ホンダ・リサーチ・インスティチュー ト・ジャパンが収集した「マルチモーダル多人数ロボッ ト対話コーパス」(MPR コーパス)[2] のうち,2012 年 度収録のデータ(以降,MPR2012 と参照する)を分 析対象とする.MPR2012 は,知人 3 人が集まった 30 組(全 90 名)を対象に,図 1(左)に示す実験環境で 収録した対話データセットである.データセットには, ELAN5を用いて,発話区間・発話内容・発話対象(受話 者)・注視対象・参加状態・対話行為などがアノテーショ ンされている.3 節では,ELAN のスクリーンショット の形で対話例を示していく. 各組は,同じ対話ロボット(Aldebaran 製 NAO)と 25 分の対話(セッション)を,連続して 2 回行った.1 4そのような効果を生み出すことができる他のロボット因子とし て,表情(発色)・姿勢・話速・イントネーション・声量などが考え られるが,対話収集実験 [2] では,オペレータがこれらを制御する ことはできなかった.唯一テキストフィールドに文字列をタイプす ることで,任意の内容を発話することができたが,英語発話しかで きず,入力に時間もかかるので,利用の範囲は限られていた. 5https://tla.mpi.nl/tools/tla-tools/elan/ 回目は「20 の扉ゲーム」というクイズゲームを参加者 3 人が協力しながらロボットと行い,2 回目は「ジェス チャーゲーム」というクイズゲームを参加者 3 人が競い ながらロボットと行った.「20 の扉ゲーム」は,ロボット が 1 つ選んだ対象概念(例えば,リンゴ)を Yes/No 質 問を繰り返して特定するというゲームである.「ジェス チャーゲーム」は,ロボットが 1 つ選んだジェスチャー をして見せ,それが何を指すのかを参加者が英単語で 速答するというゲームで,ゲーム前にジェスチャーと 単語のペアの学習フェーズが入る.実験参加者は,いず れのゲームについても,セッション開始前に概要・ルー ルを教示された.以降では,組の識別番号(2 桁)と セッションの順(1/2)を組み合わせて,08 1(第 8 組 の第 1 セッション)のように各セッションを参照する. 各セッションにおいて,参加者は部屋の外にいる実 験監督の指示で,待機スペースと,インタラクション フィールドとの間を行き来し,オペレータが操作する ロボットとゲームを行った(各参加者は各自の無線ト ランシーバとイヤホンで指示を受信する). 実験監督者からの指示は,各参加者に個別に与えら れ,各参加者は他の参加者への指示を直接聞くこと はない.参加者はセッションごとに A/B/C のラベル で区別される.ラベルに対応付けて匿名化するため に,男性であれば Andy/Ben/Charlie,女性であれば Anny/Becky/Chris の通称がそれぞれに与えられ,セッ ション中に自身あるいは他の参加者に言及するときは, その呼び名で通すように指示された. 収録開始前,参加者は「英語教育用に開発中の会話 ロボットの改良のために対話収集実験を行う」と教示 され,実際にはオペレータがロボットを操作していた ことは収録終了後に知らされた.収録中に参加者の背 後のブースにオペレータが入っていることは参加者に も予め通知されたが,ロボットに不具合が生じたとき の対応要員として待機していると説明された. オペレータはブースの中で,収録用マイクからの音 と,ロボットの頭部正面のカメラで撮影された映像と, 収録室の天井の隅に設置された市販のビデオカメラか らの俯瞰映像でインタラクションフィールドの状況を 確認しながら,図 1(右)に示す操作パネルを用いて, ロボットの発話と行動を生成した.発話も行動も,基 本的には事前に作成されたリストからマウスクリック で選択するだけであるが,唯一ロボットの頭部の水平 方向の向きについては,オペレータがキーボードの矢 印キーを使って調整した.対話中に参加者を指差す行 動も,右・左・中央の 3 つの中から選択するだけであっ た.実験監督者から参加者への指示は,オペレータも 聞くことはなかった.すべてのセッションにおいて,同 一人物がオペレータを務めた.

(3)

3

Wizard-of-Oz

対話の事例分析

本節では,MPR2012 データセット中の3つの場面の 分析を通じて,「多くの参加者がロボットとの対話を楽 しめている」ことの成立に寄与しているオペレータの 操作要因を探る. 1 節で触れたように上記の成立には以下の 2 点が大 きく寄与していると考えるため,順に見ていく6 (1) オペレータが限られた手段を駆使して,巧みな 対話戦術を取り,コミュニケーション障害を回避・脱 していること.(2) オペレータが発話のタイミングの 調整などを用いて,参加者との対話へのエンゲージメ ントを微細ながらも積極的に表出していること.

3.1

協調的な強引さ

第一の点 (1) については,参加者がロボットの英語 発話をうまく聞き取って理解することができないこと によって生じるコミュニケーション障害を回復するた めの,オペレータのある種の強引さが鍵となる. 対話システムの用語で言えば,それは「システム主 導で対話を進める」ということになるのだが,その進 め方が協調的であること,すなわちユーザ(MPR2012 でいえば参加者)の様子を見ながら,あるいはユーザ の様子を見ていることをユーザに示しながら,主導し ている点が,現状の対話システムとの最大の違いであ り,現状の対話システムにもっとも欠けている能力と 我々は考える. 絵図的に例えれば,現状の対話システムがシステム 主導で対話を行うときは,あたかも「馬子が進みたい 方向(前)だけをみて,後ろにいる馬の手綱をただ単 調に前に引き,馬を引きずる」様子と言える.一方で, MPR2012 でオペレータが見せる主導・強引さは,「馬 子が馬の方をみて,馬の呼吸・目線にタイミングを合 わせながら,進みたい方向(自分の後ろ)に手綱を軽 く引き,馬自身に歩かせる」様子と言える.強制と誘 導の違いとも言えるだろう. 3.1.1 事例 1 MPR2012 08 1 06:52–07:14 図 2 上の対話場面では,図 3 の様に 2 人の高齢女性 がロボットと対話をしている. この対話場面の直前までで,なんとか 2 人がクイズ に正解したところである.ここでロボットは,再度ゲー ムを始めるために “Let’s start” というが,これが A に 伝わらなかったため,A は「ん?なに?もーいちど」と 修復を要求している.しかしながら,おそらくもう一 度同じ発話を繰り返しても伝わらないであろうことを 6以降の分析では,オペレータの行動を説明するために,オペレー タの思考に関する内観的な記述を織り交ぜるが,これらはあくまで著 者らの直観によるもので確証はないことに注意されたい(オペレー タからの聞き取り調査は行っていない). 予想したオペレータは,修復要求を一旦無視し,代わ りに A と C に順番に呼びかけている. これはまず,参加者の注意を引き止めつつ,対話の 主導権をロボット側に確保するための戦術の 1 つと思 われるが,オペレータはたんに,2 人に順に呼びかける だけではなく,それぞれから反応があることをしっか り確認して次に進んでいる.最後の question というフ レーズはテキストフィールドに手入力して発話してお り,これにより,C はゲームの質問が要求されている (新しくゲームが始まった)ことを認識している(「う ん,しつもんしなさい」). ここで気になるのは,C の発話(「はい」)の終端から ロボットの発話(“question”)の始端までの間が,8 秒 以上空いていることである.“question” という発話の 入力にはマウスクリックによる発話の選択よりも明ら かに時間を要するとはいえ,入力自体に 8 秒もかかるこ とは考えられない.このように時間が空いた原因とし ては,まず「なんと言えば伝わるか悩み考えるのに時間 がかかった」という可能性が挙げられるが,“question” という発話をすることで対話を進めるという戦術は,実 は先立って C が 1 人だけで参加している際に一度使用 して既に成功を収めているものである(3:46–4:14). 「はい」から “question” までの間には,C の苦笑と A の「もーいちど」という発話が繰り返されており,こ れらの発話に対してオペレータが様子を見たために,8 秒以上も間があいた可能性もあるが,C の苦笑までも, 2 度目の「もーいちど」の後も,それぞれ 3 秒ほどの 比較的長めの沈黙がある. おそらくオペレータは,「わざわざ」参加者に呼びか け,その後も「わざと」長い<間>をとることで,単に 前の発話を繰り返すつもりがないこと,うまく伝えら れるように逡巡していること,それに対し考えを巡ら せて意図を汲み取って欲しいことなどをあからじめ言 外に滲ませ,A に≪わからない≫と受け身になるので はなく,≪またゲームを始めるの?≫とゲームを進め るための能動的な推論(A からロボットへの協調)を 迫ったのではないかと推察できる. その後の 7:10–7:30 の区間(図 2 下)では,C の「私 が質問するの?」という質問に対して,同じ “chris”, “anny” の呼びかけで,「(先に理解した C だけでなく) 二人が答える」ということを伝えていて,A はその様 に解釈できている(「あにーもしつもん」).ここでは上 記のオペレータの戦術が功を奏した可能性がある.ま たこれは,限られた発言だけで多義的な意思疎通を実 現している場面としても興味深い. この場面について図 4 中の対話転記をもとに,更に オペレータ戦術の分析を試みる.以下,「図 4 中の 01 行 目」の意味で L01 のように書く.対話転記は,L18 か ら L60 にかけて図 2 中の対話を含んでいる. まず図 2 中の対話に先がけて,A から「OK,あそ

(4)

図 2: 事例 1: MPR2012 08 1 6:52–7:14 の対話(上)および 7:10–7:30 の対話(下) 図 3: 図 2 上の対話場面における A(画面左側女性)へ の呼びかけ時(“anny”) の状況 01 A: OK、あそぶ? 【7 行省略(図 2(上)参照)】 02 (1.5) 39 N: question 03 N: Yes 40 (0.2) 04 (0.1) 41 C: うん、ぁしつもんしなさいって? 05 A: うん、じゃ、あそぼー 42 (1.7) 06 (2.2) 43 A: うん、うん 07 N: chris 44 N: Yes 08 (3.8) 45 (0.1) 09 A: うん 46 C: わたしがまたしつ、するの?、 10 (0.4) 47 くりすが? 11 C: え、くりす? 48 (2.4) 12 (1.1) 49 N: chris 13 N: Yes 50 (0.3) 【4 行省略】 51 C: はい 18 N: Let’s start 52 (0.7) 【6 行省略(図 2(上)参照)】 53 N: anny 25 N: anny 54 (1.4) 26 (0.3) 55 A: あにー 27 A: ん 56 (1.0) 28 (0.5) 57 A: あにーもしつもんす、うん、 29 A: わからない 58 あにーしつもんしてもいー?、 30 (0.4) 59 じゃ 31 N: chris 60 N: Yes 図 4: MPR2012 08 1 06:32–07:30 の対話(N: NAO) ぶ?」と次の活動(ゲーム)への移行の誘いがなされて いる (L01).この誘いはロボットに受諾され (L03),そ の直後に A は「うん,じゃ,あそぼー」と,自身の誘い がロボットに受諾されたことを受け止めている (L05). 次の活動への誘いが受諾されたからには,その受諾 の後にくることが期待されるものは,実際に次の活動 を開始することだろう.しかし,このタイミングでロ ボットは,それまで A の後方で待機していた C に,そ の名前を発話することで呼びかけを行っている (L07). ロボットに呼びかけれられた C は,「え,くりす?」 (L11) と聞き返しながら,それまで待機していた位置 を離れ,A の右隣,ロボットと対話することができる 位置へと移動する.ロボットは,Yes と答えることで C の聞き返しに応答し (L13),自分が確かに C を呼ん だことを認めている. オペレータの視点から見れば,名前を呼ぶことで,そ れまで対話に参加していなかった C を参加可能な位置 へと誘導できたという点で,A と C の両者を,共にゲー ムに参加させるという,ひとまずの目的は達成してい ると言えるだろう.しかし,このタイミングで C の名 前を呼ぶことによって,オペレータは,A と C を次の 活動へ参加させることに伴う,別の問題を招くことに なってしまっている. ロボットはゲームの開始を宣告し (L18),その後,A の名前 (L25) と C の名前 (L31) を呼んだ後に,“ques-tion”(L39) と,A と C に向けて Yes/No 質問を促して いる.L41,C はこの質問の促しを,まず「うん」と受 け止めることをした後に,「ぁ」と,何かに気が付いた ことをマークし,続いて自分が何に気が付いたのかを, ロボットに向けて確認を求めることで明らかにしてい る(「質問しなさいって?」).この確認の求めがロボッ トによって “Yes”(L44) と応答された後,更に C は「私 がまたしつ,するの?,くりすが?」(限りなく「私が また質問するの?くりすが?」と聞こえる)と,再度 の確認の求めを行っている (L46-47).  C がこの再度の確認の求めに,「私が」を付加して発 話していることに注目したい.A と C は,ロボットに Yes/No 質問を宛て,正解を特定していくものとして参 加している,いわばチームである.そのチームのどち らか一方が「質問するの?」と聞いたとき,それは,A, C がともに,チームとして Yes/No 質問をするかどう かを確認しているものとして聞くことができるだろう. 翻っていえば,チームで答えることが自明視されてい る活動内において,もしチームではなく,特定の個人 のみが答えるのかどうかを聞くときには,また別のや り方を用いなければならない.ここで C が行っている ことは,まさにこの,別のやり方に他ならない.C は, 「質問するの?」の前に「私が」を付加することによっ て,質問をする主体をチームである A と C ではなく, C 個人に結び付けられている要請なのかどうかを,こ こで確認している.更に,「私がまた質問するの?」の 直後には「くりすが?」と,これまでの「私」という

(5)

一人称代名詞から,「くりす」と,C 自身の名称であり, かつロボットがこれまで使用していた表現を使用して 聞き直すことで,ロボットが,他ならぬ C を選択して いるのかどうかを,より明確にしようとしている. 一方でオペレータからすれば,ここでゲームへ参加 してもらいたいのは A と C の両者であった.先述のよ うに,ロボットはまさに,次の活動への移行が期待さ れるシークエンス上の位置にて,C の名前を呼んでし まっている.このことは A と C にとって,次の活動へ の移行をわざわざ中断してまで行う必要があったこと だと受け止められるだろう.そして,次の活動への移 行が中断されるのであれば,その理由は会話の展開に おいて明らかにされねばならないし,名前を呼ばれた C にとっては探索の対象でもある.L46–47 は,この理 由を C がどのように理解したかの提示ともなっている. それではこの,A とオペレータとのすれ違いを,オペ レータはどのよう解消しようとしているだろうか.L46– 47 の確認の求めは Yes/No 質問の形式を伴っているが, これに対する最も一般的な答え方はやはり,Yes/No で 答えるというものである.もし Yes/No 質問の後に, Yes/No 以外の応答が来るのであれば,それは,質問者 が設定した Yes/No という答え方に,次の話し手が抵 抗しているものと受け止められても良い [7].L49 でロ ボットは,この Yes/No の質問形式でなされた確認要求 に対して,Yes/No で答えることはせずに,“chris” と C の名前を発話している.その後, C は「はい」(L51) とロボットの発話を受け止めることだけをし,その後に 質問をすることはせずに,(転記上ではわからないこと だが)これまでロボットに向けて傾けていた上半身を, 一旦元の直立へと戻しつつ,視線はロボットへと向け たままという姿勢をつくることで,次にロボットがま だ何かを発話することを期待していることを示してい る.つまり L49 の “chris” という発話を,C は肯定の応 答とは理解していない.その後ロボットは,“anny” と A の名前を呼ぶ (L53) ことで C と A の名を並置させ, A もゲームに参加させることに成功している (L57–58). 以上のように,全体を通してこの会話場面を見てみ ると,実は L49 の “chris” という発話は,相互行為内で みごとに調整された発話であることがわかる.L46–47 の C の質問は,オペレータにとって Yes/No で答えら れるものではなかった.かといって,L25,31 でしたよう に “anny”,“chris” の順番で 2 人の名前を並置するなら ば,「くりすが?」という質問に対して,まずは “anny” と答えることになり,これは否定の応答とも受け取ら れかねない.よってオペレータは,これまで見てきた ように,“chris”,“anny” と L25,31 とは逆の順番で二 人の名前を並べることにより,A,C 共にゲームへと参 加させることを可能にしている. このように本場面では,オペレータが限られた資源 を駆使しながらも,複雑な相互行為的営みを達成して おり,日常的な相互行為実践に依拠したオペレータの 高度な対話戦術が伺い知れる.このような場面は,相 互理解上に生じた問題が「解決」できたという肯定的 な印象評価に寄与できているのではないだろうか.

3.2

タイミングを用いた社会的信号生成:

user/situation-awareness の表出

人間は,無意識のうちに他者に同調する.ここで分 析する第二の点 (2) については,ロボットが参加者に 向けて,参加者および対話状況への同調を明示するこ とで,参加者の現在の状況に対する価値評価(すなわ ち感情 [4].この場合,うれしさ・楽しさ)を高めてい る可能性があると考える. 3.2.1 事例 2 MPR2012 09 1 13:55–14:09 図 5 における対話場面では,C が画面左手から右手 にかけて,図 6 に示すように,B(灰色シャツの男性) と A(緑のフリースの女性)との後ろを通過していく. このとき,ロボットは A・B との対話を中断して,C を 呼び止めてゲームに誘い込む行動をとる. 図 5 におけるロボットの最初の発話 “Hello” は,ま だ Kinect による撮影画面に C の姿が写っていないと きになされている.この後 “Shall we play together?” とよびかけ,それでも通り過ぎようとする C に対し,2 度に渡って “charlie”,“Come on” とよびかけている. この 2 度のよびかけも,オペレータは定型的・惰性的 に行っているのではなく,状況における適切なタイミ ング(C が A と B の影に入らないタイミング)を狙っ て,発話をしていることがわかる.参加者は敏感にこ のことを感じ取っているだろう.

“Hello” 終端から “Shall we play together?” 始端まで の間隔と同じ間隔を “Shall we play together?” 終端か ら次の “charlie” 始端までに取る,というのが “charlie” の発話に関する最も単純なスケジューリングの 1 つと 考えられるが,図 5 ではそのようになっていない.こ のタイミングは,同図中の赤線の位置であり,このタ イミングで発話を開始すると,図 6(右端)に示すよ うに,発話中に C が B の背後に隠れてしまうことにな る.これはよびかけるのに適切なタイミングではない だろう.しかし,単純に設計された(協調的でない)自 動対話システムでは,このようなタイミングでお構い なしに “charlie” と発話してしまうことになる. オペレータは,その後 charlie が B の背後から現れ るタイミングを待って発話している.これを対話シス テムで実現するためには,単に「発話対象が見えるの を待って発話する」というルールを実装するだけでは 不十分である.それだけでは,C が B の背後で止まっ てしまえば,ロボットは C を待ち続けてフリーズする ことになる.協調的な対話ロボットには,C の将来の

(6)

図 5: 事例 2: MPR2012 09 1 13:55–14:09 の対話

“Shall we play together?” “charlie” “Come on” (赤線時点での位置) 図 6: 図 5 中の NAO の 3 つの発話始端と赤線時点での状況 動きと位置を予測して行動を計画し,その予測が(時 間的にも)はずれたときには,再度予測と行動計画を 再生成するためのリフレクションが求められる.単純 に音や画像の外部刺激入力に反応して行動を生成する だけの受動的なシステム(現状の多くの対話システム) でも,単純に自己の都合で計画して動く能動性を備え るだけのシステムでも,人に好まれる協調的な対話は 実現できないということが,この事例から認識できる.

続いて “charlie” の後の “Come on” であるが,この タイミングからも,オペレータが予測にもとづいて自 己の次の行動を予定していたことが伺える.A と B の 間に立つ C にロボットが “charlie” とよびかけたあと, A が自身の左後方に現れるであろう C を予期して,重 心を左足から右足に移すことで,身を翻している.こ のため,“Come on” の 800 ミリ秒前に,C は当初予想 された位置・時間よりも早くロボットの視界に再出現し ている(図 7).単純に「発話対象が見えるのを待って 発話する」だけであれば,この時点で “Come on” が発 話されてよいはずである.微妙な時間差ではあるが,オ ペレータはそのようには振る舞わず,当初の予測地点 に C が到達するのを待って発話しているように見える. 3.2.2 事例 3 MPR2012 09 1 16:20–17:02 図 8 に示す先ほどと同じ 09 1 中の 2 つの対話場面で は,B が単独でロボットと対話している.上側の場面 では,B がクイズに正答し,ロボットが祝辞を述べて いる.下側の場面では,その後まだ済んでいなかった B との自己紹介と挨拶をお互いにしている. B とロボットだけしか登場しないほとんど一続きの 場面であるが,一見して,同図の上と下では発話間隔の 傾向が異なることがわかる.クイズをしている間(図 8 上)は,2-3 秒の間隔で応答しているが,図 8 下では, 1 秒前後で応答している. クイズ中は一般に次の質問や正誤について熟考する ため,発話のペースが参加者・ロボットともに落ちる. 特にオペレータは,参加者の質問に Yes/No で答える 際に,この場面に限らず概ね 2-3 秒の間隔を取ってい る.しかしながら,答えに照らせば即答できる質問(例 えば,「キャンディー」に対して「おかしですか?」と いう質問7)も多く,「応答内容を決めるため」だけで はオペレータのこの発話間隔は説明できない.我々は, オペレータがこの応答ペースによって,「クイズ中」と いう場の雰囲気を醸成しているという解釈に注目した い.つまりオペレータは,参加者の応答ペースが落ち る「クイズ中」という場の状況(参加者の直前の振る 舞いというより,その「場」における平均的な振る舞 い)に同調・協調しているのである. 一方で,図 8 下からは,場面(クイズ→自己紹介)の 変化に同調して,場面の変化に気づいていることを示 しているだけでなく,参加者の直前の応答速度の変化 にも機敏に同調してみせている様子が伺える.ロボッ トは,(オペレータの操作の都合上)基本的に人よりも ゆったりと話すというパーソナリティがこれまでの対 話で確立されており,オペレータとしてはそれを極端 に崩すことは(無意識的にであっても)避けたい.そ こで,“hi ben” に対する B の “hi” が,ほぼ 0.1 秒後 に発話されているが,さすがにこの速さに無理に合わ せることはせず,“hi” から次の “Nice to meet you” ま で 1.5 秒とっている.その後 B が “nice to meet you too” と返すまでに 0.6 秒かかり,その次の “My name is NAO” までの間隔が 1.0 秒である.さらにこの後,B が “nao?” と返すまでが 0.9 秒に伸びると,それに合わ せるように “nao?” に対する “Yes” までの間隔が 1.2 秒 に伸びている.この回答をする際に,その直前の “My name is NAO” と発話するときよりも高い認知負荷が オペレータに要求されたとは考えにくく,むしろこれ 7この場合は 2.2 秒で Yes と回答している (09 1 13:04–13:08).

(7)

1500 ミリ秒前 800 ミリ秒前 “Come on”(図 6 に同じ)

図 7: 図 5 における NAO の “Come on” 直前の状況変化(A の姿勢変化と C の位置に注目)

図 8: 事例 3: MPR2012 09 1 16:20-16:34(上)と 16:48-17:02(下)の対話 は同調の現れであると考えるほうが自然に見え,実際 に同調により親和した印象を受ける. ここから,ロボット/対話システムの性能が限られ ているために単純に人と同じ話者交代のペースに同調 することはできなくても,このように変化の仕方(時 間間隔の増減傾向)を同調させることで,より協調的 な印象を持つ対話をするシステムを実現できることが 予想される. この事例に対する上記の解釈に対して想定される,「発 話間隔の誤差変動を考慮に入れずに,1 事例を強引に解 釈してしまっている」という批判は妥当であろう.し かし,仮に上記の解釈がこの場面の行き過ぎた解釈で あったとしても,上記のような変化の仕方によってあ る種の同調的協調を実現できるという直観(仮説)の 妥当性は,考慮に値すると考える.そのような変化が, 本当に対話システムのユーザが感じる対話の楽しさや, システムに感じる親和性に肯定的に作用するのかは,今 後の研究によって,実験的に検証できるはずである.

4

協調的対話システムのデザイン

対話システムにおける発話タイミングに関する研究 の多くは,話者交替に関するものである.3.2.2 節で取 り上げた事例も話者交替に関するものであった. 対話システムの文脈での話者交替に関する既存研究 は,人がイントネーションの変化などに基づいて移行 適格場所を予測することで 1 秒未満の僅かな時間間隔 (交替潜時)で話者交替を繰り返すことを指摘した上で, システムがそのような話者交替を実現できるようにす る,できるだけ交替潜時を人に近づけ短くすることを 意識したものが主流であったように思われる([9] 等). あるいは,インタラクション研究の文脈では,人工物 にとって最適な交替潜時を調べる主旨の研究が行われ ている [11]. しかしながら,前節での分析と考察をもとに考える と,これらの研究の視点は幾分的外れであったと指摘 できる.本研究の動機および前節の分析と考察に従え ば,協調的な人工物を実現するにあたって重要なこと は,人のようなペース・タイミングで話者交替をでき るようにすることでもなければ,あるいはそれにとっ て最適な交替潜時を見つけるということでもない(全 ては状況・場面依存で,最適な交替潜時など存在しな い).重要なのは,状況(対話相手と場面)の変化を敏 感に察知し,察知していることを適切に(相手が理解 できるように)リアルタイムに伝えていくことができ ることである.このリアルタイム性は,植田らが指摘 する<今性> [15] のことであろう.応答の早さ(交替 潜時の長さ)は,状況に応じて,そのシステムの能力 と個性で自由に決めればよいものであって,問題なの はそれがそのシステムの中で,あるいは異なる状況の 間で,固定されてしまうことである. 交替潜時の長さはまさに TPO に依存するものであ り,相手の発話末に間髪おかずに発話できるシステム ができたとしても,使う場面と相手を間違えれば,相 手が右足を上げるのにあわせて左足に足払いをかけつ づけるような,(高度に予測的だが)ただ敵対的なだけ の益のない振る舞いになってしまう. 我々は以前に行った対話デザインの研究で,相手の 期待にそうならば必ずしも交替潜時が人のように短く ある必要はないことを指摘した [3].今回の分析と考察 はこの指摘が誤りではなかったことを裏付けるものと

(8)

考えるが,一方で当の指摘が不十分であったことも示 しているだろう.「相手の期待にそう」ことの前提・前段 として,「相手の期待の変化を察知し反応できる」こと があるべきなのである.そうでなければ,固定の場面・ 用途に対して作り込むデザインしかとれない.察知さ えできていれば,その気づきを相手に示す手段は交替 潜時に限らずいかようにもデザインできるだろう.協 調的な人工物のデザインという観点で重要なのは,自 然さ・人間らしさよりも,受け入れやすさや安心感な どであろう.同調は安心感を与える 1 つの鍵となる. 交替潜時を「自由に決めれば良い」とは言っても,あ まりに長い交替潜時は苦痛を与えるという意見は当然 あるだろう.しかし,それは単に忙しい日常の生活の 中で受容可能なペースとマッチしていない,つまり日 常生活の観点で実効性に問題があるだけであって,イ ンタラクション自体の質の問題とは分けて考えるべき 事柄と我々は考える8 「周囲に広く注意を向け,周囲の変化を敏感に察知 し,それを基に他者と関わる」,この注意の対象に自 分自身も含めれば,これは近頃人口に膾炙する「マイ ンドフルネス」のことであろう.協調的人工物のデザ インの核となるコンセプトは,「マインドフル・マシー ン」と端的に表現できるかもしれない9

5

まとめと今後の課題

本稿では,オペレータが操作するロボットと複数人の 参加者の間のゲーム対話を収録した動画を分析し,そ こから得られた知見に基づき,音声対話・インタラク ションのデザインに関する提言を行った.3.1 節で得ら れたオペレータの対話戦術の知見(特に後半の分析)を 現状の技術・システムに活用することは困難かもしれ ないが,3.2 節で得られたタイミングに関する知見は活 かせる見込みが十分にあると考える.前者は,今回の 分析の主眼とした協調の「同調的側面」よりも,限り なく「協働的側面」に近い位置にあるように思われる. 8これを裏付けるエピソードとして,杉山らが開発した対話ロボッ トの動物園での実証実験 [13] におけるシステム調整に関するものが ある.実験室内で雑談だけをしているときにはなんともいえない幸 福感・心地よさをもたらしたロボットの口調が,動物に関する知識伝 達もするように修正されたあとでは苛立たしさを覚えるものであっ たという(発話内容の長さはさして変わらないにもかかわらず).こ れに対し杉山らはロボットの話速を上げる調整で対応した.これは, 動物園という活気あふれる場での知識伝達という活動のリズムが,一 人で実験室内で雑談をしているだけのそれと大きく違ったというこ とを意味していると考えられる.少なくとも,どちらの話速がこの ロボットに最適なのか,といった問題ではないはずである. 9『昔ある武士が茶会に招かれ,何一つ作法をしらないなかで,そ れでも心をこめて茶を飲んで帰った.恥をかいたと感じた武士が茶 の湯を熱心に習ったところで,再び同じ人物に招かれ,今度は作法 通りに茶を飲んだ.しかしその人物は,「昔のあなたの方がずっとよ かった.今は慣れてしまって形に流れ,心がこもっていない.」と評 した』[8](引用者要約).何一つ作法を知らないときの武士は,主 人や同席の客の振る舞いにひたすら注意を向け,それに合わせよう, 応えようとしたはずである.作法を習得した武士は,もはや自動的 にプロセスをこなす機械に成り下がってしまった.協調的対話シス テムのあるべき姿がどちらなのかは明らかである. 「知的人工物とインタラクションするときにあたな がその人工物に求めることは,その人工物がヒトらし く振る舞うことではない.あなたを人して扱うことで ある.」ということが,今回の分析を通して抱いた我々 の認識である.そして「人として扱われている」こと は,協調,すなわち「人工物が示す相手の振る舞いや状 況への同調」により感知されるというのが我々の(仮 説的)主張である.「示し方」や「同調の結果」がヒト らしくある必要はない. しかしながら 3 節での分析はわずか 3 事例に基づく ものであり,他のデータの観察や定量分析により,我々 の主張を支持する証拠を更に固めていくことが必要で あろう.同時に,4 節では,協調的対話システムのデザ インについて,話者交替という特定の観点を中心とし た大まかな考察・提言しかできていない.特に「マイ ンドフル・マシーン」を実現するにはどのようなアー キテクチャ・機能・技術が必要なのか,という点につい て,検討を進める必要がある.

謝辞

本研究は(株)ホンダ・リサーチ・インスティチュート・ジャパン (HRI-JP) の資金提供により設置された京都大学・HRI-JP 協調的知能共同研究講座に おいてなされた.本研究の過程での議論に参加いただいた京都大学 高梨克也 氏,井上昂治氏,下西慶氏および九州大学 峯恒憲先生に感謝いたします.ま た,エピソードを提供していただいた NTT の杉山弘晃氏に感謝いたします.

参考文献

[1] 船越, 島崎, 熊田, 辻野. 協調的知能研究のためのパーソナルパートナー エージェントの検討. FIT2018 第 17 回情報科学技術フォーラム論文 集, 第 2 巻, pp. 295–298, 2018.

[2] K. Funakoshi. A multimodal multiparty human-robot dialogue corpus for real world interaction. In Proc. LREC 2018 Special

Speech Sessions “Speech Resources Collection in Real-World Situations”, pp. 35–39. NINJAL, 2018.

[3] K. Funakoshi, M. Nakano, K. Kobayashi, T. Komatsu, and S. Yamada. Non-humanlike spoken dialogue: A design per-spective. In Proc. SIGDIAL 2010, pp. 176–184, 2010. [4] 乾. 感情とはそもそも何なのか. ミネルヴァ書房, 2018.

[5] S. C. Levinson. On the human ‘interaction engine’. In N. J. Enfield and S. C. Levinson eds., Roots of human sociality:

culture, cognition and interaction, pp. 39–69. Oxford, 2006.

[6] A. Pentland. Social signal processing. IEEE Signal Processing

Magazine, 24(4):108–111, 2007.

[7] G. Raymond. Questions at work: Yes/no type interrogatives in institutional contexts. In P. Drew, G. Raymond, and D. Wein-berg eds., Talk and Interaction in Social Research Methods, pp. 115–134. SAGE, 2006.

[8] さとう. マンガ茶の湯入門. 平凡社, 1988.

[9] D. Schlangen. From reaction to prediction: Experiments with computational models of turn-taking. In Proc.

INTER-SPEECH 2006, pp. 2010–2013, 2006.

[10] J. R. Searle. Collective intentions and actions. In Intentions

in Communication, pp. 401–415. 1990.

[11] T. Shiwa, T. Kanda, M. Imai, H. Ishiguro, and N. Hagita. How quickly should communication robots respond? In Proc.

HRI 2008, pp. 153–160, 2008.

[12] C. Sidner, C. Lee, C. Kidd, N. Lesh, and C. Rich. Explorations in engagement for humans and robots. Artificial Intelligence, 166(1–2):140–164, 2005. [13] 杉山, 水上, 成松. 複数ロボット協調による一問一答型雑談対話からの脱 却. 人工知能学会全国大会論文集, No. 3J204, 2018. [14] トマセロ. ヒトはなぜ協力するのか. 勁草書房, 2013. [15] 植田. 『認知的インタラクションデザイン学』の展望: 時間的な要素 を組み込んだインタラクション・モデルの構築を目指して. 認知科学, 24(2):220–230, 2017.

図 1: MPR2012 対話コーパス中の 1 場面の俯瞰映像 (左),およびオペレータ操作パネル(右) テムにありがちな対話エラーの無限ループに落ち込ま ない)こと,さらにもう1つは,オペレータが発話の タイミングの調整などを用いて,参加者との対話への エンゲージメントを微細ながらも積極的に表出してい ること,と我々は考える. 本稿では,この後者の2点に関する対話データの分 析を示し,それに基づくマルチモーダル対話システム のデザインについての提言を行う.特に 3 点目に関し て,時間的要因に注目する.時
図 2: 事例 1: MPR2012 08 1 6:52–7:14 の対話(上)および 7:10–7:30 の対話(下) 図 3: 図 2 上の対話場面における A(画面左側女性)へ の呼びかけ時(“anny”) の状況 01 A: OK、あそぶ? 【7 行省略(図 2(上)参照)】 02 (1.5) 39 N: question 03 N: Yes 40 (0.2) 04 (0.1) 41 C: うん、ぁしつもんしなさいって? 05 A: うん、じゃ、あそぼー 42 (1.7) 06 (2.2) 43 A
図 6: 図 5 中の NAO の 3 つの発話始端と赤線時点での状況 動きと位置を予測して行動を計画し,その予測が(時 間的にも)はずれたときには,再度予測と行動計画を 再生成するためのリフレクションが求められる.単純 に音や画像の外部刺激入力に反応して行動を生成する だけの受動的なシステム(現状の多くの対話システム) でも,単純に自己の都合で計画して動く能動性を備え るだけのシステムでも,人に好まれる協調的な対話は 実現できないということが,この事例から認識できる.
図 7: 図 5 における NAO の “Come on” 直前の状況変化( A の姿勢変化と C の位置に注目)

参照

関連したドキュメント

市場を拡大していくことを求めているはずであ るので、1だけではなく、2、3、4の戦略も

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

ても情報活用の実践力を育てていくことが求められているのである︒

身体主義にもとづく,主格の認知意味論 69

わからない その他 がん検診を受けても見落としがあると思っているから がん検診そのものを知らないから

児童について一緒に考えることが解決への糸口 になるのではないか。④保護者への対応も難し

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

話者の発表態度 がプレゼンテー ションの内容を 説得的にしてお り、聴衆の反応 を見ながら自信 をもって伝えて