Wizard-of-Oz 対話におけるオペレータの操作戦術の分析に基づく協調的対話システムデザインの検討

(1)

Wizard-of-Oz

対話におけるオペレータの操作戦術の分析に基づ

く協調的対話システムデザインの検討

Analysis of an Operator’s Interaction Tactics in Wizard-of-Oz

Dialogues towards the Design of Cooperative Interactive Systems

船越孝太郎

1 ∗

_小室允人

2

Kotaro FUNAKOSHI

1

_{Masato KOMURO}

2

1

_京都大学

_{Kyoto University}

2

_千葉大学

_{Chiba University}

Abstract: This paper presents an analysis of Wizard-of-Oz dialogues in light of the robot operator, and proposes a design concept for spoken interaction based on the analysis. The robot controlled by the operator was equipped with a limited number of actions and a fixed set of short utterances. The spoken responses by the robot were slow-paced in comparison to natural human dialogues due to the operator’s manual handling. As the robot spoke to participants in English, the Japanese participants experienced communication troubles frequently. Nevertheless, the participants seemed to enjoy the interactions with the robot much. We identify the two major factors that enable this fact in the operator’s interaction tactics.

1 はじめに

人と調和し協働する未来の人工物を実現するためには，人および生物一般における協調のあり方について知ることが欠かせない．とりわけ，自然言語という人間に固有の手段を用いて人とインタラクションを行う対話システムは，より高いレベルでの人との協調が求められる典型的な人工物であろう．協調には少なくとも，適応的 (adaptive)・集合的 (col-lective)・同調的 (coordinative)・協働的 (collaborative) な 4 つの側面があると考えられ [1]，本研究ではその中でも特に同調的側面に注目する．ここでは，Tomasello ら [14, 10] が主張するように意図の共有が人間に固有の能力であり，Sidner[12] に倣い，協働 (collaboration) を意図の共有されたインタラクション1_{とする立場を取る．そのため，ここで我々} が注目する同調的側面においては，協調的にみえるそれぞれのエージェントの振る舞いは各エージェントが勝手に行っていることであり，（お互いと対話をするという）両者の意図はたまたま一致しているに過ぎない，という前提での協調の分析・議論になる．我々が関心を寄せている対象は，Levinson が提唱する Interaction Engine [5] に含まれるような要素であり，人以外の生物との進化論的連続性を強く意識した前言語的な要素である．エンゲージメント (engagement) [12] や社会的信号処理 (social signal processing) [6] に強く関わる．以上を前提とし，本研究は，オペレータが操作する

∗_{連絡先：[email protected]}

1_{“Collaboration is distinguished from those interactions in}

which the agents cooperate but do not share goals.” [12]

ロボットと，複数人の参加者の間のゲーム対話を収録した対話データ（動画）[2] を分析し，そこから得られた知見に基づき，音声対話・インタラクションにおける協調的側面の質を高めるデザイン論に寄与することを目的とする．分析対象とする対話を収集した際にオペレータが操作したロボットには，ごく限られた動きと発話しか用意されていなかった．手動操作のため，参加者への応答も，通常の人・人対話にくらべれば非常にゆっくりとしたペースで行われる．また，参加者は日本人であるが，ロボットの発話は英語で行われるため，頻繁にコミュニケーション障害が発生する．それにもかかわらず，多くの参加者は，（我々が後に自作したプロトタイプの自動制御ロボットとの対話や，しばしば目にする機会のある学会・展示会におけるデモシステムとの対話，実社会に配置された会話ロボットとの一般人との対話の様子などに比べて，はるかに）ロボットとの対話を楽しめているように見える2_．これを成立させている大きな要因は，３つあると考える3_．まず１つには，参加者の発話の言語理解がオペレータによってなされるため，言語・意図理解の精度が高いことがあげられる．もう１つには，オペレータが限られた手段を駆使して，巧みな対話戦術を取ってコミュニケーション障害を回避・脱している（自動対話シス 2_{この点は，現時点では，著者らの主観的感想（仮説）にすぎな} い．本仮設の客観的・定量的実証も行いたいと考えているが別の研究に譲る． 3_{4 つ目として，友人や家族と一緒に取り組んでいるという要素} も影響していると考えられるが，我々が自作した自動制御ロボットとの対話（MPR2016 データセットの第 2 セッション [2]）ではこの条件は同じであるため，今回は考慮しない．人工知能学会研究会資料 SIG-SLUD-B803-15

(2)

図 1: MPR2012 対話コーパス中の 1 場面の俯瞰映像（左），およびオペレータ操作パネル（右）テムにありがちな対話エラーの無限ループに落ち込まない）こと，さらにもう１つは，オペレータが発話のタイミングの調整などを用いて，参加者との対話へのエンゲージメントを微細ながらも積極的に表出していること，と我々は考える．本稿では，この後者の２点に関する対話データの分析を示し，それに基づくマルチモーダル対話システムのデザインについての提言を行う．特に 3 点目に関して，時間的要因に注目する．時間（具体的には発話のタイミング）は，限られたアクションの選択肢しか与えられていないロボットオペレータにあって，（円滑な対話インタラクションを行うというタスクを実現する，という制約の範囲内に限ってではあるものの）自己の意思で自由に選択でき，多様な効果を生み出すことができる，数少ない因子である4_．以降，2 節で分析対象とする対話コーパスの概略を述べ，3 節で対話データ（動画アノテーション）の分析を行う．分析結果に基づく対話システムデザインの検討を 4 節で行い，5 節でまとめと今後の課題を述べる．

2 多人数ロボット対話コーパス

本稿では，（株）ホンダ・リサーチ・インスティチュート・ジャパンが収集した「マルチモーダル多人数ロボット対話コーパス」（MPR コーパス）[2] のうち，2012 年度収録のデータ（以降，MPR2012 と参照する）を分析対象とする．MPR2012 は，知人 3 人が集まった 30 組（全 90 名）を対象に，図 1（左）に示す実験環境で収録した対話データセットである．データセットには， ELAN5_{を用いて，発話区間・発話内容・発話対象（受話} 者）・注視対象・参加状態・対話行為などがアノテーションされている．3 節では，ELAN のスクリーンショットの形で対話例を示していく．各組は，同じ対話ロボット（Aldebaran 製 NAO）と 25 分の対話（セッション）を，連続して 2 回行った．1 4_{そのような効果を生み出すことができる他のロボット因子とし} て，表情（発色）・姿勢・話速・イントネーション・声量などが考えられるが，対話収集実験 [2] では，オペレータがこれらを制御することはできなかった．唯一テキストフィールドに文字列をタイプすることで，任意の内容を発話することができたが，英語発話しかできず，入力に時間もかかるので，利用の範囲は限られていた． 5_{https://tla.mpi.nl/tools/tla-tools/elan/} 回目は「20 の扉ゲーム」というクイズゲームを参加者 3 人が協力しながらロボットと行い，2 回目は「ジェスチャーゲーム」というクイズゲームを参加者 3 人が競いながらロボットと行った．「20 の扉ゲーム」は，ロボットが 1 つ選んだ対象概念（例えば，リンゴ）を Yes/No 質問を繰り返して特定するというゲームである．「ジェスチャーゲーム」は，ロボットが 1 つ選んだジェスチャーをして見せ，それが何を指すのかを参加者が英単語で速答するというゲームで，ゲーム前にジェスチャーと単語のペアの学習フェーズが入る．実験参加者は，いずれのゲームについても，セッション開始前に概要・ルールを教示された．以降では，組の識別番号（2 桁）とセッションの順（1/2）を組み合わせて，08 1（第 8 組の第 1 セッション）のように各セッションを参照する．各セッションにおいて，参加者は部屋の外にいる実験監督の指示で，待機スペースと，インタラクションフィールドとの間を行き来し，オペレータが操作するロボットとゲームを行った（各参加者は各自の無線トランシーバとイヤホンで指示を受信する）．実験監督者からの指示は，各参加者に個別に与えられ，各参加者は他の参加者への指示を直接聞くことはない．参加者はセッションごとに A/B/C のラベルで区別される．ラベルに対応付けて匿名化するために，男性であれば Andy/Ben/Charlie，女性であれば Anny/Becky/Chris の通称がそれぞれに与えられ，セッション中に自身あるいは他の参加者に言及するときは，その呼び名で通すように指示された．収録開始前，参加者は「英語教育用に開発中の会話ロボットの改良のために対話収集実験を行う」と教示され，実際にはオペレータがロボットを操作していたことは収録終了後に知らされた．収録中に参加者の背後のブースにオペレータが入っていることは参加者にも予め通知されたが，ロボットに不具合が生じたときの対応要員として待機していると説明された．オペレータはブースの中で，収録用マイクからの音と，ロボットの頭部正面のカメラで撮影された映像と，収録室の天井の隅に設置された市販のビデオカメラからの俯瞰映像でインタラクションフィールドの状況を確認しながら，図 1（右）に示す操作パネルを用いて，ロボットの発話と行動を生成した．発話も行動も，基本的には事前に作成されたリストからマウスクリックで選択するだけであるが，唯一ロボットの頭部の水平方向の向きについては，オペレータがキーボードの矢印キーを使って調整した．対話中に参加者を指差す行動も，右・左・中央の 3 つの中から選択するだけであった．実験監督者から参加者への指示は，オペレータも聞くことはなかった．すべてのセッションにおいて，同一人物がオペレータを務めた．

(3)

3 Wizard-of-Oz

対話の事例分析

本節では，MPR2012 データセット中の３つの場面の分析を通じて，「多くの参加者がロボットとの対話を楽しめている」ことの成立に寄与しているオペレータの操作要因を探る． 1 節で触れたように上記の成立には以下の 2 点が大きく寄与していると考えるため，順に見ていく6_． (1) オペレータが限られた手段を駆使して，巧みな 対話戦術を取り，コミュニケーション障害を回避・脱 していること．(2) オペレータが発話のタイミングの 調整などを用いて，参加者との対話へのエンゲージメントを微細ながらも積極的に表出していること．

3.1 協調的な強引さ

第一の点 (1) については，参加者がロボットの英語発話をうまく聞き取って理解することができないことによって生じるコミュニケーション障害を回復するための，オペレータのある種の強引さが鍵となる．対話システムの用語で言えば，それは「システム主導で対話を進める」ということになるのだが，その進め方が協調的であること，すなわちユーザ（MPR2012 でいえば参加者）の様子を見ながら，あるいはユーザの様子を見ていることをユーザに示しながら，主導している点が，現状の対話システムとの最大の違いであり，現状の対話システムにもっとも欠けている能力と我々は考える．絵図的に例えれば，現状の対話システムがシステム主導で対話を行うときは，あたかも「馬子が進みたい方向（前）だけをみて，後ろにいる馬の手綱をただ単調に前に引き，馬を引きずる」様子と言える．一方で， MPR2012 でオペレータが見せる主導・強引さは，「馬子が馬の方をみて，馬の呼吸・目線にタイミングを合わせながら，進みたい方向（自分の後ろ）に手綱を軽く引き，馬自身に歩かせる」様子と言える．強制と誘導の違いとも言えるだろう． 3.1.1 事例 1 MPR2012 08 1 06:52–07:14 図 2 上の対話場面では，図 3 の様に 2 人の高齢女性がロボットと対話をしている．この対話場面の直前までで，なんとか 2 人がクイズに正解したところである．ここでロボットは，再度ゲームを始めるために “Let’s start” というが，これが A に伝わらなかったため，A は「ん？なに？もーいちど」と修復を要求している．しかしながら，おそらくもう一度同じ発話を繰り返しても伝わらないであろうことを 6_{以降の分析では，オペレータの行動を説明するために，オペレー} タの思考に関する内観的な記述を織り交ぜるが，これらはあくまで著者らの直観によるもので確証はないことに注意されたい（オペレータからの聞き取り調査は行っていない）．予想したオペレータは，修復要求を一旦無視し，代わりに A と C に順番に呼びかけている．これはまず，参加者の注意を引き止めつつ，対話の主導権をロボット側に確保するための戦術の 1 つと思われるが，オペレータはたんに，2 人に順に呼びかけるだけではなく，それぞれから反応があることをしっかり確認して次に進んでいる．最後の question というフレーズはテキストフィールドに手入力して発話しており，これにより，C はゲームの質問が要求されている（新しくゲームが始まった）ことを認識している（「うん，しつもんしなさい」）．ここで気になるのは，C の発話（「はい」）の終端からロボットの発話（“question”）の始端までの間が，8 秒以上空いていることである．“question” という発話の入力にはマウスクリックによる発話の選択よりも明らかに時間を要するとはいえ，入力自体に 8 秒もかかることは考えられない．このように時間が空いた原因としては，まず「なんと言えば伝わるか悩み考えるのに時間がかかった」という可能性が挙げられるが，“question” という発話をすることで対話を進めるという戦術は，実は先立って C が 1 人だけで参加している際に一度使用して既に成功を収めているものである（3:46–4:14）．「はい」から “question” までの間には，C の苦笑と A の「もーいちど」という発話が繰り返されており，これらの発話に対してオペレータが様子を見たために，8 秒以上も間があいた可能性もあるが，C の苦笑までも， 2 度目の「もーいちど」の後も，それぞれ 3 秒ほどの比較的長めの沈黙がある．おそらくオペレータは，「わざわざ」参加者に呼びかけ，その後も「わざと」長い＜間＞をとることで，単に前の発話を繰り返すつもりがないこと，うまく伝えられるように逡巡していること，それに対し考えを巡らせて意図を汲み取って欲しいことなどをあからじめ言外に滲ませ，A に≪わからない≫と受け身になるのではなく，≪またゲームを始めるの？≫とゲームを進めるための能動的な推論（A からロボットへの協調）を迫ったのではないかと推察できる．その後の 7:10–7:30 の区間（図 2 下）では，C の「私が質問するの？」という質問に対して，同じ “chris”， “anny” の呼びかけで，「（先に理解した C だけでなく）二人が答える」ということを伝えていて，A はその様に解釈できている（「あにーもしつもん」）．ここでは上記のオペレータの戦術が功を奏した可能性がある．またこれは，限られた発言だけで多義的な意思疎通を実現している場面としても興味深い．この場面について図 4 中の対話転記をもとに，更にオペレータ戦術の分析を試みる．以下，「図 4 中の 01 行目」の意味で L01 のように書く．対話転記は，L18 から L60 にかけて図 2 中の対話を含んでいる．まず図 2 中の対話に先がけて，A から「OK，あそ

(4)

図 2: 事例 1: MPR2012 08 1 6:52–7:14 の対話（上）および 7:10–7:30 の対話（下）図 3: 図 2 上の対話場面における A（画面左側女性）への呼びかけ時（“anny”) の状況 01 A: OK、あそぶ？【7 行省略（図 2（上）参照）】 02 (1.5) 39 N: question 03 N: Yes 40 (0.2) 04 (0.1) 41 C: うん、ぁしつもんしなさいって？ 05 A: うん、じゃ、あそぼー 42 (1.7) 06 (2.2) 43 A: うん、うん 07 N: chris 44 N: Yes 08 (3.8) 45 (0.1) 09 A: うん 46 C: わたしがまたしつ、するの？、 10 (0.4) 47 くりすが？ 11 C: え、くりす？ 48 (2.4) 12 (1.1) 49 N: chris 13 N: Yes 50 (0.3) 【4 行省略】 51 C: はい 18 N: Let’s start 52 (0.7) 【6 行省略（図 2（上）参照）】 53 N: anny 25 N: anny 54 (1.4) 26 (0.3) 55 A: あにー 27 A: ん 56 (1.0) 28 (0.5) 57 A: あにーもしつもんす、うん、 29 A: わからない 58 あにーしつもんしてもいー？、 30 (0.4) 59 じゃ 31 N: chris 60 N: Yes 図 4: MPR2012 08 1 06:32–07:30 の対話（N: NAO）ぶ？」と次の活動（ゲーム）への移行の誘いがなされている (L01)．この誘いはロボットに受諾され (L03)，その直後に A は「うん，じゃ，あそぼー」と，自身の誘いがロボットに受諾されたことを受け止めている (L05)．次の活動への誘いが受諾されたからには，その受諾の後にくることが期待されるものは，実際に次の活動を開始することだろう．しかし，このタイミングでロボットは，それまで A の後方で待機していた C に，その名前を発話することで呼びかけを行っている (L07). ロボットに呼びかけれられた C は，「え，くりす？」 (L11) と聞き返しながら，それまで待機していた位置を離れ，A の右隣，ロボットと対話することができる位置へと移動する．ロボットは，Yes と答えることで C の聞き返しに応答し (L13)，自分が確かに C を呼んだことを認めている．オペレータの視点から見れば，名前を呼ぶことで，それまで対話に参加していなかった C を参加可能な位置へと誘導できたという点で，A と C の両者を，共にゲームに参加させるという，ひとまずの目的は達成していると言えるだろう．しかし，このタイミングで C の名前を呼ぶことによって，オペレータは，A と C を次の活動へ参加させることに伴う，別の問題を招くことになってしまっている．ロボットはゲームの開始を宣告し (L18)，その後，A の名前 (L25) と C の名前 (L31) を呼んだ後に，“ques-tion”(L39) と，A と C に向けて Yes/No 質問を促している．L41，C はこの質問の促しを，まず「うん」と受け止めることをした後に，「ぁ」と，何かに気が付いたことをマークし，続いて自分が何に気が付いたのかを，ロボットに向けて確認を求めることで明らかにしている（「質問しなさいって？」）．この確認の求めがロボットによって “Yes”(L44) と応答された後，更に C は「私がまたしつ，するの？，くりすが？」（限りなく「私がまた質問するの？くりすが？」と聞こえる）と，再度の確認の求めを行っている (L46-47)． C がこの再度の確認の求めに，「私が」を付加して発話していることに注目したい．A と C は，ロボットに Yes/No 質問を宛て，正解を特定していくものとして参加している，いわばチームである．そのチームのどちらか一方が「質問するの？」と聞いたとき，それは，A， C がともに，チームとして Yes/No 質問をするかどうかを確認しているものとして聞くことができるだろう．翻っていえば，チームで答えることが自明視されている活動内において，もしチームではなく，特定の個人のみが答えるのかどうかを聞くときには，また別のやり方を用いなければならない．ここで C が行っていることは，まさにこの，別のやり方に他ならない．C は，「質問するの？」の前に「私が」を付加することによって，質問をする主体をチームである A と C ではなく， C 個人に結び付けられている要請なのかどうかを，ここで確認している．更に，「私がまた質問するの？」の直後には「くりすが？」と，これまでの「私」という

(5)

一人称代名詞から，「くりす」と，C 自身の名称であり，かつロボットがこれまで使用していた表現を使用して聞き直すことで，ロボットが，他ならぬ C を選択しているのかどうかを，より明確にしようとしている．一方でオペレータからすれば，ここでゲームへ参加してもらいたいのは A と C の両者であった．先述のように，ロボットはまさに，次の活動への移行が期待されるシークエンス上の位置にて，C の名前を呼んでしまっている．このことは A と C にとって，次の活動への移行をわざわざ中断してまで行う必要があったことだと受け止められるだろう．そして，次の活動への移行が中断されるのであれば，その理由は会話の展開において明らかにされねばならないし，名前を呼ばれた C にとっては探索の対象でもある．L46–47 は，この理由を C がどのように理解したかの提示ともなっている．それではこの，A とオペレータとのすれ違いを，オペレータはどのよう解消しようとしているだろうか．L46– 47 の確認の求めは Yes/No 質問の形式を伴っているが，これに対する最も一般的な答え方はやはり，Yes/No で答えるというものである．もし Yes/No 質問の後に， Yes/No 以外の応答が来るのであれば，それは，質問者が設定した Yes/No という答え方に，次の話し手が抵抗しているものと受け止められても良い [7]．L49 でロボットは，この Yes/No の質問形式でなされた確認要求に対して，Yes/No で答えることはせずに，“chris” と C の名前を発話している．その後， C は「はい」(L51) とロボットの発話を受け止めることだけをし，その後に質問をすることはせずに，（転記上ではわからないことだが）これまでロボットに向けて傾けていた上半身を，一旦元の直立へと戻しつつ，視線はロボットへと向けたままという姿勢をつくることで，次にロボットがまだ何かを発話することを期待していることを示している．つまり L49 の “chris” という発話を，C は肯定の応答とは理解していない．その後ロボットは，“anny” と A の名前を呼ぶ (L53) ことで C と A の名を並置させ， A もゲームに参加させることに成功している (L57–58)．以上のように，全体を通してこの会話場面を見てみると，実は L49 の “chris” という発話は，相互行為内でみごとに調整された発話であることがわかる．L46–47 の C の質問は，オペレータにとって Yes/No で答えられるものではなかった．かといって，L25,31 でしたように “anny”，“chris” の順番で 2 人の名前を並置するならば，「くりすが？」という質問に対して，まずは “anny” と答えることになり，これは否定の応答とも受け取られかねない．よってオペレータは，これまで見てきたように，“chris”，“anny” と L25,31 とは逆の順番で二人の名前を並べることにより，A,C 共にゲームへと参加させることを可能にしている．このように本場面では，オペレータが限られた資源を駆使しながらも，複雑な相互行為的営みを達成しており，日常的な相互行為実践に依拠したオペレータの高度な対話戦術が伺い知れる．このような場面は，相互理解上に生じた問題が「解決」できたという肯定的な印象評価に寄与できているのではないだろうか．

3.2 タイミングを用いた社会的信号生成:

user/situation-awareness の表出

人間は，無意識のうちに他者に同調する．ここで分析する第二の点 (2) については，ロボットが参加者に向けて，参加者および対話状況への同調を明示することで，参加者の現在の状況に対する価値評価（すなわち感情 [4]．この場合，うれしさ・楽しさ）を高めている可能性があると考える． 3.2.1 事例 2 MPR2012 09 1 13:55–14:09 図 5 における対話場面では，C が画面左手から右手にかけて，図 6 に示すように，B（灰色シャツの男性）と A（緑のフリースの女性）との後ろを通過していく．このとき，ロボットは A・B との対話を中断して，C を呼び止めてゲームに誘い込む行動をとる．図 5 におけるロボットの最初の発話 “Hello” は，まだ Kinect による撮影画面に C の姿が写っていないときになされている．この後 “Shall we play together?” とよびかけ，それでも通り過ぎようとする C に対し，2 度に渡って “charlie”，“Come on” とよびかけている．この 2 度のよびかけも，オペレータは定型的・惰性的に行っているのではなく，状況における適切なタイミング（C が A と B の影に入らないタイミング）を狙って，発話をしていることがわかる．参加者は敏感にこのことを感じ取っているだろう．

“Hello” 終端から “Shall we play together?” 始端までの間隔と同じ間隔を “Shall we play together?” 終端から次の “charlie” 始端までに取る，というのが “charlie” の発話に関する最も単純なスケジューリングの 1 つと考えられるが，図 5 ではそのようになっていない．このタイミングは，同図中の赤線の位置であり，このタイミングで発話を開始すると，図 6（右端）に示すように，発話中に C が B の背後に隠れてしまうことになる．これはよびかけるのに適切なタイミングではないだろう．しかし，単純に設計された（協調的でない）自動対話システムでは，このようなタイミングでお構いなしに “charlie” と発話してしまうことになる．オペレータは，その後 charlie が B の背後から現れるタイミングを待って発話している．これを対話システムで実現するためには，単に「発話対象が見えるのを待って発話する」というルールを実装するだけでは不十分である．それだけでは，C が B の背後で止まってしまえば，ロボットは C を待ち続けてフリーズすることになる．協調的な対話ロボットには，C の将来の

(6)

図 5: 事例 2: MPR2012 09 1 13:55–14:09 の対話

“Shall we play together?” “charlie” “Come on” （赤線時点での位置）図 6: 図 5 中の NAO の 3 つの発話始端と赤線時点での状況動きと位置を予測して行動を計画し，その予測が（時間的にも）はずれたときには，再度予測と行動計画を再生成するためのリフレクションが求められる．単純に音や画像の外部刺激入力に反応して行動を生成するだけの受動的なシステム（現状の多くの対話システム）でも，単純に自己の都合で計画して動く能動性を備えるだけのシステムでも，人に好まれる協調的な対話は実現できないということが，この事例から認識できる．

続いて “charlie” の後の “Come on” であるが，このタイミングからも，オペレータが予測にもとづいて自己の次の行動を予定していたことが伺える．A と B の間に立つ C にロボットが “charlie” とよびかけたあと， A が自身の左後方に現れるであろう C を予期して，重心を左足から右足に移すことで，身を翻している．このため，“Come on” の 800 ミリ秒前に，C は当初予想された位置・時間よりも早くロボットの視界に再出現している（図 7）．単純に「発話対象が見えるのを待って発話する」だけであれば，この時点で “Come on” が発話されてよいはずである．微妙な時間差ではあるが，オペレータはそのようには振る舞わず，当初の予測地点に C が到達するのを待って発話しているように見える． 3.2.2 事例 3 MPR2012 09 1 16:20–17:02 図 8 に示す先ほどと同じ 09 1 中の 2 つの対話場面では，B が単独でロボットと対話している．上側の場面では，B がクイズに正答し，ロボットが祝辞を述べている．下側の場面では，その後まだ済んでいなかった B との自己紹介と挨拶をお互いにしている． B とロボットだけしか登場しないほとんど一続きの場面であるが，一見して，同図の上と下では発話間隔の傾向が異なることがわかる．クイズをしている間（図 8 上）は，2-3 秒の間隔で応答しているが，図 8 下では， 1 秒前後で応答している．クイズ中は一般に次の質問や正誤について熟考するため，発話のペースが参加者・ロボットともに落ちる．特にオペレータは，参加者の質問に Yes/No で答える際に，この場面に限らず概ね 2-3 秒の間隔を取っている．しかしながら，答えに照らせば即答できる質問（例えば，「キャンディー」に対して「おかしですか？」という質問7_{）も多く，}_{「応答内容を決めるため」だけで} はオペレータのこの発話間隔は説明できない．我々は，オペレータがこの応答ペースによって，「クイズ中」という場の雰囲気を醸成しているという解釈に注目したい．つまりオペレータは，参加者の応答ペースが落ちる「クイズ中」という場の状況（参加者の直前の振る舞いというより，その「場」における平均的な振る舞い）に同調・協調しているのである．一方で，図 8 下からは，場面（クイズ→自己紹介）の変化に同調して，場面の変化に気づいていることを示しているだけでなく，参加者の直前の応答速度の変化にも機敏に同調してみせている様子が伺える．ロボットは，（オペレータの操作の都合上）基本的に人よりもゆったりと話すというパーソナリティがこれまでの対話で確立されており，オペレータとしてはそれを極端に崩すことは（無意識的にであっても）避けたい．そこで，“hi ben” に対する B の “hi” が，ほぼ 0.1 秒後に発話されているが，さすがにこの速さに無理に合わせることはせず，“hi” から次の “Nice to meet you” まで 1.5 秒とっている．その後 B が “nice to meet you too” と返すまでに 0.6 秒かかり，その次の “My name is NAO” までの間隔が 1.0 秒である．さらにこの後，B が “nao?” と返すまでが 0.9 秒に伸びると，それに合わせるように “nao?” に対する “Yes” までの間隔が 1.2 秒に伸びている．この回答をする際に，その直前の “My name is NAO” と発話するときよりも高い認知負荷がオペレータに要求されたとは考えにくく，むしろこれ 7_{この場合は 2.2 秒で Yes と回答している (09 1 13:04–13:08)．}

(7)

1500 ミリ秒前 800 ミリ秒前 “Come on”（図 6 に同じ）

図 7: 図 5 における NAO の “Come on” 直前の状況変化（A の姿勢変化と C の位置に注目）

図 8: 事例 3: MPR2012 09 1 16:20-16:34（上）と 16:48-17:02（下）の対話は同調の現れであると考えるほうが自然に見え，実際に同調により親和した印象を受ける．ここから，ロボット／対話システムの性能が限られているために単純に人と同じ話者交代のペースに同調することはできなくても，このように変化の仕方（時間間隔の増減傾向）を同調させることで，より協調的な印象を持つ対話をするシステムを実現できることが予想される．この事例に対する上記の解釈に対して想定される，「発話間隔の誤差変動を考慮に入れずに，1 事例を強引に解釈してしまっている」という批判は妥当であろう．しかし，仮に上記の解釈がこの場面の行き過ぎた解釈であったとしても，上記のような変化の仕方によってある種の同調的協調を実現できるという直観（仮説）の妥当性は，考慮に値すると考える．そのような変化が，本当に対話システムのユーザが感じる対話の楽しさや，システムに感じる親和性に肯定的に作用するのかは，今後の研究によって，実験的に検証できるはずである．

4 協調的対話システムのデザイン

対話システムにおける発話タイミングに関する研究の多くは，話者交替に関するものである．3.2.2 節で取り上げた事例も話者交替に関するものであった．対話システムの文脈での話者交替に関する既存研究は，人がイントネーションの変化などに基づいて移行適格場所を予測することで 1 秒未満の僅かな時間間隔（交替潜時）で話者交替を繰り返すことを指摘した上で，システムがそのような話者交替を実現できるようにする，できるだけ交替潜時を人に近づけ短くすることを意識したものが主流であったように思われる（[9] 等）．あるいは，インタラクション研究の文脈では，人工物にとって最適な交替潜時を調べる主旨の研究が行われている [11]．しかしながら，前節での分析と考察をもとに考えると，これらの研究の視点は幾分的外れであったと指摘できる．本研究の動機および前節の分析と考察に従えば，協調的な人工物を実現するにあたって重要なことは，人のようなペース・タイミングで話者交替をできるようにすることでもなければ，あるいはそれにとって最適な交替潜時を見つけるということでもない（全ては状況・場面依存で，最適な交替潜時など存在しない）．重要なのは，状況（対話相手と場面）の変化を敏感に察知し，察知していることを適切に（相手が理解できるように）リアルタイムに伝えていくことができることである．このリアルタイム性は，植田らが指摘する＜今性＞ [15] のことであろう．応答の早さ（交替潜時の長さ）は，状況に応じて，そのシステムの能力と個性で自由に決めればよいものであって，問題なのはそれがそのシステムの中で，あるいは異なる状況の間で，固定されてしまうことである．交替潜時の長さはまさに TPO に依存するものであり，相手の発話末に間髪おかずに発話できるシステムができたとしても，使う場面と相手を間違えれば，相手が右足を上げるのにあわせて左足に足払いをかけつづけるような，（高度に予測的だが）ただ敵対的なだけの益のない振る舞いになってしまう．我々は以前に行った対話デザインの研究で，相手の期待にそうならば必ずしも交替潜時が人のように短くある必要はないことを指摘した [3]．今回の分析と考察はこの指摘が誤りではなかったことを裏付けるものと

(8)

考えるが，一方で当の指摘が不十分であったことも示しているだろう．「相手の期待にそう」ことの前提・前段として，「相手の期待の変化を察知し反応できる」ことがあるべきなのである．そうでなければ，固定の場面・用途に対して作り込むデザインしかとれない．察知さえできていれば，その気づきを相手に示す手段は交替潜時に限らずいかようにもデザインできるだろう．協調的な人工物のデザインという観点で重要なのは，自然さ・人間らしさよりも，受け入れやすさや安心感などであろう．同調は安心感を与える 1 つの鍵となる．交替潜時を「自由に決めれば良い」とは言っても，あまりに長い交替潜時は苦痛を与えるという意見は当然あるだろう．しかし，それは単に忙しい日常の生活の中で受容可能なペースとマッチしていない，つまり日常生活の観点で実効性に問題があるだけであって，インタラクション自体の質の問題とは分けて考えるべき事柄と我々は考える8_．「周囲に広く注意を向け，周囲の変化を敏感に察知し，それを基に他者と関わる」，この注意の対象に自分自身も含めれば，これは近頃人口に膾炙する「マインドフルネス」のことであろう．協調的人工物のデザインの核となるコンセプトは，「マインドフル・マシーン」と端的に表現できるかもしれない9_．

5 まとめと今後の課題

本稿では，オペレータが操作するロボットと複数人の参加者の間のゲーム対話を収録した動画を分析し，そこから得られた知見に基づき，音声対話・インタラクションのデザインに関する提言を行った．3.1 節で得られたオペレータの対話戦術の知見（特に後半の分析）を現状の技術・システムに活用することは困難かもしれないが，3.2 節で得られたタイミングに関する知見は活かせる見込みが十分にあると考える．前者は，今回の分析の主眼とした協調の「同調的側面」よりも，限りなく「協働的側面」に近い位置にあるように思われる． 8_{これを裏付けるエピソードとして，杉山らが開発した対話ロボッ} トの動物園での実証実験 [13] におけるシステム調整に関するものがある．実験室内で雑談だけをしているときにはなんともいえない幸福感・心地よさをもたらしたロボットの口調が，動物に関する知識伝達もするように修正されたあとでは苛立たしさを覚えるものであったという（発話内容の長さはさして変わらないにもかかわらず）．これに対し杉山らはロボットの話速を上げる調整で対応した．これは，動物園という活気あふれる場での知識伝達という活動のリズムが，一人で実験室内で雑談をしているだけのそれと大きく違ったということを意味していると考えられる．少なくとも，どちらの話速がこのロボットに最適なのか，といった問題ではないはずである． 9_{『昔ある武士が茶会に招かれ，何一つ作法をしらないなかで，そ} れでも心をこめて茶を飲んで帰った．恥をかいたと感じた武士が茶の湯を熱心に習ったところで，再び同じ人物に招かれ，今度は作法通りに茶を飲んだ．しかしその人物は，「昔のあなたの方がずっとよかった．今は慣れてしまって形に流れ，心がこもっていない．」と評した』[8]（引用者要約）．何一つ作法を知らないときの武士は，主人や同席の客の振る舞いにひたすら注意を向け，それに合わせよう，応えようとしたはずである．作法を習得した武士は，もはや自動的にプロセスをこなす機械に成り下がってしまった．協調的対話システムのあるべき姿がどちらなのかは明らかである．「知的人工物とインタラクションするときにあたながその人工物に求めることは，その人工物がヒトらしく振る舞うことではない．あなたを人して扱うことである．」ということが，今回の分析を通して抱いた我々の認識である．そして「人として扱われている」ことは，協調，すなわち「人工物が示す相手の振る舞いや状況への同調」により感知されるというのが我々の（仮説的）主張である．「示し方」や「同調の結果」がヒトらしくある必要はない．しかしながら 3 節での分析はわずか 3 事例に基づくものであり，他のデータの観察や定量分析により，我々の主張を支持する証拠を更に固めていくことが必要であろう．同時に，4 節では，協調的対話システムのデザインについて，話者交替という特定の観点を中心とした大まかな考察・提言しかできていない．特に「マインドフル・マシーン」を実現するにはどのようなアーキテクチャ・機能・技術が必要なのか，という点について，検討を進める必要がある．

謝辞

本研究は（株）ホンダ・リサーチ・インスティチュート・ジャパン (HRI-JP) の資金提供により設置された京都大学・HRI-JP 協調的知能共同研究講座においてなされた．本研究の過程での議論に参加いただいた京都大学高梨克也氏，井上昂治氏，下西慶氏および九州大学峯恒憲先生に感謝いたします．また，エピソードを提供していただいた NTT の杉山弘晃氏に感謝いたします．

参考文献

[1] 船越, 島崎, 熊田, 辻野. 協調的知能研究のためのパーソナルパートナーエージェントの検討. FIT2018 第 17 回情報科学技術フォーラム論文集, 第 2 巻, pp. 295–298, 2018.

[2] K. Funakoshi. A multimodal multiparty human-robot dialogue corpus for real world interaction. In Proc. LREC 2018 Special

Speech Sessions “Speech Resources Collection in Real-World Situations”, pp. 35–39. NINJAL, 2018.

[3] K. Funakoshi, M. Nakano, K. Kobayashi, T. Komatsu, and S. Yamada. Non-humanlike spoken dialogue: A design per-spective. In Proc. SIGDIAL 2010, pp. 176–184, 2010. [4] 乾. 感情とはそもそも何なのか. ミネルヴァ書房, 2018.

[5] S. C. Levinson. On the human ‘interaction engine’. In N. J. Enfield and S. C. Levinson eds., Roots of human sociality:

culture, cognition and interaction, pp. 39–69. Oxford, 2006.

[6] A. Pentland. Social signal processing. IEEE Signal Processing

Magazine, 24(4):108–111, 2007.

[7] G. Raymond. Questions at work: Yes/no type interrogatives in institutional contexts. In P. Drew, G. Raymond, and D. Wein-berg eds., Talk and Interaction in Social Research Methods, pp. 115–134. SAGE, 2006.

[8] さとう. マンガ茶の湯入門. 平凡社, 1988.

[9] D. Schlangen. From reaction to prediction: Experiments with computational models of turn-taking. In Proc.

INTER-SPEECH 2006, pp. 2010–2013, 2006.

[10] J. R. Searle. Collective intentions and actions. In Intentions

in Communication, pp. 401–415. 1990.

[11] T. Shiwa, T. Kanda, M. Imai, H. Ishiguro, and N. Hagita. How quickly should communication robots respond? In Proc.

HRI 2008, pp. 153–160, 2008.

[12] C. Sidner, C. Lee, C. Kidd, N. Lesh, and C. Rich. Explorations in engagement for humans and robots. Artificial Intelligence, 166(1–2):140–164, 2005. [13] 杉山, 水上, 成松. 複数ロボット協調による一問一答型雑談対話からの脱却. 人工知能学会全国大会論文集, No. 3J204, 2018. [14] トマセロ. ヒトはなぜ協力するのか. 勁草書房, 2013. [15] 植田. 『認知的インタラクションデザイン学』の展望: 時間的な要素を組み込んだインタラクション・モデルの構築を目指して. 認知科学, 24(2):220–230, 2017.