自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討

全文

(1)Vol.23 No.2, 2021. 原著論文. 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討藤江律也 ∗1 仲澤悠太 ∗1 徐建鋒 ∗2 小森田賢史 ∗2 内藤整 ∗2 藤田欣也 ∗1 Experimental study on acceptable timing of proactive information delivery by a virtual character in daily-life scenario Ritsuya Fujie∗1, Yuta Nakazawa∗1, Jianfeng Xu∗2, Satoshi Komorita∗2, Sei Naito∗2, and Kinya Fujita∗1. Abstract – Making smart speakers proactive might benefit users by delivering unconscious but useful information. However, depending on the timing and manner of the delivery, proactive deliveries pose a risk in disturbing user’s ongoing activity. Thus, we hypothesized that the times of activity-transition are appropriate for information delivery. In this study, we prototyped a system that estimates activity-transitions based the user’s body motion using a depth camera, and actively provide Internet news through a voice of virtual character. We then conducted a set of experiments in everyday-living scenario at the homes of five university students living alone. The result demonstrated that the times after transfer are generally appropriate. In contrast, the change of the user’s face direction, i.e. supposed gaze-target transition, occurred more frequently but included more inappropriate cases. Elimination of the error-detections such as body posture change while looking at smartphone is needed to detect activity-transitions more appropriately.. Keywords. : Smart speaker, Interruptibility, Virtual character, Virtual agent, and Proactive information delivery. 1.. 一つは，ユーザが望む情報を提供することである．. はじめに. そのため，過去の行動が類似した他のユーザのデータ. 近年，音声認識技術の向上をきっかけに，多様な情. を利用する協調フィルタリング技術を用いて，ユーザ. 報やサービスを提供する音声インタラクションシス. の興味や嗜好に合った商品やニュースをリコメンドす. テムが増加している．その代表例として，スマートス. るシステムなどが広く普及している [4] , [5] ．. ピーカやスマートディスプレイが挙げられる．スマー. もう一つは，ユーザの活動を邪魔しないことである．. トスピーカ等の一般家庭への普及に伴い，それらをス. 会話や作業に集中している時など，不適切なタイミン. [1]. グでの音声情報提供は日常生活を阻害し，結果として. や，ウェイクワードを不要とする研究 [2] などがなさ. ユーザが情報提供を拒否する可能性が懸念される．そ. れている．一方で，現状のシステムは受動的なインタ. のため，情報提供システムは，ユーザの活動を阻害し. ラクションが主流であるため，ユーザが積極的に利用. ないタイミングを適切に推定することが求められる．. マートホームのインタフェースとして用いる試み. しなければ何もサービスは提供されない．そのため，ユーザは限られた機能しか使用しなくなる傾向があ. 通知や情報提供によるユーザの活動阻害の程度には，従事している活動の種類や従事の程度が影響すると考. ．逆に言えば，スマートスピーカなどの音声イン. えられている [6] , [7] ．しかし，生活場面における活動種. タラクションシステムが，能動的に話しかけて興味の. の正確な推定は困難である．一方で，作業遷移時には. あるニュースや健康促進のための運動提案，商品やイ. 認知負荷が低下することから，オフィス環境における. ベントの広告などの潜在的に有益な情報を提供すれば，. 割り込み許容度の推定や制御が試みられてきた [8] , [9] ．. ユーザの日常生活がより便利で快適なものになる可能. 日常生活場面においても，活動遷移時は情報提供に適. 性が期待される．. したタイミングと期待され，スマートフォンの通知制. る. [3]. しかし，音声による能動的な情報提供が受け入れら. 御への応用などが試みられてきた [10] が，必然的に適用範囲はスマートフォン所持時に限定される．すなわ. れるためには考慮すべき点がいくつかある．. ち，宅内での日常生活場面全般に適用可能な情報提供 *1：東京農工大学大学院 *2：KDDI 総合研究所 *1：Graduate School of Engineering, Tokyo University of Agriculture and Technology *2：KDDI Research, Inc. ((95 1 )). タイミング推定法の確立が求められる．そこで我々は，模擬リビングルームや若年独居者宅内で予備実験を実施してきた [11] , [12] ．しかし，実際の日常生活場面に 229 135.

(2) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2021. されている [18] ．同様に，人工物と人のコミュニケーションにおいても，人工物への身体の付与と非言語情報の表出が，言語情報を補完しユーザの理解を支援することが知られている [19] , [20] ．例えば，Andrist らは人と仮想キャラクタの共同作業において，指示と連動するキャラクタの視線が作業成績を向上させることを示した [21] ．Ochs らは，仮想キャラクタの表情，特に笑顔を用いることでキャラクタ自身の態度や感情を表現できることを示した [22] ．Hartmann らは，仮想キャラクタがジェスチャによって，キャラクタ自身の感情図1. 能動的情報提供システムの概念. や状態をユーザに認知させることができることを実証. Fig. 1 Concept of proactive informationdelivery system.. した [23] ．すなわち，身体を持ったキャラクタが適切な非言語. おいて情報提供した際にユーザが感じる許容度は不明. 情報を伴って話しかけることによって，理解が容易で. であった．. 受け入れやすい情報提供が可能になるものと期待さ. さらに，能動的な情報提供の受け入れやすさには，. れる．スマートスピーカ・音声アシスタント. 内容やタイミングに加えて，情報を提供する媒体の外. 2. 2. 観や挙動も影響する可能性がある．例えば，スマート. また，スマートスピーカの普及とともに，スマート. スピーカと身体を有するロボットでは，ロボット相手. ホームや障碍者向け環境制御装置のインタフェースと. の方が会話量が多かったとの報告がある [13] ．したがっ. して用いる試み [1] , [24] など，様々な利用方法が研究. て，能動的な音声情報提供においても，身体を有する. されている．一方で，Sciuto らは日常生活における. ロボットや仮想キャラクタが介在することが望ましい. スマートスピーカの利用実態を調査し，多くの利用者. と考えられる．. は限られた機能しか利用しなくなる傾向を示した [3] ．. そこで本研究では，日常生活場面での自然で受け入. 対して，Vtyuria らは，既存の音声アシスタントには. れやすい能動的情報提供システムの実現に向け，図 1. 一般的にウェイクワードが必要であることに着目し，. のように，ユーザの活動遷移を近似的に検出し，仮想. Woz 法によりウェイクワードを不要としたシステムであればユーザの満足度が高くなる結果を示した [2] ．さらに，川口らは，利用者とのインタラクションに注視の入出力を用いたスマートスピーカを開発し，注視の入出力を用いることでシステムの操作性および対話感が向上することを示した [25] ．対話の開始に関する研究以外では，ユーザとの会話における代名詞の使用による親近感の醸成 [26] や，動作の不確実性によるユーザの利用意欲の促進 [27] など，人とスマートスピーカの関係をより親密なものにしようとする試みも行われている．以上のように，スマートスピーカの利便性向上や利用促進に関する様々な研究が行われている一方で，現状は，受動的な動作に留まっている．そこで，スマートスピーカからの能動的な話しかけを含む多様なスタイルの対話を可能にすることによって，さらに用途が広がるとともにユーザの満足度も向上するものと期待される．. キャラクタが能動的に話しかけて情報提供するシステムを試作した．そうして，若年独居者 5 名の自宅において情報提供タイミングの適切さを実験的に評価した．その結果，移動後は情報提供が許容されやすいことや，頭部方向の変化は発生頻度が高いがスマートフォンを注視したまま姿勢変化したときのようなケースの除外が必要なことが明らかになったので報告する．. 2.. 関連研究. 2. 1 人と人工物のインタラクションロボットや仮想キャラクタなどの会話型エージェントがオフィスや日常生活場面に普及するにつれ，人と人工物のインタラクションに関する研究が増加している [1] , [14] ．エージェントの外見に関しては，挙動を擬人化して表現した際の理解の容易さから，人間や動物に類似した外見を持つことが望ましいと考えられている [15] ．特に，人間を模した外見のエージェントは，実世界の人間がとる行動の多くを表出することができるため，それらを利用した効果的なインタラクションの方法が数多く研究されている [16] , [17] ．人対人のコミュニケーションでは，アバタを介した状況においても対面の場合と同様に，非言語情報の表出が互いの行動や発言意図の理解を容易にすると報告 230 136. ((96 2 )). 2. 3. 在宅ユーザの通知許容度. さらに，家庭内における情報通知タイミングの適切さ，すなわち在宅ユーザの通知許容度に関する研究も様々な視点からなされてきた．. Takemae らは宅内全域を対象に，被験者が各部屋にいる際の通知の望ましさの相違を実験により検証し.

(3) 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討. た. [28]. ．Cumin らは模擬個人宅環境を構築し，被験者. にそこで生活させて，活動種よりも場所が通知許容度と強く関連することを示した [6] ．Vastenburg らは情報の緊急度に加え，現在の活動への従事度が通知の許容度に影響することを宅内実験により示した [7] ．一方で，作業の切れ目や遷移時は，作業中と比較して認知負荷が低下することが知られている [8] ．田中らはこれに着目し，オフィスにおける割り込み拒否度の推定システムを実現した [9] , [29] ．Banerjee らは，. Kinect を用いて作業者の動作の切れ目を検出することで，ロボットによる割り込みタイミングを制御した [30] ．Okoshi らは加速度センサ等で検出した活動遷移と他の指標を組み合わせてスマートフォンの通知を制御し，ユーザの応答率が向上することを示した [10] ．以上のように，在宅ユーザの情報提供許容度には，従事している活動の種類や活動への従事度，さらに活動遷移の有無が影響するものと推測される． 3.. (a). 能動的情報提供システム. 3. 1 情報提供が許容されるタイミング 2.3 節で述べたように，情報提供が許容されるか否かは，ユーザが従事している活動の種類や活動の遷移が影響すると考えられる．ここで，生活環境における多様な活動種の推定は困難である反面，活動遷移は変化の検出であるため比較的容易と考えられる．そこで本研究では活動遷移に着目した．生活空間において場所は活動と密接に関係するため，移動は活動遷移の指標になると考えられる．しかし我々の以前の実験において，移動中は情報提供に不適との傾向が認められたため [12] ，本研究では，移動して静止したタイミングを検出することとした．さらに，活動の際にはテレビやスマートフォンなど活動の対象を注視することが多いと考えられるため，注視対象の変化も活動遷移の指標となるものと期待される．そこで本研究は，システムによって「移動後静止」と「注視対象変化」を検出し，これらのタイミングが情報提供に適しているかを実験的に検証する． 3. 2 能動的情報提供システムの概要実験で使用した能動的情報提供システムは，図 2(a) のように深度センサを用いてユーザの骨格を検出し，活動遷移が検出されると小型モニタ上の仮想キャラクタを介して音声でインターネットニュースを提供する [31] ．内部処理は図 2(b) に示す 3 つのモジュールからなる．以下に各モジュールの機能を述べる． 3. 3 情報提供可否判定モジュール情報提供可否判定モジュールは，深度センサ (Kinect v2) の body tracking および face tracking 機能を用いて 0.5s 周期で各関節の位置や方向を算出し，活動遷移と関連すると考えられる移動後の静止や注視対象変化 ((97 3 )). (b). 図2. 試作プロアクティブ情報提供システムの (a) 外観と (b) 構成. Fig. 2 (a) Appearance and (b) configuration of the prototype proactive information-delivery system.. を検出する．. 3. 3. 1 活動遷移関連指標の検出移動後静止判定のための移動の検出ルールを (1) 式に示す．フレーム t における水平面内でのユーザの腰関節座標を Pt とするとき，その過去 10 フレームの平均座標と，過去 10∼59 フレーム中の連続する 30 フレームの平均座標との距離の最大値が 0.5m を超えた時に，移動が発生したものとした．閾値および平均フレーム数は，研究室内に設置した模擬環境で予備実験を行って決定した．

(4)  

(5)

(6)

(7) 9 29 X

(8) 1 X

(9) 1

(10)  max

(11) Pt−k − Pt−j−L

(12)

(13)  ≥ 0.5 (1) 30 j=0

(14) 10 k=0

(15) (10 ≤ L ≤ 30, ∆t = 0.5s) 移動後の静止判定は，(2) 式のように現在位置と過去 9 フレームの平均位置の距離が 0.3m 以下になった時刻に静止したものとみなした．

(16)

(17) 9

(18)

(19) 1X

(20)

(21) Pt−k

(22) ≤ 0.3

(23) Pt −

(24)

(25) 9. (2). k=1. (∆t = 0.5s) 231 137.

(26) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2021. 注視対象変化は，居室の広い範囲に適用可能なように，Kinect で検出した顔方向角度の変化で代替した．. (3) 式のように，時刻 t におけるユーザの顔方向の左右軸（前額面内水平軸）周りの角度を θxt ，鉛直軸周りの角度を θyt とする．このとき，左右か鉛直のいずれかで，現在から過去 6 フレームの平均角度と，過去 6∼16 フレーム中の連続する 6 フレームの平均角度の差が 20 度を超えた時に，注視対象が変化したものと判定した．

(27) 

(28)

(29) 5

(30) 5 X

(31) 1 X

(32) 1

(33)  max

(34) θxt−k − θxt−j−L

(35)

(36) , 6 j=0

(37) 6 k=0

(38)

(39)

(40) 

(41) X

(42) 5

(43) 1 5

(44) 1X

(45) θyt−k − θyt−j−L

(46)

(47)  ≥ 20

(48) 6 6 j=0

(49)

(50). (a). 図3. (c). 仮想キャラクタのアニメーション．(a) 居眠り，(b) 話しかけ待機，(c) 話しかけ（情報提供）. Fig. 3 Animation of the virtual character. (a)catnap, (b)waiting for delivery, (c)information delivery.. (3). k=0. (b). で，Unity のアニメーション機能を用いて，頭身の低. (6 ≤ L ≤ 16, ∆t = 0.5s). い女性キャラクタが以下の 3 段階で情報提供を行うシ. ただし，6 フレーム中 2 回以上顔検出に失敗した場. 活動遷移指標の値が小さく，ユーザが活動に集中し. 合と，眼間距離が不自然な場合（55mm 未満または. ていると考えられる場合は，背を向けて居眠りするア. 80mm より大きい）は計算対象外とした． 3. 3. 2 付加的な情報提供可否判定ルール日常生活場面では，時に移動途中で立ち止まることがあり，その様なタイミングは移動後の静止であっても情報提供には不適と考えられる．そこで本研究では，座って作業や余暇的行動を取る主たる場所を常駐場所と定義し，あらかじめ実験参加者に聴取し設定した常駐場所に移動して静止した場合のみを，移動後静止と判定した．また，主婦を対象とした質問紙調査 [12] から，会話中の情報提供は許容されない可能性が高いと考えられる．そこで，実験開始前に各参加者の自宅で Kinect を用いて背景雑音を計測し，その音圧の 3 倍を超えたサンプルの割合が，過去 30s で 20 ％を超えた場合は会話中とみなし，情報提供を回避した．さらに，過度に短い時間間隔での情報提供はユーザの日常生活を阻害する可能性に加え，実験では主観評価値に影響する可能性が懸念される．そこで，前回の情報提供から 6 分間は，活動遷移が検出されても情報提供を行わないように設定した．また，移動後と注視対象変化での情報提供回数がある程度均衡するように，取得データ数の比に応じて情報提供確率が増減するアルゴリズムを組み込んだ．さらに，比較対象とするために，2 つの活動遷移指標が検出されていない，非遷移状態での情報提供も行った． 3. 4 情報提供モジュールシステムによる自然な話しかけを実現するとともに，ユーザがシステムの状態を認知可能とするためには，身体を保持する仮想キャラクタを用いて適切な非言語情報を表出することが有効と考えられる [1] , [18] ．そこ. ニメーションによって話しかける可能性が低いことを. 232 138. ((98 4 )). ステムを実装した．. 表出した（図 3(a)）．活動遷移指標の値が増加した時は，視線交差しない程度にユーザの方を向かせることで，話しかける可能性を自然に認知できるようにした（図 3(b)）．そうして，実際に情報提供する場面では，立ち上がって微笑むアニメーションを伴って音声で話しかけ，ニュースの見出し文を読み上げた（図 3(c)）．. 3. 5 情報選択モジュール本研究では，情報提供システムの応用場面として，緊急性は高くないがユーザが興味を持つ可能性のある情報の提供を想定する．そこで，あらかじめ実験対象者に聞き取り調査を行い，興味のあるカテゴリのインターネットニュースを提供対象とした．提供するニュースは，キュレーションサイトの一つである「グノシー」[32] の 40 のニュースカテゴリから，ユーザが興味ありと回答した 10 カテゴリをスクレイピングにより取得し，カテゴリに対するユーザの興味順位に，カテゴリ内でのアクセス順位と配信からの経過時間を加味して決定した [31] ． 4.. 若年独居者の自宅における情報提供実験. 4. 1 実験方法 4. 1. 1 実験概要東京農工大学倫理委員会の承認を得た後に，実験参加者の自宅においてシステムによる情報提供を間欠的に行い，主観評価と深度画像および RGB 画像を自動記録した．仮想キャラクタは実験参加者の視野に入る位置に設置した小型モニタに表示し，情報提供は PC に接続したスピーカを通して行った．.

(51) 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討. 図 4 実験参加者 A の実験環境 Fig. 4 Experimental environment of participant A.. 図 5 提供タイミングと主観的許容度の関係 Fig. 5 Relation between delivery timing and subjective acceptability.. ここで，ユーザの心理的な情報提供の受け入れやすさは，提供タイミングの受け入れやすさと提供された内容の受け入れやすさによって構成されると考えられ. 表1. 実験時に情報提供した回数とシステムが検出した潜在的提供機会. Table 1 Numbers of times of actual and potential information delivery.. る．そこで本研究では，内容の影響を排除してタイミングの受け入れやすさを評価するために，「タイミングはどうだった？」に加えて，内容の受け入れやすさを問う「ニュースに興味はある？」と総合的な許容度を問う「話しかけは受け入れられる？」の三つの質問を. 移動後. 注視対象変化. 実験時に情報提供した回数. 118. 206. システムが検出した潜在的情報提供機会. 234. 2081. 合成音声 [33] によって順に行い，タイミングに対する回答を主たる分析対象とした．回答は，各質問に対し. ∼2m の位置に設置した．ユーザと深度センサの距離. て 1∼5（邪魔∼適切／興味なし∼興味あり／無視す. は 1.5∼2.5m であった．例として図 4 に実験参加者 1. る∼受け入れる）の 5 段階で音声回答させ，回答して. 名の実験環境を示す．. いる間のみ録音した．. 4. 2 実験結果（概要）実験の結果，5 名で計 151 時間のデータが得られ，情報提供回数は計 446 回であった．全実験参加者の提供タイミングの許容度と提供内容の許容度，ならびに総合的な許容度はすべて 1∼5 に広く分布していた．相関係数は，タイミングと内容が 0.186，タイミングと総合許容度が 0.618，内容と総合許容度が 0.445 であった．すなわち，今回の実験では，実験参加者がタイミングと内容の許容度を混同すること無く評価できていたこと，さらに，タイミングと内容の両者が総合的な許容度に影響する可能性が示唆された．そこで，以降では，本研究の主たる対象である提供タイミングの許容度について論じる．図 5 に情報提供タイミングと許容度の関係を示す．また，実験時に情報提供した回数を表 1 に示す．ここで，3.3.2 で述べたように，本研究では，実験参加者に不快感を与えないために，実際に情報提供したのは，検出された移動後静止や注視対象変化の一部のみである．そこで，3.3.1 で述べた条件を満たしたとシステムが判定した時刻を潜在的な情報提供機会とみなし，その全回数（フレーム数）を計数した．ただし，短時間に繰り返し検出される場合があるため，検出後 30s 以内に再検出された場合は計数しなかった．なお，表. 4. 1. 2. 実験条件. 実験参加者は，深度センサで計測可能な広さ 7∼8 畳程度の一室内での活動時間が長く，生活パターンがある程度限定される 21∼24 歳の若年男性独居者とした．実験では，東京農工大学の学生 6 名を対象にアンケートを行い，能動的な情報提供に抵抗感を抱かない. 5 名に協力を依頼した．実験参加者には，実験の目的が能動的情報提供に適したタイミングの検討であることを伝えた上で，通常の日常生活を行いながら任意の時間に自らシステムを操作して実験を開始するように，また，1 日あたり 5 時間程度を目安に週末を含め合計 30 時間以上記録するよう指示した．ただし，プライバシ懸念がある場合には，当該時間のデータを確認し削除して良い旨を伝えた．システムに関しては，参加者がカメラの画角内にいると，事前に興味があると回答したジャンルのニュースが不定期に提供されるとだけ説明し，具体的な情報提供タイミングについての明示的な説明は与えなかった．実験は，実験参加者の全身が記録できるように，できるだけ遮蔽物の無い位置に深度センサを設置した．仮想キャラクタを表示するモニタは，ユーザの視界に入りやすいよう，ユーザが主に活動する場所の前方 1 ((99 5 )). 233 139.

(52) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2021. 図6. 図 7 注視対象変化時の情報提供許容度の分布（図上部の数値はそれぞれのデータ数）. 移動後の情報提供許容度の分布（図上部の数値はそれぞれのデータ数）. Fig. 7 Distribution of subjective acceptability for information delivery at the moment after gaze-target transition.. Fig. 6 Distribution of subjective acceptability for information delivery at the moment after transfer.. 中の潜在的情報提供機会の回数は，実際に情報提供し. かわらず許容度が低いケースは参加者 C,E で観察さ. た回数を含む値である．. れ，一時的に離席した後に戻ってきて，移動前に行っ. 図 5 を見ると，比較のために行った非遷移時の情報. ていた活動を再開したと見られる場合が多かった．こ. 提供は全 122 回であり，その許容度は 1 から 5 まで. れらに関しては，5.2 節で検討する．. 大きくばらついていた．これに対して，システムが移. 4. 4 注視対象変化時注視対象変化とシステムが判定したタイミングに対する情報提供許容度の分布を図 7 に示す．許容度 4,5 の割合は 30.8%から 73.8%とばらついており，特に参加者 B では許容度 1,2 が 14 回含まれていた．記録画像を確認したところ，この中には，顔検出の失敗等に起因する誤判定が含まれていたため，5.3 節で改めて考察する．また，移動後の許容度と合わせて見ると，参加者 B の移動後の高許容度の割合は他の参加者と同程度の 76.9%であるのに対して，注視対象変化時の高許容度の割合は 30.8%と低い．この傾向は，上記の誤判定の影響を考慮しても変わらなかった．他方，参加者 E は移動後が 67.6%で注視対象変化時が 73.8%と，大きな違いは認められない．すなわち，情報提供に対する全般的な許容度に加えて，嗜好する提供タイミングにも個人差がある可能性が推測される．. 動後と判定した時は，全 118 回のうち許容度 4 または. 5 が 94 回を占めた．そこで，非遷移／移動後／注視対象変化の 3 条件に対して自由度 2 の Kruskal-Wallis 検定を実施したところ有意差 (p < 0.001) が認められたため，各条件間の Steel-Dwass 検定を実施したところ，移動後は非遷移時および注視対象変化の 2 条件に対して有意に高許容度が多く (t = 6.79, p < 0.001),. (t = 6.09, p < 0.001)，移動後の情報提供は許容されるという予想をおおむね支持する結果となった．注視対象変化は，全 206 回の情報提供のうち許容度 4，5 が 113 回であり，122 回中 56 回の非遷移時より割合が高かったものの，その差は有意ではなかった (t = 2.02, p = 0.108)．しかし，表 1 に見られるように，潜在的提供機会数は 2081 と実際に情報提供した回数の約 10 倍あるため，情報提供に適したタイミングも多数含まれると考えられる．次節以降では，移動後および注視対象変化時について詳細に分析する． 4. 3 移動後判定時システムが移動後と判定した時の主観的情報提供許容度を，実験参加者ごとに示したものが図 6 である．許容度 4,5 の割合は，67.6%（参加者 E）から 100% （参加者 D）とばらつきがあるが，いずれの参加者も移動後の情報提供を許容する傾向が高いことが確認された．他方，許容度 1,2 と評価されたケースもあったため，それらの情報提供の前後の行動を記録画像で確認したところ，参加者 B は姿勢変化を移動と誤判定したケースが数例含まれていた．また，実際に移動したにもか 234 140. ( (100 6 )). 5.. 考察. 5. 1 情報提供が許容されるタイミングとその回数実験参加者宅での実験の結果，移動後は許容される割合が有意に高く，活動遷移時の提供は許容されるとの仮説が支持された．他方，注視対象変化は許容される場合とされない場合が混在する結果となったが，潜在的提供機会数は 2081 と移動後の 234 よりも多かった．実際に情報提供した場合と同様に，その 10%程度が許容されると仮定すると，移動後と同程度の約 200 回の提供機会が得られる計算になる．そこで，5.2，5.3 節では，より厳格な判定によって高許容度の割合を高.

(53) 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討. 表2. 移動時において移動量が 0.7m 以下の場合を除外した結果. 左右に変動する例が確認された．そこで，このような誤検出に加えて，食事などで複. Table 2 Effect of exclusion of the cases lessthan-0.7m transfer. 除外前除外後誤判定数 9 1 許容度 1,2 の割合 12.7% 10.2% 情報提供回数 118 98. 数の対象を交互に見る場合も併せて除外すべく，顔回転角の 8 秒間積分値が 180 度を超える場合を除外した結果が表 3 である．誤検出等の検出数が減少した結果，許容度 1,2 の割合も低下した．一方で，情報提供回数も減少した．しかし，既に述べたように潜在的な提供回数は 2081 回あるため，実際の情報提供回数と同程. める可能性を検討する．. 度の割合で減少したとしても，十分な数の提供機会が. また，4.4 で述べたように，嗜好する提供タイミングには個人差が存在する可能性がある．当然ながら，提. 得られるものと期待される．他方，上記の手法は誤検出の多くを除外したが，参. 供する情報の内容にも個人ごとの好みがある．さらに，. 加者 A,B では許容度 1,2 がまだ 30%以上含まれる．そ. 実験後の聞き取り調査において，参加者 A は「キャラ. の中には，本研究では深度カメラによって自動検出さ. クタを使用するのが楽しくて受け入れやすさが上昇し. れた顔方向を用いて注視対象変化を近似的に検出した. た」と回答していた．したがって，自宅環境での能動. ため，スマートフォンを持ったまま姿勢を変えた場合. 的情報提供に際しては，タイミングや情報の内容，さ. のように実際には注視対象は変化していない場合が含. らに提供媒体の外観や挙動などに対するユーザの嗜好. まれる．画像を確認したところ，除外後に残った許容. を適切に反映するための仕組みが望まれる．. 度 1,2 の 13 回中 8 回がスマートフォン利用中であっ. 5. 2. 移動後判定時の低許容度の除外可能性. た．この問題に対しては，例えば，スマートフォンを. 結果で述べたように，移動後は高許容度が多かった. 情報提供システムと連携させて，スマートフォン利用. が，許容度 1,2 と評価されたケースも 12.7%あり，そ. 中は情報提供を避けるなどの対応が考えられ，今後の. の一部は，姿勢変化を移動と誤判定したものであった．. 検討課題である．. そこで当該データを確認したところ，実際に移動した場合よりも移動量が小さいことが判明したため，移動. 5. 4. 本研究の限界と能動的情報提供エージェントの実現に向けた課題. 判定の閾値を 0.5m から 0.7m に変更して再計算した. 本研究では，若年独居男性の大学生を対象に評価実. 結果が表 2 である．誤判定数が 9 から 1 に減少し，そ. 験を実施した．時間制約が厳しい会社員や家族と同居. れに伴って許容度 1，2 の割合も減少した．ただし，正. する主婦では，活動遷移時であっても情報提供が許容. 検出数も減少するため，閾値の調整だけでなく，立位. されない状況も考えられる．また，本研究では実験実. の検出を組み込むなど，より適切な判定アルゴリズム. 施に先立って部屋を片付けるよう参加者に依頼したた. を検討する必要がある．. め，実験環境は完全な意味での日常生活場面とは異な. もう一方の低許容度の原因である一時離席後の活動再開を検出するためには，本来は復席後の活動を認識. る．今後は，より広範で一般的な対象や環境での評価が必要である．. する必要があるが，多様な生活環境での実現は困難で. 一方，本研究では活動遷移に着目して情報提供タイ. ある．そこで我々は，近似的に活動再開を判定する手. ミングを検討したが，対象外とした非活動遷移時にも，. 法として，離席時間が長くなると以前の活動に関する. 情報提供が許容される場合が少数存在し，確認したと. 作業記憶が失われて活動再開意欲も減退するとの仮定. ころ，それらは余暇行動中や活動への従事度が低い場. の下，離席時間と許容度の関係を分析した. [34]. ．その. 合であった．これらのケースも検出することが可能に. 結果，3 分以上離席した時は許容度が高くなる傾向が. なれば，より多くの情報提供機会が得られるものと期. 見られた．しかし，本実験で移動後と判定された情報. 待される．. 提供 118 回のうち 86 回は離席 3 分未満であり，これ. また，4.2 節で述べたように，タイミングに対する. らを除外すると，本来は許容される提供機会の逸失に. 許容度と内容に対する許容度の間の相関は低いが，い. つながる．より適切に活動再開意図を検出できる指標. ずれもが総合的な許容度と相関していた．すなわち，. の検討が今後の課題である．. 提供タイミングと内容への興味のそれぞれが総合的な. 注視対象変化判定時の高許容度の抽出可能性. 許容度に影響することが再確認された．さらに，提供. 当初の仮説に反して，注視対象変化には情報提供に. される情報の受け入れやすさには，興味の有無以外も. 不適な場合が多数含まれていた．そこで，当該ケース. 影響する可能性が予想される．例えば，リマインドな. の記録画像を確認したところ，顔を検出しているが方. どの緊要度の高い情報と広告のような緊要度の低い情. 向を大きく間違えている場合があり，特に参加者 B で. 報では，必然的に許容度が変わると考えられる．提供. は顔検出が不安定になって，見かけ上，顔方向が上下. タイミングやユーザの興味，情報の緊急度など様々な. 5. 3. ( (101 7 )). 235 141.

(54) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2021. 表 3 注視対象変化時において 8 秒間の顔回転角が 180 度を超過したものを除外した結果（括弧内は除外前の値）. Table 3 Effect of exclusion of the cases accompanied by over-180-degrees gazedirection change within 8s. 実験参加者誤検出数*. A 0(4). B 2(7). C 1(10). D 1(4). E 3(18). 誤検出以外の回数. 9(22). 10(19). 42(62). 24(36). 7(24). 総情報提供回数. 9(26). 12(26). 43(72). 許容度 1,2 の割合 33.3%(27.0%) 41.7%(53.8%) 11.6%(20.8%) *顔を検出できているが方向を大きく間違えている場合. 要因を反映する総合的なデザインによって，よりユーザに許容される能動的情報提供エージェントが実現されるものと期待される．. 6.. まとめ. 本研究では，スマートディスプレイ等による家庭内での能動的な音声情報提供の実現に向けて，活動遷移時は情報提供が許容されるとの仮説のもと，移動や注視対象変化を検出して仮想キャラクタがネットニュースを提供するシステムを試作し，独居者 5 名を対象に日常生活場面での情報提供実験を行った．その結果，移動時はおおむね提供に適しており，仮説が支持された．他方，頭部の方向変化を用いて検出した注視対象変化時は，実際には注視対象が変化していない場合などを含むため，移動時よりも不適切な場合が多く含まれる結果となった．しかし，注視対象変化は発生頻度が高いため，スマートフォン利用中の姿勢変化に伴う頭部運動などに起因する誤判定が低減されれば，情報提供機会の適切な指標となる可能性が期待される．活動遷移のより確実な検出方法に加えて，対象ユーザの拡大，さらに提供する情報にあわせたタイミングや提供方法の総合的な設計などが今後の課題である．謝辞活動遷移検出の基礎となる人検出プログラムを提供いただいた藤本雄一郎助教（現奈良先端科学技術大学院大学），ならびにシステムに関して有益な議論をいただいた KDDI 総合研究所田坂和之氏，柳原広昌氏に感謝する．. 参考文献 [1] Luria, M., Hoffman, G., Zuckerman, O.: Comparing Social Robot, Screen and Voice Interfaces for Smart-Home Control; Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 580-592 (2017). [2] Vtyurina, A., Fourney, A.: Exploring the Role of Conversational Cues in Guided Task Support with Virtual Assistants; Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, 208 (2018). 236 142. ( (102 8 )). 25(40). 10(42). 0.0%(10.0%). 0.0%(11.9%). [3] Sciuto, A., Saini, A., Forlizzi, J., Hong, J.I.: “ Hey Alexa, What ’s Up? ”: A Mixed-Methods Studies of In-Home Conversational Agent Usage; Proceedings of the 2018 Designing Interactive Systems Conference, pp. 857-868 (2018). [4] Linden ,G., Smith, B., York J.: Amazon.com Recommendations: Item-to-Item Collaborative Filtering; IEEE Internet Computing, Vol 7, No. 1, pp. 76-80 (2003). [5] Billsus, D., Brunk, C.A., Evans, C., Gladish, B., Pazzani, M.: Adaptive Interfaces for Ubiquitous Web Access; Communications of the ACM, Vol. 45, No. 5, pp. 34-38 (2002). [6] Cumin, J., Lefebvre, G., Ramparany, F., Crowley, J.L.: Inferring Availability for Communication in Smart Homes Using Context; Proceedings of the IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom), pp. 1-6 (2018). [7] Vastenburg, M.H., Keyson, D.V., Ridder, H.De.: Considerate home notification systems: a field study of acceptability of notifications in the home; Personal and Ubiquitous Computing, Vol. 12, Issue 8, pp. 555-566 (2008). [8] Iqbal, S.T., Bailey, B.P.: Investigating the effectiveness of mental workload as a predictor of opportune moments for interruption; Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 1489-1492 (2005). [9] Tanaka, T., Abe, R., Aoki, K., Fujita, K.: Interruptibility Estimation Based on Head Motion and PC Operation; International Journal of HumanComputer Interaction, Vol. 31, Issue 3, pp. 167-179 (2011). [10] Okoshi, T., Tsubouchi, K., Taji, M., Ichikawa, T., Tokuda, H.: Attention and EngagementAwareness in the Wild: A Large-Scale Study with Adaptive Notifications; Proceedings of the IEEE International Conference on Pervasive Computing and Communications (PerCom), pp. 100-110 (2017). [11] 藤本雄一郎, 永澤由基, 徐建鋒, 田坂和之, 柳原広昌, 藤田欣也: 音声によるプッシュ型情報提供にむけた身体動作に基づく情報的機会の推定可能性; ヒューマンインタフェースシンポジウム予稿集, 7D1-5 (2017). [12] 小森光月, 藤本雄一郎, 徐建鋒, 田坂和之, 柳原広昌, 藤田欣也: 独居者宅内での行動遷移に基づく音声情報提示機会の推定にむけた実験的検討; ヒューマンインタフェースシンポジウム予稿集, 6C1-2 (2018). [13] Nakanishi J., Baba J., Kuramoto I., Ogawa K., Yoshikawa Y., Ishiguro H., :Smart speaker vs. social robot in a case of hotel room; Proceedings of the 2020 IEEE/RSJ International Conference on.

(55) 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの検討. [14]. [15] [16]. [17]. [18]. [19]. [20]. [21]. [22]. [23]. [24]. [25]. Intelligent Robots and Systems (IROS ’20), pp. 11391-11396 (2020). Porcheron, M., Fischer, J.E., Reeves, S., Sharples, S.: Voice Interface in Everyday Life; Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 640 (2018). 山田誠二: 人とロボットの＜間＞をデザインする; 東京電機大学出版局 (2007). Saunderson, S., Nejat, G.: How robots influence humans: A survey of nonverbal communication in social human-robot interaction; International Journal of Social Robotics, Vol. 11, No. 4, pp. 575608 (2019). Paiva, A., Leite, I., Boukricha, H., Wachsmuth, I.: Empathy in virtual agents and robots; ACM Transactions on Interactive Intelligent Systems, Vol.7, No.3, pp. 1-40 (2017). Smith, H.J., Neff, M.: Communication Behavior in Embodied Virtual Reality; Proceedings of the CHI Conference on Human Factors in Computing Systems, 289 (2018). Admoni, H., Weng, T., Hayes, B., Scassellati, B.: Robot nonverbal behavior improves task performance in difficult collaborations; Proceedings of the ACM/IEEE International Conference on Human-Robot Interaction (HRI), pp. 51-58 (2016). Aly, A., Tapus, A.: A model for synthesizing a combined verbal and nonverbal behavior based on personality traits in human-robot interaction; Proceedings of the 8th ACM/IEEE International Conference on Human-Robot Interaction (HRI), pp. 325-332 (2013). Andrist, S., Gleicher, M., Mutlu, B.: Looking Coordinated: Bidirectional Gaze Mechanisms for Collaborative Interaction with Virtual Characters; Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 2571-2582 (2017). Ochs, M., Pelachaud, C.: Model of the perception of smiling virtual character; Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems, pp. 87-94 (2012). Hartmann, B., Mancini, M., Pelachaud, C.: Implementing expressive gesture synthesis for embodied conversational agents; Proceedings of the 6th international conference on Gesture in HumanComputer Interaction and Simulation, pp. 188-199 (2005). Noda, K: Google Home: smart speaker as environmental control unit; Disability and Rehabilitation Assistive Technology, Vol. 13. No.7, pp. 674-675 (2018). 川口一画, 葛岡英明, マクミランドナルド: スマートスピーカにおける注視の入出力を用いたインタラクションの効果; ヒューマンインタフェース学会論文誌, Vol.. 21, No. 3, pp. 269-278 (2018). [26] 板敷尚, 西脇裕作, 大島直樹, 岡田美智男: なぜスマートスピーカはよそよそしいのか？ロボットとの親近感を生み出す代名詞の役割; ヒューマンインタフェース学会論文誌, Vol. 22, No. 2, pp.65-76 (2020).. [27] Li, C., Yanagisawa, H.: Intrinsic motivation in virtual assistant interaction; International Symposium on Affective Science and Engineering, pp. 1-5 (2019). [28] Takemae, Y., Chaki, S., Ohno, T., Yoda, I., Ozawa, S.: Analysis of Human Interruptibility in the Home Environment; CHI ’07 Extended Ab( (103 9 )). [29]. [30]. [31]. [32] [33]. [34]. stracts on Human Factors in Computing Systems, pp.2681-2686 (2007). 田中貴紘, 深澤伸一, 竹内晃一, 野中雅人, 藤田欣也: 業務従事者を対象とした PC 作業時の割り込み拒否度推定法の検討; 情報処理学会論文誌, Vol.53, No.1, pp. 126-137 (2012). Banerjee, S., Silva, A., Feigh, K., Chernova, S.: Effects of Interruptibility-Aware Robot Behavior; arXiv preprint arXiv:1804.06383 (2018). 仲澤悠太, 藤江律也, 徐建鋒, 田坂和之, 柳原広昌, 藤田欣也: 仮想キャラクタを用いたユーザの活動状態に基づく生活情報の能動的提供システム; ヒューマンインタフェース学会研究報告集, Vol. 22, No. 1, pp 11-18 (2020). グノシー, https://gunosy.com/ (Access in September 2020). 西澤信行, 小原朋広, 菅谷史昭: 組み込みシステム向け日本語テキスト音声合成ソフトウェア, 情報処理学会研究報告, VoL2017-SLP-118, No.7, pp. 1-8 (2017). 藤江律也, 仲澤悠太, 徐建鋒, 田坂和之, 柳原広昌, 藤田欣也: 自宅での仮想キャラクタによる能動的情報提供が許容されるタイミングの実験的検討; ヒューマンインタフェースサイバーコロキウム予稿集, 1B4-4 (2020).. （2020 年 11 月 10 日受付，2021 年 2 月 15 日再受付）. 著者紹介藤江. 律也 2019 年東京農工大学大学工学部情報工学卒業．現在，同大学院博士前期課程在学中．エージェントによる在宅ユーザへの能動的情報提供の研究に興味を持つ．能動的情報提供に適したタイミングの検討に従事．. 仲澤. 悠太 2020 年東京農工大学大学工学部情報工学卒業．現在，同大学院博士前期課程在学中．エージェントによる在宅ユーザへの能動的情報提供の研究に興味を持つ．能動的情報提供に適したエージェントの外観や挙動，および提供情報の検討に従事．. 徐. 建鋒 2001 年中国清華大学工学部卒業．2004 年同大学大学院修士課程修了．2007 年東京大学大学院博士課程修了．同年（株）KDDI 研究所入社．現在，（株） KDDI 総合研究所メディア認識グループ研究主査．主に画像認識や行動解析，コンテキスト理解の研究開発に従事．博士（工学）．. 237 143.

(56) ヒューマンインタフェース学会論文誌. Vol.23, No.2, 2021. 小森田賢史 2006 年東京大学大学院情報理工学系研究科電子情報工学専攻修士課程修了．同年 KDDI 株式会社入社．移動体通信技術の研究開発，IEEE 標準化，移動体端末開発，画像認識にかかわる研究開発に従事．現在，株式会社 KDDI 総合研究所メディア認識グループ・グループリーダー．2013 年電子情報通信学会学術奨励賞．電子情報通信学会会員．. 内藤. 整 1996 年早稲田大学大学院理工学研究科修了．同年国際電信電話株式会社 (現 KDDI) に入社．現在，株式会社 KDDI 総合研究所執行役員 (メディア ICT 部門担当)．映像伝送およびマルチメディア信号処理に関わる研究開発に従事．映像情報メディア学会調査理事，同学会 MTA 副委員長，情報処理学会オーディオビジュアル複合情報処理研究会 (AVM) 主査を歴任．博士 (国際情報通信学)．. 藤田. 欣也. （正会員） 1988 年慶應義塾大学大学院理工学研究科修了．相模工業大学，東北大学医学部，岩手大学を経て，現在東京農工大学大学院教授．知的生産性の向上にむけたオフィス作業者の状況推定や情報通知の制御，テレワーク支援システムなど，人と共生する知的情報システムのためのヒューマンインタフェースの研究に従事．バイオメカニズム学会理事，日本バーチャルリアリティ学会理事，本学会理事，副会長などを歴任．工学博士．. （C）NPO法人ヒューマンインタフェース学会. 238 144. ((104 10 )).

(57)