一人称ライフログ映像からの
顔検出に基づいた社会活動計測
公立はこだて未来大学大学院 システム情報科学研究科
知能情報科学領域
奥野 茜
指導教員 角 康之 提出日 2019年3月15日Master’s Thesis
Social Activity Measurement by Counting Faces
Captured in First-Person View Lifelogging Video
by
Akane Okuno
MSc Thesis at Future University Hakodate
Supervisor Prof. Yasuyuki Sumi
The Field of Intellectual Information Science Future University Hakodate
study, the value obtained by integrating the face-to-face engagement level in the time direction is defined as the social activity amount and we measure it. We propose a method to measure the social activity that is engagement with people by counting faces captured in first-person lifelogging video. Originally, the pedometer was an instrument to count steps. As a result of advances in technology to recognition patterns of fluctuations in body motion, list band type activity meters (Fitbit, Jawbone, etc.) are able to identify walking, jogging, etc. mostly. We aim to realize a face-meter that keeps track of changes in face-to-face engagement based on the time pattern and records daily social activity. We propose a simple method to measure the daily face-to-face social activity by detecting the face captured in the first-person view lifelogging video. If we only count the number of faces, we treat encounters with other people in crowds and close dialogue with specific persons in the same way. Thus, we propose that count the faces separately with distance and time continuity. We examined the contents of situation tends to feel that the amount of social activity is large by subjective evaluation experiment. In this paper, we discuss the effectiveness and issue of quantifying face-to-face engagement level based on face detection in terms of inclusiveness of multiple active behavior without detailed sensing. Additionally, we report on a camera angle of view and measurement of diagonal or side by side close distance dialogue. We also report on application to daily social activity record system.
Keywords: Social activity measurement, first-person view video, lifelogging, face detection, quantified self.
量と定義して計ることに取り組む.対面時の参与度を簡素な方法で定量化することを目的として, 一人称ライフログ映像中の顔を検出してカメラ装着者の社会活動を計測する手法を提案する.歩数 計は従来,歩数を数え上げるものであった.現在では,身体動作の揺れのパターンを計測する技術 が進み,リストバンド型の身体活動量計として,歩行,ジョギング,睡眠などを凡そ認識できるよ うになり,日々の行動を長期的に記録することが可能になった.本研究では,カメラを胸に身につ けて行動することで人との対面時に映り込む顔を数え上げ,日々の社会活動を計測する.しかし, 顔の個数を数え上げるだけでは,雑踏での他者との遭遇や,特定の人物との密な対話を同一に扱っ てしまう.そのため,距離の近さと時間継続性により重み付けをすることで,対面的な社会活動の 種類を数え分けることを行う.対面時の発話量やジェスチャなどの詳細な計測をせずに,映り込む 顔の検出パターンに基づいてカメラ装着者の参与度を定量化し,日々の対面的な社会活動を数え分 けて計測することが本研究の特徴である.社会活動量が多いと感じる傾向がある状況を主観評価実 験から調べた.結果から,発話やジェスチャそのものを計測せずに,カメラ装着者が主体的な行動 をした際に向く相手の顔を検出することで社会活動量を計測できることが示唆された.加えて,直 に人と関わり合う社会活動量の主体性を考慮して計測するためには,距離の近さと時間継続性を考 慮することが重要であることがわかった.また,カメラの画角を広げることで,立ち位置が正面で はない対面時の参与度の計測を改善できることが示唆された.最後には,一人称ライフログ映像か らの顔検出に基づいて日々の対面的な社会活動を計測した結果を可視化するシステムへの応用を検 討した.日々の行動から対面的な社会的活動を数え分けて計測した結果を数値やグラフとして可視 化すると,1 日や 1 週間の中で,人と対面するだけでなく対話する量を時間帯や曜日に紐付けて客 観的に把握することができる.生活の中で意識することが難しい自身や他者の対面的な人との関わ り合い方の傾向を知る手掛かりになると考える. キーワード: 社会活動計測,一人称視点映像,ライフロギング,顔検出,自己定量化
目 次
第1章 はじめに 1 1.1 研究の目的 . . . . 1 1.2 論文の構成 . . . . 2 第2章 関連研究 3 2.1 非視覚情報からの社会的相互作用の理解 . . . . 3 2.2 一人称視点映像からの社会的相互作用の理解 . . . . 3 2.3 客観的情報がメタ認知に与える影響の理解 . . . . 4 第3章 一人称ライフログ映像からの顔検出に基づいた社会活動計測 5 3.1 提案手法の概要 . . . . 5 3.2 一人称ライフログ映像:対面する相手の顔の映り込み . . . . 5 3.3 顔検出に基づいた社会活動計測:密な対話,瞬間的な関わり . . . . 6 3.4 参与度の計算モデル:検出される顔ごとの大きさと時間継続性 . . . . 7 3.5 長時間の様々な対面シーンの定量化:大学構内と飲食店での社会活動計測 . 8 3.6 短時間の様々な対面シーンの定量化:ポスターセッションでの社会活動計測 9 第4章 対面的な社会活動への参与度に関する主観評価実験 11 4.1 実験の目的 . . . 11 4.2 評価手法 . . . 11 4.2.1 実験用データの収集 . . . 11 4.2.2 実験の参加者 . . . 12 4.2.3 順序尺度による主観評価の定量化 . . . 12 4.2.4 主観評価と顔検出に基づいた評価の順序による整合性の比較 . . . . 12 4.3 実験の結果 . . . 13 4.3.1 結果の概要 . . . 13 4.3.2 評価者間で主観評価が合致していた状況 . . . 13 4.3.3 評価者間で主観評価が合致していなかった状況. . . 16 4.4 実験の結果に関する考察 . . . 16 4.4.1 対面時の主体的な行動と社会活動量の多さの関係 . . . 16 4.4.2 対面時の距離の近さと時間継続性を考慮する必要性 . . . 16 4.4.3 社会活動量の多さの評価に個人差が生じる状況と提案手法の限界. . 17 4.4.4 斜めや隣り合わせの対話の顕著性と半球カメラの必要性. . . 17第5章 対話相手の立ち位置に対する対処と議論 18 5.1 一人称ライフログ映像に用いるカメラの画角の改善 . . . 18 5.2 日々の行動から計測された斜めや隣り合わせの対話 . . . 19 5.2.1 作業中の対話 . . . 19 5.2.2 食事中の対話 . . . 20 5.2.3 自身と相手で姿勢が異なる対話 . . . 20 5.3 斜めや隣り合わせの対話の計測に関する考察 . . . 21 第6章 日々の対面的な社会活動を可視化するシステムへの応用の検討 22 6.1 システムの目的 . . . 22 6.2 システムの機能 . . . 23 6.2.1 対面的な社会活動のラベリング . . . 23 6.2.2 対面的な社会活動量のゲージ . . . 23 6.2.3 1日単位での振り返り . . . 24 6.2.4 週単位での振り返り . . . 25 6.3 対面的な社会活動を可視化するシステムへの応用に関する考察 . . . 26 第7章 おわりに 27 7.1 まとめ . . . 27 7.2 今後の展望 . . . 27
第
1
章 はじめに
1.1
研究の目的
個々人が身に着けたカメラに映り込んだ顔を数え上げることで,日々の社会活動量を計 ることができるかというのが本研究のアイディアである.本研究では,人との対面時の参 与度を時間方向に積分した値を社会活動量と定義して計ることに取り組む.対面時の参与 度を簡素な方法で定量化することを目的として,一人称ライフログ映像中の顔を検出して カメラ装着者の社会活動を計測する手法を提案する. 歩数計は従来,歩数を数えるものであった.身体動作の揺れのパターンを計測する技術 が進み,リストバンド型の身体活動量計(Fitbit,Jawboneなど)は,歩行,ジョギング などを凡そ認識できるようになり[9],ライフロギングデバイスとして活用されるように なった.数万人単位のユーザのデータを集約・比較することで,個々人の運動量や睡眠量 の客観視が簡便化され,そのことが,運動への動機づけを促進している.歩数計が運動時 の加速度の変化を積み重ねて日々の身体活動量を記録するのと同様,対面時の参与度の変 化を積み重ねて日々の社会活動量を記録する顔数計を実現することを目指す. 本研究は,カメラを胸に身につけて行動することで,人と対面する際に映り込む相手 の顔を数え上げ,カメラ装着者の参与度を推定し,日々の社会活動を計測する手法を提案 する.カメラを装着して行動することで,図1.1のように様々な対面シーンが一人称ライ フログ映像に映り込む.例えば,対話をするとき,雑踏を通り抜けるときに人と対面する ことがわかる.しかし,顔の個数を数え上げるだけでは,雑踏での他者との遭遇や,特定 の人物との密な対話を同一に扱ってしまう.そのため,距離の近さと時間継続性により重 み付けをして,対面的な社会活動の種類を数え分けることを行う.対面時の発話量やジェ スチャなどの詳細な計測をせずに,映り込む顔の検出パターンに基づいてカメラ装着者の 参与度を定量化し,日々の対面的な社会活動を数え分けて計測することが本研究の特徴で 図1.1: 一人称ライフログ映像に対面者の顔が映り込むシーンの例ある. カメラ装着者の対面時の参与度と相手の振る舞いの関係を調べ,提案手法の有効性につ いて考察する.社会活動量が多いと感じる傾向はどのような状況か,顔検出に基づいて社 会活動量を計ることができるかについて示す.提案手法の有効性のほかに明らかになった 課題を示し,改善を検討する. 加えて,日々の対面的な社会活動を可視化するシステムへの応用を検討する.対面的な 社会活動を客観視可能にすることで,生活の中で意識することが難しい対面的な人との関 わり合い方の傾向を知る手掛かりになると考えている.そして,特定の人と直に向き合う 時間や,逆に一人で過ごす時間を大切にする動機付けにつながると考えている.さらには, 対面的な社会活動の充実感の向上あるいは孤独感や疲労感の軽減といった社会的健康[11] に向けた行動変容につながることを期待している.システムの機能を示し,現状と課題に ついて考察する.
1.2
論文の構成
第2章では,本研究の立ち位置と意義を示す.人の社会的相互作用の理解に関する研究 と客観的な情報によるメタ認知に関する研究について述べる.第3章では,人との対面時 の参与度を簡素な方法で定量化する手法を示す.一人称ライフログ映像中の顔を検出して カメラ装着者の社会活動を計測する.第4章では,詳細なセンシングをせずに一人称ライ フログ映像からの顔検出に基づいて人との対面時の参与度を定量化する手法の有効性と課 題について示す.社会活動量が多いと感じる傾向がある状況を主観評価実験から調べ,顔 に基づいた評価と主観評価の整合性を比較し,考察する.第5章では,対話相手の立ち位 置に対する対処と議論について示す.カメラの画角の改善から得た計測結果について考察 する.第6章では,日々の対面的な社会活動を可視化するシステムへの応用について示す. システムを使用して得られた結果について考察する.第7章では,結論を示す.提案手法 の有効性,課題,限界,今後の展望について述べる.第
2
章 関連研究
2.1
非視覚情報からの社会的相互作用の理解
個人および集団の社会的相互作用を理解する試みは,これまでに認知心理学や言語学な どの分野で行われてきた.一方,センサやネットワーク技術を活用して,日々の行動から 得られる現象を定量化および客観的に解釈する試みが新たに加わった.個人および集団の 社会的相互作用を非視覚情報から認識する技術は,これまで多くの研究でされている.例 えば,加速度センサから運動[22],スピーカから音声[21],Bluetoothから人への接近[7], IRセンサから対面対話の認識[4]を行うことで,様々な社会的側面を組み合わせて計測し, 生産性および職務満足度などの結果を予測している[23].一方で,会話場を検出する技術 [20]では,ネットワークモジュールとマイクを備えたモバイル端末を用いて単純なアルゴ リズムと軽量プロセスで動作することを可能としている.モバイル端末を用いて対面対話 時の発話を計測する技術[18]では,単純な発話情報の解釈をより深く探究することの可能 性を示している.また,眼鏡に近接センサを組み込み皮膚変形から表情を日常的に計測す る技術[19]では,複数の入力情報を機械学習することで表情という複雑な状況をライフロ グとして記録することを可能としている.さらには,仮想空間上の長期的な大量の情報を 用いた社会的相互作用の認識[25]も行われている. 日々の行動には様々な社会的側面があり,目的や応用範囲に応じて重要な情報を認識す る必要性がある.本研究では,対面する人の顔の振る舞いに着目して,対面時の参与度を 認識する.対面時の参与度を時間方向に積分することで,日々の対面的な社会活動への参 与度を計測できると考える.2.2
一人称視点映像からの社会的相互作用の理解
一人称視点映像から社会的相互作用を認識するための技術に関しても,これまでに研究 がされている.例えば,対面する相手の顔の位置および向きから相手の視線を計算し,対 話の3D空間へのマッピングやヒートマップの作成,さらに複数人での計測からグループ 内での役割の推定をしている[8].一方でカメラ装着者自身の動きの計測から社会的な状 況を認識する研究もされている[27].例えば,グループ会話のような複数人のカメラ装着 者が対面しているときの互いの頭の動きの相関を計算することで,カメラ装着者自身の顔 の位置を特定することを可能としている[29].頭部方向の親和性を社会的相互作用の距離 と定義することで,グループ会話の識別を可能としている技術もある[2]. カメラを装着して行動すると,カメラ装着者の周囲および装着者自身の様々な社会的相 互作用を理解することができる.ウェアラブルカメラが生活の中で利用される機会が増え ており,プライバシーの問題に焦点を当てた研究も多くされている[17, 12].本研究では,カメラ装着者の方向を向く顔を手掛かりに,カメラ装着者自身の対面時の参与度を定量化 して,日々の対面的な社会活動を数え分けて計測する.個人の顔を特定せず正面を向く顔 が検出される結果だけを利用するため,設計の簡素化やプライバシーの観点から日々の生 活の中で扱いやすいと考える.
2.3
客観的情報がメタ認知に与える影響の理解
一人称視点映像を用いて,自己中心的かつ客観的な情報を取り入れ自己の認知を拡張す る研究がされている.例えば,記憶障碍者の記憶の補いを支援する研究[10],日々の食生 活の管理を支援する研究[24]がある.加えて,客観的な情報がメタ認知に与える影響は実 証的に調べられてきた.例えば,視覚情報は詳細な記憶の想起を促進する一方で,位置情 報は推論的プロセスを促進すると報告されている[14].また,自己の認知は時間が経つと 変化するため,メタ的視点の情報が体験の振り返りに役立つと報告されている[26].一方, 他者の一人称視点映像を用いて自己の知覚の拡張[16, 15]の研究もされている.さらに, 社会的相互作用を計測した結果をもとにフィードバックを与えて支援する研究もされてい る.例えば,ARグラスを用いて装着者の非言語情報を認識して発表者のパフォーマンス の質を向上するための研究[5]や,モバイル端末で社会的相互作用を計測して運動のモチ ベーションにつなげる研究[1]がある. 本研究では,一人称ライフログ映像からの顔検出に基づいて日々の対面的な社会活動を 数え分けて計測する.客観視可能にすることで,日々の生活の中で意識することが難しい 対面的な人との関わり合い方の傾向を知る手掛かりになることを期待している.一人称ラ イフログ映像からの顔検出に基づいて日々の対面的な社会活動を計測する簡素な手法を提 案し,応用例として日々の対面的な社会活動を可視化するシステムを示す.第
3
章 一人称ライフログ映像からの顔検出に
基づいた社会活動計測
3.1
提案手法の概要
本研究では,人との対面時の参与度を時間方向に積分した値を社会活動量と定義して計 ることに取り組む.一人称ライフログ映像からの顔検出に基づいて,直に人と対面すると きのカメラ装着者の参与度および社会活動量の定量化を行う(図3.1参照).日々の生活の 中で人と遭遇する量や対話する量を,顔検出に基づいてカメラ装着者の参与度から推定し, 対面的な社会活動を数え分けて計測する簡素な手法を提案する. 図3.1: 一人称ライフログ映像からの顔検出に基づいた社会活動計測3.2
一人称ライフログ映像:対面する相手の顔の映り込み
本研究では,カメラを装着して行動することで得られる長期的な一人称視点映像を,一 人称ライフログ映像と呼ぶ.図1.1のように,様々な対面シーンが一人称ライフログ映像 に映り込む.例えば,対話をするときや雑踏を通り抜けるときに人と対面することがわか る.そこには対面する相手の顔が映り込む.カメラを胸に身につけて行動することで,カ メラ装着者が人と対面する際に映り込む相手の顔を数え上げて参与度を推定し,日々の社 会活動を計測する簡素な手法を提案する. カメラは,図3.1のように胸の部分に装着する.頭部にカメラを装着すると,カメラ装 着者が頷いたときや頭部方向が移動した際に映像が安定しないため,対面する相手の顔を 捉えることが難しい.そのため,胸の部分にカメラを装着することで安定した映像を記録 して,対面する相手の顔を検出する. なお,現在は研究における分析のために映像を全て記録しているが,実際に利用すると きには画像処理された結果および数値のみを記録しスマートフォンなどで振り返ることを 想定している.カメラは,自然なセンシングが可能になるくらい小さくなると考えている.3.3
顔検出に基づいた社会活動計測:密な対話,瞬間的な関わり
本研究では,人との対面時の参与度を時間方向に積分した値を社会活動量と定義して計 ることに取り組む.顔の個数を数え上げるだけだと,雑踏での他者との遭遇や特定の人物 との密な対話を同一に扱ってしまう.そのため,距離の近さと時間継続性で重み付けをす ることで,カメラ装着者の参与度を推定し,対面的な社会活動を数え分けて計測する.社 会活動量は,フレームごとに人数,距離の近さ,時間継続性をもとに算出された値の時間 積分とする.社会活動量の計算の詳細については3.4章で述べる. 図3.2は,顔の個数を数え上げる方法と,顔の大きさと時間継続性を考慮する提案手法 で対面時の参与度を定量化し,社会活動量を計算した結果の例である.例えば,図 3.2の S1ような一対一で特定の人物と近い距離で対話をしている状況,S2のような多人数で立 食時に対話をしている状況,S3のような人混みの中で瞬間的に人と関わり合う状況を考 慮して社会活動量を計算することができる. 顔の個数を数え上げる方法では,約20秒間の社会活動量の累計はS1< S2≈ S3の順番 になるが,提案手法ではS3< S2≈ S1となる.S2のt + 9フレーム目やS3のt + 2フレー ム目のように,対話相手がカメラ装着者の方を向き続けている状況と向き続けていない状 況が混在しているシーンを考慮する.これにより印象に近い社会活動量を求めることがで きるのではないかと考え計算式を作成した. 図3.2: 社会活動計測の結果の例:一対一対話,一対多対話,瞬間的な人との関わり 顔検出には,カーネギーメロン大学が開発したOpenFace[3]を用いた.中で使われてい るdlibライブラリでは,フレーム間で同一人物の顔と推定されたものを追跡する機能があ る[6].そこで本研究では,同一人物の顔を連続検出した場合にその相手との継続的な社会 的相互作用と解釈することにした.真横を向く顔や後頭部は検出せずに,正面を向く顔の みを検出する.設計の簡素化やプライバシーの観点から,個人の顔を特定せず顔検出結果だけを利用している.
3.4
参与度の計算モデル:検出される顔ごとの大きさと時間継続性
カメラ装着者の対面的な社会活動への参与度である社会活動量は,フレームごとに人数, 距離の近さ,時間継続性をもとに算出された値の時間積分とする.具体的には,ある時刻 tの社会活動量Sは式(3.1), (3.2)で計算する(図3.3参照).顔の大きさDiは,撮影画 面全体に占めるその顔の大きさである.映り込んだ顔ごとに、その大きさと時間持続性で 重み付けすることで、より近くに対面し、かつ、継続的な社会的相互作用を重視する. 1フレームごとに,検出された顔ごとの大きさとその時点での時間継続性の積を求め, それらを累積する.そして時間積分することで,例えば,1日全体の社会活動量を計った り,ある特定のシーンを時間的に切り出して,そのシーンの社会活動量を評価することが 可能になる. 図 3.3: 検出された顔ごとの大きさと時間継続性の計算 S = m ∑ t=1 n ∑ i=1 Ti(t)· Di(t) (3.1) i:検出された顔の識別番号, Ti(t):時間継続性(同一顔の検出継続フレーム数), Di(t):顔の大きさ(画面全体に占める顔の面積), m:時刻tまでの計測フレーム数(経過時間), n:時刻tまでの累計人数(顔の個数) Di= wi· hi R · 100 (3.2) wi:検出顔iの幅, hi:検出顔iの高さ, R:画面解像度(pixel). 検出された顔の識別番号iは,新たな顔を検出する度に新しく発行するIDを利用する. あるフレームで新たに検出された顔は,それぞれ異なるIDが発行される.一方、直前の フレームで検出された顔と同一人物と判定された顔には同じIDが付与される.ただし,3 フレーム以上の未検出フレームが間に割り込んだ際は,同一人物の顔でも別の新しいID が発行される.この性質を利用して,同一IDが連続フレームで検出された場合には,そ のIDのTiをカウントアップしていき,時間持続性として利用することとした.なお,す べてのTiは1からスタートする.
3.5
長時間の様々な対面シーンの定量化:大学構内と飲食店での社
会活動計測
大学構内と飲食店で発生する長時間の様々な対面シーンを定量化できる.提案手法から 約12時間の行動を1秒おきに計測して得られた社会活動量の結果を図3.4に示す.夜の 時間帯の食事中の対話だけでなく,昼や夕方の一対一対話の値も高く評価することができ る.実生活の中では,時間の間隔が様々である.つまり,図3.4の昼や夕方のような密な 対話や,夜の長時間の雑多な対話が起こる.夜の食事中の対話の値は,常に高い訳ではな い.それは,必ずしも相手の顔が,端の席にいるカメラ装着者の方向を向き続ける訳では ないからである.提案手法では,これらのような様々な対面シーンを,顔の大きさと時間 継続性によってカメラ装着者の参与度を推定することで計測する. 図3.4: 長時間の様々な対面シーンの定量化:大学構内と飲食店での社会活動計測3.6
短時間の様々な対面シーンの定量化:ポスターセッションでの
社会活動計測
ポスターセッションで発生する短時間の様々な対面シーンを定量化できる.提案手法 から約1.5時間の行動を10秒おきに計測して得られた社会活動量の結果を図3.5に示す. 図3.5は発表者としてポスターセッションに参加していた人物Dから得られた.時間継続 性と顔の個数によって,4つの状況に分けてプロットした(詳細は6.2.1章を参照).社会 活動量と顔の個数のグラフを見比べてみると,一対一での対話が提案手法によって高く評 価されていることがわかる.ラベル付けされている箇所と実際の場面を見比べてみると, 一対一で対面対話をしている場面と,一対多で少し距離をおいて対面対話をしている場面 が区別されている.また,通りすがりの1名が一瞬検出されている.距離の近さと持続性 の観点から結果を見てみると,距離は常に幅広く変動していたが,持続性は一定の場面の みで変動している.つまり,持続性を考慮して社会活動のラベル付けをすることで対面コ ミュニケーション場面を抽出できていると考える.また,社会活動量は,距離の近さと持 続性の両方を互いに補うように機能しており,提案手法が意図しているような結果が得ら れていると考える.第
4
章 対面的な社会活動への参与度に関する
主観評価実験
4.1
実験の目的
社会活動量が多いと感じる傾向がある状況を主観評価実験から調べる.そして,詳細な センシングをせずに一人称ライフログ映像からの顔検出に基づいて人との対面時の参与度 を定量化することの有効性と課題について議論する.以下の2つの問いを明らかにする. • 人はどのような状況に対して社会活動量が多いと感じる傾向があるのか? • 個々人が身に着けたカメラに映り込んだ顔を数え上げることで,日々の社会活動量 を計ることができるか?4.2
評価手法
4.2.1
実験用データの収集
2017年3月に参加した学会で記録した一人称ライフログ映像を使用した.学会では,ポ スターセッションとデモセッションが行われている.そのため,数時間の間に様々な種類 の社会的相互作用が発生していると考えた.実験者が,前半と後半を合わせて約2時間の 一人称ライフログ映像のうち,前半の約1.5時間のシーンから10個の1分間の映像を一 様的に抽出した(表4.1). 表4.1: 約1.5時間のシーンから10個の1分間の映像を一様的に抽出 Video contents A 廊下を一人で歩いて移動 B 雑踏の中を移動して,発表者がいる場所に移動 C 発表者と対話をした後,雑踏の中を移動 D 展示を体験しながら,発表者と対話 E 人物P1と対話 F 人物P1と他の人物との複数人で対話 G 遠くから発表者の話を聞く H 人物P1と遭遇をしたのち,短い対話 I 発表者と聞き手の話を背後から聞く J 多くの聴衆と一緒に,遠くから発表者の話を聞く表4.2: 主観評価実験の参加者 参加者 本人 P8 対話者 P1 第三者 P2,P3,P4,P5,P6,P7
4.2.2
実験の参加者
8名の一人称ライフログ映像のうち,ポスターセッションとデモセッションに参加して 見てまわっていたカメラ装着者の中で,互いに居合わせていた時間帯が複数あった参加者 P8の映像を使用した.これは以下の3つの視点から社会活動量への印象を比較するため である. • カメラ装着者である本人視点 • 互いに居合わせていた対話者視点 • 互いに居合わせていなかった第三者視点 評価者は,1名の本人,1名の対話者,6名の第三者視点の合計8名とした(表4.2).6 名の第三者視点の中には,当日に近くにいたが偶然居合わせていなかった人と,その場に 全く居合わせていなかった人の両方が含まれている.4.2.3
順序尺度による主観評価の定量化
主観評価実験の参加者である評価者に,10個の一人称ライフログ映像を全て視聴し,社 会活動量が少ない順に「<, =」の2つの記号を使って並び替えることを教示した.その際 に,並び替え順を間違えないように0から100の数値のメモと判断基準について記述する ことも合わせて教示した.映像が社会活動量が少ない順に並び替えられた順序の距離を用 いて,社会活動量の多さに関する主観評価を定量化した.以上の手順により,人はどのよ うな状況に対して社会活動量が多いと感じる傾向があるのかを調べた.4.2.4
主観評価と顔検出に基づいた評価の順序による整合性の比較
複数人に並び替えられた映像の順序の距離を用いて定量化された社会活動量の多さに関 する主観評価と,顔検出に基づいて定量化された社会活動量の多さの評価の整合性を,順 序によって比較した.顔検出に基づいて定量化された社会活動量は,1秒おきに,顔の大き さと時間継続性を考慮する提案手法と,顔の個数のみで評価する手法で計算した.結果は, 定量化された主観評価の中央値順に並び替えて比較した.同列のときはアルファベット順 とした.以上の手順により,尺度が異なる各々の値の大きさではなく,値の順序によって 主観評価と顔検出に基づいた評価の整合性を調べた.そして,個々人が身に着けたカメラ に映り込んだ顔を数え上げることで,日々の社会活動量を計ることができるかを調べた.4.3
実験の結果
4.3.1
結果の概要
社会活動量が少ない順に並び替えられた10個の映像から得た主観評価結果を図 4.1に 示す.定量化された社会活動量の多さに関する主観評価(SE)と,提案手法(PM)および 顔の個数のみの計算(CF)から得られる社会活動量をプロットした.なお,順序を示すた めに尺度が異なる各々の値を最大値に合わせてプロットしている. 社会活動量が少ないシーン(A, I)や多いシーン(E, F)では主観評価が合致していた (図4.1参照).少し主観評価が分散しているが概ね合致しているシーン(G, J, C, H),主 観評価が大きく分散しているシーン(B, D)もあった. 会話や発話をしているほど社会活動量は多いと評価されていた.会話および発話をして いるシーンC,H,D,E,Fの実際の様子を確認してみると,対話相手の顔や体がカメラ装着 者の方向を向いていた. 提案手法で定量化した社会活動量は,シーンF,Jの主観評価と同じ順序になる値であっ たが,顔の個数を数える手法で定量化した社会活動量はシーンF, Jの主観評価と異なる 順序になる値であった. 一方,シーンH,D,Eでは両方の手法で定量化した社会活動量が,主観評価と異なる順 序になる値であった.映像を確認すると,カメラ装着者の対話相手が近づいたり立ち位置 が斜めになったときに顔が見切れていた. 以下の第4.3.2章,第4.3.3章に主観評価実験の結果とシーンの詳細について述べる.4.3.2
評価者間で主観評価が合致していた状況
社会活動量が少ないシーン(A, I)や多いシーン(E, F)では評価者間で主観評価が合致 していた(図4.1参照).評価者間で少し主観評価が分散しているが概ね合致しているシー ン(G, J, C, H)もあった. 対話や発話をしているほど社会活動量は多いと評価されていた.並び替えの判断基準で 多く見られた記述は,「会話に参加をしているか,発話をしているかどうか」であった.対 話および発話をしているシーンの実際の様子を確認してみると,対話相手の顔や体がカメ ラ装着者の方向を向いていた. カメラ装着者が対話者(P1)と一対一で短い対話をするシーンHと長い対話をするシー ンEでは,長い対話をするシーンの方が社会活動量が大きく評価された. 提案手法で定量化した社会活動量は,シーンF,Jの主観評価と同じ順序になる値であっ たが,顔の個数を数える手法で定量化した社会活動量はシーンF, Jの主観評価と異なる 順序になる値であった. また,シーンAでは両方の手法で主観評価と同じ順序になる値であった.シーンIでは, 提案手法で定量化した社会活動量が主観評価と異なる順序になる値であった.シーンG, Cでは,顔の個数を数える手法で定量化した社会活動量が主観評価と異なる順序になる値 であった. 一方,シーンH,D,Eでは両方の手法で定量化した社会活動量が,主観評価と異なる順 序になる値であった.映像を確認すると,カメラ装着者の対話相手が近づいたり立ち位置図4.1: 主観評価実験の結果:本人,対話者,第三者による10シーンの一人称ライフログ
映像の並び替えから定量化された社会活動量の多さへの評価(SE).提案手法(PM)および
が斜めになったときに顔が見切れていた. 以下に,評価者間で主観評価が合致していたシーン(A, I,E, F)の詳細について述べる. シーン A カメラ装着者が一人で階段を降りる.廊下で数人とすれ違う.人と対話をすること はなかった. シーン I 発表者と見学者が対話をしている背後から話を聞く.何度か周囲を見渡した後,移 動してポスターを読んだ.対話に直接的な参加はしなかった. シーン E カメラ装着者と対話者(P1)が一対一で会話をする.互いに発話や身振り手振りを交 えて対話をする.途中,距離が近づいたり立ち位置が斜めになることがあった.対 話相手の顔がカメラの画角に収まっていなく見切れているシーンがあった. シーン F カメラ装着者と対話者(P1)が一対一で対話をする.その後に1名が対話に加わる. 互いに発話や身振り手振りを交えて対話をする.3人で対話者(P1)が持つ冊子を見 て距離が近づく.一部,対話者(P1)の顔がカメラの画角に収まっていなく見切れて いるシーンがあった. 以下に,評価者間で少し主観評価が分散しているが概ね合致しているシーン(G, J, C, H)の詳細について述べる. シーン G カメラ装着者が遠くから発表者の方向を向いて話しを聞く.発表者は見学者の方向 を向いている.前半は隣に見学者が多くいた.後半は周囲を見渡す.対話や発話は しなかった. シーン J カメラ装着者が遠くから発表者の方向を向いて話しを聞く.発表者は見学者の方向 を向いている.カメラ装着者は他の見学者と向かい合う位置にいる.対話や発話は しなかった. シーン C カメラ装着者がデモを体験しながら発表者と対話をしている.互いに発話をしてい る.直接的な対話をしていないが,もう一人の発表者と見学者が近くにいる.その 場を離れるときには他の多くの見学者とすれ違った. シーン H 前半は遠くから発表を聞いた後に移動する.後半は対話者(P1)と出会い近距離およ び斜めの立ち位置で対話をする.対話は短く20秒ほどだった.対話者(P1)の顔が カメラの画角に収まっていなく見切れているシーンがあった.
4.3.3
評価者間で主観評価が合致していなかった状況
評価者間で主観評価が大きく分散しているシーン(B, D)があった(図 4.1参照).その シーンの実際の様子を確認してみると,シーンBでは前半と後半で2つの状況が混ざって いた.シーンDは,カメラ装着者が座ってデモを体験しながら,前に立つ発表者と対話を しているシーンであった.対話相手の体はカメラ装着者の方を向いていたが,顔が見切れ ていてた. 以下に,評価者間で主観評価が合致していなかったシーン(B, D)の詳細について述べる. シーン B 前半はカメラ装着者はデモの体験や見学をしている人混みの中を歩き,デモと発表 者がいる方向へ進む.後半は発表者の前で手を伸ばしデモを体験する.展示物を発 表者と見学者と一緒に触る.隣で他の見学者が発表者と対話をする.カメラ装着者 が発話をすることはなかった. シーン D カメラ装着者がデモを体験しながら継続的に発表者と対話をしている.互いに発話 をしている.座っているカメラ装着者の正面に会話相手が立っていた.対話相手の 顔がカメラの画角に収まっていなく見切れていた.4.4
実験の結果に関する考察
4.4.1
対面時の主体的な行動と社会活動量の多さの関係
カメラ装着者が他の人と会話をしているシーン(図4.1: C, H, D, E, F)を,社会活動量 の多いシーンと評価する.特に,カメラ装着者自身が発話をしていると社会活動量の多い シーンと評価される.ここで面白いのは,提案手法では「発話量」そのものは計測してい ないことである.それにも関わらず,対話シーンにおいて顔を検出する提案手法で高いス コアを提示することができる.それは,カメラ装着者が発話やジェスチャなどをする際に は,周りの人がカメラ装着者の方に対面する傾向が高まり,結果的に顔が検出されるから である.つまり,カメラ装着者が対話に参加して発話などの主体的な行動をしていると, 結果的に周囲の顔がカメラ装着者の方向を向く現象を利用することができる.したがって, 発話そのものを計測せずに,それらの結果として得られるカメラ装着者の方を向いた他者 の顔に基づいて,人と対面する日々の社会活動を計測できると考えられる.4.4.2
対面時の距離の近さと時間継続性を考慮する必要性
対面している人の人数はあまり社会活動量の評価に依存せず,同一人物との対面時間の 継続性と近さの方が社会活動量の多さの評価につながる.単純な顔の個数のカウントだけ でなく,対面時間の継続性を考慮したスコアリングがうまく機能している(図 4.1: F参 照).顔の個数のカウントだけでは,遠くから話を聞いているシーンで主観評価の結果よ りも高くスコアリングしてしまう(図4.1: J参照).したがって,カメラ装着者の主体的な行動を考慮して対面的な社会活動を計測するためには,距離の近さと時間継続性を考慮す ることが重要であると考える.
4.4.3
社会活動量の多さの評価に個人差が生じる状況と提案手法の限界
社会活動量の多さに関する主観評価は,評価する人がカメラ装着者本人か,それとも対 話者と第三者かによってあまり影響を受けない.本人と対話者にとっては,出来事の体験 直後ではなく約1年半前に自身が体験した様子からの社会活動量の多さを判断する評価 だったため,会話の中身や感じたことといったエピソード的な事実について触れることが なかったと考えられる[26].しかし,第三者にとっては初めての出来事に対する印象の判 断にも関わらず,本人と対話者と同様に,会話への参加や発話の有無から判断する傾向が あった.つまり社会活動量の多さという印象は,エピソードにはあまり影響を受けないこ とが考えられる. 一方,シーンの種類によって,主観評価の分散が異なる.例えば,特定の人との長話シー ン(図4.1: E,F)は高いスコア,廊下を移動するシーンAは低いスコアであり,誰もが共 通の判定をする.また,大勢のグループに傍観者の立ち位置で参加した後に発表者の目の 前で展示を体験しているシーンB,特定の人と会話しながら展示を体験しているシーンD は評価の分散が大きい.これらのような曖昧なシーンへの社会活動量の多さの評価におけ る個人差の配慮については提案手法の限界である.4.4.4
斜めや隣り合わせの対話の顕著性と半球カメラの必要性
対話相手がカメラ視界から外れるシーン(図4.1: H,D,E)では提案手法のスコアが, 主観評価に比べて低い値になった.近距離での斜めや隣り合わせ,上下差のある対話が多 く,相手の顔が見切れてしまったことが原因である. カメラの画角を広げれば改善すると考え,第5章で半球カメラを使い,斜めや隣り合わ せの対話の計測への改善を検討した.第
5
章 対話相手の立ち位置に対する対処と
議論
5.1
一人称ライフログ映像に用いるカメラの画角の改善
画角が200度の半球カメラを用いて,斜めや隣り合わせの対話の計測への改善を検討 した(図5.1参照).第4章の実験で用いたカメラと半球カメラの両方を身につけて,ポス ターセッションに参加した際の一人称ライフログ映像および社会活動計測の結果を比較し た.図 5.1の左側のシーンのように,半球カメラではない画角だと,近距離で立ち位置が 斜めの対話相手の顔を捉えることができなかった.図5.1の右側のシーンのように,半球 カメラの画角だと,立ち位置が斜めで近距離な一対一対話での相手の顔を検出し,計測す ることができることを確認した. 半球カメラに映り込む画像は魚眼になり歪んでいるため,頑健な顔検器を使用した.こ れにより,シーンの端に映り込む歪んだ顔を検出する. 使用した半球カメラは,Raspberry Pi Zero W,画角が200度のカメラモジュール,モ バイルバッテリーから成る.5秒おきの間隔で画像を記録する. 次章に,日々の行動から計測された斜めや隣り合わせの対話の詳細を示す.最後には, カメラの画角を広げることで斜めや隣り合わせの対話の計測の改善につながるか,どのよ うな種類の対話を計測できるかを考察する.図5.1: 一人称ライフログ映像に用いるカメラの画角の改善
5.2
日々の行動から計測された斜めや隣り合わせの対話
大学構内および外出先で,半球カメラを用いた一人称ライフログ映像から社会活動計測 を行うと,様々な種類の斜めや隣り合わせの対話を計測することができた.以下に,計測 された対話シーンの詳細を示す.最後には,カメラの画角を広げることで斜めや隣り合わ せの対話の計測の改善につながるか,どのような種類の対話を計測できるかを考察する.5.2.1
作業中の対話
一対一での作業中の対話が計測されたシーンを図5.2に示す.いずれのシーンも一対一 でPCを介した状況の対話である.左側のシーンは,院生室で個々人の座る位値が固定さ れている場所での対話である.中央のシーンと右側のシーンは,共有スペースでの対話で ある.これらのような種類の作業中の対話が計測された. 図5.2: 作業中の対話シーン5.2.2
食事中の対話
一対一,一対多での食事中の対話が計測されたシーンを図5.3に示す.いずれのシーン も複数人でテーブルを囲んだ状況での対話である.また,前と隣に知人が座っている状況 である.これらのような種類の食事中の対話が計測された. 図5.3: 食事中の対話5.2.3
自身と相手で姿勢が異なる対話
一対一,一対多での自身と相手で姿勢が異なる対話が計測されたシーンを図5.4に示す. いずれのシーンも自身と相手で立っている状況と座っている状況が異なる対話である.左 側のシーンは,近距離でカメラ装着者が立ち,相手が座っている状況での対話である.こ のシーンのカメラ装着者は食事中に席を移動する際に対話をしている.中央のシーンは, 近距離でカメラ装着者が座り,相手が立っている状況での対話である.このシーンのカメ ラ装着者は共有スペースで座りながら対話をしている.右側のシーンは,カメラ装着者が 座り,遠くで相手が立っている状況での対話である.このシーンのカメラ装着者は発話せ ずに話を聞き続けている.これらのような種類の自身と相手で姿勢が異なる対話が計測さ れた. 図5.4: 自身と相手で姿勢が異なる対話5.3
斜めや隣り合わせの対話の計測に関する考察
カメラの画角を広げることで,立ち位置が正面ではない対面時の参与度も計測すること ができる.具体的には,作業中にPCを介した対話や,複数人でテーブルを囲んだ食事中 の対話,自身と相手で姿勢が異なる対話を計測することができる(図5.2,5.3,5.4. ただ,魚眼の歪みがあるため頑健な顔検出器を使用する必要がある.また,歪みから顔 が映り込む場所によって顔の大きさが変わる.これに関しては,歪みを除去するか,ある いは立ち位置によって顔の大きさの重み付けを再考することで改善できると考える. 以上から,半球カメラを用いることで計測できる対面的な社会活動の種類が増え,日々 の社会活動への参与度を計測する提案手法の精度の向上につながる.第
6
章 日々の対面的な社会活動を可視化する
システムへの応用の検討
6.1
システムの目的
日々の対面的な社会活動を客観視できるようにする(図6.1参照).生活の中で意識する ことが難しい対面的な人との関わり合い方の傾向を知る手掛かりになると考える.第6章 では,システムの機能を示し,使用して得られた結果について考察する. 図6.1: 日々の対面的な社会活動の可視化6.2
システムの機能
6.2.1
対面的な社会活動のラベリング
時間継続性と検出された顔の個数をもとに,以下の4つの状況を定義した(図6.2参照). 時間継続性がある状況を,対面対話が成立している状況であると解釈する.初期状態と顔 検出なしの場面は独りであると解釈する.第3.4章に基づいて,連続して検出された顔に IDを割り当て,時間継続性を判定する.そのため,時間継続性と検出された顔の個数に 基づいて遷移する. ラベリングでは,1つのフレームに連続検出された顔と新規検出された顔が混在した場 合,対面対話が成立している状況を優先する.例えば,多人数との瞬間的な対面と同時に 一対一対話をしていた場合,社会活動量は数え分けて各々の値が記録されるが,ラベリン グではフレームのシーンを一対一対話と解釈する.また,遠くの人に向けて発話をしたり, 逆に遠くの人の話を聞く状況のような対面対話もラベリングする.そのため,対面的な社 会活動状況をラベリングする際には,距離の近さを考慮していない. 1. 一対一対話:連続検出された顔が1つだけある状況 2. 一対多対話:連続検出された顔が2つ以上ある状況 3. 一人との瞬間的な対面:新たに1つだけの顔が検出された状況 4. 多人数との瞬間的な対面:新たに2つ以上顔が検出された状況 図6.2: 対面的な社会活動のラベリング6.2.2
対面的な社会活動量のゲージ
第3.4章に基づいて,カメラ装着者の対面的な社会活動への参与度である社会活動量は, フレームごとに人数,距離の近さ,時間継続性から算出された値の時間積分とする.そし て,第6.2.1章で定義した4つの状況に分けて値を記録する.例えば,多人数との瞬間的 な対面と同時に一対一対話をしていた場合,社会活動量は数え分けて各々の値が記録され る.利用する際には,1日の目標値を設定して,達成されたかどうかを確認する.6.2.3
1
日単位での振り返り
対面的な社会活動量のゲージに加えて,1時間ごとの社会活動量を記録して棒グラフで 可視化する.これにより,24時間における推移を確認し,午前と午後の活動の傾向を把握 する.図 6.3は,2018年12月3日,月曜日の計測結果である.カメラ装着者は,研究室 内の学生である.この日は,午前から大学構内でミーティングがあり,解散直後および昼 食時に対話があった.その後も対話が行われていた.つまり,午前10時から午後6時ま での行動で,対面的な社会活動が行われていたことが読み取れる.加えて,午後を中心に 一対一だけでなく一対多での対面対話が行われていたことがわかる. 図6.3: 1日単位での振り返り6.2.4
週単位での振り返り
1日毎の社会活動量を記録して棒グラフで可視化する.これにより,1週間における推 移を確認し,休日と平日や,イベント時の活動の差の傾向を把握する.図6.4は,2018年 11月26日,月曜日から12月3日,月曜日までの計測結果である.カメラ装着者は,1週 間のうち3日間は人と対面的な社会活動をしていたことがわかる.第6.2.3章での1日の 結果だけでは量の多さの判断が難しいが,1週間からの計測結果を見ると量の多さがわか る.つまり,12月3日,月曜日に多くの人と対面的な社会活動をしたことが読み取れる. 加えて,その日は一対多対話が多かったことがわかる. 図6.4: 週単位での振り返り6.3
対面的な社会活動を可視化するシステムへの応用に関する考察
一人称ライフログ映像からの顔検出に基づいて日々の対面的な社会活動を計測した結果 を可視化するシステムへの応用を検討した.生活の中で意識することが難しい自身や他者 の対面的な人との関わり合い方の傾向を知る手掛かりになると考える. 図 6.3から,カメラ装着者の1日のピークが夕方であったことがわかる.つまり,1日 の中で,人と対面するだけでなく対話する量を時間帯と紐付けて客観的に把握することが できる.また,カメラ装着者は一対多対話よりも一対一対話を多くしていたことがわかる. これは,多人数と一緒に過ごしていても,発話などの主体的な行動をしなければ同時に多 人数の顔が向き続けない傾向があるため,程よく一対一対話をしていたと解釈することが できる. 図6.4から,カメラ装着者の1週間のうち3日間は人と対面的な社会活動をしていたこ とがわかる.つまり,1週間の中で,人と対面するだけでなく対話する量を日にちと紐付 けて客観的に把握することができる. カメラ装着者自身や対話者および第三者が,日々の社会活動への参与度を振り返ること による行動変容の定量的および定性的評価については,今後の展望として残る.日々の社 会活動を振り返るシステムを運用することで,どのような対面的な社会活動だと充実感が あるのか,あるいは孤独感や疲労感があるのかについての知見につながると考える.さら には,身体活動量計と併用することで,対面的な社会活動への参与度と運動量の関係につ いての知見にもつながると考える.第
7
章 おわりに
7.1
まとめ
カメラを胸に身につけて行動することで対面相手の顔を数え上げ,カメラ装着者の参与 度を推定し,日々の社会活動を数え分けて計測する手法を提案した.社会活動量に関する 主観評価実験の結果から,発話やジェスチャそのものを計測せずに,カメラ装着者が主体 的な行動をした際に向く相手の顔を検出することで社会活動量を計測できることが示唆さ れた.加えて,直に人と関わり合う社会活動量の主体性を考慮して計測するためには,距 離の近さと時間継続性を考慮することが重要であることがわかった. 一方,斜めや隣り合わせでの対話が多く,180度以上のカメラの画角が必要なことがわ かった.200度の半球カメラを使った結果,立ち位置が正面ではない対面時の参与度の計 測を改善できることが示唆された.具体的には,作業中にPCを介した対話や,複数人で テーブルを囲んだ食事中の対話,自身と相手で姿勢が異なる対話である.しかし,後ろ向 きの人との関わり合いの計測,個人差があるシーンを配慮した計測については提案手法の 限界として残る.提案手法の精度については,半球カメラの魚眼の歪みに伴う顔検出への 影響および立ち位置による参与度の重み付けの考慮を行うことで,より向上されることが 考えられる. 最後には,一人称ライフログ映像からの顔検出に基づいて日々の対面的な社会活動を計 測した結果を可視化するシステムへの応用を検討した.日々の行動から対面的な社会的活 動を数え分けて計測した結果を数値やグラフとして可視化すると,1日や1週間の中で, 人と対面するだけでなく対話する量を時間帯や曜日に紐付けて客観的に把握することがで きる.生活の中で意識することが難しい自身や他者の対面的な人との関わり合い方の傾向 を知る手掛かりになると考える.7.2
今後の展望
カメラ装着者自身や対話者および第三者が,日々の社会活動への参与度を振り返ること による行動変容の定量的および定性的評価についての研究が進むと,日々の社会活動にお ける充実感の向上および孤独感や疲労感の軽減のような社会的健康[11]への行動変容の支 援につながるフィードバックを行うための研究につながると考える. さらには,複雑な社会的関係や心理状態とは別の視点として,人と対面する社会活動へ の参与度は,若者や高齢者のひきこもり[28]やうつ病[13]の傾向がある当人,家族の人, 周囲の人を支援する手掛かりの1つになると考えている.身体活動量計と併用することで, 対面的な社会活動への参与度と運動量の関係についての知見にもつながると考える.謝辞
本研究を進めるにあたり,多大なるご指導いただきました指導教員の角康之教授に深く 感謝いたします.また,的確なご助言をくださり,議論を交わしてくださった副指導教員 の平田圭二教授,藤野雄一教授に深く感謝いたします.また,日々の議論や実験を共にし てくださった角康之研究室の皆さまに深く感謝いたします.また,本研究は2018年度未 踏IT人材発掘・育成事業のご支援をいただきました.様々な人と関わる機会を与えてくだ さり,温かく議論を交わしてくださった首藤一幸准教授に深く感謝いたします.また,研 究活動を支えてくださいました皆さまに深く感謝いたします.発表・採録実績
発表 [I] 奥野 茜,角 康之. 顔情報に着目した一人称画像ライフログによる社会活動計測. イ ンタラクション 2017インタラクティブ発表,pp. 116–121, 2017. 情報処理学会. [II] 奥野 茜, 角 康之. 一人称ライフログ画像からの顔検出に基づいた社会活動計測. マルチメディア, 分散協調とモバイルシンポジウム 2017 論文集, Vol. 2017, pp. 1171–1177, 2017. 情報処理学会. [III] 奥野 茜,角 康之. 一人称ライフログ映像からの顔検出に基づいた社会活動計測: 当 事者,二人称,他者視点による印象評価. 研究報告ユビキタスコンピューティングシステム (UBI), Vol. 2018, No. 1, pp. 1–8, 2018. 情報処理学会.
[IV] 奥野 茜,角 康之. 一人称ライフログ映像からの顔検出に基づいた社会活動計測と主 観評価. インタラクション 2019 インタラクティブ発表,pp. 1011–1016, 2019. 情 報処理学会. 発表 (査読付き) [I] 奥野 茜,角 康之. 一人称ライフログ映像からの顔検出に基づいた社会活動計測. イ ンタラクション 2018, pp. 173–182, 2018. 情報処理学会.
[II] Akane Okuno, Yasuyuki Sumi. Social Activity Measurement with Face Detection Using First-Person Video as a Lifelog, The 3rd Symposium on Computing and
Mental Health, 2018. [Online]. Available: http://mentalhealth.media.mit.
edu/wp-content/uploads/sites/46/2018/04/CMH2018_paper_12.pdf
[III] Akane Okuno, Yasuyuki Sumi. Social Activity Measurement by Counting Faces Captured in First-Person View Lifelogging Video. In Proceedings of the 10th
Aug-mented Human International Conference 2019 (AH2019). New York, NY, USA, Article 19, 9 pages. DOI: https://doi.org/10.1145/3311823.3311846.ACM.
参考文献
[1] Nadav Aharony, Wei Pan, Cory Ip, Inas Khayal, and Alex Pentland. The social fmri: Measuring, understanding, and designing social mechanisms in the real world. In Proceedings of the 13th International Conference on Ubiquitous Computing, Ubi-Comp ’11, pp. 445–454, New York, NY, USA, 2011. ACM.
[2] Stefano Alletto, Giuseppe Serra, Simone Calderara, Francesco Solera, and Rita Cucchiara. From ego to nos-vision: Detecting social relationships in first-person views. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition Workshops, pp. 580–585, 2014.
[3] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satyanarayanan. Openface: A general-purpose face recognition library with mobile applications. CMU School of
Computer Science, 2016.
[4] Tanzeem Choudhury and Alex Pentland. Sensing and modeling human networks using the sociometer. In Proceedings of the 7th IEEE International Symposium
on Wearable Computers, ISWC ’03, pp. 216–, Washington, DC, USA, 2003. IEEE
Computer Society.
[5] Ionut Damian, Chiew Seng (Sean) Tan, Tobias Baur, Johannes Sch¨oning, Kris Luyten, and Elisabeth Andr´e. Augmenting social interactions: Realtime be-havioural feedback using social signal processing techniques. In Proceedings of the
33rd Annual ACM Conference on Human Factors in Computing Systems, CHI ’15,
pp. 565–574, New York, NY, USA, 2015. ACM.
[6] Martin Danelljan, Gustav H¨ager, Fahad Khan, and Michael Felsberg. Accurate scale estimation for robust visual tracking. In British Machine Vision Conference,
Nottingham, September 1-5, 2014. BMVA Press, 2014.
[7] Nathan Eagle and Alex Sandy Pentland. Eigenbehaviors: Identifying structure in routine. Behavioral Ecology and Sociobiology, Vol. 63, No. 7, pp. 1057–1066, 2009.
[8] Alircza Fathi, Jessica K Hodgins, and James M Rehg. Social interactions: A first-person perspective. In Computer Vision and Pattern Recognition (CVPR), 2012
IEEE Conference on, pp. 1226–1233. IEEE, 2012.
[9] Fangfang Guo, Yu Li, Mohan S. Kankanhalli, and Michael S. Brown. An evaluation of wearable activity monitoring devices. In Proceedings of the 1st ACM International
Workshop on Personal Data Meets Distributed Multimedia, PDM ’13, pp. 31–34,
New York, NY, USA, 2013. ACM.
[10] Steve Hodges, Lyndsay Williams, Emma Berry, Shahram Izadi, James Srinivasan, Alex Butler, Gavin Smyth, Narinder Kapur, and Ken Woodberry. Sensecam: A retrospective memory aid. In Proceedings of the 8th International Conference of
Ubiquitous Computing (UbiComp 2006), pp. 177–193. Springer Verlag, September
2006.
[11] James S House, Karl R Landis, and Debra Umberson. Social relationships and health. Science, Vol. 241, No. 4865, pp. 540–545, 1988.
[12] Roberto Hoyle, Robert Templeman, Denise Anthony, David Crandall, and Apu Kapadia. Sensitive lifelogs: A privacy analysis of photos from wearable cameras. In
Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems, CHI ’15, pp. 1645–1648, New York, NY, USA, 2015. ACM.
[13] Tatsuhiko Kaji, Kazuo Mishima, Shingo Kitamura, Minori Enomoto, Yukihiro Na-gase, Lan Li, Yoshitaka Kaneita, Takashi Ohida, Toru Nishikawa, and Makoto Uchiyama. Relationship between late-life depression and life stressors: Large-scale cross-sectional study of a representative sample of the japanese general population.
Psychiatry and clinical neurosciences, Vol. 64, No. 4, pp. 426–434, 2010.
[14] Vaiva Kalnikaite, Abigail Sellen, Steve Whittaker, and David Kirk. Now let me see where i was: Understanding how lifelogs mediate memory. In Proceedings of
the SIGCHI Conference on Human Factors in Computing Systems, CHI ’10, pp.
2045–2054, New York, NY, USA, 2010. ACM.
[15] Shunichi Kasahara, Mitsuhito Ando, Kiyoshi Suganuma, and Jun Rekimoto. Par-allel eyes: Exploring human capability and behaviors with parPar-alleled first person view sharing. In Proceedings of the 2016 CHI Conference on Human Factors in
Computing Systems, CHI ’16, pp. 1561–1572, New York, NY, USA, 2016. ACM.
[16] Shunichi Kasahara and Jun Rekimoto. Jackin head: immersive visual telepresence system with omnidirectional wearable camera for remote collaboration. In
Proceed-ings of the 21st ACM Symposium on Virtual Reality Software and Technology, pp.
217–225. ACM, 2015.
[17] Mohammed Korayem, Robert Templeman, Dennis Chen, David Crandall, and Apu Kapadia. Enhancing lifelogging privacy by detecting screens. In Proceedings of the
2016 CHI Conference on Human Factors in Computing Systems, pp. 4309–4314.
ACM, 2016.
[18] Youngki Lee, Chulhong Min, Chanyou Hwang, Jaeung Lee, Inseok Hwang, Younghyun Ju, Chungkuk Yoo, Miri Moon, Uichin Lee, and Junehwa Song. So-ciophone: Everyday face-to-face interaction monitoring platform using multi-phone
sensor fusion. In Proceeding of the 11th Annual International Conference on Mobile
Systems, Applications, and Services, MobiSys ’13, pp. 375–388, New York, NY,
USA, 2013. ACM.
[19] Katsutoshi Masai, Yuta Sugiura, Masa Ogata, Kai Kunze, Masahiko Inami, and Maki Sugimoto. Facial expression recognition in daily life by embedded photo reflective sensors on smart eyewear. In Proceedings of the 21st International
Con-ference on Intelligent User Interfaces, IUI ’16, pp. 317–326, New York, NY, USA,
2016. ACM.
[20] Toshiya Nakakura, Yasuyuki Sumi, and Toyoaki Nishida. Neary: Conversational field detection based on situated sound similarity. IEICE Transactions on
Informa-tion and Systems, Vol. 94, No. 6, pp. 1164–1172, 2011.
[21] D Olguin Olguin, Joseph A Paradiso, and Alex Pentland. Wearable communica-tor badge: Designing a new platform for revealing organizational dynamics. In
Proceedings of the 10th international symposium on wearable computers (student colloquium), pp. 4–6, 2006.
[22] Daniel Olguın Olguın and Alex Sandy Pentland. Human activity recognition: Ac-curacy across common locations for wearable sensors. In Proceedings of 2006 10th
IEEE international symposium on wearable computers, Montreux, Switzerland, pp.
11–14. Citeseer, 2006.
[23] Daniel Olgu´ın, Benjamin N Waber, Taemie Kim, Akshay Mohan, Koji Ara, and Alex Pentland. Sensible organizations: Technology and methodology for automati-cally measuring organizational behavior. IEEE Transactions on Systems, Man, and
Cybernetics, Part B (Cybernetics), Vol. 39, No. 1, pp. 43–55, 2009.
[24] Gillian O’Loughlin, Sarah Jane Cullen, Adrian McGoldrick, Siobhan O’Connor, Richard Blain, Shane O’Malley, and Giles D Warrington. Using a wearable cam-era to increase the accuracy of dietary analysis. American Journal of Preventive
Medicine, Vol. 44, No. 3, pp. 297–301, 2013.
[25] Arkadiusz Stopczynski, Vedran Sekara, Piotr Sapiezynski, Andrea Cuttone, Mette My Madsen, Jakob Eg Larsen, and Sune Lehmann. Measuring large-scale social networks with high resolution. PloS one, Vol. 9, No. 4, p. e95978, 2014.
[26] Yasuyuki Sumi, Masaki Suwa, and Koichi Hanaue. Effects of viewing multiple viewpoint videos on metacognition of collaborative experiences. In Proceedings of
the 2018 CHI Conference on Human Factors in Computing Systems, CHI ’18, pp.
648:1–648:13, New York, NY, USA, 2018. ACM.
[27] Girmaw Abebe Tadesse and Andrea Cavallaro. Visual features for ego-centric ac-tivity recognition: A survey. In Proceedings of the 4th ACM Workshop on Wearable
Systems and Applications, WearSys ’18, pp. 48–53, New York, NY, USA, 2018.
ACM.
[28] Alan Robert Teo and Albert C Gaw. Hikikomori, a japanese culture-bound syn-drome of social withdrawal? a proposal for dsm-v. The Journal of Nervous and
Mental Disease, Vol. 198, No. 6, p. 444, 2010.
[29] Ryo Yonetani, Kris M Kitani, and Yoichi Sato. Ego-surfing first person videos. In
Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, pp.
図 目 次
1.1 一人称ライフログ映像に対面者の顔が映り込むシーンの例 . . . . 1 3.1 一人称ライフログ映像からの顔検出に基づいた社会活動計測 . . . . 5 3.2 社会活動計測の結果の例:一対一対話,一対多対話,瞬間的な人との関わり 6 3.3 検出された顔ごとの大きさと時間継続性の計算. . . . 7 3.4 長時間の様々な対面シーンの定量化:大学構内と飲食店での社会活動計測 . 8 3.5 短時間の様々な対面シーンの定量化:ポスターセッションでの社会活動計測 10 4.1 主観評価実験の結果:本人,対話者,第三者による10シーンの一人称ライ フログ映像の並び替えから定量化された社会活動量の多さへの評価(SE). 提案手法(PM)および顔数のみの計算(CF)から得られる社会活動量との比 較. . . . 14 5.1 一人称ライフログ映像に用いるカメラの画角の改善 . . . 19 5.2 作業中の対話シーン . . . 19 5.3 食事中の対話 . . . 20 5.4 自身と相手で姿勢が異なる対話 . . . 20 6.1 日々の対面的な社会活動の可視化 . . . 22 6.2 対面的な社会活動のラベリング . . . 23 6.3 1日単位での振り返り. . . 24 6.4 週単位での振り返り . . . 25表 目 次
4.1 約1.5時間のシーンから10個の1分間の映像を一様的に抽出 . . . 11