自発的な表情はどのような動作から構成されるのか―形態測定学的アプローチ―

(1)

DOI: http://dx.doi.org/10.14947/psychono.34.25

自発的な表情はどのような動作から構成されるのか

―形態測定学的アプローチ―

小森政嗣

大阪電気通信大学情報通信工学部

Dynamic characteristics of spontaneous facial expressions:

An approach based on morphometrics

Masashi Komori

Faculty of Information and Communication Engineering, Osaka Electro-Communication University

Typically, most research on facial expressions has relied on photograph images or “static” information. Howev-er, affective facial expressions are dynamic in nature. In this article, the author proposes a morphological approach for elucidating complex spatiotemporal information embedded in dynamic facial expressions. To extract the compo-nents of dynamic facial expressions, a combination of the methodologies of geometric morphometrics and a multi-way decomposition method, known as PARAFAC, was applied to sequential, three-dimensional landmark coordi-nate values that were obtained using a facial motion capture system. The result suggests that dynamic facial expressions consist of plural components that differ in spatiotemporal characteristics （i.e., long- and short-term facial deformations）．

Keywords: dynamic facial expressions, geometric morphometrics, motion capture

表情の動的な性質顔は社会的なインタラクションにおいてさまざまな情報を伝達する重要なチャネルである。この顔が伝達する情報は，静的な特徴によるものと動的な特徴によってもたらされるものに大別できる。静的な特徴とは，例えば顔を構成するパーツの相対的な位置関係や肌や目の色などが挙げられ，これらは生物種の違いや年齢，性別，個人性などの情報と関連している。一方，動的な特徴は思考状態や態度，情動など個々人の内的な状態と関連した情報を伝達する。中でも，表情筋の活動に伴う顔面形状の動的な変化は，特定の情動と深く結びついていると考えられてきた。このような顔面形状の変化は「情動表出」もしくは「表情」と呼ばれ，Darwin （1872）の先駆的な研究以降，多くの科学的な研究の対象となってきた。これまでの顔に関する心理学的な検討では，顔写真や顔を表現した線画のような静的な表現が用いられることが多かった。これは表情に関する研究においても例外ではない。表情研究では，情動表出に伴う顔面形状の変化が最大となる瞬間をとらえた写真が，「幸福」や「怒り」，「恐れ」といった特定の感情分類と対応する典型的な顔面形状としてしばしば利用されてきた。また，その情動状態が観察者によって正確に認知されることが示されてきた（例えばEkman, Friesen, & Ellsworth, 1972）。

一方，顔面形状の動的な側面，すなわち動きこそが情動の表出や伝達において中心的だと考える研究者もいる（Kappas & Descôteaux, 2003; Krumhuber, Kappas, &

Manstead, 2013）。顔面形状の動きを線画の動きや光点運動によって提示した場合でも，観察者は情動を判断することはできる（Bruce & Valentine, 1988; Wallraven, Breidt, Cunningham, & Bülthoff, 2008）。さらに，動画に基づく情動認知は複数の静止画に基づく情動認知よりも正確である（Ambadar, Schooler, & Cohn, 2005; Wehrle, Kaiser, Schmidt, & Scherer, 2000）。これらのことから，表情認知において顔形状の動的な要素自体が重要な役割を担って Copyright 2015. The Japanese Psychonomic Society. All rights reserved. Corresponding address: Faculty of Information and

Com-munication Engineering, Osaka Electro-ComCom-munication University, 18–8 Hatsucho, Neyagawa-shi, Osaka 572–8530, Japan. E-mail: [email protected]

(2)

は，表情の変化の方向が観察者に明確に伝わり顔面形状の変化を捉えやすくなる点である。しかし単に動きがあればよいというものではなく，モーフィング技術を用いて線形に顔形状を変形させた場合，自然な変形（非線形な変化）と比較して感情認知の正確さや表情強度，自然さなどが損なわれる（Cosker, Krum-huber, & Hilton, 2010; Wallraven et al., 2008）。このことは，顔面形状変化の方向や速度だけでなく，顔面形状の非線形な時系列変化パタンが表情認知に不可欠であることを示している。表情の計測表情に関する研究では，俳優が特定の典型的な感情状態を演技したときの顔面を撮影したものや，あらかじめ決められた顔面の動作（例えばFACS （Facial Action Cod-ing System; Ekman, & Friesen, 1978）の AU （Action Unit）の動作）を再現した被写体の顔面形状を撮影したものがしばしば用いられてきた。このような「表情」はもちろん表出者本人の感情的な変化によって現れたものではなく，多様な社会的文脈からも切り離されて作り出された不自然な顔面形状変化であると見ることもできる（Rus-sell, 1994）。もちろん，このような演技された典型的な表情が現実の生活において現れることは稀である。より生態学的妥当性の高い表情を検討するためには自発的な情動表出を検討する必要がある。自発的表情の動的な性質を明らかにするうえで，表情をどのように計測・記述するかが問題となる。顔形状や表情は多変量データとして表現できる。表情を変数化するうえで最も広く用いられている方法は Facial Action Coding System （FACS）（Ekman & Friesen, 1978）である。 FACSは基本的には写真で撮影された表情の要素を検討するものであり，顔面の動作を「眉を下げる」「上唇を上げる」といった顔面の活動単位（Action Unit: AU）の活動の有無に分割し，これらをまとめることによって異なる表情を記述している。しかし自然な表情表出においては顔面上のさまざまな部位が連動して動作し，またそれらの各動作の生起や消失は必ずしも同時に生じるわけではない。そのため，このような方法で表情の動的な変化を捉えることは容易ではない。また表情筋の筋電位により表情変化を捉えることもしばしば行われるが（例えばLundqvist, 1995），複雑な表情を計測する場合，多数の電極を装着する必要があり，自然な表情表出は抑制されてしまう可能性がある。一方，モーションキャプチャ装置を用いて標識点の3 次元座標に基づいて表情を計測し記述する手法は高い時間精度が期待できる。フェイシャルモーションキャプチャシステムはCGアニメーションの作成など幅広く活用されているが，近年自発的表情の研究においても活用され始めている（例えば Valstar, Gunes, & Pantic, 2007; Zhang et al., 2014）。またマーカレスでフェイシャルキャプチャを行うデバイスも発展しつつあり（Figure 1），今後さらに計測が手軽になることが期待されている。標識点座標データの整列フェイシャルモーションキャプチャシステムから得られるデータは標識点の個数分の3次元座標（x, y, z）である。表情表出を計測して得られた時系列標識点座標データを分析するうえでまず問題となるのは，被写体の顔の位置や向きが時間とともに変化することである。このため，標識点座標同士をそのまま比較することはできない。顔面の形状変化を統計的に扱うためには標識点座標を何らかの方法で整列し規格化する必要がある。

Figure 1. Markerless facial motion captured by a Kinect sensor.

(3)

筆者らはこれまで，幾何学的形態測定学（Geometric Morphometrics）の方法論を援用することで顔の形態的な特徴の記述・解析を行ってきた（Komori, Kawamura, & Ishihara, 2009a, 2009b, 2011; Komori & Nittono, 2013）。幾何学的形態測定学とは，大きさや向きの異なる化石等の形状を統計的に扱うために主に古生物学の分野において発展したアプローチを指す。この幾何学的形態測定学の中心的な手法が一般化プロクラステス分析（Generalized Procrustes Analysis: GPA）である（Bookstein, 1997; Dryden & Mardia, 1998）。 GPAは，瞳孔のような特定のアンカリングポイント（形状の整列を行うための基準点）を用いずに生物形状の向きや大きさを規格化する一連の手続きである。GPA は大まかに以下に示す座標点に対する操作から構成される。まず，各物体のすべての標識点座標の重心を求め，そこを基準点とする（Figure 2B）。次に，重心から各標識点までの2乗距離の和（重心サイズと呼ばれる）をサンプル間で同一にすることにより各物体のサイズを揃える（Figure 2C）。次に，重心位置とサイズが規格化されたサンプル間で対応する標識点間の2乗距離の和が最小になるよう，各サンプルを回転させ最適化する（Figure 2D）。以上の計算により 2 次元／ 3 次元の標識点座標データを近似的に多変量正規分布する多変量データに変換することができる（Dryden & Mardia, 1998）。GPAによって整列された標識点座標に対してはさまざまな線形多変量統計を実行することが可能となる（Figure 3）。 Figure 2. Schematic illustration of shape standardization with GPA.

Figure 3. Landmarks of faces （A） before standardization and （B） standardized using the methodologies of geometric mor-phometrics.

(4)

も有効かもしれない。

顔の次元縮約で最もよく知られた例は「固有顔」（eigenface）である（Turk & Pentland, 1991）。固有顔とは，顔写真を構成する画素の輝度値に対して主成分分析を行い，それにより求められた固有ベクトルから作成される明暗パタンのことである。それぞれの固有顔は顔画像のなんらかの要素と対応しているとされ，顔認識技術などで広く用いられてきた。また，Komori et al. （2009a）は，男女計96名の顔形状から得た標識点座標値に対して主成分分析を行い，性的二型性と対応する次元を見出している。このように複雑な顔のデータからそれを構成する要素を見出す際に主成分分析は有用な手法であるといえる。静的な顔形状に対して主成分分析を行う場合，対象となるデータは2相データ，すなわち標識点（x, y, z）×サ ンプルのデータである。一方，動的な表情データに対してこの主成分分析モデルをそのまま適用することはできない。なぜならば動的な表情データは時系列×標識点出の際のモーションキャプチャを分析した事例（大西・白毛・小森，2015）を紹介したい。動的表情に関する予備的検討実験には大学生10名（男性8名，女性2名）が参加した。情動喚起映画データベース（Schaefer, Nils, Sanchez, & Philippot, 2010）等から選ばれた14シーンを実験参加者にモニタで提示し，その際の顔形状変化をモーションキャプチャ装置（OptiTrackFLEX: V100R2）で計測した（100 Hz）。顔面に比較的大きな動きがあった時点を計算により自動的に取り出し（Barbicˇ et al., 2004），さらにそれらの時点で実際に表情の表出があったかどうかを目視により確認することで，長さ2 s（200フレーム）の表情表出区間を計160区間抽出した。この160区間すべてのフレームのデータに対してGPA を行い，標識点座標の規格化を行った（Figure 3）。さらに各標識点座標値の平均値が0，各標識点座標値の分散が1 になるよう前処理を行ったうえで，PARAFACモデルによ

(5)

り分解した。因子解を第3因子まで求めた（Figure 4）。時系列変化に関する第1因子の負荷量は時間経過にかかわらずほぼ一定であり，これは静的な成分と解釈することができる。一方，第2因子は，なだらかに変化したのち持続する成分，第3因子は急激に変化し消失する成分と見ることができる。このことから第2・第3因子は表情と関連した成分と解釈できる。各因子がどのような表情の変化と対応しているのかを検討するため，標識点に関する因子負荷量とあわせて標識点座標の時系列変化を再構築した（Figure 5）。第2因子は口角の斜め上方向の動きと関連している。また第3因子は，口を縦方向に開く動き，まゆ毛が下がる動きと関連していた。このように，表情表出には比較的長時間にわたり持続する成分と急激に現れて消失する成分が含まれていると解釈できる。

さらに，計測後にAffect Grid法（Russell, Weiss, & Men-delsohn, 1989）により表情表出が認められた瞬間の情動を評定させた。この結果と，第2・第3因子得点との関連を検討した結果，急激に現れ消失する表情成分である第3因子は活動性と関連していること（活動性が高い時に口が縦に開きすぐに閉じる）が示唆された。動的表情解析の課題表情の研究に広く用いられてきたのは，顔の形状変化が最大となる「ピーク表情」の瞬間をとらえた写真である。一方，本稿では顔面の「形状変化パタン」により表情表出を記述しようという筆者らの試みを紹介した。時間的特性の異なる顔面形状変化パタンの組み合わせで我々の自然な表情変化を記述できる可能性が示されたと考えている。ただ，このような試みを通して，動的な表情を扱う難しさも浮き彫りになってきた。最も悩ましい問題は，表情表出の始まりはどこで終わりはどこかという問題である。日常生活での表情表出は，真顔から始まって再び真顔に戻る区間ではない。ある表情が消え去る前に別の表情が現れることは珍しいことではないし，場合によっては相反する情動が同時に表情として表出されることもあるだろう。動的表情における妥当な時間的分節化はどのようなものであるべきか，今後議論が高まることを期待したい。引用文献

Ambadar, Z., Schooler, J. W., & Cohn, J. F. (2005). Deciphering the enigmatic face the importance of facial dynamics in in-terpreting subtle facial expressions. Psychological Science, 16, 403–410.

Barbicˇ, J., Safonova, A., Pan, J. Y., Faloutsos, C., Hodgins, J. K., & Pollard, N. S. (2004). Segmenting motion capture data into distinct behaviors. Proceedings of the 2004 Graphics

Interface Conference, Canadian Human-Computer

Commu-nications Society, pp. 185–194.

Bookstein, F. L. (1997). Morphometric tools for landmark data:

geometry and biology. Cambridge: Cambridge University

Press.

Bould, E., & Morris, N. (2008). Role of motion signals in rec-ognizing subtle facial expressions of emotion. British

Jour-nal of Psychology, 99, 167–189.

Bruce, V., & Valentine, T. (1988). When a nod’s as good as a wink: The role of dynamic information in facial recogni-tion. In M. M. Gruneberg, P. E. Morris, & R. N. Sykes (Eds.), Practical aspects of memory: Current research and

is-sues. New York, NY: John Wiley & Sons, Vol. 1, pp. 169–

174.

Cosker, D., Krumhuber, E., & Hilton, A. (2010). Perception of linear and nonlinear motion properties using a FACS vali-dated 3D facial model. Proceedings of the 7th Symposium on

Applied Perception in Graphics and Visualization, ACM, pp.

101–108.

Cunningham, D. W., & Wallraven, C. (2009). The interaction Figure 5. Facial movements along （A） the second and （B） third components.

(6)

Kappas, A., & Descôteaux, J. (2003). Of butterflies and roaring thunder: Nonverbal communication in interaction and reg-ulation of emotion. In P. Philippot, E. J. Coats, & R. S. Feld-man (Eds.), Nonverbal behavior in clinical settings. New York, NY: Oxford University Press, pp. 45–74.

Komori, M., Kawamura, S., & Ishihara, S. (2009a). Effect of av-erageness and sexual dimorphism on the judgment of facial attractiveness. Vision Research, 49, 862–869.

Komori, M., Kawamura, S., & Ishihara, S. (2009b). Average-ness or symmetry: Which is more important for facial at-tractiveness? Acta Psychologica, 131, 136–142.

Komori, M., Kawamura, S., & Ishihara, S. (2011). Multiple mechanisms in the perception of face gender: Effect of sex-irrelevant features. Journal of Experimental Psychology:

Hu-man Perception and PerforHu-mance, 37, 626–633.

Kroonenberg, P. M. (1983). Three-mode principal component

analysis. Leiden: DSWO Press.

Krumhuber, E. G., Kappas, A., & Manstead, A. S. (2013). Effects of dynamic aspects of facial expressions: A review.

Emotion Review, 5, 41–46.

Krumhuber, E., & Manstead, A. S. R. (2009). Can Duchenne smiles be feigned? New evidence on felt and false smiles.

Emotion, 9, 807–820.

Lundqvist, L. O. (1995). Facial EMG reactions to facial

expres-Personality and Social Psychology, 57, 493–502.

Schaefer, A., Nils, F. F., Sanchez, X., & Philippot, P. (2010). As-sessing the effectiveness of a large database of emotion-elic-iting films: A new tool for emotion researchers. Cognition &

Emotion, 24, 1153–1172.

Turk, M., & Pentland, A. (1991). Eigenfaces for recognition.

Journal of Cognitive Neuroscience, 3, 71–86.

Valstar, M. F., Gunes, H., & Pantic, M. (2007). How to distin-guish posed from spontaneous smiles using geometric fea-tures. Proceedings of the 9th International Conference on

Multimodal Interfaces, ACM, pp. 38–45.

Wallraven, C., Breidt, M., Cunningham, D. W., & Bülthoff, H. H. (2008). Evaluating the perceptual realism of animated facial expressions. ACM Transactions on Applied Perception, 4, 1–20.

Wehrle, T., Kaiser, S., Schmidt, S., & Scherer, K. R. (2000). Studying the dynamics of emotional expression using syn-thesized facial muscle movements. Journal of Personality

and Social Psychology, 78, 105–119.

Zhang, X., Yin, L., Cohn, J. F., Canavan, S., Reale, M., Horowitz, A., ... & Girard, J. M. (2014). BP4D-Spontaneous: a high-resolution spontaneous 3D dynamic facial expression data-base. Image and Vision Computing, 32, 692–706.

自発的な表情はどのような動作から構成されるのか―形態測定学的アプローチ―