人物顔表情の認識・再構成と

(1)

人物顔表情の認識・再構成と

^¿

次元仮想空間共用形通信への適用に関する研究

年

月

佐藤一

(2)

人物顔表情の認識・再構成と

^¿

次元仮想空間共用形通信への適用に関する研究

年

月

早稲田大学大学院国際情報通信研究科国際情報通信学専攻

サイバースペース研究

佐藤一

(3)

(4)

第章序論

研究の背景

「通信」という概念は，離れた場所にいる人物同士が距離を克服し，より効率良く情報伝達を実現する要求から誕生した古代より狼煙や旗を用いた通信が行なわれてきたが，世紀に入ると，モールスによって電信が発明され，電磁石を用いることにより通信網を通じて信号を伝送することが可能となった．さらに，ベルによって電話が発明され，音声情報を直接送受信する方法が確立されたことにより，通信の新しい時代が幕を開けたといえる．以来，電話網を中心に，地球全体を覆う通信ネットワークが整備され，遠隔地にいる者同士の情報伝達を簡便に行うことができるようになった．

近年では，より日常的な人対人の対話に近い，自然な通信の実現に対する要求が高まり，テレビ電話やテレコンファレンスシステムなど，音声情報に画像情報を付加した通信システムの開発が進められてきた．これらのシステムによって解決した部分もあるが，カメラ入力動画像がそのまま伝送されているため，相手との間に距離感を感じてしまったり，充分な一体感が得られないなどの問題点があった．

そのような中，通信技術とヴァーチャル・リアリティ技術を融合することにより，遠隔地にいる人物同士があたかも一堂に会しているような効果が得られるような「場」を生成し，その中に参加者を没入させることにより，実社会における人間対人間のコミュニケーションに限りなく近づけるという考え方が誕生した．

この考え方に基づき，臨場感通信会議システムに代表される次元仮想空間共用形通信システムの構築が進められてきた．

このようなシステムでは，コンピュータグラフィックスやコンピュータビジョン技術などを用いることにより，計算機上に次元仮想空間が構築され，その中に各参加者の容姿を模した仮想的な分身（アヴァタ）が合成・表示される．入力デバイスや画像処理・認識技術などにより，各参加者の顔表情変化や人体動作などが認識され，データが抽出される．抽出されたデータはインターネットなどの通信ネットワークを通じて計算機入力され，前述の分身に反映される．また，このようなシステムでは人物や環境が次元再構築されるため，参加者同士の対話のみならず，協調作業なども期待でき，遠隔授業，遠隔医療，仮想旅行など，多くの応用が考えられる．このようなシステムを概念を図に，具体的な実装例を図にそれぞれ示す．

(9)

図次元仮想空間共用形通信システムの概念

図次元仮想空間共用形通信システムの実装例

(10)

研究の目的

人物顔の重要性

章にて述べたような次元仮想空間共用形通信システムにおいて，中心となるのは参加者である．そのため，異なる場所にいる参加者の動作や表情変化をいかにして

次元仮想空間内に反映させるかは最重要課題といえる．

具体的な研究課題としては，頭部，顔，手，指，腕，足などの個別部位，あるいは全身の移動，回転，変形などを対象としたものが挙げられるが，人物顔に対象を絞ったものが特に求められている．

これは，人物顔が人対人型コミュニケーションにおいて最も馴染みやすいインタフェースの一つであり，音声情報だけでは得られない多くの情報をごく自然に得ることができるからである．

例えば，目，眉，口などの人物顔構成要素の位置や大きさといった外見的な特徴のみならず，表情やジェスチャからは心の中の感情などを，顔色からは体調などを容易に理解することができ，日常的な対話を円滑に行う上で大きな役割を果たしている．

もし人物顔情報の抽出，および次元再構成を高速かつ高精度に行うことができれば，前述した次元仮想空間共用形通信システムにおいて，参加者同士のより自然なコミュニケーションが期待できる．

モデルベース符号化

通信システムにおける，代表的な人物顔情報の次元伝送・再構築手法としてモデルベース符号化が挙げられる．画像符号化では，符号化対象に対する先見的な知識を用いることにより，データ圧縮が行われることが多いが，この方式は人物の顔に対象を絞ったものである．

この手法では，通信に先がけて次元人物顔モデルが予め構築され，受信側に蓄えられる．

送信側では人物顔より顔表情変化などをあらわす各種パラメータが抽出された後（符号化処理），受信側に伝送される．なお，符号化処理は正面顔画像を対象としているため，パラメータ抽出に先がけ，頭部動作の計測や，頭部動作影響の除去処理が行われることが多い．

受信側では，送信側より伝送されてきたパラメータを用いて次元顔モデルの変形処理が行われ，顔表情が再現される（復号化処理）．この次元顔モデルは参加者の視点に応じて回転・移動され，次元スクリーン上に投影されることにより表示が行われる．

上記の流れを図に示す．

½日常的な対話と同等の人対人型コミュニケーションを達成するには人物の五感全てに刺激を与える必要がある．しかし，人間が外界から得ている情報の大部分は視覚によるものであると考えられるため，

ここでは視覚的情報処理に対象を限定して考える．

(11)

Input Images

Measurement of Head Motion

Compensation of Head Motion

Facial Feature Parameter Measurement

SENDER

parameters

Vertices Deformation

3D Face Model

Projection onto

2D screen Output Images Rotate/

move

Position/Direction Parameters

RECEIVER

Encoding Decoding

図モデルベース符号化の概念

研究課題

モデルベース符号化は，ネットワーク上で送受信するデータをパラメータ情報に限定しており，データ量の削減や通信の効率化が期待できる．そのため，従来の次元仮想空間共用形通信システムもこの方式を基本としているものが多い．しかし，このようなシステムにおいて実社会と同等の人対人型コミュニケーションを実現するには，

以下の課題を解決する必要がある．

課題人物顔方向変化の計測

モデルベース符号化は正面顔画像を対象としているが，対話を行っているときの人物顔方向は実際には変化する．カメラを先に取り付けたヘルメットを装着することにより頭部を完全固定したり，磁気センサなどのデバイスを顔や頭部に装着して動作パラメータを読み取った後補正を行うアプローチも考えられるが，機材が顔や頭部と直接接触するため，人物顔情報入力方式として快適とはいい難い．

そのため，人物本来の動作と同等の自由度を持たせるには，画像情報に基づいたようなアプローチが望まれる．従来手法としては，赤外画像を用いて頭髪領域と顔領域を区別し，その相関関係より顔方向を推定する手法，複数の方向画像を用いた固有空間法による手法，色情報を用いた手法，顔部品の配置の偏りを用いた手法

，人物顔画像からの速度ベクトル（オプティカル・フロー）の検出により見かけ上の動作を算出し，次元動きパラメータを推定する手法，剛体の次元動作パラメータを画像の時空間勾配から直接推定する方法などが提案されている

しかし，これらのアプローチでは画像取得条件に制約をつける必要があったり，計算処理が複雑になったりするため，次元仮想空間共用形通信システムのようなアプリケーションへの適用が困難であった．そのため，より簡便な原理で高精度な人物顔角度計測を行う手法が求められている

(12)

課題自然な人物顔画像の再構築

復号化処理を行う際，受信した顔表情変形パラメータに基づき，無表情次元顔モデルの形状変形が行われる．しかし，顔表情変化パラメータを抽出するのは困難であり，デバイスを顔上に貼る必要があったり，人物顔情報入力方式に制約をつける必要があったりするため，人物顔情報入力が快適であるとはいい難い．

また，無表情人物顔モデルの形状を変形するだけでは表情変化に伴って発生する皺や肌の質感変化などを性格に再構築できる訳ではない．また，目，歯，舌などのように，独特の質感や形状をもつオブジェクトをモデリングすることも困難であり，顔画像生成結果のリアリティを低下させる原因となっている．頭蓋骨，皮膚，顔面筋など，

人物顔の構造を物理学的に厳密に再構築することにより，再現品質を向上させる試みもなされているが，データ量が膨大になるため，次元仮想空間共用形通信システムのようにリアルタイム性の求められるようなアプリケーションへの適用は困難である．また，顔面筋動作を正確に計測することは事実上不可能であり，各種パラメータの調整を試行錯誤によって行う必要があるため煩雑である．

人物顔は人間にとって，特に馴染み深いインタフェースであるため，少しでも不自然な顔画像が生成されると大きな違和感に繋がってしまうおそれがある．そのため，簡便な原理により，実世界における人物顔とできる限り同じ品質の顔画像を生成する手法が求められている．

課題人物顔表情変化の定量的な再現

符号化・復号化処理において，何らかの幾何学的なルールに基づき，人物顔表情変化パラメータの抽出や次元顔モデルへの反映が行われるが，このときのルールとして， ^!が用いられることが多い．これは顔表情変化を筋肉の機能的単位である個の^" ^"!の組み合わせとして客観的に評定する方式である．^" は解剖学的に独立し，視覚的に識別可能な表情動作の最小単位（例：「眉の内側を上げる」，「口の両端を下げる」など）であり，一定の^" の組み合わせが，喜び・怒り・悲しみなどの基本感情に対応することが知られている．

しかし，これはあくまでも顔表情変化を定性的にあらわすためのフレームワークであり，定量的にあらわしている訳ではない．そのため，まばたきや発話のときの口形状変化などといった微妙な表情変化や，ある表情から異なる表情への遷移を表現することは困難である

日常的な人対人型の対話と同等のコミュニケーションを行うためには，より自然な表情生成方式が必要であり，表情変化を定量的に再構築する必要がある．

上記の課題〜を解決することができれば，人物顔情報が自然な形で計算機入力でき，高速かつ高精度な人物顔表情変化の認識およびリアリティの高い人物顔画像の再構成が実現される．これにより，次元仮想空間共用形通信システムにおいて，従来アプローチを用いたときよりも日常的な人対人型コミュニケーションに近い，自然な対

(13)

話が期待できる．

本論文では，一般的な^#およびカメラを使用し，画像処理・認識，およびコンピュータグラフィックスなどを用いることにより，これらの課題を解決するための技術について述べていく

本論文の構成

第章は序論であり，研究の背景と目的について述べた．

第章では，本論文中でディジタル画像，および次元コンピュータグラフィックスを扱う上で前提としている数学的な諸定義について述べる．また，第，章で用いる

次元人物顔モデルの基本的な形状構築原理および表示方法についてもここで述べる．

第，，章では，章で挙げた各課題を解決するための技術について具体的に述べていく．

第章では章に述べた課題に対し，次元離散テンプレート系列を用いたテンプレート補間照合法により，非接触，かつ従来の画像処理に基づく手法よりも簡便なアルゴリズムで，高速かつ高精度に人物顔角度変化を計測する手法を提案する．

第章では，章に述べた課題に対し，カメラ入力画像を直接用いて次元顔モデル表面上のテクスチャを適切に張り替えていくことにより，モデリングおよび形状変形に基づくアプローチでは困難であったディテールを簡便な原理で再現し，リアリティの高い人物顔画像の再構築を行う手法を提案する．

第章では，章に述べた課題に対し，人物顔面筋動作に基づいた表情認識方式を応用することにより，カメラ入力画像中の人物顔構成要素（目，眉，唇など）

の変化を手がかりに，次元顔形状モデルを顔面筋動作に基づいて変形できるようにし，従来の定性的な表情記述フレームワークでは実現困難であった人物顔表情変化の定量的な再構築を実現する．

また，章に述べるテクスチャ張り替え法の原理を導入することにより，次元無表情顔モデルの形状変形のみでは再現困難なディテールを再構築し，さらなる人物顔表情の再現品質向上を図る．

最後に，上記の手法を台のネットワーク接続された計算機の間で人物顔データ伝送および再構築を実現できるように拡張し，システム化に関する検討を行う．

上記，第，，章に述べる技術の関連を図に示す．

第章はまとめであり，本論文の総括を行う．

(14)

Face Direction Measurement Using Template Interpolated Matching

3D Facial Feature Reconstruction using Texture Remapping

3D Facial Expression Reconstruction using Facial Muscle Model

3D Facial Feature Reconstruction using Texture Remapping and Facial Muscle Model

Transmission and

Reconstruction of 3D Face Images using Network- connected Computers

Extension

Improvement of Reconstruction Quality

Application

Chapter 3

Chapter 4

Chapter 5

図第，，章の関連

(15)

第

章諸定義および

次元顔モデルの構築・表示法

はじめに

本論文ではディジタル画像，および次元コンピュータグラフィックスを扱っているが，これらを用いる上で前提としている諸定義を明らかにしておく必要がある．

本章では，本論文中で使用している座標系，カメラモデル，次元オブジェクト表示方法の数学的定義について述べる．

また，，章にて述べる手法で使用する次元顔モデルの基本的な形状構築原理および表示方法は共通しているため，ここで述べておく．

座標系とカメラモデル

座標系

特にことわりのない限り，水平方向，垂直方向，奥行き方向に軸，軸，軸をそれぞれとり，左上隅に原点があると仮定する．

カメラモデル

本論文中で使用するカメラモデルは，図のように定義する．これは光学的な歪みや収差などは考慮しない，理想的なピンホールカメラの数学的なモデルであり，レンズの中心が視点に対応し，レンズの光軸が軸に対応する．

実際のカメラの撮像面はレンズの後方にあるため，像が反転して写るが，これはレンズの前方に反転した仮想的な撮像面を考えるのと等価である．これにより，透視投影が実現される．

!は視点座標系上の点を，^!は撮像面の座標系を表す．レンズの光軸と画像面との交点が画像原点となる．原点（レンズ中心）から画像面までの距離（焦点距離）をとするとき，^!に対し，^!は式のように対応する．

(16)

$

!

O Z

X Y

(X , Y , Z) (x , y)

o x y f

screen

図カメラモデル

オブジェクト表示と座標変換

コンピュータビジョンの考え方では，カメラが移動して新しい視点でオブジェクトを表示することと，カメラを固定させて物体を逆に移動させることは等価である．そのため，カメラは座標上で固定させ，オブジェクトの移動のみを考える．

視点移動後の座標系を，視点移動前の座標系を^¼ とし，それぞれ視点座標系，オブジェクト座標系と定義する．ここで，オブジェクト座標系の原点の位置を視点座標系で ^!，オブジェクト座標系の視点座標系に対する方位角を，仰角をとしたときの両者の座標系の関係を図に示す．ここで，方位角は軸まわりの回転角，仰角は軸まわりの回転角である．

点^¼が^¼ で定義され、その次元座標が^¼^¼^¼^! で表されているとする．点^¼が系で^!とあらわされるとき，両者の関係は式であらわされる．

$ !

!

なお， ^!，^!，はそれぞれ式，式，式であらわされる．

(17)

!$

! !

!

!$

! !

!

$

!

式〜を式に代入することにより，平面上の座標^!が得られる．

O X

Y Z

Z Y

Z X φ λ O

(T _x , T _y , T _z )

図座標変換

(18)

次元人物顔モデルの構築・表示方式

正面・側面顔画像を用いた構築

人物の顔表面を細胞レベルまで細かく分析し，各細胞を計算機に次元位置情報として入力できれば，現実世界と全く同じ現象を再現することが可能となるが，膨大なデータ量や計算時間が必要になる．そのため，物体の大局的な形状を保持しつつ，簡略化するという考え方に立つ．

本論文では，正面および側面から取得された枚の顔画像を用いることにより，特殊な機材を用いず，なるべく少ないデータで基本的な顔形状を構築するアプローチを採る．

人物の正面顔画像，および側面顔画像をカメラで撮影し，正面と側面の画像の中心，

および頭部の高さが同じになるように調整し，直交させた配置にする．このとき，正面と側面画像の両方で位置を特定できれば，正面画像からは横・縦方向の座標を，側面画像からは奥・横の座標を得られるため，縦・横・奥の座標が揃い，次元的な位置情報を得ることができる．これにより，比較的簡単な原理によって顔の次元形状を模した顔モデルが構築可能になる．

正面画像と右側面画像の枚組の画像上に基本形状モデルの特徴点を正面・側面画像に重ねて表示し，目，眉，口といった顔部品の端点や顔の輪郭に対応する位置を指定していく．この作業を正面，側面画像両方のすべての特徴点に対して行なうことにより，各特徴点の次元座標を決定する．

フィッティング処理

章に述べたアプローチをそのまま用いた場合，形状モデル上のすべての点について正面および側面画像上で対応付けを行う必要がある．形状モデルの精度を向上させるにはポリゴン数を増やす必要があり，労力を要する．

人間の顔形状は個人差があるものの，おおよその形は類似していると考えられるため，予め一般的な頭部モデルを構築しておき，このモデルを各個人に合わせてフィッティングさせるという考え方に立つ．

形状モデル頂点のうち，目尻や鼻の先など，比較的対応をとりやすい部位に配置されたものをアンカーポイント，それ以外のものを非アンカーポイントと定義する．正面と側面の枚の顔画像から少数のアンカーポイント位置を指定し，顔アンカーポイントの位置情報をもとに，非アンカーポイントの最適位置を算出する．

½正面および側面の縦方向の座標は厳密には一致しないため，実際にはこのつの座標値の平均を計算して用いるものとする．

¾先に述べたように，カメラ取得される正面・側面顔画像は実際には透視投影による．しかし，一般にオブジェクトの奥行きがカメラ・オブジェクト間の距離に比べて充分に小さい場合，直交投影で近似可能であることが知られている．本論文中にて述べる実験を行った環境において人物顔領域（耳および後頭部領域を除く）の奥行きはカメラ・オブジェクト間距離の ^½

½¼

程度であり，次元座標位置取得処理の簡略化にも繋がるため，直交投影を仮定する．

(19)

形状モデル上に指定された個のアンカーポイント ^$ ^!の移動がある関数で重み付けされて他の頂点に影響を及ぼし，ある頂点の移動量が全頂点の重み付けられた移動量の和となると仮定する．

このとき，任意のアンカーポイントの移動量^!は式であらわされる．

! $%

! !

ここでは補間係数，は^&'関数をそれぞれ示している．^!の関数としては様々なものが提案されているが，

!$

!

を用いるのが一般的である．但し，^!が充分小さくなるように定数を定める必要がある．

変形前の頂点を

$ !とするとき，変形前後の特徴点の距離は

!$

!

であらわされる．式，式より補間係数は式を解くことにより求められる．

$

!$%

! !

，，はいずれも次元ベクトルであるため，行列を用いることにより，式は式のように書き直すことができる．

$

!

(

!

よって，は式を解くことにより求められる．

$

!

算出されたの値を式に代入することにより，モデル上の全ての非アンカーポイントの頂点座標移動量が求められる．

¿経験側より，とした．

(20)

$

!

以上の概念を図に示す．

½

¾

¿

½

¾

¿

½

¾

¿

図非アンカーポイント頂点の補間

三角形ポリゴン

次元オブジェクトは多角形，球，円柱など，単純な面の集合体で表されることが多いが，この面を三角形（三角形ポリゴン）で表現する（図参照）．

指定した頂点のうち，隣接したものを繋いでいくことにより三角形ポリゴンを作り，

これを面と考える．これにより，各ポリゴンを構成する各頂点の次元座標の記述によって物体の面の記述が可能となる．

テクスチャマッピング

ポリゴン表面を単純に塗り潰すだけでは，物体の質感や細かな凹凸を表現するのは困難であるため，カメラ入力された次元画像を使用し，次元顔モデルを構成する各三角形ポリゴン上にテクスチャマッピング処理を施すことにより，簡単な原理でリアリティの高い次元顔画像を再現する．

具体的には，三角形ポリゴン各頂点を入力画像平面上へ射影し，対応付けを行った後，次元画像中の領域を適切に切り出して貼り付けることで，もとの物体が持つ特徴をそのまま表現する．

テクスチャ画像の水平方向，垂直方向をそれぞれ，方向とし，左上隅を，軸の原点とする．

(21)

(X ₁ , Y ₁ , Z ₁ )

(X ₂ , Y ₂ , Z ₂ ) (X 3 , Y 3 , Z 3 )

X

Y Z

図三角形ポリゴン

各ポリゴンを構成する頂点に対し，式，式を用いることにより，画像平面（スクリーン）上に投影する．このときの各頂点のスクリーン上での座標を ^!，^!，

!とする．

ポリゴン領域内のテクスチャが切り出され， ^!，^!，^! にそれぞれ対応するテクスチャの座標 ^!，^!，^!に，アフィン変換による写像が行われる（図）．

このとき，アフィン変換は式によって行われる．

$

)

!

ただし，〜は式，式によって算出されるものとする．

$

!

$

!

ポリゴンの表裏判定

描画コストを低減させるため，各ポリゴンを構成する頂点の記述順によって表裏判定を行い，表向きと判断されたポリゴン以外にはテクスチャマッピング処理は施さない．

(22)

ポリゴン頂点の順番は，表から見て左周りに記述しておき，次元平面上での頂点の記述順からパッチの表裏判定を行うと，記述順が左りなら表向き、右周りなら裏向きと判断される．

ポリゴンを構成する頂点を，，とするとき，テクスチャ面積は式で求められる．

$

!

このとき，

を満たすポリゴンが表向きと判断され，その表面上にテクスチャが貼り付けられる．

Polygon projected

onto screen Texture Image

(x 1 , y 1 )

(x 2 , y 2 ) (x 3 , y 3 )

(u 1 , v 1 )

(u 2 , v 2 ) (u 3 , v 3 )

u

v x

y

図テクスチャマッピングの概念

!

隠面処理

対象とするモデルをディスプレイ上に表示する際，手前に存在する物体または物体の一部によって隠されて本来見えない面（隠面）を消去する作業が必要となる（図参照）．一般に隠面消去処理に要する演算時間は，多角形などの立体構成要素の乗に比例するため膨大な演算時間を要するが，処理高速化のため，バッファ法を用いる．この方法では，バッファと呼ばれる次元配列を利用してピクセルごとに処理を行ない，

隠面消去を行う．バッファを，画像用フレームバッファを^!!"

としたとき，処理は以下の手順で行われる．

画面上の全ピクセルについて，の値を式，^!!"の値を式

に示すように，背景色に初期設定する（ここでは青^#!とする）．

$ !

(23)

Polygon

Screen X

Z Y

図隠面消去

!!"$# !

情景中の各多角形が画面に投影されたとき，多角形の領域内に含まれるピクセル

!を見い出す．

その各ピクセル^!の深度を計算する．

もし，ならば，このピクセル^!を含むこの多角形がそれまでに扱われた多角形のなかで，最も視点に近いことを表している．その場合，

にを代入し，^!!"には多角形の色を代入する．他方，

ならば，すでに視点により近い多角形が存在しているため，何の処理も行わない．

まとめ

本章では，本論文中でディジタル画像，および次元コンピュータグラフィックスを扱う上で前提としている数学的な諸定義（座標系，カメラモデル，次元オブジェクト表示方法）について述べた．

また，，章にて述べる手法で使用する次元顔モデルの基本的な形状構築原理および表示方法についても述べた．

(24)

第

章テンプレート補間照合による

次元人物顔方向の計測法

はじめに

人物顔方向変化からは，興味の対象を理解したり，会議などのように複数の人物が参加している会話において，誰が誰に対して話しているのか察知することが容易にできる．

そのため，人物顔方向認識や角度計測に関する研究は活発に行われてきている．その多くはモデルベース符号化における顔の動き補正や，ロボットに人物の興味対象やジェスチャを識別させるシステムや，仮想空間内で利用者の視線に合わせた画像を提示するようなシステムの要素技術として期待されている．

これらは，デバイスを用いることにより顔動作や表情を計測する方法と，カメラ画像中から画像処理を用いることによって顔情報を分析・認識する方法に大別される．

デバイスを用いた手法では，磁気センサなどの機材が人物顔や頭部に装着され，動作パラメータが読み取られるこのアプローチでは，実時間で高精度な顔角度計測が期待できる反面，デバイスを顔や頭部に直接接触させる必要があるため，マンマシンインタフェースとして快適とはいい難い．

一方，画像処理を用いた手法としては，赤外画像を用いて頭髪領域と顔領域を区別し，その相関関係より顔方向を推定する手法，複数の方向画像を用いた固有空間法による手法，色情報を用いた手法，顔部品の配置の偏りを用いた手法，人物顔画像からの速度ベクトル（オプティカル・フロー）の検出により見かけ上の動作を算出し^*次元動きパラメータを推定する手法，剛体の次元動作パラメータを画像の時空間勾配から直接推定する方法などが提案されている

赤外画像を用いた手法の場合，赤外線カメラを用意しなければならない上に，使用者の頭髪の量に処理結果が依存するという欠点がある．

色情報を用いたものとしては人物頭部領域と顔領域の重心を求め，両者のずれから顔方向を推定する手法がある．この処理は簡便であり，枚のモノクローム画像中から実時間顔方向推定が可能となるが，精度が粗く，実用化する上で限界があった．

顔部品の配置を用いた手法としては，顔領域と目・鼻領域の相対的位置関係を用いたものや顔画像の濃淡値より統計的に求める手法などがある．これらの手法による良好な推定結果も報告されているが，推定可能な姿勢範囲が狭いという欠点がある．また，前章にも示した通り，顔領域や顔部品の領域を的確に抽出するのは困難であり，画

(25)

像取得条件に制約をつける必要がある．

固有空間法では，様々な方向から得られた固有顔画像を行列に並べて固有値分解することによりベクトル表現し，入力画像ベクトルと最も類似したものを求める．比較的ポピュラーなアプローチであり，多くの報告例が出ているが，高精度な認識を行うためには処理時間がかかるため，リアルタイム処理には不向きであるといえる．

オプティカルフローを用いたアプローチも広く行われているが，見かけ上の動きを中間結果としているため処理が複雑になってしまうという問題点がある上，この中間結果を算出するときの誤差が後の推定に影響を及ぼすということも考えられるまた，

人物の顔のような非剛体に剛体の次元動作を直接推定することに関しても疑問符がつく

本章では，カメラ入力された画像中の人物の顔方向計測を目的とした人物顔画像による次元離散テンプレート系列を用いたテンプレート補間照合法を提案する（図参照）これにより，非接触，かつ従来の画像処理に基づくアプローチのように，複雑な計算処理を必要とせず，人物顔角度の高速かつ高精度な計測が実現される．

まず，異なる角度より取得された次元人物顔画像を予め標準パターンとして等間隔に並べておき，次元離散テンプレート系列を作成する．入力された顔画像と全数照合することにより，左右，上下，傾斜方向の顔方向の推定を高速・高精度で行う．さらに，変形テンプレート補間法を応用することにより，隣接したテンプレート間の補間計算処理を行い，より少ないテンプレートデータ量で処理を実現する．

提案手法

提案手法は次の手順で行う（図）．

異なる角度から人物顔画像を取得し，正規化処理を施した後，左右・上下・

傾斜方向に等間隔に並べることにより次元離散テンプレート系列を作成する．

カメラ入力画像より顔領域を切り出し，正規化処理を施す．

で得られた画像をで作成した次元離散テンプレート系列を構成する画像と全数照合し，単純類似度の合計の最も高いテンプレートの組を選択する．

隣接したテンプレート間の類似度は線形に変化していると仮定し，補間計算を行うことにより，より少ないテンプレート数による人物顔方向の計測を実現する．

以下〜章では各ステップの詳細について述べていく．

(26)

Face Images acquired from various angles

Extraction and Modification

3D array of discrete templates Template

Matching Extraction and

Modification Camera Input Image

Face Direction

(x ^◦ , y ^◦ , z ^◦ ) _{Step 1} Step 2

Step 3

Interpolation

Step 4

図人物顔角度の計測法

(27)

離散テンプレート系列の作成

濃淡情報

人物顔を用いた画像処理に必要な情報は濃淡情報でも充分だという報告もなされている上，入力画像のデータ量を

に減らすことができるため，カメラ画像の濃淡情報のみを用いる．

濃淡情報は，カメラ画像中の各画素を光の原色である赤，緑，青の各成分に分解したときの信号強度（それぞれ，^$，^#とする）を輝度信号（）と色差信号（^%，^&）に変換することによって得られる

は人間の各原色に対する明るさを感じる度合からつくられ^* 画素における明るさ

（濃淡）をあらわす ^%*& はそれぞれとの差分，^#との差分であらわされ，色情報を構成する色相（色相）と彩度（色の濃さ）はこのつの信号の組合せによって決まる

*%*& は式によって求められる

%

&

$

#

!

正規化処理

認識処理をおこなう際，個々の人物顔部品を用いた場合よりも人物顔全体を用いた方が精度が高いという報告もなされているため，顔全体の特徴を抽出して用いることにする．

まず，カメラ角度を上下，左右，傾斜方向に等間隔に変化させ，異なる顔角度の人物顔画像を取得する．次に，これらの画像中より，人物顔全体の外接矩形領域を切り出す．

人物顔方向変化によって切り出される領域の大きさは変化する．しかし，入力画像とテンプレート画像が同じ大きさでなければ後述するテンプレートマッチング処理を行うことができないため，顔画像の縦横比を変化させ，^!!（画素）の大きさに補正する．

また，入力画像における雑音や表情変化などによる影響を低減するため，× の線形平滑化フィルタ

'

!$

'

)()!!)! ) !

を施し，画像をぼかす．

以上の処理を正規化処理と定義する．

(28)

テンプレート系列

図次元離散テンプレート系列の一例

章の処理によって得られた画像を左右，上下，傾斜方向に並べることにより，

次元離散テンプレート系列を作成する． °おきに顔を変化させて製作したの次元離散テンプレート系列（左右方向°，上下方向°）を図に示す．

以降の処理では，離散テンプレート系列を構成する画像をそのまま多次元ベクトルとして用いる．

最類似テンプレートの選択

パターン認識は既知のパターンを類似したパターンごとにいくつかのカテゴリに分類した後，各カテゴリをそれぞれ異なる概念に対応させ，未知のパターンがどのカテゴリに属するのかを決定する処理である．その代表的な手法の一つとしてテンプレートマッチングが挙げられる

テンプレートマッチングの基本的な考え方は，予め標準パターン（テンプレート）を用意しておき，与えられた入力パターンを各標準パターンと重ね合わせ，最も重なり合った標準パターンのカテゴリを出力するものである．

テンプレートマッチングの評価尺度としては，^+,距離や^-距離などのように，各画素の差分の合計を計算するものが一般的である．これらの手法は，工場での部品検査などのように，照合する部品とテンプレートとなる部品が同じ形状の場合に有効であるが，照明変化に対しロバストな手法であるとは言い難く，入力画像

(29)

が種々のひずみや雑音などの影響を受けることも予想される．そのため，正確な顔画像マッチング結果を得るのは困難だと考えられる．

両パターンのベクトル間距離をそのまま使用する方法よりもパターン全体の特徴の相関を用いて類似性を算出した方が適切であると考えられるため，類似度法を用いるものとする．

g

f Θ

図類似度法のベクトル表現

類似度法では，テレビ走査型に画像をなぞっていき，画素毎に得られる濃度値を書き連ねることにより，全体を一本のベクトルとして考える．

ここでは，

$

!

を入力画像の各画素における濃淡値を要素としたベクトル，

$

!

を標準パターン（テンプレート画像）の各画素における濃淡値を要素としたベクトルとそれぞれ定義する．

ここで，，は標準パターンおよび入力パターンの番目の画素における濃度値をあらわしており（ ^!. ^!はパターンを構成する画素の総数），は転置記号である

超空間でとの成す角度が°に近ければ近いほど，枚の画像は類似していると考えられる（図）

ベクトルとが成す角を^/とするとき，つのベクトルの内積の定義

$ '"/ !

(30)

より，との類似性⁽は，

($/$

!

で求められる（但し，⁽ ）．

この時の量⁽は単純類似度と呼ばれ，パターンの濃度や画像の明るさなどに依存しない画像間の類似性を具体的な数値であらわすことができる．

入力画像中より人物顔領域を切り出し，正規化処理を施した後，章に述べた次元離散テンプレート系列と全数照合し，最も類似したテンプレート画像を単純類似度により選択する．

隣接テンプレート間の補間計算

顔角度計測精度を向上させるためには，用意するテンプレートの数を増やす必要があるが，なるべく少ないデータ量による処理が望ましい．そのため，次に述べる変形パラメータ推定法の考え方に基づき，隣接したテンプレート間の補間計算を行う．これにより，入力画像と完全一致のテンプレートが存在する場合とほぼ同等の精度で顔角度の算出を図る．

変形パラメータ推定法

入力オブジェクトの変形がある関数に従って生じる場合，次元の離散的なテンプレート系列を設けておくことにより，入力オブジェクトと完全に一致するテンプレートが無い場合でも，ほぼ完全一致のテンプレートがある場合と同等の精度で変形パラメータを推定できる方法が小池，田辺によって提案されている．

識別対象のオブジェクトの変形が一列に並んだ複数のテンプレートによって離散的にあらわされているとき，隣接した実在のテンプレートの間には，仮想的なテンプレートが無数に存在すると考えることができる．これらの中から入力画像に最も類似したものを選択し，これと入力画像との間の単純類似度を用いるのが妥当であるといえる．

この考えを用いた手法をテンプレート補間照合と呼ぶ．

実在するテンプレートの中で入力画像と最も類似した⁰¹^*と，⁰¹^* に隣接したテンプレート枚のうち，入力画像により類似した⁰¹^*⁾ を選び，入力画像を含めた枚の画像間の単純類似度²^*，² ^* ⁾ ，²

**) !を使用することにより，変形パラメータを近似する．この概念を図に示す．

あらかじめ予想される変化には影響を受けず，位置ずれや未知の変形に対してその値が低下するオブジェクトとテンプレートの類似性をあらわすようなパラメータを類似性パラメータと呼ぶ．

(31)

Template K

Interpolated Template

Template K+1

Template K+2

. . . . . . . . .

Similarity F+1 Similarity F Input Image

Interpolated Similarity

. . . . . .

FF+1

(similarity=0.4)

(similarity=0.6)

(similarity=0.8) (similarity=0.48) (Similarity Unknown)

図線形補間法の概念

arccos m

1 g

f f

f

t

1 2

図ベクトル表現を用いた類似性パラメータの算出

(32)

ここでは，を入力ベクトルと最も類似したテンプレート画像のベクトル，を入力ベクトルにより近いの隣接テンプレート画像のベクトルとする．補間テンプレートベクトルが，を含む平面と，その平面に垂直に交わるを含む平面の交線上に存在すると仮定する（図）．

このとき，に対する入力画像ベクトルはの単純類似度⁽はととの間の⁽ ，

ととの間の⁽，およびととの間の⁽ を用いれば，次の式より求められる．

(

$ (

) (

(

!

オブジェクトの変形をあらわし^*オブジェクトの位置関係をあらわすパラメータを構造パラメータと定義するとき，入力画像ベクトルの構造パラメータは，対応する補間テンプレートベクトルを用いるのが都合が良い．

の構造パラメータおよびの構造パラメータに対し，とが成す角度，および

とがなす角度を用いて，比例配分を用いて考える．

をの構造パラメータ，をの構造パラメータとするとき，の構造パラメータは，

$ )

!

'"

(

!

で算出できる（但し，）．

補間計算法

顔方向を上下，左右，傾斜方向に°刻みに変化させて取得した顔画像と正面顔画像との類似度を計算したときの，角度変化と類似度の関係を図に示す．

これより，人物顔方向が変化する時の類似度の変化はほぼ線形であると仮定できる．

隣接テンプレート間の変化が線形に生じていると仮定すれば，完全一致のテンプレートを用意していない場合でも，入力画像とテンプレート画像との間の単純類似度の線形補間計算を行うことにより，前述の変形パラメータ推定法よりも，簡便な計算により顔角度パラメータを求めることができると考えられる．

このような考えに基づき，単純類似度を用いた線形補間計算により，顔角度推定を行う．

次元的な計測への拡張

前述の変形パラメータ推定法では，オブジェクトの次元的な変化を対象としており，入力画像と完全一致の仮想テンプレートが類似度の最も高い枚のテンプレートの間に存在すると仮定している

(33)

0 15 30

−30 −15

−45 45

1.00

0.95

0.90

0.85

0.80 Similarity

Horizontal Vertical Diagonal

Difference of Face Angle [deg]

図顔角度変化と類似度の関係

(34)

この手法を次元的な変化をするオブジェクトに拡張するため，入力画像と類似度が最も高い枚のテンプレート画像の間に入力画像と完全一致の仮想テンプレートが存在すると考えられる．

しかし，単純に類似度の高い枚のテンプレートを選択した場合，他テンプレートと隣接していないテンプレートが選択されてしまうという失敗が考えられる．そのため，隣接した枚のテンプレートを組として考え，組毎に類似度の合計値を取り，この値が最も高かった組を選択する

選択された枚の隣接テンプレートの中心を結んだ立方体内に，入力画像と完全一致の仮想テンプレートが存在すると仮定する．

P

P P

i,j i+1,j

i+1,j+1 i,j+1

u,v

図線形補間法

顔角度を算出するにあたり，線形補間法を応用して用いる．

線形補間法は図に示すように，ある画素アドレスが格子点と一致しない場合，近傍の個の格子点からの距離の比を求め，この比率で近傍画素の濃度値を用いて補間計算を行う手法である．この濃度値の計算を式であらわすと，

$) ! +) ! !

)) ! +!

) !+) ! !

) ! +!

!

となる．

この計算法を応用し，隣接テンプレートの単純類似度を直接用いて顔角度を算出する．仮想テンプレートの中心は，選択された枚のテンプレートの中心を結んだ立方体の縦，横，奥行きの辺をそれぞれ ^!，^, ^,!， ^!，に配分する点であると考える事ができる．

(35)

p

0 1

1 m m

1 2

dividing parameter

similarity

図補間計算式

最類似テンプレートの類似度を⁽ ，垂直方向に隣接したテンプレートのの類似度を⁽とする．隣接した枚のテンプレート画像間の変化が線形ならば，図からわかるように，

(

$

(

!

が成り立つ．式をについて解くと，

$

(

( (

!

が得られる．

同様にして，⁽ と水平方向に隣接したテンプレートの類似度⁽を用いることにより，

,$

(

( (

!

が得られ，⁽ と奥行き方向に隣接したテンプレートの類似度⁽を用いることにより，

$

(

( (

!

(36)

f ¹ f ²

f ³ f ⁴

f ⁵ f ⁶

f ⁷

f ⁸

t

p

1-p 1-r

r

f _{1 - 8} : Neibouring Templates

f _t : lmaginary Template

f

1-q q

図枚の隣接テンプレートを用いた補間計算

(37)

が得られる（図参照）．

式より，上下，左右，傾斜方向の角度°，°，°はそれぞれ次の式で計算される．

$ ! )

!

$ ,! ),

!

$ ! )

!

ここで，，，はテンプレートの上下，左右，傾斜方向の角度をそれぞれ表すパラメータと定義する．

基礎実験

!

条件

入力カメラ画像中の顔角度を正確に把握するのは困難であるため，次元顔モデルを構築し，これを用いて入力画像およびテンプレート画像を作成し，評価実験に用いる．

一般的な室内光のもと，全周囲型次元スキャナ（³²⁴²社製・⁵ ⁵⁶²

&7'）を用いて代の日本人男性名の無表情時および有表情時（口を大きく開いているとき）次元顔形状および色情報を取り込んだ．

髪の毛はレーザ光線をきれいに反射しないため，髪にベビーパウダを撒布して計測を行った．次元スキャナで頭部全周を取り込むのに約秒かかるが，その間，被験者は呼吸や動作を止めておくようにした．なお，測定する際に頭部の微少な動きにより生じる誤差は微小であるため，無視している．欠損した頭部部分はグラフィックソフトを用いて手作業で修正し，理想的な無表情および有表情次元顔モデルを個ずつ作成した．

また，テンプレート系列としては人物頭部の稼働範囲を想定し，前述の顔モデルを左右方向±°，上下方向±°，傾斜方向±°の範囲で °おきに変化させて顔画像を取得し， × ×の次元離散テンプレート系列を作成して用いた．

なお，使用した画像はいずれも（画素）の ³白黒濃淡画像である．

計算機は⁷⁸社製グラフィックワークステーション（⁷⁸ ^8. ^#" ^98# ^&

9-6* &99'* 721: 8 3）を用いた．

(38)

表入力画像の顔角度

!

無表情顔画像を用いた計測

提案手法では枚の隣接テンプレートの類似度を用いて補間計算を行っているため，

入力画像と完全一致のテンプレートが存在する場合

枚の隣接テンプレート間に入力画像と完全一致の仮想的なテンプレートが存在する場合

が考えられるが，それぞれの場合における計測結果を確認し，且つなるべく少ないデータ量でアルゴリズムの有効性を示すため，表に示す角度の枚の入力画像として用いた．^**!は右方向に°，上方向に°，正の傾斜方向に°傾いた顔画像をあらわしている．

前述の処理によって製作された無表情人物顔モデルの顔方向を上下，左右，傾斜方向に °おきに変化させ，表に示す角度に変化させて得た枚の顔画像を作成し，

入力画像として用いた．なお，^**!は右方向に°，上方向に°，傾斜方向に°傾いた顔画像をあらわしている．

同じ顔モデルを °おきに変化させることにより作成した（左右方向

°，上下方向°，傾斜方向°）の次元離散テンプレート系列をテンプレート系列として使用し，上下，左右，傾斜方向の顔角度計測を行った．

!

結果・考察

左右方向の角度計測結果を図，上下方向の角度計測結果を図，傾斜方向の角度計測結果を図にそれぞれ示す．軸に入力画像の左右方向の角度，軸に算出された角度を示している．また，実線は理論値をあらわしている．

(39)

平均して左右方向 °，上下方向°，傾斜方向°の誤差で顔角度を算出できた．

隣接した枚のテンプレートのブロックは入力した枚全てについて確認できた．

図，図を見ると，理論値と計測値との誤差が局所的に跳ね上がっている部分があるが，これは枚の隣接したテンプレート間に入力画像と完全一致の仮想テンプレートが存在しているとき（左右方向に°^*上下方向に°傾いている場合，左右方向に°^*上下方向に°傾いている場合など）であり，最大で°の誤差が検出されている．これは線形補間を用いることによるデメリットであり，これを解決するためにはアルゴリズム面において工夫を施す必要がある．

!

有表情顔画像を用いた計測

有表情顔画像（口を大きく開いている顔画像）を使用し，前述の無表情顔画像と同様にテンプレート補間照合を行った．

テンプレート系列は前述のの無表情顔画像を用い，有表情顔モデルを表に示した角度に変化させて得た画像枚を入力画像として用いた．

!

結果・考察

左右方向の角度計測結果を図，上下方向の角度計測結果を図，傾斜方向の角度計測結果を図にそれぞれ示す．軸に入力画像の左右方向の角度，軸に算出された角度を示している．また，実線は理論値をあらわしている．

平均して左右方向°，上下方向°，傾斜方向°の誤差で顔角度を算出できた．

図，図から判るように，無表情顔画像を用いたときよりも全体的に誤差が大きく出ており，特に^$°，°のときには誤差が極端に現われているが，大きな表情変化のある入力画像を用いたときでも，この計測手法は有効であることが確認できた．

計測時間は章に示した計算機上でソフトウェア実装したところ枚の入力画像につき秒程度要したが，アルゴリズム改良やハードウェア最適化などによって解決できると考えられる．

まとめ

本章では，人物顔画像による次元離散テンプレート系列を用いたテンプレート補間照合法による次元人物顔角度計測法を提案した．

異なる方向より撮影された人物顔画像を標準パターン（テンプレート）として左右，

上下，傾斜方向に並べておくことにより，次元離散テンプレート系列を作成した．単

人物顔表情の認識・再構成と

人物顔表情の認識・再構成と

次元仮想空間 共用形通信への適用に関する研究

年

月

佐 藤 一

人物顔表情の認識・再構成と

次元仮想空間 共用形通信への適用に関する研究

年

月

早稲田大学大学院 国際情報通信研究科 国際情報通信学専攻

サイバースペース研究

佐 藤 一

目 次

第 章 序論

研究の背景

研究の目的

人物顔の重要性

モデルベース符号化

Input Images

Measurement of Head Motion

Compensation of Head Motion

Facial Feature Parameter Measurement

SENDER

parameters

Vertices Deformation

3D Face Model

Projection onto

2D screen Output Images Rotate/

move

Position/Direction Parameters

RECEIVER

Encoding Decoding

研究課題

本論文の構成

Face Direction Measurement Using Template Interpolated Matching

3D Facial Feature Reconstruction using Texture Remapping

3D Facial Expression Reconstruction using Facial Muscle Model

3D Facial Feature Reconstruction using Texture Remapping and Facial Muscle Model

Transmission and

Reconstruction of 3D Face Images using Network- connected Computers

Extension

Improvement of Reconstruction Quality

Application

Chapter 3

Chapter 4

Chapter 5

第

章 諸定義および

次元顔モデルの 構築・表示法

はじめに

座標系とカメラモデル

座標系

カメラモデル

O Z

X Y

(X , Y , Z) (x , y)

o x y f

screen

オブジェクト表示と座標変換

O X

Y Z

Z Y

Z X φ λ O

(T x , T y , T z )

次元人物顔モデルの構築・表示方式

正面・側面顔画像を用いた構築

フィッティング処理

三角形ポリゴン

テクスチャマッピング

(X 1 , Y 1 , Z 1 )

(X 2 , Y 2 , Z 2 ) (X 3 , Y 3 , Z 3 )

X

Y Z

ポリゴンの表裏判定

Polygon projected

onto screen Texture Image

(x 1 , y 1 )

(x 2 , y 2 ) (x 3 , y 3 )

(u 1 , v 1 )

次元仮想空間共用形通信への適用に関する研究

佐藤一

次元仮想空間共用形通信への適用に関する研究

早稲田大学大学院国際情報通信研究科国際情報通信学専攻

佐藤一

目次

第章序論

章諸定義および

次元顔モデルの構築・表示法

(T _x , T _y , T _z )

(X ₁ , Y ₁ , Z ₁ )

(X ₂ , Y ₂ , Z ₂ ) (X 3 , Y 3 , Z 3 )

章テンプレート補間照合による

(x ^◦ , y ^◦ , z ^◦ ) _{Step 1} Step 2