高速度 3D 映像からの音声情報取得

(1)

高速度 3D 映像からの音声情報取得

Voice information acquisition from high-speed 3D images

1W100233-7 佐藤生康指導教員及川靖広教授

SATO Ikuyasu Prof. OIKAWA Yasuhiro

概要：快適な音コミュニケーションの実現は重要な課題である．難聴者のためのコミュニケーションとして自動読唇の研究が進められている．しかし，自動読唇の結果得られる情報は文字情報のみであり，そこから発話者の気持ち，抑揚などの非言語情報を得ることはできない．本研究では高速度映像を用いることで，発話者の頭部の皮膚振動から声質や抑揚，個人性を含めた音声情報の取得を目指す．具体的には被写体の頭部をステレオカメラ配置で撮影し，頬の

3

次元変位から声道特性の取得を試みた．

キーワード：高速度カメラ，テンプレートマッチング，音声，ステレオカメラ校正

Keywords: high-speed camera, template matching, speech signal, stereo camera calibration

1. まえがき

近年，カメラで取得した被写体の映像から発話内容を文字情報として推定する自動読唇技術の研究が進められている．しかし，文字情報として認識するのでコミュニケーションにおいて重要な感情や声質などの非言語情報や，個人性までは言及していない．本研究室では頸部高速度映像からの音声情報取得に関する研究

[1]

が行われている．しかし，声道の特性に関しては言及しておらず，

声質等の個人性を取得するまでは至っていない．本研究では頭部を高速度カメラで撮影し，頬の皮膚振動の

3

^次元高速度映像から発話情報，特に声道特性に関する情報の取得を試みた．

2. ステレオカメラ校正

ステレオカメラシステムの

3

次元配置を正確に求めることをステレオカメラ校正と呼ぶ．

観測された

2

次元画像座標を

(x

image

, y

image

)

とし，

3

次元シーンにおける観測点の

3

次元ワールド座標を

(X

world

, Y

world

, Z

world

)

とする．画像座標と

3

次元ワールド座標の関係は

ri

=

[

x

image

y

image

1

]T

(1)

rw

=

[

X

world

Y

world

Z

world

]T

(2)

および

3

×

4

の変換行列

P

を用いて

ri

= P

rw

(3)

と表現できる．式

(3)

^は

A =

(

X Y Z 1 0 0 0 0

−xX−xY −xZ−x

0 0 0 0 X Y Z 1

−yX−yY −yZ−y

)

(4)

により，

Ap = 0 (5)

と書ける．ただし，pは

p

= [p

11

p

12

p

13

p

14

p

21

p

22

p

23

p

24

p

31

p

32

p

33

p

34

]

^T

(6)

である．rwが既知の参照点パターンを撮影し，riを求め式

(4)

に代入することで

A

を得ることができるので，複数の参照点から求まった

A

を縦に連結したAを用いて，式

(5)

の二乗誤差∥Ap∥² ^{を最小にする}

P

を

∥P∥

= 1

の条件のもと求める．

P

を求めることによって，

2

台のカメラによって観測された点の画像座標から観測点の

3

次元変位を求めることが可能になる．作成した参照点パターンを図

–1

に示す．

3. 頭部高速度 3D 映像からの音声情報抽出

ステレオ配置した

2

台の高速度カメラにより撮影した頬から

2

次元変位を取得した後，ステレオカメラ校正を利用して

3

次元変位から音声情報の取得を試みた．測定条件を表―

1

に示す．解析の手順は以下のとおりである．

(1)

観測画像を

m

×

n

の領域に分割

(2)

単位時間後の対応領域との輝度値相関から

2

次元変位を計算

(3)

ステレオカメラ校正で求めた変換行列

P

を用いて

2

次元変位を

3

次元変位に変換

(4)

スペクトルを計算し，計

mn

領域それぞれのスペクトルを加算

図―1 作成した参照点パターン

(2)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―2 /o/発声時の頬の振動スペクトル(x方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―3 /o/発声時の頬の振動スペクトル(y方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―4 /o/発声時の頬の振動スペクトル(z方向)

100 200 300 400 500 600 700

−100

−80

−60

−40

−20 0

Frequency [Hz]

Power [dB]

図―5 /o/発声時の音声スペクトル

表―1 測定条件

高速度カメラ HX-3 (nac Image Technology Inc.) フレームレート 10000 fps

画角 480×510 px

被写体 20代男性

発声内容 /u/，/o/

図―

2

，図―

3

，図―

4

に

/o/

発声時の頬の

3

次元変位から得られた振動スペクトルを，図―

6

，図―

7

，図―

8

に

/u/

発声時の頬の

3

次元変位から得られた振動スペクトルを示す．また

/o/

発声時，

/u/

発声時の騒音計で収録した音声スペクトルをそれぞれ図―

5

，図―

9

に示す．

/u/

，

/o/

発声時の頬の振幅スペクトルと音声スペクトルを比較すると基音，倍音の成分共に観測できていることが確認できる．また

142 Hz

にピークが見られるが，

これは高速度カメラのファンに起因すると考えられる．

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―6 /u/発声時の頬の振動スペクトル(x方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―7 /u/発声時の頬の振動スペクトル(y方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―8 /u/発声時の頬の振動スペクトル(z方向)

100 200 300 400 500 600 700

−100

−80

−60

−40

−20 0

Frequency [Hz]

Power [dB]

図―9 /u/発声時の音声スペクトル

4. むすび

頭部高速度

3D

映像から音声情報，特に声道に関する情報の取得を試みた．作成した参照点パターンを用い，

2

台のカメラの

2

次元変位からステレオカメラ校正を行い

3

次元変位に変換した．画像を領域に分割し，各領域毎に振動スペクトルを抽出，全領域で振動スペクトルを加算した結果，母音

/u/

，

/o/

の基音，倍音の成分を共に確認することができた．

今後は高速度カメラから得られた音声情報から非言語情報や，個人性を含めた情報を付加した自動読唇を行う手法について検討する所存である．

参考文献

[1] 阿久津真理子，及川靖広，山崎芳男，頸部高速度映像からの音声情報の取得，音講論集，pp.1475-1476，

2012.9.

高速度 3D 映像からの音声情報取得