高速度 3D 映像からの音声情報取得
Voice information acquisition from high-speed 3D images
1W100233-7 佐藤 生康 指導教員 及川 靖広 教授
SATO Ikuyasu Prof. OIKAWA Yasuhiro
概要:快適な音コミュニケーションの実現は重要な課題である.難聴者のためのコミュニケーションとして自動読唇の 研究が進められている.しかし,自動読唇の結果得られる情報は文字情報のみであり,そこから発話者の気持ち,抑 揚などの非言語情報を得ることはできない.本研究では高速度映像を用いることで,発話者の頭部の皮膚振動から声 質や抑揚,個人性を含めた音声情報の取得を目指す.具体的には被写体の頭部をステレオカメラ配置で撮影し,頬の
3
次元変位から声道特性の取得を試みた.キーワード:高速度カメラ,テンプレートマッチング,音声,ステレオカメラ校正
Keywords: high-speed camera, template matching, speech signal, stereo camera calibration
1. ま え が き
近年,カメラで取得した被写体の映像から発話内容を 文字情報として推定する自動読唇技術の研究が進められ ている.しかし,文字情報として認識するのでコミュニ ケーションにおいて重要な感情や声質などの非言語情報 や,個人性までは言及していない.本研究室では頸部高 速度映像からの音声情報取得に関する研究
[1]
が行われ ている.しかし,声道の特性に関しては言及しておらず,声質等の個人性を取得するまでは至っていない.本研究 では頭部を高速度カメラで撮影し,頬の皮膚振動の
3
次 元高速度映像から発話情報,特に声道特性に関する情報 の取得を試みた.2. ステレオカメラ校正
ステレオカメラシステムの
3
次元配置を正確に求める ことをステレオカメラ校正と呼ぶ.観測された
2
次元画像座標を(x
image, y
image)
とし,3
次元シーンにおける観測点の3
次元ワールド座標を(X
world, Y
world, Z
world)
とする.画像座標と3
次元ワー ルド座標の関係はri
=
[x
imagey
image1
]T(1)
rw=
[
X
worldY
worldZ
world]T
(2)
および
3
×4
の変換行列P
を用いてri
= P
rw(3)
と表現できる.式(3)
はA =
(X Y Z 1 0 0 0 0
−xX−xY −xZ−x0 0 0 0 X Y Z 1
−yX−yY −yZ−y)
(4)
により,Ap = 0 (5)
と書ける.ただし,pは
p
= [p
11p
12p
13p
14p
21p
22p
23p
24p
31p
32p
33p
34]
T(6)
である.rwが既知の参照点パターンを撮影し,riを 求め式(4)
に代入することでA
を得ることができるの で,複数の参照点から求まったA
を縦に連結したAを 用いて,式(5)
の二乗誤差∥Ap∥2 を最小にするP
を∥P∥
= 1
の条件のもと求める.P
を求めることによって,2
台のカメラによって観測された点の画像座標から観測 点の3
次元変位を求めることが可能になる.作成した参 照点パターンを図–1
に示す.3. 頭部高速度 3D 映像からの音声情報抽出
ステレオ配置した2
台の高速度カメラにより撮影した 頬から2
次元変位を取得した後,ステレオカメラ校正を 利用して3
次元変位から音声情報の取得を試みた.測定 条件を表―1
に示す.解析の手順は以下のとおりである.(1)
観測画像をm
×n
の領域に分割(2)
単位時間後の対応領域との輝度値相関から2
次元 変位を計算(3)
ステレオカメラ校正で求めた変換行列P
を用いて2
次元変位を3
次元変位に変換(4)
スペクトルを計算し,計mn
領域それぞれのスペ クトルを加算図―1 作成した参照点パターン
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―2 /o/発声時の頬の振動スペクトル(x方向)
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―3 /o/発声時の頬の振動スペクトル(y方向)
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―4 /o/発声時の頬の振動スペクトル(z方向)
100 200 300 400 500 600 700
−100
−80
−60
−40
−20 0
Frequency [Hz]
Power [dB]
図―5 /o/発声時の音声スペクトル
表―1 測 定 条 件
高速度カメラ HX-3 (nac Image Technology Inc.) フレームレート 10000 fps
画角 480×510 px
被写体 20代男性
発声内容 /u/,/o/
図―
2
,図―3
,図―4
に/o/
発声時の頬の3
次元変位 から得られた振動スペクトルを,図―6
,図―7
,図―8
に/u/
発声時の頬の3
次元変位から得られた振動スペ クトルを示す.また/o/
発声時,/u/
発声時の騒音計で 収録した音声スペクトルをそれぞれ図―5
,図―9
に示 す./u/
,/o/
発声時の頬の振幅スペクトルと音声スペク トルを比較すると基音,倍音の成分共に観測できている ことが確認できる.また142 Hz
にピークが見られるが,これは高速度カメラのファンに起因すると考えられる.
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―6 /u/発声時の頬の振動スペクトル(x方向)
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―7 /u/発声時の頬の振動スペクトル(y方向)
100 200 300 400 500 600 700
−40
−30
−20
−10 0 10
Frequency [Hz]
Power [dB]
図―8 /u/発声時の頬の振動スペクトル(z方向)
100 200 300 400 500 600 700
−100
−80
−60
−40
−20 0
Frequency [Hz]
Power [dB]
図―9 /u/発声時の音声スペクトル
4. む す び
頭部高速度
3D
映像から音声情報,特に声道に関する 情報の取得を試みた.作成した参照点パターンを用い,2
台のカメラの2
次元変位からステレオカメラ校正を行い3
次元変位に変換した.画像を領域に分割し,各領域毎 に振動スペクトルを抽出,全領域で振動スペクトルを加 算した結果,母音/u/
,/o/
の基音,倍音の成分を共に確 認することができた.今後は高速度カメラから得られた音声情報から非言語 情報や,個人性を含めた情報を付加した自動読唇を行う 手法について検討する所存である.
参 考 文 献
[1] 阿久津真理子, 及川靖広, 山崎芳男, 頸部高速度映 像からの音声情報の取得, 音講論集,pp.1475-1476,
2012.9.