• 検索結果がありません。

高速度 3D 映像からの音声情報取得

N/A
N/A
Protected

Academic year: 2021

シェア "高速度 3D 映像からの音声情報取得"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

高速度 3D 映像からの音声情報取得

Voice information acquisition from high-speed 3D images

1W100233-7 佐藤 生康 指導教員 及川 靖広 教授

   

SATO Ikuyasu Prof. OIKAWA Yasuhiro

概要:快適な音コミュニケーションの実現は重要な課題である.難聴者のためのコミュニケーションとして自動読唇の 研究が進められている.しかし,自動読唇の結果得られる情報は文字情報のみであり,そこから発話者の気持ち,抑 揚などの非言語情報を得ることはできない.本研究では高速度映像を用いることで,発話者の頭部の皮膚振動から声 質や抑揚,個人性を含めた音声情報の取得を目指す.具体的には被写体の頭部をステレオカメラ配置で撮影し,頬の

3

次元変位から声道特性の取得を試みた.

キーワード:高速度カメラ,テンプレートマッチング,音声,ステレオカメラ校正

Keywords: high-speed camera, template matching, speech signal, stereo camera calibration

1. ま え が き

近年,カメラで取得した被写体の映像から発話内容を 文字情報として推定する自動読唇技術の研究が進められ ている.しかし,文字情報として認識するのでコミュニ ケーションにおいて重要な感情や声質などの非言語情報 や,個人性までは言及していない.本研究室では頸部高 速度映像からの音声情報取得に関する研究

[1]

が行われ ている.しかし,声道の特性に関しては言及しておらず,

声質等の個人性を取得するまでは至っていない.本研究 では頭部を高速度カメラで撮影し,頬の皮膚振動の

3

元高速度映像から発話情報,特に声道特性に関する情報 の取得を試みた.

2. ステレオカメラ校正

ステレオカメラシステムの

3

次元配置を正確に求める ことをステレオカメラ校正と呼ぶ.

観測された

2

次元画像座標を

(x

image

, y

image

)

とし,

3

次元シーンにおける観測点の

3

次元ワールド座標を

(X

world

, Y

world

, Z

world

)

とする.画像座標と

3

次元ワー ルド座標の関係は

ri

=

[

x

image

y

image

1

]T

(1)

rw

=

[

X

world

Y

world

Z

world

]T

(2)

および

3

×

4

の変換行列

P

を用いて

ri

= P

rw

(3)

と表現できる.式

(3)

A =

(

X Y Z 1 0 0 0 0

−xX−xY −xZ−x

0 0 0 0 X Y Z 1

−yX−yY −yZ−y

)

(4)

により,

Ap = 0 (5)

と書ける.ただし,p

p

= [p

11

p

12

p

13

p

14

p

21

p

22

p

23

p

24

p

31

p

32

p

33

p

34

]

T

(6)

である.rwが既知の参照点パターンを撮影し,riを 求め式

(4)

に代入することで

A

を得ることができるの で,複数の参照点から求まった

A

を縦に連結したAを 用いて,式

(5)

の二乗誤差Ap2 を最小にする

P

P

= 1

の条件のもと求める.

P

を求めることによって,

2

台のカメラによって観測された点の画像座標から観測 点の

3

次元変位を求めることが可能になる.作成した参 照点パターンを図

–1

に示す.

3. 頭部高速度 3D 映像からの音声情報抽出

ステレオ配置した

2

台の高速度カメラにより撮影した 頬から

2

次元変位を取得した後,ステレオカメラ校正を 利用して

3

次元変位から音声情報の取得を試みた.測定 条件を表―

1

に示す.解析の手順は以下のとおりである.

(1)

観測画像を

m

×

n

の領域に分割

(2)

単位時間後の対応領域との輝度値相関から

2

次元 変位を計算

(3)

ステレオカメラ校正で求めた変換行列

P

を用いて

2

次元変位を

3

次元変位に変換

(4)

スペクトルを計算し,計

mn

領域それぞれのスペ クトルを加算

図―1 作成した参照点パターン

(2)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―2 /o/発声時の頬の振動スペクトル(x方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―3 /o/発声時の頬の振動スペクトル(y方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―4 /o/発声時の頬の振動スペクトル(z方向)

100 200 300 400 500 600 700

−100

−80

−60

−40

−20 0

Frequency [Hz]

Power [dB]

図―5 /o/発声時の音声スペクトル

表―1 測 定 条 件

高速度カメラ HX-3 (nac Image Technology Inc.) フレームレート 10000 fps

画角 480×510 px

被写体 20代男性

発声内容 /u/,/o/

図―

2

,図―

3

,図―

4

/o/

発声時の頬の

3

次元変位 から得られた振動スペクトルを,図―

6

,図―

7

,図―

8

/u/

発声時の頬の

3

次元変位から得られた振動スペ クトルを示す.また

/o/

発声時,

/u/

発声時の騒音計で 収録した音声スペクトルをそれぞれ図―

5

,図―

9

に示 す.

/u/

/o/

発声時の頬の振幅スペクトルと音声スペク トルを比較すると基音,倍音の成分共に観測できている ことが確認できる.また

142 Hz

にピークが見られるが,

これは高速度カメラのファンに起因すると考えられる.

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―6 /u/発声時の頬の振動スペクトル(x方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―7 /u/発声時の頬の振動スペクトル(y方向)

100 200 300 400 500 600 700

−40

−30

−20

−10 0 10

Frequency [Hz]

Power [dB]

図―8 /u/発声時の頬の振動スペクトル(z方向)

100 200 300 400 500 600 700

−100

−80

−60

−40

−20 0

Frequency [Hz]

Power [dB]

図―9 /u/発声時の音声スペクトル

4. む す び

頭部高速度

3D

映像から音声情報,特に声道に関する 情報の取得を試みた.作成した参照点パターンを用い,

2

台のカメラの

2

次元変位からステレオカメラ校正を行い

3

次元変位に変換した.画像を領域に分割し,各領域毎 に振動スペクトルを抽出,全領域で振動スペクトルを加 算した結果,母音

/u/

/o/

の基音,倍音の成分を共に確 認することができた.

今後は高速度カメラから得られた音声情報から非言語 情報や,個人性を含めた情報を付加した自動読唇を行う 手法について検討する所存である.

参 考 文 献

[1] 阿久津真理子, 及川靖広, 山崎芳男, 頸部高速度映 像からの音声情報の取得, 音講論集,pp.1475-1476,

2012.9.

参照

関連したドキュメント

In this paper, the surface temperature of the powder mixture in metallic additive manufacturing during laser beam irradiation was measured by two-color pyrometer employing optical

Although several studies have reported successful high-speed 3D imaging of dynamic phe- nomena using parallel phase-shifting DH 25, 27, 29, 30, 33, 35, 37, 38 , no study has

「Skydio 2+ TM 」「Skydio X2 TM 」で撮影した映像をリアルタイムに多拠点の遠隔地から確認できる映像伝送サービ

現在入手可能な情報から得られたソニーの経営者の判断にもとづいています。実

HD 映像コミュニケーションユニット、HD コム Live、HD コムモバイルから HD コム Live リンクの接続 用

当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報

H.264 ま ま また た たは は はMPEG MPEG MPEG---44 4 Part Part 10/A Part 10/AVC 10/A VC VC

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察