• 検索結果がありません。

音情報処理I

N/A
N/A
Protected

Academic year: 2021

シェア "音情報処理I"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

音情報処理論

音声処理における信号処理2

~線形予測分析~

東京大学大学院情報理工学系研究科/奈良先端大

猿渡 洋

(2014年10月)

(2)

準備:Z変換

Z変換

• 離散的な時系列の特性を解析する1手法 • 準備: は離散時間波形 • 定義1(正Z変換;時間領域からZ領域へ) • 定義2(逆Z変換;Z領域から時間領域へ)

    n n

z

n

x

z

X

(

)

(

)

)

(n

x

}

)

(

...,

),

1

(

),

0

(

...,

),

(

{

)

(

n

x



x

x

x

x

←実数 ←複素数 ここで

z

1 は1サンプル時間遅れを表す演算子

c n

dz

z

z

X

j

n

x

(

)

1

2

1

)

(

(3)

準備:Z変換の諸性質

時間遅れ :

畳み込み演算は、Z領域で積演算になる。

システムのインパルス応答

をZ変換したも

のを

システム伝達関数

と呼ぶ。

)

(

)

(

)

(

)

(

)

(

)

(

n

x

n

h

n

Y

z

X

z

H

z

y

)

(n

h

)

(

)

(

)

(

)

(

1 1      

z

A

z

B

z

n

h

z

H

n n において とおけばDFT(or フーリエ変 換)のように考えることがで き、周波数特性がわかる。

)

(z

H

or

2 / 2 k N j f j

e

e

z

  i

z

z

X

i

n

x

(

)

(

)

(4)

準備:Z変換とシステム伝達関数1

システム伝達関数の解析

 

 

              p j j q i i p p q q n n

z

z

z

z

z

z

z

z

z

z

z

A

z

B

z

n

h

z

H

1 ) pole ( 1 ) zero ( 2 2 1 1 0 2 2 1 1 0 1 1

/

1

/

1

...

...

)

(

)

(

)

(

)

(

←Zの有理多項式 ) zero ( i

z

:分子=0となるzの解 (零点) ) pole ( j

z

:分母=0となるzの解 (極)

(5)

準備:Z変換とシステム伝達関数2

極と零点の意味

極 : 分母=0の解 ⇒ H(z)の山

零点: 分子=0の解 ⇒ H(z)の谷

]

Re[z

]

Im[z

1

零点 極

f

対 数 振 幅 特 性

(

)

2 f j

e

z

H

(6)

準備:Z変換とシステム伝達関数3

極の配置とシステムの安定性

• 極の位置が単位円内 ⇒ システムは安定 単位円外 ⇒ システムは不安定 • 極が単位円に接近 ⇒ 周波数特性上に強いピーク

]

Re[z

]

Im[z

1

極 極

f

対 数 振 幅 特 性

)

(

z

e

j2 f

H

(7)

音声スペクトルからの情報抽出

音声信号スペクトル

1.スペクトル微細構造

• 周期成分 ⇒ 声帯の振動に対応 • その人個人が持つ「声の高さ」

2.スペクトル包絡構造

• 声道・鼻腔における共振・反共振特性 ⇒ 各音韻ごとの違いに対応 • 音声認識処理などでは、この包絡情報に基づいて 識別を行う.

(8)

スペクトル包絡の代表的抽出法

ケプストラム法

モデルを仮定しないノンパラメトリック法の一種

短時間スペクトル上において微細構造と包絡

構造とを分ける。

線形予測(Linear Prediction)法

自己回帰モデルに基づくパラメトリック法

声道における共振特性をモデリング

(9)

音声生成に適したモデルとは?

人間の音声生成モデル

声帯での基本振動を声道で音色付ける。

声道

• 位置によって太さの異なる音響管の連続と見なせる。 • 音響管における共振現象 ⇒ 自己回帰(AR)過程 声帯信号 声道を模擬した音響管 各微小管毎に透過・反射が起きる ⇒ 複雑な共振特性が生じる 口から の放射

(10)

線形予測と共振モデル

線形予測の原理

• 過去の波形標本値の組合せで現在の標本値を予測する。 • 次の線形一次結合が成り立つと仮定: ここで は平均値0、分散 の無相関な確率変数 • この を最小にするように を決める。 を線形予測係数とよび、 を線形予測残差と呼ぶ。 • 上式のZ変換は以下で与えられる。

)

(

)

(

...

)

2

(

)

1

(

)

(

n

1

x

n

2

x

n

x

n

p

n

x

p

)

(n

2

)

(n

i i

(n

)

)

(

)

(

...

)

(

)

(

z

1

X

z

z

1

X

z

z

E

z

X

pp

)

1

(

...

1

)

(

)

(

1 1

p p

z

z

z

E

z

X

(11)

線形予測と共振モデル(続き)

(1)式の意味

予測残差

を伝達関数

に通して音声を生成

)

(

)

(

...

1

)

(

)

(

1 1

z

A

z

E

z

z

z

E

z

X

p p

p p

z

z

z

A

...

1

)

(

where

1 1 0

)

(z

E

A

(z

)

声帯信号 口から の放射

)

(z

E

A

(z

)

)

(z

X

←極のみを持つ

)

1

(

0

(12)

線形予測と共振モデル(続き)

• (1)式で与えられる線形予測は、 「声帯信号のパワーを最小化するように声道特性をAR モデルによって推定する」 ことを示している。 • 推定された は全極モデル(零点を持たず極だけ から構成される伝達関数)であり、その極の値によって 共振特性が変化する。 音声のスペクトル包絡の推定⇒ の推定に帰着 ( の推定問題)

)

(z

A

)

(z

A

i

(13)

線形予測係数の推定1

予測残差の算出

区間

における

の2乗和

 

 

 

        p i p j i j ij n n n p i p j i j n n n p i i n n n

j

n

x

i

n

x

i

n

x

n

0 0 0 0 2 0 2 1 0 1 0 1 0

)

(

)

(

)

(

)

(

)

(n

]

[

n

0,

n

1

)

(

)

(

where

1 0

j

n

x

i

n

x

n n n ij

自己相関関数

(14)

線形予測係数の推定2

予測残差の最小化

2乗残差和

を最小にする

j

を求める

)

...,

,

2

,

1

(

,

0

2

0

p

j

ij p i i j

)

2

(

)

...,

,

2

,

1

(

,

0 1

p

j

j ij p i i

よって、線形予測係数 を算出するには、上記のp個 の連立1次方程式を解けばよい。 ⇒ 必ずしも解が存在するとは限らない? i

(15)

線形予測係数の推定3

安定に解を求めるには

自己相関関数

に制約を設ける

このとき

ij





1 0

, n

n

)

or

0

(

if

,

0

)

(

n

n

N

n

x

| |

|)

|

(

)

(

i j n ij

x

n

x

n

i

j

r

   

j

i,

の2変数に関する関数が1変数 のみの関数となる。

|

i

j

|

(16)

線形予測係数の推定4

を使用して連立方程式(2)を解く

| |i j

r

  p p p p

r

r

r

r

r

r

r

r

r

r

r

r

2 1 2 1 0 1 1 1 0 1 1 1 0

この行列はテプリッツ型 ⇒ 正定値行列 ⇒ 必ず逆行列が存在する 利点1.線形予測係数 が必ず求まる。 利点2.高速解法(Durbinの再帰的解法)が利用可能 利点3.求められた全極モデルは絶対安定(極が単位円内) i

(17)

線形予測によるパワースペクトル

LPCパワースペクトルの定義

←予測残差のパワー 2 2 2 1 1 2

...

1

2

1

)

(

p p

z

z

z

z

f

  

(18)

線形予測によるスペクトル包絡

抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目!

(19)

(参考)ケプストラムによるスペクトル包絡

抽出されたスペクトル包絡

(20)
(21)

余談:線形予測法と日本人の貢献

日経産業新聞 1999年4月20日掲載 「音声認識の研究に金を出すことは価値ある投資だろうか。… 音声認識の研究とはまさに「錬金術」に等しい――。 」これは、 1969年に米国音響学会誌に掲載された寄書の一部である。 著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の 責任者であった。これを機に、ピアス傘下にあった音声研究部 門では、音声認識の研究が全面的に中止された。 トップの確信に満ちた判断で中止された研究をボトムアップで 再開するのは容易な ことではない。この再開の主役として登場 したのは1人の日本人であった。線形予測理論で世界的脚光 を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員 研究員として招いた。これがベル研での音声認識研究の再始 動をうながしたのである。当時、ベル研の研究室長であり、板倉 を招いたジェームス・フラナガン(現米国ラトガース大学副学長) は振り返る。「とても、正面切って音声認識の研究を行える状況 ではなかった 。部外者である客員研究員が自主的に研究を始 めるという苦肉の策を講じ、これが図に当った」

(22)

線形予測分析のまとめ

長所

• 高速解法が存在するため比較的単純な操作でスペクトル 包絡抽出可能 • 抽出されたスペクトル包絡において、ホルマント共振がよ り強調される(c.f. ケプストラム分析) • より少ないパラメータ(たかだかp個の予測係数のみ)で 音声スペクトル包絡を表現可能 ⇒音声符号化に有利

問題点

• 線形予測係数 を量子化して伝送をする場合、伝送誤 差の影響によってすぐに不安定なフィルタになってしまう。 (例)典型的な電話音声の場合11 bits以上の精度必要 • 線形予測係数とスペクトルの直観的な関連がないので、 スペクトルの補間を行う場合に予測係数補間が不可能。 i

(23)

線形予測分析の拡張1(PARCOR)

量子化誤差対策: PARCOR分析

• 線形予測による伝達関数⇒音響管の共振モデルに対応 • 線形予測係数を音響管の各管における反射係数へ一意に 変換可能 • 反射係数が1を超えることは無い⇒伝送エラーなどで歪ん でしまった(1以上にバケてしまった)反射係数を近似回復 できる。つまり絶対安定な伝達関数を受信側で構成可能

しかしまだ改善点が

• より情報圧縮を行いたい場合、とびとびの時間分析フレー ムのデータのみを伝送し、受手側では時間補間をすること によって復元を行いたい。しかし、LPC係数・PARCOR係数 とも、時間軸方向の連続性はあまり明確ではない。

(24)

線形予測分析の拡張2(LSP)

係数の時間補間対策: LSP(線スペクトル対)係数

• PARCOR係数をさらに周波数領域へマッピング ⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能 スペクトル包絡 対応するLSPパラメータ (線スペクトルのペアを縦棒で表現) 強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。 伝送するのは線スペクトル(ペア)の周波数位置のみ。 →f

(25)

LSP係数による時間補間

)

(n

x

→f →f →t t1 t2 t3 時間t1とt3におけるLSP(線スペクトル対)の 推移より時間t2におけるLSP係数を推測・補間できる

(26)

例題:2次の線形予測モデル推定

音声波形の自己相関関数が以下のように与えられ

たとする。

• (a) 線形予測係数を求めよ。 • (b) LPCパワースペクトルを式で表せ( は1とする)。 • (c) (b)より極を求めて、z平面に単位円とともに図示せよ。 • (d) LPCパワースペクトルの概略図を書け。

5

2

,

5

2

,

1

1 2 0

r

r

r

2

(27)

解答: (a)線形予測係数

線形予測係数

は以下を解くことで求まる。

よって

i













2 1 2 1 0 1 1 0

r

r

r

r

r

r



















3

/

2

3

/

2

5

/

2

5

/

2

1

5

/

2

5

/

2

1

)

5

/

2

(

1

1

2 2 2 1

(28)

解答: (b)LPCパワースペクトル

LPCパワースペクトル

f

(z

)

は次式で与えられる。

2 2 1 2 2 2 1 1

3

2

3

2

1

1

2

1

1

1

2

1

)

(

   

z

z

z

z

z

f

(29)

解答: (c)極とその配置

• の分母多項式の根が極である。よって、 を解くと

)

(z

f

0

3

2

3

2

1

z

1

z

2

3

5

1

j

z

(30)

参照

関連したドキュメント

音節の外側に解放されることがない】)。ところがこ

日本の生活習慣・伝統文化に触れ,日本語の理解を深める

④日常生活の中で「かキ,久ケ,.」音 を含むことばの口声模倣や呼気模倣(息づかい

リスト発表 2022 年 10 月 21 日(金)予定 Smile Tennis College ホームページに掲載

・ここに掲載する内容は、令和 4年10月 1日現在の予定であるため、実際に発注する建設コンサル

継続企業の前提に関する注記に記載されているとおり、会社は、×年4月1日から×年3月 31

平成 28 年 7 月 4

2019年 8月 9日 タイ王国内の日系企業へエネルギーサービス事業を展開することを目的とした、初の 海外現地法人「TEPCO Energy