音情報処理論
音声処理における信号処理2
~線形予測分析~
東京大学大学院情報理工学系研究科/奈良先端大
猿渡 洋
(2014年10月)準備:Z変換
Z変換
• 離散的な時系列の特性を解析する1手法 • 準備: は離散時間波形 • 定義1(正Z変換;時間領域からZ領域へ) • 定義2(逆Z変換;Z領域から時間領域へ)
n nz
n
x
z
X
(
)
(
)
)
(n
x
}
)
(
...,
),
1
(
),
0
(
...,
),
(
{
)
(
n
x
x
x
x
x
←実数 ←複素数 ここでz
1 は1サンプル時間遅れを表す演算子
c ndz
z
z
X
j
n
x
(
)
12
1
)
(
準備:Z変換の諸性質
•
時間遅れ :
•
畳み込み演算は、Z領域で積演算になる。
•
システムのインパルス応答
をZ変換したも
のを
システム伝達関数
と呼ぶ。
)
(
)
(
)
(
)
(
)
(
)
(
n
x
n
h
n
Y
z
X
z
H
z
y
)
(n
h
)
(
)
(
)
(
)
(
1 1
z
A
z
B
z
n
h
z
H
n n において とおけばDFT(or フーリエ変 換)のように考えることがで き、周波数特性がわかる。)
(z
H
or
2 / 2 k N j f je
e
z
iz
z
X
i
n
x
(
)
(
)
準備:Z変換とシステム伝達関数1
システム伝達関数の解析
p j j q i i p p q q n nz
z
z
z
z
z
z
z
z
z
z
A
z
B
z
n
h
z
H
1 ) pole ( 1 ) zero ( 2 2 1 1 0 2 2 1 1 0 1 1/
1
/
1
...
...
)
(
)
(
)
(
)
(
←Zの有理多項式 ) zero ( iz
:分子=0となるzの解 (零点) ) pole ( jz
:分母=0となるzの解 (極)準備:Z変換とシステム伝達関数2
極と零点の意味
•
極 : 分母=0の解 ⇒ H(z)の山
•
零点: 分子=0の解 ⇒ H(z)の谷
]
Re[z
]
Im[z
1
零点 極f
対 数 振 幅 特 性(
)
2 f je
z
H
準備:Z変換とシステム伝達関数3
極の配置とシステムの安定性
• 極の位置が単位円内 ⇒ システムは安定 単位円外 ⇒ システムは不安定 • 極が単位円に接近 ⇒ 周波数特性上に強いピーク]
Re[z
]
Im[z
1
極 極f
対 数 振 幅 特 性)
(
z
e
j2 fH
音声スペクトルからの情報抽出
音声信号スペクトル
1.スペクトル微細構造
• 周期成分 ⇒ 声帯の振動に対応 • その人個人が持つ「声の高さ」2.スペクトル包絡構造
• 声道・鼻腔における共振・反共振特性 ⇒ 各音韻ごとの違いに対応 • 音声認識処理などでは、この包絡情報に基づいて 識別を行う.スペクトル包絡の代表的抽出法
ケプストラム法
•
モデルを仮定しないノンパラメトリック法の一種
•
短時間スペクトル上において微細構造と包絡
構造とを分ける。
線形予測(Linear Prediction)法
•
自己回帰モデルに基づくパラメトリック法
•
声道における共振特性をモデリング
音声生成に適したモデルとは?
人間の音声生成モデル
•
声帯での基本振動を声道で音色付ける。
•
声道
• 位置によって太さの異なる音響管の連続と見なせる。 • 音響管における共振現象 ⇒ 自己回帰(AR)過程 声帯信号 声道を模擬した音響管 各微小管毎に透過・反射が起きる ⇒ 複雑な共振特性が生じる 口から の放射線形予測と共振モデル
線形予測の原理
• 過去の波形標本値の組合せで現在の標本値を予測する。 • 次の線形一次結合が成り立つと仮定: ここで は平均値0、分散 の無相関な確率変数 • この を最小にするように を決める。 を線形予測係数とよび、 を線形予測残差と呼ぶ。 • 上式のZ変換は以下で与えられる。)
(
)
(
...
)
2
(
)
1
(
)
(
n
1x
n
2x
n
x
n
p
n
x
p
)
(n
2)
(n
i i
(n
)
)
(
)
(
...
)
(
)
(
z
1X
z
z
1X
z
z
E
z
X
p p
)
1
(
...
1
)
(
)
(
1 1
p pz
z
z
E
z
X
線形予測と共振モデル(続き)
(1)式の意味
予測残差
を伝達関数
に通して音声を生成
)
(
)
(
...
1
)
(
)
(
1 1z
A
z
E
z
z
z
E
z
X
p p
p pz
z
z
A
...
1
)
(
where
1 1 0)
(z
E
A
(z
)
声帯信号 口から の放射)
(z
E
A
(z
)
)
(z
X
←極のみを持つ)
1
(
0
線形予測と共振モデル(続き)
• (1)式で与えられる線形予測は、 「声帯信号のパワーを最小化するように声道特性をAR モデルによって推定する」 ことを示している。 • 推定された は全極モデル(零点を持たず極だけ から構成される伝達関数)であり、その極の値によって 共振特性が変化する。 音声のスペクトル包絡の推定⇒ の推定に帰着 ( の推定問題))
(z
A
)
(z
A
i
線形予測係数の推定1
予測残差の算出
•
区間
における
の2乗和
p i p j i j ij n n n p i p j i j n n n p i i n n nj
n
x
i
n
x
i
n
x
n
0 0 0 0 2 0 2 1 0 1 0 1 0)
(
)
(
)
(
)
(
)
(n
]
[
n
0,n
1
)
(
)
(
where
1 0j
n
x
i
n
x
n n n ij
自己相関関数線形予測係数の推定2
予測残差の最小化
•
2乗残差和
を最小にする
jを求める
)
...,
,
2
,
1
(
,
0
2
0p
j
ij p i i j
)
2
(
)
...,
,
2
,
1
(
,
0 1
p
j
j ij p i i
よって、線形予測係数 を算出するには、上記のp個 の連立1次方程式を解けばよい。 ⇒ 必ずしも解が存在するとは限らない? i
線形予測係数の推定3
安定に解を求めるには
…
•
自己相関関数
に制約を設ける
このとき
ij
1 0, n
n
)
or
0
(
if
,
0
)
(
n
n
N
n
x
| ||)
|
(
)
(
i j n ijx
n
x
n
i
j
r
j
i,
の2変数に関する関数が1変数 のみの関数となる。|
i
j
|
線形予測係数の推定4
を使用して連立方程式(2)を解く
| |i jr
p p p pr
r
r
r
r
r
r
r
r
r
r
r
2 1 2 1 0 1 1 1 0 1 1 1 0
この行列はテプリッツ型 ⇒ 正定値行列 ⇒ 必ず逆行列が存在する 利点1.線形予測係数 が必ず求まる。 利点2.高速解法(Durbinの再帰的解法)が利用可能 利点3.求められた全極モデルは絶対安定(極が単位円内) i
線形予測によるパワースペクトル
LPCパワースペクトルの定義
←予測残差のパワー 2 2 2 1 1 2...
1
2
1
)
(
p pz
z
z
z
f
線形予測によるスペクトル包絡
抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目!
(参考)ケプストラムによるスペクトル包絡
抽出されたスペクトル包絡