凸最適化を用いた障害音声の修復
Reconstruction of Disordered Voice via Convex Optimization
1W110163-2 木下 友里花 指導教員 及川 靖広 教授
KINOSHITA Yurika Prof. OIKAWA Yasuhiro
概要:自然な音声を発することが困難となってしまった発声障害者は,その音声の不明瞭さのために日常会話に多く の支障をきたしている.本研究では信号処理を用いて嗄声の修復を行い,発声障害者の音声コミュニケーションの改 善を目指す.通常音声のスペクトログラムの特徴である,スパース,すなわち非ゼロ要素が少ないベクトルに近似し やすく,時間軸方向になめらかであり,調波構造が明確に表れる点に着目し,凸最適化問題として定式化し
ADMM
を利用して最適解を求めた.その結果,提案法により,スパースで時間軸方向になめらかな,基本周波数の整数倍が 強調されたスペクトログラムができ,元の障害音声より嗄声感が抑えられた音声が生成された.キーワード:凸最適化,スパース,
STFT
,障害音声,音声変換Keywords: convex optimization, sparsity, STFT, disordered voice, voice conversion
1. ま え が き
近年,自然な音声を発することが困難な障害である,
嗄声になる患者が増加傾向にある
[1]
.発声障害を持つ人 たちは発話音声の不明瞭さのために日常会話に多くの支 障をきたしており,コミュニケーションがとりにくいと いう問題がある.嗄声に対する音声治療法として,例え ばプッシング法[2]
と言い,腕を振り下ろしたり机や壁 を押す動作に合わせて発声する治療がある.一方で近年,コンピュータの計算力が高まっており音声に対する処理 の自由度が高まっていることから計算処理を用いて,正 常な音声に変換することで,発声障害を持つ患者の音声 コミュニケーションを改善することも考えられる.
本研究では,スペクトログラムに表れる特徴的な性質 に着目し,最適化問題として定式化することで嗄声の修 復を行う.この研究では嗄声の中でも比較的症例が多く,
音響的特徴が比較的明確な粗ぞう性嗄声を対称にする.
2. 通常音声と嗄声の比較
スペクトルとスペクトログラムより通常音声と粗ぞう 性嗄声の違いを観察する.通常音声と粗ぞう性嗄声の
「あ」発声時のスペクトルを図–1,図–2に示す.また,通 常音声と粗ぞう性嗄声「あ」発声時のスペクトログラム を図–4,図–3に示す.
2. 1
スパース性図
–1
,図–2
より,通常音声はいくつかの周波数帯域 にまとまっておりピークがたっている.これはスパース 即ち,非ゼロ要素が少ないベクトルで近似しやすいと言 える.一方嗄声のスペクトルではこのような特徴が観察 できず,スパースなベクトルでは近似しにくいことが分 かる.0 500 1000 1500 2000
Frequency[Hz]
図–1 通常音声
0 500 1000 1500 2000
Frequency[Hz]
図–2 障害音声
Time [s]
0.1 0.15 0.2 0.25 0.3
Frequency [Hz]
0 1000 2000 3000 4000
図–3 障害音声
Time [s]
0.1 0.15 0.2 0.25 0.3
Frequency [Hz]
0 1000 2000 3000 4000
図–4 通常音声
2. 2
ピッチのなめらか性図
–4
,図–3
より,通常音声は時間軸方向になめらかに 変化している様子が明確に観察できるのに対し,障害音 声はその特徴が観察できない.2. 3
調 波 構 造同様に,図
–4
,図–3
より,通常音声では調波構造が確 認できるのに対し,障害音声では調波構造がつぶれてい ることが分かる.3. 凸最適化を用いた粗ぞう性嗄声の修復
この3
点の特徴を凸最適化問題x∈R
min
N+1
2 ∥ d − x ∥
22+ α ∥ x ∥
1+ β ∥ Dx ∥
22+ γ ∥ Fx ∥
1(1)
として定式化した.ここで,
d
は元の振幅スペクトログ ラム,x
は未知数,R+は非負の実数の集合,α
,β, γ > 0
は重みづけパラメータ,D
は微分行列,F
は調波構造を 強調する行列,∥ · ∥
pはℓ
pノルムを表す.元のスペクト ログラムd
をスパースにするためにℓ
1ノルムの最小化 を行う.ℓ
1ノルムの最小化によって推定されるx
はゼロ 要素が多くスパースなベクトルになる.また元のスペク トログラムd
をなめらかにするためにスペクトログラム の時間軸方向をなめらかにするような微分行列D
をか け微分を行う.さらに調波構造を強調するようなパター ンを予め用意した行列F
をかけ最小化を行う.この式は,凸最適化問題を 解くためのアルゴリズ ムである
Alternating Direction Method of Multipliers (ADMM)[3]
を利用すると,x
n+1= argmin
x
[
1
2 ∥ d − x ∥
22+β ∥ Dx ∥
22+ ρ
2
Lx− z
n+u
n22
]
z
[1]n+1= argmin
z[1]
[
α ∥ z
[1]∥
1+ι
RN +(z
[1])+ ρ
2
Ixn+1− z
[1]+u
[1]n22
]
z
[2]n+1= argmin
z[2]
[
γ∥Fz
[2]∥
1+ ρ
2 ∥Fx
n+1−z
[2]+u
[2]n∥
22]
u
[1]n+1= u
[1]n+ Ix
n+1− z
[1]n+1u
[2]n+1= u
[2]n+ Fx
n+1− z
[2]n+1(2)
を反復することによって解くことができる.
微分不可能な凸な関数を含む問題を解く手法として,近 接作用素が広く用いられている.近接作用素とは,
prox
f(v) = argmin
x
[
f (x) + 1
2 ∥ x − v ∥
22]
(3)
を求めることで
f
の勾配を下る効果を持つ作用素である.ここで
ℓ
1ノルムの場合の近接作用素は,prox
κ∥·∥1(x) =
x
i− κ (x
i> κ) 0 (|x
i| < = κ) x
i+ κ (x
i< − κ)
(4)
となり,
ℓ
1ノルムと指示関数ι
RN +の和の近接作用素は以 下のようになる
[4]
.prox
κ∥·∥1+ιRN +
(·)
(x) =
{
x
i− κ (x
i> = κ) 0 (x
i< κ) (5)
したがって最終的に,
x
n+1=
(I + 2βD
TD + ρL
TL)
−1[d + ρL
T(z
n− u
n)
]z
[1]n+1= prox
αρ∥·∥1+ιRN
+(·)
(Ix
n+1+ u
[1]n+1) z
[2]n+1= prox
γρ∥·∥1
(Fx
n+1+ u
[2]n+1) u
[1]n+1= u
[1]n+ Ix
n+1− z
[1]n+1u
[2]n+1= u
[2]n+ Fx
n+1− z
[2]n+1(6)
を反復すれば最適解が求まる.式(1)
をTime[s]
0 0.1 0.2 0.3 0.4 0.5 0.6
Frequency [Hz]
0 500 1000 1500 2000 2500
図–5 元の障害音声
Time [s]
0 0.1 0.2 0.3 0.4 0.5 0.6
Frequency [Hz]
0 500 1000 1500 2000 2500
図–6 修復後音声(α= 2, β= 100, γ= 100)
α = 2, β = 100, γ = 100
で解いた結果を図–6に示す.元のスペクトログラムである図–5と比べ濃い色の部分が 増えており小さな値がゼロになってスパースになってい る.また時間軸方向になめらかに,基本周波数の整数倍 が強調されたスペクトログラムになっていることが確認 できる.
4. む す び
凸最適化を用いて障害音声の修復を試みた.修復後の スペクトログラム上ではスパース性,なめらか性,調波 構造強調の性質を確認することができた.実際に生成さ れた音声も元の音声と比べると嗄声感が抑えらており,
変化がみられた.今後の課題として,より通常音声に近 い音声が生成するために,振幅のみならず位相も考慮し た最適化も行うことを検討する.
参 考 文 献
[ 1 ] 武田直也,“嗄声評価におけるケプストラム分析の応用(第1報)
−ケプストラムとゆらぎの関係について−,”日本喉頭科学会誌「喉 頭」,vol.5,no.2,pp.176–181,1993.
[ 2 ] 小川宏和,小林丈二,岡田亜紀,兵頭政光,“一側声帯麻痺による
嗄声に対する音声治療の有用性,”音声言語医学誌,vol.43,no.3,
pp.256–260,2002.
[ 3 ] S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein, “Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers,” Foundations and Trends in Machine Learning, vol.3, no.1, pp.1–122, 2011.
[ 4 ] J. Rapin, J. Bobin, A. Larue, and J. L. Starck,“Sparse and Non-Negative BSS for Noisy Data,” IEEE Transactions on Signal Processing, vol.61, no.22, Nov. , 2013.