• 検索結果がありません。

凸最適化を用いた障害音声の修復

N/A
N/A
Protected

Academic year: 2021

シェア "凸最適化を用いた障害音声の修復"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

凸最適化を用いた障害音声の修復

Reconstruction of Disordered Voice via Convex Optimization

1W110163-2 木下 友里花 指導教員 及川 靖広 教授

KINOSHITA Yurika Prof. OIKAWA Yasuhiro

概要:自然な音声を発することが困難となってしまった発声障害者は,その音声の不明瞭さのために日常会話に多く の支障をきたしている.本研究では信号処理を用いて嗄声の修復を行い,発声障害者の音声コミュニケーションの改 善を目指す.通常音声のスペクトログラムの特徴である,スパース,すなわち非ゼロ要素が少ないベクトルに近似し やすく,時間軸方向になめらかであり,調波構造が明確に表れる点に着目し,凸最適化問題として定式化し

ADMM

を利用して最適解を求めた.その結果,提案法により,スパースで時間軸方向になめらかな,基本周波数の整数倍が 強調されたスペクトログラムができ,元の障害音声より嗄声感が抑えられた音声が生成された.

キーワード:凸最適化,スパース,

STFT

,障害音声,音声変換

Keywords: convex optimization, sparsity, STFT, disordered voice, voice conversion

1. ま え が き

近年,自然な音声を発することが困難な障害である,

嗄声になる患者が増加傾向にある

[1]

.発声障害を持つ人 たちは発話音声の不明瞭さのために日常会話に多くの支 障をきたしており,コミュニケーションがとりにくいと いう問題がある.嗄声に対する音声治療法として,例え ばプッシング法

[2]

と言い,腕を振り下ろしたり机や壁 を押す動作に合わせて発声する治療がある.一方で近年,

コンピュータの計算力が高まっており音声に対する処理 の自由度が高まっていることから計算処理を用いて,正 常な音声に変換することで,発声障害を持つ患者の音声 コミュニケーションを改善することも考えられる.

 本研究では,スペクトログラムに表れる特徴的な性質 に着目し,最適化問題として定式化することで嗄声の修 復を行う.この研究では嗄声の中でも比較的症例が多く,

音響的特徴が比較的明確な粗ぞう性嗄声を対称にする.

2. 通常音声と嗄声の比較

スペクトルとスペクトログラムより通常音声と粗ぞう 性嗄声の違いを観察する.通常音声と粗ぞう性嗄声の

「あ」発声時のスペクトルを図–1,図–2に示す.また,通 常音声と粗ぞう性嗄声「あ」発声時のスペクトログラム を図–4,図–3に示す.

2. 1

スパース性

–1

,図

–2

より,通常音声はいくつかの周波数帯域 にまとまっておりピークがたっている.これはスパース 即ち,非ゼロ要素が少ないベクトルで近似しやすいと言 える.一方嗄声のスペクトルではこのような特徴が観察 できず,スパースなベクトルでは近似しにくいことが分 かる.

0 500 1000 1500 2000

Frequency[Hz]

図–1 通常音声

0 500 1000 1500 2000

Frequency[Hz]

図–2 障害音声

Time [s]

0.1 0.15 0.2 0.25 0.3

Frequency [Hz]

0 1000 2000 3000 4000

図–3 障害音声

Time [s]

0.1 0.15 0.2 0.25 0.3

Frequency [Hz]

0 1000 2000 3000 4000

図–4 通常音声

2. 2

ピッチのなめらか性

–4

,図

–3

より,通常音声は時間軸方向になめらかに 変化している様子が明確に観察できるのに対し,障害音 声はその特徴が観察できない.

2. 3

調 波 構 造

同様に,図

–4

,図

–3

より,通常音声では調波構造が確 認できるのに対し,障害音声では調波構造がつぶれてい ることが分かる.

3. 凸最適化を用いた粗ぞう性嗄声の修復

この

3

点の特徴を凸最適化問題

x∈R

min

N+

1

2 d x

22

+ α x

1

+ β Dx

22

+ γ Fx

1

(1)

(2)

として定式化した.ここで,

d

は元の振幅スペクトログ ラム,

x

は未知数,R+は非負の実数の集合,

α

β, γ > 0

は重みづけパラメータ,

D

は微分行列,

F

は調波構造を 強調する行列,

∥ · ∥

p

pノルムを表す.元のスペクト ログラム

d

をスパースにするために

1ノルムの最小化 を行う.

1ノルムの最小化によって推定される

x

はゼロ 要素が多くスパースなベクトルになる.また元のスペク トログラム

d

をなめらかにするためにスペクトログラム の時間軸方向をなめらかにするような微分行列

D

をか け微分を行う.さらに調波構造を強調するようなパター ンを予め用意した行列

F

をかけ最小化を行う.

 この式は,凸最適化問題を 解くためのアルゴリズ ムである

Alternating Direction Method of Multipliers (ADMM)[3]

を利用すると,

x

n+1

= argmin

x

[

1

2 d x

22

Dx

22

+ ρ

2

Lx

z

n

+u

n2

2

]

z

[1]n+1

= argmin

z[1]

[

α z

[1]

1

RN +

(z

[1]

)+ ρ

2

Ixn+1

z

[1]

+u

[1]n2

2

]

z

[2]n+1

= argmin

z[2]

[

γ∥Fz

[2]

1

+ ρ

2 ∥Fx

n+1

−z

[2]

+u

[2]n

22

]

u

[1]n+1

= u

[1]n

+ Ix

n+1

z

[1]n+1

u

[2]n+1

= u

[2]n

+ Fx

n+1

z

[2]n+1

(2)

を反復することによって解くことができる.

微分不可能な凸な関数を含む問題を解く手法として,近 接作用素が広く用いられている.近接作用素とは,

prox

f

(v) = argmin

x

[

f (x) + 1

2 x v

22

]

(3)

を求めることで

f

の勾配を下る効果を持つ作用素である.

ここで

1ノルムの場合の近接作用素は,

prox

κ∥·∥1

(x) =







x

i

κ (x

i

> κ) 0 (|x

i

| < = κ) x

i

+ κ (x

i

< κ)

(4)

となり,

1ノルムと指示関数

ι

RN +

の和の近接作用素は以 下のようになる

[4]

prox

κ∥·∥1

RN +

(·)

(x) =

{

x

i

κ (x

i

> = κ) 0 (x

i

< κ) (5)

したがって最終的に,

x

n+1

=

(

I + 2βD

T

D + ρL

T

L)

−1[

d + ρL

T

(z

n

u

n

)

]

z

[1]n+1

= prox

α

ρ∥·∥1RN

+(·)

(Ix

n+1

+ u

[1]n+1

) z

[2]n+1

= prox

γ

ρ∥·∥1

(Fx

n+1

+ u

[2]n+1

) u

[1]n+1

= u

[1]n

+ Ix

n+1

z

[1]n+1

u

[2]n+1

= u

[2]n

+ Fx

n+1

z

[2]n+1

(6)

を反復すれば最適解が求まる.式

(1)

Time[s]

0 0.1 0.2 0.3 0.4 0.5 0.6

Frequency [Hz]

0 500 1000 1500 2000 2500

図–5 元の障害音声

Time [s]

0 0.1 0.2 0.3 0.4 0.5 0.6

Frequency [Hz]

0 500 1000 1500 2000 2500

図–6 修復後音声(α= 2, β= 100, γ= 100)

α = 2, β = 100, γ = 100

で解いた結果を図–6に示す.

元のスペクトログラムである図–5と比べ濃い色の部分が 増えており小さな値がゼロになってスパースになってい る.また時間軸方向になめらかに,基本周波数の整数倍 が強調されたスペクトログラムになっていることが確認 できる.

4. む す び

凸最適化を用いて障害音声の修復を試みた.修復後の スペクトログラム上ではスパース性,なめらか性,調波 構造強調の性質を確認することができた.実際に生成さ れた音声も元の音声と比べると嗄声感が抑えらており,

変化がみられた.今後の課題として,より通常音声に近 い音声が生成するために,振幅のみならず位相も考慮し た最適化も行うことを検討する.

参 考 文 献

[ 1 ] 武田直也,“嗄声評価におけるケプストラム分析の応用(第1報)

−ケプストラムとゆらぎの関係について−,”日本喉頭科学会誌「喉 頭」,vol.5,no.2,pp.176–181,1993.

[ 2 ] 小川宏和,小林丈二,岡田亜紀,兵頭政光,“一側声帯麻痺による

嗄声に対する音声治療の有用性,”音声言語医学誌,vol.43,no.3,

pp.256–260,2002.

[ 3 ] S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein,  “Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers,” Foundations and Trends in Machine Learning, vol.3, no.1, pp.1–122, 2011.

[ 4 ] J. Rapin, J. Bobin, A. Larue, and J. L. Starck,“Sparse and Non-Negative BSS for Noisy Data,” IEEE Transactions on Signal Processing, vol.61, no.22, Nov. , 2013.

参照

関連したドキュメント

Wu, “A generalisation model of learning and deteriorating effects on a single-machine scheduling with past-sequence-dependent setup times,” International Journal of Computer

Dual averaging and proximal gradient descent for online alternating direction multiplier method. Stochastic dual coordinate ascent with alternating direction method

参考文献 Niv Buchbinder and Joseph (Seffi) Naor: The Design of Com- petitive Online Algorithms via a Primal-Dual Approach. Foundations and Trends® in Theoretical Computer

Our aim was not to come up with something that could tell us something about the possibilities to learn about fractions with different denominators in Swedish and Hong

administrative behaviors and the usefulness of knowledge and skills after completing the Japanese Nursing Association’s certified nursing administration course and 2) to clarify

The dynamic nature of our drawing algorithm relies on the fact that at any time, a free port on any vertex may safely be connected to a free port of any other vertex without

3 by two simple examples: we first give another solution of (2) obtained when m = 2, and then a generating function proof of MacMahon’s formula for the number of standard tableaux of

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察