• 検索結果がありません。

線形型鍾]一予測フィルタ係数

N/A
N/A
Protected

Academic year: 2021

シェア "線形型鍾]一予測フィルタ係数"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

NDC 007.1

   発声速度変換に適用する

線形予測精度改善に関する一検討

坂井良広*

A study on irnprovernent of LPC analysys for speech rate eonversion

Yoshihiro SAKAI

 音声の線形分離モデルを用いて、録音された音声の声質を変えずに発声速度の変換を行うことができる。その際の背景雑音対策として 比較的簡単な方法により雑音による線形予測の誤差を減少させ、それによって音質低下を改善する方法について検討した。線形予測分析 の処理過程で算出される共分散行列の要素のうち、雑音の影響を受けにくい1次以上の要素を用いて0次要素を補正し、補正後の各要素 を以降の各処理に用いる方式を提案した。補正処理における係数計算については、補正精度および計算量の点から最適なパラメータを決 定した。この方法により線形予測フィルタ周波数特性の誤差は平均で0。736倍に減少した。

1.はじめに

2.発声速度変換処理

 録音された朗読音声を対象に、ピッチ(音の高さ)と発 声速度を独立に制御することにより、声質を変えることな く聞き取り難い部分を低速再生したり、逆に高速再生によ り効率的な情報収集をすることができる。これを音声の速 度変換処理と呼ぶ。これを実現するためには音声波形から 音源情報と声道情報を分離し、独立に制御することが必要 になる。線形予測に基づいた分析合成方式により、音源・

声道情報を独立に制御する方法(1)(2)が従来から研究され ているが、これらは雑音を含まない音声を処理対象として 検討している。一般的に朗読の録音を行う場合、常に無騒 音の理想的環境を期待することは難しい。締あ切った室内 でも空調を使うとダクトからの吹き出しによる騒音が発生 し、これが音声に重畳して録音される。雑音を含む音声信 号に対しそのまま速度変換処理を行うと、線形予測分析の 精度が低下し処理音声の品質が劣化することが予想される。

音声信号に重畳した雑音の影響の低減に関しては、音声符 号化や音声認識の分野で検討されているが、これらは各処 理内容に特化したものであったり、所要演算量が多い。他 に、多チャンネル録音した信号に音響信号処理を施して雑 音そのものの低減を図る方式もあるが、これは録音時に特 別の対応が必要である。本稿では背景雑音として空調騒音

(白色雑音とみされる)を仮定し、このような環境で一般 的な方法で録音された音声信号を対象に、簡易な方法で雑 音による線形予測分析の精度低下を改善し、処理音声の品 質劣化を軽減する方式について検討する。

2.1線形予測分析に基づく速度変換

 本検討の対象とした発声速度変換系の概要を図1に、変 換処理におけるタイミングを図2に示す。音声入力sから 線形予測係数αを抽出しこれを用いて予測残差xを得る。

さらに残差Xからピッチ周期pを抽出し、ピッチに同期し た残差波形の間引き(速度上昇)、繰り返し(速度下降)

を行い、残差波形に対応する線形予測係数αを合成フィル タの係数として用いて音声を再合成し、声質を変えずに発 声速度変換を行う。

パラメータ分析部

嚢      ■

S

声力○音入

線形予測分析

  胸−⁝

  一

  一

  一

  ︸     ア

  ーー

    フ

  一  一  ツ

部一 ハ

成一

合㎜

  一

     a 予測フィルタ

F (Z)

ピッチ周期 抽出

p  合成フィルタ

図1

     目 ハ ・ファ H(z)

    x ; ;

発声速度変換システムの構成

線形型鍾]一

予測フィルタ係数 al a2 a3 a4

予測残差

* 情報工学科

  平成6年8月30日受理

バッファ出力

合成フィルタ係数

    図2

xl IX2 1×3 1×4 IXs IXs

      ノ

←石〉〆 を一/

Xl IX3 IXs IX7 al la2 1a4 las

データタイミング(倍速変換の場合)

一57一

(2)

津山高専紀要第34号 (1994)

2.2線形予測分析部の構成

 線形予測分析部は図3に示すように格子型フィルタアル ゴリズムに基づく反射係数rの計算を中心として構成した。

(3) (4)

o

S 共分散行列

Z出

Φ

格子型フィルタ

W数算出

r

係数

マ換

α

図3 線形予測分析部の構成

(1)共分散行列演算:入力信号sから、式(1)で定義するφ

 (i,」)を要素とする共分散行列Φを求める。

       NA

 di (i,j) 一2s(n−i)*s(n−j) (!)

       n=O

      ただし、NAは分析フレーム長、 i,j=0〜10

¢  一

¢ (o, o)

¢ (1, O)

ip (10,0)

ip (O, 1) ・ ・ ・ ・ 一 di (O,10>

ip (1, 1) ・ ・ ・ ・ ・ di (1,10)

di (10, 1) ・ ・・ di (10,10)

(2)

(2)格子型フィルタアル1  TJズム:図4に示すように第1段目で音声

信号から相関計算Cにより反射係数rを求め、これを用い て線形予測残差を計算する。2段目以降では前段の出力を 入力とし同様の処理を縦続的に行う。これに対応する演算 内容は手順1に示す通りであるが、実際にはその中の①〜

③を手順2に示すように再帰的演算に置き換えることによ り、所要演算量を大幅に削減している。

[手順2] 再帰的手法([手順1]の①〜③を置き換え)

O  Fj(Lk)=Fj−i(i,k)+rj {C」一i(Lk)

      +Cj一、(k,i)}+rj2B、一、(i,k) (7)

② Bj(i,k)=Bj−1(i+1,k+1)+rj{C」.、(i+1. k+1)

    +C」一i(k+Li+1)} +rj2Fjui(i+1,k+1) (s)

 C,(i,k)=C,.,(i+1,k+1)

      十r」 {Bjri(i,k+1)十Fjmi(i,k+1)}

      十 r jZCj−i (k+1, i) (9)

ただし 初期値 P憲≡蹴1のω)

(3) 、oラメータ変換:手順3によりrから線形予測係数αを得る。

[手順3]下記の①〜②を反復計算(i;1〜NP)

(D ai(i)一一ki (11)

@ aj(i) ==aj(i−1>一ktai−j(i−!) (12)

       : 1 $ j E一{ i 一 1

3.雑音による線形予測係数の変動

 本処理系では音声に背景雑音が含まれていると、音声に 対する線形予測の精度が低下し再生音声の品質が低下する。

背景雑音による波形歪を明らかにするために、背景雑音が 無しの場合と有りの場合の残差波形xの一例を図5に示す。

雑音が無い場合は明確なピッチが見られるが、雑音の存在 下では波形が乱れピッチの抽出が困難となる。

 背景雑音無し

   t

×

網。

 −1 e

丁1同E 【Msec】

o

      fi

 f o,

       .

D・

、。   D、、   {互

図4 格子型フィルタ法

[手順1] ①〜④を反復(j=1〜10)

O Fj(i,k)=2f」(n−i)*fj(n−k)

       n

@ Bj(i,k)=2bj(n−i−1)*bj(n−k−1)

       n

③C,(i,k)二Σfj(n−i)*b」(n−k−1)

       n

(3)

(4)

S/N=10dB

 +1

梱。

 −1

図5 残差波形xの一例

付加雑音無し  2e

Gain

[dB]

 一20

S/N==10dB

 20

  〈 )

TIME [zase¢]

o

(5)

   C,一, (O,O) 十C,=, (Np−j,Np−j)

rj一一一2一  (6)

   F,一,(O,O)+B,一,(O,O)+F, ,(Np−j,Np−j)

      +B,一,(Np−j,Np−j)

      ただし、N,は分析次数

Gein

[dB]

一20

 e FEequencu [kHi]

 図6 予測フィルタ利得周波数特性

4.0

一58一

(3)

発声速度変換に適用する線形予測精度改善に関する一検討  坂 井

 この波形に対してピッチに同期した波形の間引き、繰り 返しと行おうとすると、音質が著しく劣化することが予想 される。残差波形の乱れは線形予測分析精度の低下が原因 となっている。その一例としてある分析フレームにおいて 線形予測係数αから得られた予測フィルタ利得周波数特性 を図6に示す。(a)は雑音の無い場合、(b>は音声の平均電 力に対して一10dBの白色雑音を付加した場合で、( a)とは大

きく異なり周波数特性のピークの一部が消失している。

4.予測精度改善方法

4.1共分散値に対する雑音の影響

 空調騒音のような白色雑音の存在が共分散行列の各要素 に与える影響について調査した。図7に音声入力に対する 共分散行列要素φ(i,」)の典型的な例として、i・5の場合を 示す。背景雑音有り/無しを線種で区別し重ねて表示した。

ここでpを次のように定義し、以下これを次数と呼ぶ。

    p−li−jl (13)

雑音の有無による値の相違に着目すると、行列要素φ(i,」)

のうち。次要素{i・j}のみが大きく変動し他は変動が小さい 傾向が見られる。一方、雑音無しの場合の次数(p・i−j)と行 列要素φ(i,」)の値との関係に着目すると、近似的に次式で 示す関係になっている。

         sin{b(i−j)

      (a,bは定数) (14)

  ip (L j) 一 a ×

      b(i−j)

   2

MAG

o

  ltS

 lt Sx

 t 一X. s

 v 一 X N

    s

t/ XN

一  付加雑音無し

一一一一

@S/N = 10dB

一2

 −5 O . .  5

       1NDEX P  図7 背景雑音による共分散値φの変動

4。2共分散値変動の補正

 上で得られた結論から、背景雑音の影響を軽減する方法

として、式(14)をφ(i,」)のテンプレート関数として用い、

{i・j}における関数値で入力信号から算出した。次要素を補 正することとした。具体的手順は下記に示すとおりである。

[手順4]

①1次以上の要素φ(i,」){i≠」}を最も良く近似するテン  プレート関数(14)の係数a、bを決定する

②得られたテンプレート関数を用いて。次要素φ(i,」)

 {i・j}を補正する

③この修正された相関行列Φを用いて格子型フィルタ以降  の処理を行う

 上記①における係数a、bの決定にあたっては、次式に 示す二乗誤差を最小とする係数a、bを最適値とした。

   Nv sin(bp)

        a }2 (15)

 E=2 {a5 .一

   rn=1 bp

 ただし、φm=φ(i,i+m)は入力信号からの共分散計算 値、Pm・i−j、Nvは近似次数範囲である。

 (15)式をa、bで偏微分すると誤差最小条件から次式が

得られる。

       Nv .sin(bp)

dE Nv J sin(bp)

       ]2 .0 (16)

      コ+2aΣ        [ rm@== 一2 2 [ g6 .

da m=1 bp m=1 bp

 φ

 m  P

  −︵

恥Σ貯

 肱

DL 

トリ﹂U ﹂U  P 2

  1

恥Σ﹃

 バ 十

0

    b2p2

sin (bp) (bpcos (bp) 一 sin (bp) }

       ]

    b3p3

b p cos(b p)一sin(b p)

      コ

(17)

 上の二式に含まれる関数形のため、これら二式を連立方 程式としその解として直接的に係数a、bを求めることは できない。そこで下記に示す[手順5]を繰り返し実行し 逐次的に係数最適値を得る方法を用いた。

[手順5〕

①係数bを固定し、(!6)式を用いて係数aの最適値を求め

 る。

②この係数aと、(17)式を用いて係数bの最適値を求め、

 ①に戻る。

 なお係数bの初期値は共分散値の零交差点から求めた。

4,3係数決定に関するパラメータの調整

 上で定義した係数a、bの決定手順では計算反復回数が 多くなるほど係数の精度は良くなるが、それに伴い計算に 必要とする時間も増大する。実用上必要な反復回数を決定 するため、反復回数Nbとφ。推定誤差(雑音無しの場合の 0次要素計算値を基準とした誤差、以下同様)との関係を 調査した。これを図8に示す。Nb=5以上でほぼ飽和に 達しているので、手順5の反復回数は5回とした。

︒.ぜ一・ ︒. ぜ\配鍵

PN

   I     Z 5

   係数b計算反復回数(Nb)

図8 反復回数誤差特性

IO

一59一

(4)

津山高専紀要 第34号  (1994)

 また共分散要素φ(i,j)とテンプレート関数との間には、

次数pがある程度小さい範囲では誤差が小さく、pが大き くなるにしたがい誤差が大きくなる傾向がある。したがっ てあまり広い次数範囲のデータを用いると、かえってφ。補 正の精度が劣化する。φ、補正に用いる次数範囲Nvと推定 誤差率との関係を図9に示す。図に見られるようにNv;

4で誤差最小となっており、係数決定の際の次数範囲は4

とした。

 tf諺

9N

 O       2       4

   誤差評価サンプル数(Nv)

図9 評価サンプル数誤差特性

5.評価結果

6

 φ。補正後の予測フィルタの周波数特性を図3(b)に示す。

補正しない場合(a)に比較し、雑音の無い場合(図6(a))に 近い周波数特性となっている。また次式で定義する周波数 特性誤差率eを200フレームに渡って平均した値は、補正し ない場合に対し0.736倍に減少した。これをdB単位で表せ ば表2のとおりである。なおg。、9nはそれぞれ音声のみ、

音声+雑音時の各周波数fにおける利得値である。

    400

    2 i g.(f)一g,(f) i

    k=O

  e 一一 :f=k*10[Hz] (18)

      400       2 g.(f)

      k=O

Gatn

[dB]

S/N ==10dB(補正無し)

 20

   q}

 一206 eq ey l

S/N=10dB(共分散値補正)

20

 〈b)

4.0

 計算機シミュレーションにより評価を行った。主な条件 は表1に示すとおりである。S/N比は音声の有音区間の平均 パワーとの比で規定している。

    表1 変換処理主要パラメータ

フレーム長(線形予測分析)

ユ60サンフ.ル(20msec)

サブフレーム長(音源符号化) 40サンプル(5msec)

線形予測次数

10次

 図10には共分散値とこれを用いて計算した係数を持つ テンプレート関数の相対関係を示す。ほぼテンプレート関 数を中心として共分散値が分布しているが、次数の高い部 分では誤差が大きくなっている。

   2

MAG

o

魂贋

冒・、

f:

:一2.2一:Cl.一.

1: 1,

Gain

[dB]

一205 r g cy la

 図11 予測フィルタ利得周波数特性

表2 予測精度改善量

スペクトル誤差 補正なし

一3. 9dB

共分散値補正

一6. 6dB

補正効果

2. 7dB

6.まとめ

4.0

 ;一構胃塵

i=5

一2

 Ls      e .. . 5

         NORMRLIZED INI)EX p!a

図10 共分散値に対する関数近似結果

 本稿で提案した比較的簡単な方法により白色雑音下にお ける線形予測精度の改善が確認できた。本検討では線形予 測係数の精度改善の評価まで行ったが、今後速度変換に適 用し処理音声品質の評価、および音声品質から要請される パラメータ最適化等を行う必要がある。

文献

(1)桑原、大串;電子通信学会論文誌,Vo1.J69−A, No.4,

  (1986),509−517.

(2) T.Takagi and H. Kuwabara;Proe. ICASSP86,(1986),

  889−892.

(3)斉藤、中田: 音声情報処理の基礎 ,オーム社(1981),

(4) 1.Gerson and M. Jasiuk; Proc. ICASSP90,(1990),

  461−464.

一60一

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

重要な変調周波数バンド のみ通過させ認識性能を向 上させる方法として RASTA が知られている. RASTA では IIR フィルタを用いて約 1 〜 12 Hz

音節の外側に解放されることがない】)。ところがこ

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

あれば、その逸脱に対しては N400 が惹起され、 ELAN や P600 は惹起しないと 考えられる。もし、シカの認可処理に統語的処理と意味的処理の両方が関わっ