で・母音中心ベクトルが(1,0)となる様に正規化している。母音中心ベクト{
ルと音素/i/に対する角度を基に平面上に投影した2 0人分の各音素の分布 を、ケプストラムとAケプストラム、ケプストラムのみ、ケプストラム(パ ワー除く)を用いた場合にわけて、図4.1,4.2,4.3に示す。
用いるパラメータに関わらず、音素ごとにまとまった分布をしているのが 分かる。分布の形(音素種間の相対関係)は、どの条件でもほぼ同じだがパ ワーを除いた場合が、最も音素種同士のばらつきが大きい。話者によらず各 母音が類似した分布をすることが分かる。
次に、母音中心ベクトルに対する、 /b,d,g/,/C,p,七,k/?分布を図4.4 ,4.5に示
す8‑ここでは、母音中心ベクトルと音素/i/に対するベクトル間の各度を基 に平面上に投影した場合を示す。母音ほど各音素間の分離は良くないが、
比較的似たような分布はしている。
×
××〉〆
xxxxi 貰
×
A
㌔ B, AA A A
諒・‑n8‑・・P ・・・・‑丘・‑A・.・・&・・・a・・
o':・ +・:bA. ・..A.A AA
A
〇十十+++也
〇 十 E) × Å
75Ta山〃T5
iiZI IHHu lHu lHu
‑1 ‑0.5 0 0.5 1 1.5 2 2.5 3
母音中心ベクトルに対する相対距離
図4.1:母音中心ベクトル(1,0)に対する各母音の分布
(cepstrun 0 ‑ 7, A cepstrun 0 ‑ 7)
×
×欺
×××Fx x〜
×× ××
○ + E] X A
仙仙仙〃似
×
A
c。ロ。 ^2 Aム
二二二= ==‑‑==̲=1 ‑==̲;;;言÷
+ ++
〆。・十工iA
♂ 十 〇 十
〇 〇
♂
Oo
O O O
〇 〇 〇 〇
‑1 ‑0.5 0 0.5 1 1.5 2 2.5 3
母音中心ベクトルに対する相対距離
図4・2:母音中心ベクトル(1,0)に対する各母音の分布
(cepstrum 0 ‑ 7)
‑1 ‑0.5 0 0.5 1 1.5 2 2.5 3
母音中心ベクトルに対する相対距離
図4.3:母音中心ベクトル(1,0)に対する各母音の分布
(cepstrum 1 ‑ 7)
ー0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
母音中心ベクトルに対する相対距離
図4・4:母音中心ベクトル(1,0)に対する/b,d,g/の分布 (cepstrum 0 ‑ 7, A cepstrum 0‑ 7)
+
‑0.8 ‑0.6 ‑0.4 ‑0.2 0 0.2 0.4 0.6 0.8
母音中心ベクトルに対する相対距離
図4.5:母音中心ベクトル(1,0)に対する/C,p,t,k/の分布 (cepstrllm 0 ‑7, A cepstmm 0 ‑ 7)
4.3 話者闇の音素特徴ベクトル間の関係
前節より母音中心ベクトルに対する音素分布が話者によらず類似している と考えられる。もし、この分布が完全に一致しているならば、個人差は、母 音中心ベクトルの差だけである。この個人差分を正規化することにより、
話者適応が可能になる。
母音中心ベクトルで話者性を代表しているので、話者の個人差はその差ベ クトルと考えられる。各音素ベクトルをその差ベクトルで正規化することに よって話者適応が可能になる。従来の話者適応では、音素の種類を無視でき る大量のデータによって差ベクトルを求めていた。本研究では予備認識結異 を利用して差ベクトルを求める。話者適応を行なうシス≠ムを図4.6に示す。
例えば、ユークリッド距離の場合の話者適応を定式化すると
以下の条件を満たすような、定ベクトルCが差ベクトルに相当する。
〟
D ‑ ∑(xi ‑Pip+C)I(xi ‑flip+C),
i=1 芸‑o (4・1)
xi:入力のiフレームの特徴ベクトル
pi:入力のiフレームの予備認識第1侯稀音素標準パタン FLp:音素pの標準パタンベクトル
C:個人性正規化の定ベクトル
C ‑請(pip ‑ Xi) (4・2)
実際の認識システムに用いる場合は、入力の予備認識結果と標準パタンベ クトルを用いるが、ここでは、 2人の話者間の個人差を正規化することで その効果を見る。
ケプストラムパラメータ上での話者同士の中心ベクトルの差ベクトルを 個人性正規化の個人差ベクトルとして正規化を行なう。
話者1に対する、話者2の母音ベクトルの分布と個人差を正規化した場 合の各音素ベクトルの分布を、投影図で図4.7に示す。話者1の各母音と話
Pw,i 話者iの音素Uの特徴ベクトル
PL,i話者iの正規化後の音素Wの特徴ベクトル W 音素
n 全音素数
i,j 話者
これは、正規化によって、どの程度誤差が減少したかを表している。これ を用いて、ベクトルのパラメータ数を変えた場合の正規化の効果を見る。話 者性を考慮する上で、性差は大きな違いを示す。 2人の話者間の5母音の 平均を、全ての話者の組について計算する。話者の粗合せ(男性:男性、
身性:女性、女性:女性)ごとに分けて、各々の場合について、用いるパラ メータを、ケプストラムとAケプストラム、ケプストラムのみ、ケプストラ ム(パワー除く)の条件について、表4.1,4.2,4.3に示す。話者間の相対距離比 の平均を以下の式4.4とする。
D ‑壷ii.=麦1&3・
LLj 話者iと話者jの音素間距離正規化尺度 J 話者数
i 話者
(4・4)
どのパラメータ条件でも、ほぼ同程度の正規化の効果が望める。同性の場 合で半分以下になり、男性の場合がかなり効果がある。これにより、個人差 ベクトルを用いた正規化が有効であることが分かった。
つぎに、母音中心ベクトルを用いた他の子音に対する正規化の効果を調
べる。例として、話者2の/C,p,t,k/を、話者1と話者2の母音中心ベクトル
間の差ベクトルで正規化し、適応させた場合を図4.8に示す。子音の分布は ばらつきが大きく、分布の仕方自体が異なっており、母音中心ベクトルでの 正規化は#しい。
ここで、各子音との関連性の高い中心ベクトルを別に考える。音素は、そ の性質により母音、有声破裂音、無声破裂音など多くのクラスに分類でき る。例えば、無声破裂音/C,p,t,k/のクラスの平均ベクトルを中心ベクトル として、その個人差で正規化を行なう場合を考える。例として、話者2の
表4.1:母音中心ベクトルによる各母音の 正規化の平均相対距離比か(式4.4)
(cepstrum 0‑ 7, A cepstrun 0 ‑ 7)
男性 傚y イ
男性 r 0.58 女性 經 0.46
表4.2:母音中心ベクトルによる各母音の 正規化の平均相対距離比D(式4.4)
(cepstrum 0 ‑ 7) 男性 傚y イ
男性 R 0.59 女性 經 0.47
表4.3:母音中心ベクトルによる各母音の 正規化の平均相対距離比か(式4.4)
(cepstrum 1 ‑ 7)
無声破裂音のクラスの平均を中心ベクトルとして正規化を行なったが、有 効であることが分かる。
中心ベクトルを子音クラスごとで求めた場合を、前出の距離尺度を用い
て比較した結果を表4.4,4.5,4.6,4.7に示す。比較のために、母音中心ベクト/ト で正規化した場合も示す。 一
母音中心ベクトルでの正規化では、かえって誤差が増加しているが、音素 のクラスごとの中心ベクトルでの正規化によって、誤差が減少している。
話者適応を行なう場合、話者性を表す中心ベクトルに対する、全音素の分 布が話者間で類似していることが望ましい。クラスごとに、中心ベクトル を求め、それらの個人差ベクトルの相対関係を図4.10に示す。話者1に対す る他の話者の個人差ベクトルを示した。母音中心ベクトル間の差ベクトル を原点から(1,0)のベクトルとして表している。クラスごとの中心ベクトル はかなり異なっており、いくつかの中心ベクトルを用いる必要があること が分かる。これによって、音素の種類ごとによって中心ベクトルを変える必 要性があることが分かる。
表4.4: /b,d,g/中心ベクトルによる/b,d,g/の
正規化の平均相対距離比D(式4.4)
(cepstrum 0 ‑ 7, A cepstrun 0‑ 7)
男性 傚y イ
男性 " 0.39 女性 0.40
表4.5:母音中心ベクトルによる/b,・d,g/の 正規化の平均相対距離比D(式4.4)
(cepstrum 0 ‑7, A cepstmm 0 ‑7)
男性 傚y イ
男性 紊 1.50 女性 經 1.27
表4.6: /C,p,t,k/中心ベクトルによる/C,p,t,良/の
正規化の平均相対距離比か(式4.4) (cepstrum 0‑7, A cepstrum 0‑7)
男性 傚y イ
男性 經 0.62
女性 緜" 0.58
表4.7:母音中心ベクトルによる/C,p,七,k/の
正規化の平均相対距離比か(式4.4)
(cepstrum 0 ‑ 7, A cepstmm 0 ‑ 7)
入力音声
終了
図4.6:個人性ベクトルの推定
‑1 ‑0.5 0 0.5 1 1.5 2 2.5 3
母音中心ベクトルに対する相対距離
‑0.2 ‑0. 1 0 0. 1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
母音中心ベクトルに対する相対距離
図4.8:個人差ベクトル(母音中心ベクトルの差)による正規化 話者1の母音中心ベクトルに対する/C,p,七,k/の分布
0.6 0.7 0.8 0.9 1 1.1 1.2
/C,p,t,k/中心ベクトルに対する相対距離
例 ホルマント平面上での個人差
母音中心ベクトルの個人差ベクトルに対する相対距離
図4.10:音素クラスごとの話者1との個人差ベクトル分布
4.4 まとめ
(
話者の個人性を原因とする認識率の低下‑の対策として、ケプストラム パラメータの特徴ベクトルにおける話者の個人性に関する分析を行なった。
パラメータ空間での、各話者の各音素は異なったものである。しかし、話 者性を考慮した場合には、話者ごとの音素の分布に類似性が見られた。こ
こでは、話者性として5母音の平均ベクトルを考えた。
次に、特徴ベクトル空間上での話者性の正規化による話者適応について 検討した。まず、母音中心ベクトルの差ベクトルを個人差とした正規化で
は、 5母音について効果が見られたが、他の子音では効果が薄い。
‥ そこで、他の子音群の平均ベクトルを中心ベクトルとして個人性の正規 化を行なった場合、効異が見られた。
すべての音素クラスの中心ベクトルによる差ベクトルが、一致するなら ば特徴ベクトル空間での個人性は1個のベクトルで正規化できる。しか
し、実際には各音素クラスでの中心ベクトルの個人差ベクトルは、かなり 異なったものとなった。このことから、適切な中心ベクトルの選択が必要と なってくる。また、個人性の顕著な音素のみを用いた適応や、中心ベクトル の選択方法などの検討が必要である。