音声認識の基礎

(1)

音声認識の基礎

参考図書

情報基礎学詳説、コロナ社、１９８３

坂井利之編（分担執筆）

(2)

音声認識の種類

特定話者 / 不特定話者

孤立発声 / 連続発声

朗読発声/自由発声

単音節認識

単語認識

連続単語認識

連続音声認識

音声理解

Key word (word spotting), 言語認識

話者認識の種類

テキスト依存 / テキスト独立/テキスト指定

話者照合

(3)

音声認識タスクの分類

モード

対話

独語

人間−人間

会議、通訳

議事録、

ｲﾝﾃﾞｷｼﾝｸﾞ、翻訳

ボイスメール、

講演・講義

（要約・整形）

人間−機械

_{質問−応答}

検索・予約、

(対話理解、音声生成)

データ入力、

音声ワープロ

（ﾃﾞｨｸﾃｰｼｮﾝ）

(4)

音声パターンの多様化の原因

１．発声者による変動

（個人差）

２．調音結合による変動

３．発声時期差による変

４．音声速度の変動

５．アクセント、

イントネーション

６．有声無声・母音・鼻音・

破裂・摩擦の混在

７．その他の要因

声帯振動数、声道形等の発声器官の構造差。

方言、発声習慣などの調音法の相違

発声器官の連続運動・変化による

音声生成（ディジタル音韻列→アナログ音声）

発声器官の生理変化、調音法の変化

（かぜ、脱歯、疲労など）

音韻、音節などの離散記号の非線形時間軸変

韻律情報の音声への付与

種々の調音機構への依存

ノイズ（背景雑音、電子ノイズ）

伝送歪

(5)

連続音声認識が困難な理由

１．単語境界が不明確になる

２．単語境界付近の音が先行または後続単語の

影響で変形する。

３．単語を構成する各音の継続時間が短くなり、

発音もあいまいになる。

４．単語の最後の音韻が伸ばされて発声される

場合がある。（特に助詞）

５．不要語の発声、非文法的文の発声

(6)

(7)

DARPAベンチマーク評価結果の歴史（2）

1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 % 1 % 10 % 100

W

O

R

D

E

R

O

R

A

T

E

Resource

Management

Courtesy NIST 1999 DARPA

HUB-4 Report, Pallett et al.

Broadcast

Speech

NAB

Varied

Microphone

Noisy

Spontaneous

Speech

ATIS

Read

Speech

_{Conversational}

Speech

Switchboard

WSJ

k 20 k 1 k 5

(8)

人間「耳」と機械の「耳」の音声認識誤りの比較

Perplexity

Recognition error rate in %

10

50

100

0.001

0.01

1

10

100

0.1

Connected Digits (326 Talkers)

Wall Street Journal

(84 Talkers, 5000 Words) Alphabet Letters (150 Talkers) Spontaneous Speech (70 Talkers, 20000 Words)

Machine ‘Ear’

Human ‘Ear’

(9)

人間と機械の音声認識

タスク

人間の誤聴率

機械の誤認識率

アルファベット

1.6％

（連続発声）

5％

（孤立発声）

連続数字列

（ストリング認識）

0.009％

0.105％（分析合成音）

0.72％

1000語彙の自然言語文

（文法未使用時の

単語認識）

2％

17％

5000語彙の自然言語文

（朗読音声）

S/N 10ｄB 1.1％

S/N 16ｄB 1.0％

S/N 22ｄB 0.9％

クリーン音声 0.9％

12.8％

10.0％

8.4％

7.2％

スイッチコーパス

（自然発話）

4％

30∼43％

20000語彙の自然言語文

（朗読音声）

2.6％

7.4％（非母語話者）

12.6％

(10)

音響レベルと言語レベルの性能

音響レベル

（音韻認識率）

言語レベル

（単語パープレキシティ）

人間

_{90％∼95％}

₁₀₀

機械

70％∼80％

70∼200

注：機械の言語モデルは認識対象のドメインが限

定されている場合

(11)

0 20 10 30 40 50 60 70 80 90 0 50,000 100,000 150,000 Age

Word Error Rate(%)

Hours _Hours 0 20 10 30 40 50 60 70 0 100 10,000 000 , 000 , 1 10 1,000 100,000 1

Estimated amount of speech a human

being hears as a function of age

(R.Moore, EuroSpeech, 2003)

Extrapolated word error rates for

increasing quantities of training

data(R.Moore, EuroSpeech, 2003)

Supervised , Unsupervised Unsupervised (reduced LM training)

(12)

発話スタイルの違いによる

音響的特徴の相違

発話スタイル

母音間距離

（分散）

子音間距離

（分散）

フレーム数／

音韻（分散）

孤立単語発声

5.32 （5.75）

5.09 （5.80）

16.7 （42.5）

朗読

3.63 （2.38）

3.71 （4.01）

14.1 （29.1）

自然発話

2.62 （0.43）

4.21 （4.99）

17.3 （125.0）

・自然発話の音声認識には、発話速度と文脈を加味

した発音辞書の研究が重要

(13)

音声認識の階層と関連する諸問題

音声

音声分析音韻･音節認識連続単語音声の認識孤立単語音声の認識会話音声の認識･理解音声による質問回答話者認識音声タイプ 105 ビット

_階層

パラメータ特徴抽出音韻・音節セグメンテーション調音結合単語時間長の正規化単語辞書（低次言語情報）構文

word juncture rule 単語境界検出木探索法意味・プラグマティクス解析手順構文・意味・プラグマティクス韻律（高次言語情報）談話会話・ユーザモデル音声波形 104 100 ラティス表現（タスクに依存） 30∼60 ラティス表現（タスクに依存） 20∼40 bottom up top down 文脈の影響経時変化正書法カタカナ漢字変換高次言語知識の利用個人差の学習個人差の正規化対話制御

(14)

音声認識のブロック図

K N K N

X

₁1

L

1

,

L

,

₁

L

標準パターン：

前処理

{入力音声}

音響分析

（特徴抽出）

比較･判定

次段レベル

の判定

{認識結果}

⎟

⎠

⎞

⎜

⎝

⎛

)

(

)

(

1

t

r

t

r

M

⎟

⎠

⎞

⎜

⎝

⎛

N

X

M

1

⎟

⎠

⎞

⎜

⎝

⎛

K

d

M

1

)

(t

S

' t

(

)

C

i

S(t) : 音声波, S’(t) : 前処理後の音声波

r(t) : M次元の特徴パラメータ時系列（音響分析後）

X : N個の特徴パラメータ（特徴抽出後）

d

i

: カテゴリC

i

の標準パターンとの距離（比較後）

(15)

特徴パラメータとその特性

特徴パラメータ抽出精度次元（パラメータの数）認識への貢献度処理時間コスト発声モデルとの対応性可良 FFT ケプストラム優 8∼14 優優可 LPC ケプストラム優 8∼14 優優良良ホルマント良 3 優良劣優声道断面積関数可 8∼12 優？優劣優唇・舌・あごの位置劣 3∼6 良？可劣優可可良優劣 5∼10 良優優良良可良良＞20 ＞20 5∼20 8∼12 8∼12 8∼12 分析合成の忠実度零交差波優劣アダマール変換優可スペクトル（FFT）優優自己相関係数優優 MFCC 優優線形予測係数優優 PARCOR係数優優波形に対する演算操作発声モデル距離尺度としてユークリッド距離を用いた場合

(16)

(17)

ベクトル量子化アルゴリズム

（a）LBGアルゴリズム

∞ = = = = = − = − − 1 ) 0 ( 1 ) 0 ( 0 ) ( 0 , , , 0 } , , { , } 1 , , 0 ; { ) ( D m y y A N n j x N n j ひずみしきい値合コードブックの初期集コードブックサイズ訓練サンプル集合初期化１

ε

L L

(

)

{

}

∑∑

− = − =

∈

=

∈

<

−

=

1 0 1 0 ) ( ) ( ) ( ) (

,

1 .

)

,

(

)

,

(

,

}

1 ,

,

0 ;

{

}

{

)

2 (

N i n j i j m i j m i j m t j m i j i N m j

S

x

y

x

d

n

D

S

x

y

x

d

y

x

d

t

N

i

S

N

A

x

但し

る

平均ひずみを計算す

なら

について

べての

すなわち，もしす

に分割する．

個の部分集合

によって

を

_L

(

)

. 4 . , / , ) 3 ( ₁ ( ) ）へそれ以外なら（をコードブックとするなら終了しもし N m m m m D D A D ₋ − <

ε

{

}

( )

{ }

.

2

1 ,

,

.

,

)

4 (

₁( ) ₀( 1) ₁( 1) ( 1)

）へ

として（

ここで

を求める

+

=

+ ₋ + + +

m

S

C

y

A

_m N m

L

_N m _i m _i

(

)

_∑

−

(

)

= −

=

1 0 1 1 0

,

1 min

arg

,

ˆ

n i i n

d

x

n

x

C

x

L

(18)

（ｂ）2分割繰り返しアルゴリズム

(

0 1 1

)

1 , 0

,

1 )

(

−

=

∆

n

x

C

A

M

L

ベクトル

大きさの小さい適当な

初期化

１ {

}

{

}

{

, , ,

}

. , , , , , , , . , , , , , ) 2 ( 1 2 1 0 2 , 0 1 1 1 1 0 0 1 1 0 , 0 とするを改めてに分けるとトルを近接した二つのベク各に対して − − − − = ∆ + ∆ − ∆ + ∆ − ∆ + ∆ − ∆ − ∆ + = M M M M i i i M M y y y A y y y y y y y y y y y y A L L L

{

}

.

2

2 .

.

1

2 ,

,

1 ,

0 ;

LPG

)

3 (

2 , 0 2 , 0

）へ

として（

それ以外なら

なら終了

を求める

準最適な

アルゴリズムによって

を初期値として上記

M

N

M

i

y

A

i M M

=

−

=

_L

(19)

単語音声認識手法の分類

音声信号音声分析音素区分化音素識別単語類似度計算単語判定 (a)音素単位識別方式による 単語認識系単語音声音素標準パターン単語判定単語辞書単語類似度計算音素類似度マトリクス音声分析認識結果 (b)音素標準パターン方式に よる単語認識系 （音素→音節→VCV音節） ベクトル量子化法 （SPLIT法） マッチング処理時間正規化特徴抽出（ﾃﾞｰﾀ圧縮）音声分析音声検出単語判定認識結果認識結果単語判定識別関数値計算単語音声単語音声特徴抽出（ﾃﾞｰﾀ圧縮）音声分析音声検出識別関数値メモリー識別関数値計算音素標準パターン単語辞書 (c)単語標準パターン方式に よる単語認識系 (ｄ)識別関数方式に よる単語認識系単語標準パターン認識結果

(20)

連続音声認識システムの構成

ネットワーク

デコーダ

音響モデル（音素/音節）

言語モデル（構文/意味）

発音（単語)辞書

対話モデル

(プラグマティックス)

韻律情報

_{ユーザーモデル}

(21)

音声理解システムの典型的な構成例

{発話文} 音響分析 {パラメータ表現} 音韻標準パターンセグメンテーション音韻認識韻律分析構文・意味ﾌﾟﾗｸﾞﾏﾃｨｸｽ音形規則単語辞書音韻間類似度 juncture rule 音韻系列の修正単語境界処理単語同定単語列の生成システム動作 {音韻系列} {音韻系列} 未知同定音韻系列区間単語の可能な音韻表現受理可能な単語列のスタック単語例の評価と選択可能な単語の予測 {文の理解} 検証 _{音節中心，音節境界} 構文境界単語境界 bottom up 話者モデル発話モデル言語モデルユーザー談話モデル音声モデル

(22)

各種ラベル付け方法の相互関連図

グラフ表現

ネットワーク表現

ハードな方法

ソフトな方法

ファジイ論理

論理的方法

構文的方法

オートマトン

確率オートマトン

ファジイ（ペナルティ）オートマトン

知識

静的

パターン

動的

パターン

ダイナミックプログラミング（DP）法

確率過程法（マルコフ過程）

（パターン系列）

パターンマッチング法

（モデルによる予測）

確率・統計法（識別関数）

（シンボル系列）

(23)

(24)

3次元空間による仮説の表現

処理レベル

意味レベル

構文レベル

単語レベル

音韻レベル

候補

意味ネットワーク

句・文節ラティス

単語ラティス

時間

音韻ラティス

(25)

（文）

〈名詞句〉

〈名詞句〉〈動詞句〉

〈冠詞〉〈形容詞〉〈名詞〉〈動詞〉〈副詞〉

The little boy ran quickly

（1）〈文〉→〈名詞句〉〈動詞句〉 （2）〈名詞句〉 → 〈冠詞〉〈名詞句1〉 （3）〈名詞句1〉 → 〈形容詞〉〈名詞〉 （4）〈名詞句1〉 → 〈名詞〉 （5）〈動詞句〉 → 〈動詞〉〈副詞〉 （6）〈動詞句〉 → 〈動詞〉 （7）〈冠詞〉 → the （8）〈冠詞〉 → a （9）〈形容詞〉 → little （10）〈形容詞〉 → big （11）〈名詞〉→ boy （12）〈名詞〉 → girl （13）〈動詞〉 → ran （14）〈動詞〉 → walked （15）〈副詞〉 → quickly （16）〈副詞〉 → slowly S→NP VP NP →ART NP1 NP1 →ADJ N NP1 →N VP →V AD VP →V ART →the ART →a ADJ →little ADJ →big N →boy N →girl V →ran V →walked AD →quickly AD →slowly

例文

“ The little boy ran quickly ”

の構文解析木

(26)

S

NP

1

VP

ART

ADJ

N

V

AD

S NP1 VP PUSH NP PUSH VP

CAT ART PUSH NP1

CAT ADJ CAT N

CAT V CAT AD POP POP POP POP NP JUMP

:: = NP VP

:: = ART NP

1

:: = ADJ N ¦ N

:: = V AD ¦ V

:: = the ¦ a

:: = little ¦ big

:: = boy ¦ girl

:: = ran ¦ walked

:: = quickly ¦ slowly

文法1のＢＮＦによる文法記述

文法1の基本遷移ネットワークに

よる記述

(27)

ＤＰマッチング

(28)

(29)

(30)

DPマッチングの概念図

標準パターン

入力パターン

標準パターン

入力パターン

標準パターン

入力パターン

標準パターン

入力パターン

(a) 線形伸縮マッチング

(b) 非線形伸縮(DP)マッチング

(c) 対応の前後関係の入換え禁止

(d) 大きく隔たった対応は禁止

1 2 3 4 5 6 7 8

1 4 7 8

距離＝6

距離＝4

1 2 3 4 5 6 7 8

1 3 2 4 5

1 5 5 5 5 6

1 4 7 8

1 2 3 4 5

1 2 3 4 5 6

1 3 2 4 5

1 2 3 4 5

1 2 3 4 5 6

1 5 5 5 5 6

許されない対応

(31)

可能なパスの総数

横と縦のパス：

I+J

C

I

厳密には、

（I+J−２）

C

_(I-1)

横と縦と斜めのパス：

(32)

ＤＰマッチングの原理図

∑

⋅

=

)

(

))

(

),

(

)

(

min

)

,

(

k

w

k

j

k

i

d

k

w

B

A

D

F

)

1 (

)

(

)

1 (

)

(

)

(

k

=

i

k

−

i

k

−

+

j

k

−

j

k

−

w

)

1 (

)

(

)

(

k

=

i

k

−

i

k

−

w

・対称形

・非対称形

入力パターン：Ａ

標準パ

タ

ーン

：Ｂ

)

,

(

)

2 ,

1 (

)

1 ,

1 (

)

,

1 (

min

)

,

(

d

i

j

i

D

j

i

D

j

i

D

j

i

D

+

⎪

⎭

⎪

⎬

⎫

⎪

⎩

⎪

⎨

⎧

−

=

) , (I J C_x = ) , ( ji C = r i j = + ) 1 , 1 ( 1 = C r i j = − 1

a

₂

a

_i

a

_I 1

b

2

b

j

b

warping function 整合窓 J

b

2 C 3 C 4 C 5 C

(33)

DPマッチング（DTW)

g( i-2, j-1) + 2･d(i-1, j) + d(i, j)

g(i, j) = min g( i-1, j-1) + 2･d(i, j)

g( i-1, j-2) + 2･d(i, j-1) + d(i, j)

g( i-2, j-1) + d(i, j)

g(i, j) = min g( i-1, j-1) + d(i, j)

g( i-1, j-2) + d(i, j-1) + d(i, j)

g( i-2, j-1) + d(i-1, j) + d(i, j)

g(i, j) = min g( i-1, j-1) + d(i, j)

g( i-1, j-2) + d(i, j)

1 1 2 ₂ 2 1 1 1 1 1 1 1 1 (i,j) i j

(34)

標準パ

タ

ーン

(35)

標準パ

タ

ーン

(36)

) , ( n n J i D ) , ( n n J i B

)

( j

u

i

=

n Jn

b

n

b

₂ n

b

₁ 1

a

₂

_i

a

_I n

R

test pattern

(a)

(b)

(c)

(d)

(e)

Asymmetric DP path and weight

for word spotting

(base axis : reference pattern)

test pattern

1 1 1 1 0.5 1 1 1 1 1 11 1 1 1 1 1 1 1 0.5 1 1 1 1

(37)

Word spotting algorithm

N

n

=

1 ,

2 ,

L

n J j = 2,3,L

for

(

', 1

)

min arg ˆ= _D _i _j− i n i i i−2≤ '≤

)

,

(

)

1 ,

ˆ

(

)

,

(

i

j

D

i

j

d

i

j

D

n

=

n

−

+

n ) 1 , ˆ ( ) , (i j = B i j − B n n

1.

2.

3.

4.

5. )

1 ,

(

)

1 ,

(

i

D

i

D

n

=

n

i

B

n

(

,

1 )

=

Initialization for word boundary

execute 3.4.5.6. for

execute 4.5. for

I

i

=

1 ,

2 ,

L

N

n

=

1 ,

2 ,

L

;

)

,

0 (

)

,

1 (

−

i

=

D

j

=

∞

D

n n _n

_{Initialization}

J

j

=

1 ,

2 ,

L

(38)

: d I ⋅ N ⋅ J D : I ⋅ N ⋅ J

Example

○ cumulative

distance

○ local

distance

test pattern

0

4

2

6

2

0

1

2

3

4

1

2

0

1

2

4

0

1

2

0

1

2

0

4

2

3

1

2

1

3

0

1

2

6

3

2

(39)

演習問題 2.1

次元圧縮法として、K-L展開、判別分析、独立成分分

析（ICA)などがある。これらの違いを述べよ。

演習問題 2.2

（1）あるシンボル系列をの系列に変換す

る場合について考える。変換用オペレータとして次のものを用いる。

コスト

・置換 p Aのシンボルを他のシンボルに置き換える

・挿入

_{q Aの二つのシンボル間にシンボルを追加する}

・脱落（削除） r Aのシンボルを削除する

・逆置換 s Aの二つの隣接シンボルを入れ換える

これらのオペレータを用いてAをBと同一にする方法はいくらでもあ

るが、そのうちでコストの和が最小になる変換手続きを求めるアル

ゴリズムとそのときのコスト総和を求めるアルゴリズムを記せ。

音声認識の基礎