• 検索結果がありません。

音声認識特論 Professor Nishi's Lectures

N/A
N/A
Protected

Academic year: 2018

シェア "音声認識特論 Professor Nishi's Lectures"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

音声認識特論

(

11

回目

)

2017

12

15

(2)

単語音声認識

母音認識に比べ単語だと何が難しいか?

rec.txt

0.34 0.15 1.24 ...

0.98 0.78 2.31 ...

pat.txt

0.25 0.24 2.15 ...

0.89 0.25 1.98 ...

長さが違う

(3)

DP

(

ダイナミックプログラミ

ング法

)

(4)

標準パターン

a

k

a

k

k a

(

入力

未知

)

時間的なズレを吸収し

てマッチングする

最短距離を

見つける

10ms

ごとに   

   ケプストラム

で出したデータのマ

ッチング

距離値

T

(ka)

の場

(5)

k

未知の入力音声

適当な区間を選んで

距離値

D(i,j)

を計算す

ればよい

適当な区間を選んで

距離値

D(i,j)

を計算す

ればよい

母音認識の場合

5

(6)

k

未知の入力音声

i

j

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

単語の時はどうやって距離値を求めればよ

い?

(7)

k

未知の入力音声

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

単語の時はどうやって距離値を求めればよ

い?

7

                                                                                                       

単語の始端と終端に直線を引く

直線が掛かったセルの距離値を

累積加算する.

終端における累積距離値を加算

したセルの個数で割る.

total

が最終的な距離値とな

る.

D

m

D

1

D

2

どういうルールで

次のセルを選んで

いるか考えてみて

(8)

このような方法が

40

年前までは用いられて

いた

線形マッチング法と呼ばれ,実際に音声

認識に用いられていた.

今日の検討

線形マッチングによる音声認識には大きな欠

点がある.

それはどのような欠点か?考えてみよ.

(9)

k

未知の入力音声

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

距離値

D

k

っていってもどことど

この距離値を計算すればよい?

本来どのパスを通るべきか

?

9

                                                                                                       

s a a y o n a a

r a

(10)

線形マッチングの問題点

同じ単語で,本来小さくあるべき距離値

が不必要に大きくなってしまう.

異なった単語でも距離値との差が小さくな

結果的に認識率が下がる

同じ単語で正しいパスを通って距離値を

計算するにはどうすればよいか?

(11)

計算機が無限の能力を持つなら

ば...

原点から出発して終端に至るすべてのパスを数

え上げ,それぞれに累積距離値を求める.

何通りあるか考えてみよ.おおよそでよい.

未知: I 個,標準パターンJ個として

求めた累積距離値のうち最も小さいものを採用

すればよい.

                                                                                                     

(12)

DPマッチング

まず,どのパスを通れば距離値が最小に

なるかを見つけることが目的であること

を再確認

しかし大局的に最小であることにこだわ

ると問題が見えなくなる.

(13)

「シダ」の葉

(14)

セル (i,j) における距離値を

セル (i,j) における累積距離値を

全部のセルに対して以下の累積距離値を計算する

i

j

k

未知の入力音声

G

G

I

J

G

距離値

累積距離値

(15)

計算の手順

G=D(1,1)

から出発する.

ひとつずつ右,上に計算を進める.

最後に 

G

に到達するはず.

すると,この 

G

 は何を表しているか

ここで,この手法のすばらしさに気づいて欲

しい.

結局 個の計算で済んでいることに驚く!

(16)

単語音声認識の流れ

未知の入力音声に対して

標準パターン1との累積距離を計算

標準パターン

2

との累積距離を計算

・・・

最も累積距離が小さかったを与える標準

パターンの単語を答えとする.

は「I」で割っておく

(17)

ヒント

wordrec N recfilename Vlength

 

(

エンター

)

例えば、

wordrec 10 unknown.txt 40

のように

k.txt

と 

Unkown.txt

Y[100][40]

X[100][40]

に入れておく

D(i,j)

を計算しておく

G

の例外部分を計算

G

の漸化式を計算

G(I,J)

J

で割る  → 

WG[k]

WG[k]

の最小値を与える

k

の単語を認識結果とす

参照

関連したドキュメント

音節の外側に解放されることがない】)。ところがこ

いかなる使用の文脈においても「知る」が同じ意味論的値を持つことを認め、(2)によって

社会,国家の秩序もそれに較べれば二錠的な問題となって来る。その破綻は

社会,国家の秩序もそれに較べれば二錠的な問題となって来る。その破綻は

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

※ 1

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first se- ries of the MSJ official

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first series of the MSJ official