インデックスごとの検索性能 - LM/AM Outputs of 10 recognition systems

LM/AM Outputs of 10 recognition systems

4.3 インデックスごとの検索性能

2010/7/15

1 Input voice data :

Input voice data : Cosine Cosine (( //k o s a k o s a ii N/ N/ ))

2011/1/20

Index build phase Index build phase

Speech Data

Recognition system #1

Recognition system #10 Recognition

system #2

…

Multiple alignment in phoneme

level

Converting to PTN

An PTN based index

Term Search Engine

図 4.8: PTNを用いたSTDの例

表 4.3: 複数の音声認識システムの出力を利用したインデックスの種類種類仮説数サブインデックス

サブインデックスの構成の数

nSYLs(1-Best) n n n種の1-Best出力の音節系列

nPHOs(1-Best) n n n種の1-Best出力の音素系列

nSYLs(10-Best) n×10 n×10 n種の1〜10-Best出力の音節系列 nPHOs(10-Best) n×10 n×10 n種の1〜10-Best出力の音素系列

nSCNs n×10 n n種の1〜10-Best出力をSCN化

nPCNs n×10 n n種の1〜10-Best出力をPCN化

STN(1-Best) n 1 n種の1-Best出力をSTN化

PTN(1-Best) n 1 n種の1-Best出力をPTN化

STN(10-Best) n×10 1 n種の1〜10-Best出力をSTN化

PTN(10-Best) n×10 1 n種の1〜10-Best出力をPTN化

4.3.1 動的計画法を用いた検索方法

本研究で用いる，検索語の検出アルゴリズムはDPを用いた単純な方法である．単純な検索アルゴリズムを用いた理由は，本研究の主旨が複数の音声認識システムを利用したSTD用インデックスの構築にあるためである．

2010/7/15

k o s a k o s a ii NN

S e a rc h t e rm

sub-word based index

b o s u a

b o s u a ii NN

Distance: 2

substitution error

insertion error

図 4.9: サブワードベースインデックスからDPを用いた検索語の検出例

本稿では，DPの傾斜制限は図4.3のように行っており，Xがインデックス，Yが検索語に対応する．

用語検索エンジンに用いるDPの各遷移コストは編集距離に基づいており，一致の

場合は0，誤りの場合は置換・挿入・脱落に関わらず全て1としている．

ネットワーク型インデックスは2つのNode間に複数のArcを持っており，用語検索エンジンはこの複数のArcを考慮した距離計算を行う．また，ネットワーク型インデックスにはNULL遷移が存在しており，このNULL遷移に対するコストとして0.1を設定している．

最終的に，インデックスと検索語の距離が閾値以下であれば検索エンジンは検索語を検出したと判断する．

図4.9はサブワードベースインデックスから，DPによって“k o s a i N”を見つける例を示す．図4.9の例では，インデックスと検索語の距離は2(置換誤り1と挿入誤り1) となる．

図4.10はPTN(またはPCN)からDPによって“k o s a i N”を見つける例である．

2010/7/15

k o s a k o s a ii NN

S e a rc h t e rm

PTN(PCN) based index

Distance: 0.3

noinsertion error

u k

b q

a m

@ i

@ N b

noinsertion errors

図 4.10: ネットワーク型インデックスからDPを用いた検索語の検出例

4.3.2 複数の音声認識システムを利用する効果

まず，単一の音声認識システムの出力を利用した場合と，複数の音声認識システムの出力を利用した場合の検索性能の違いについて比較を行う．この比較実験に用いたインデックスは，表4.4に示すものとなる．

単一の音声認識システムの出力を利用したインデックスにおいて，使用した音声認識システムがWBC/TriとCB/Triである理由としては，「情報検索システム評価用テストコレクション構築プロジェクト」(National Institute of Informatics Test Collec-tion for IR Systems : NTCIR)の第9回目ワークショップでのIR for Spoken Docu-ments(“SpokenDoc”)タスク[67]において，STD評価用のデータとしてWBC/Triと

CB/Triの音声認識結果が採択されているためである．NTCIRとは，国立情報学研究

所が1998年から行なっている共同研究プロジェクトのことであり，情報検索と，テキスト要約・情報抽出などのテキスト処理技術の研究の更なる発展を図るワークショップ型共同研究プロジェクトのことである．

表 4.4: 複数の音声認識システムを利用する効果の比較実験に用いたインデックスの種類

インデックスインデックス

音声認識システムの種類の種類

WBC/Tri(1-Best)_syl SYL(1-Best) WBC/Tri CB/Tri(1-Best)_syl SYL(1-Best) CB/Tri WBC/Tri(1-Best)_pho PHO(1-Best) WBC/Tri

CB/Tri(1-Best)_pho PHO(1-Best) CB/Tri WBC/Tri(10-Best)_syl SYL(10-Best) WBC/Tri

CB/Tri(10-Best)_syl SYL(10-Best) CB/Tri WBC/Tri(10-Best)_pho PHO(10-Best) WBC/Tri

CB/Tri(10-Best)_pho PHO(10-Best) CB/Tri

10SYLs(1-Best) nSYLs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

表 4.5: 表4.4に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV

WBC/Tri(1-Best)_syl 0.32 0.53 CB/Tri(1-Best)_syl 0.43 0.65 WBC/Tri(1-Best)pho 0.35 0.56 CB/Tri(1-Best)_pho 0.49 0.66 WBC/Tri(10-Best)syl 0.39 0.58 CB/Tri(10-Best)_syl 0.53 0.70 WBC/Tri(10-Best)_pho 0.37 0.62 CB/Tri(10-Best)_pho 0.53 0.74 10SYLs(1-Best) 0.64 0.79 10PHOs(1-Best) 0.63 0.80

この比較実験で用いた評価尺度は，Recall-PrecisionカーブとF-measure，ATWVである．

表4.5に，表4.4に示すインデックスごとにRecall-Precisionカーブを描いた際の最も高いF-measureとATWVを示す．

図4.11に，表4.4に示すインデックスの種類がSYL(1-Best)とPHO(1-Best)の Recall-Precision カーブを示す．

表4.5と図4.11より，単一の音声認識システムの1-Best出力を利用したサブワードベースのインデックスでは，WBC/TriとCB/Tri共に音素単位のサブワードベースインデックスの性能が良いことがわかる．これより，音節単位より音素単位の方がSTD

2011/1/20

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Precision[%]

Recall[%]

WBC/Tri(1-Best)syl CB/Tri(1-Best)syl WBC/Tri(1-Best)pho CB/Tri(1-Best)pho

図 4.11: 単一の音声認識システムの1-Best出力を利用したサブワードベースインデッ

クスの検索性能の比較

に適していることが推測される．例えば，「コサインシータ」という検索語を検出する際に，音節単位では“ko sa i N shi i ta”の7音節のサブワード系列となるが，音素単位では“k o s a i N sh i i t a”の11音素のサブワード系列となる．音声認識システムの出力では，母音または子音の片方が合っている出力が得られる可能性がある．この性質と実験結果から，音素単位の方が未知語検出により適した検索が行えていることが示された．

また，WBC/TriとCB/Triの音声認識結果の違いが，未知語の検出に影響していることがわかる．前章で述べたが，WBC/TriとCB/Triの音節単位の音声認識率では，

WBC/Triの方が高かった．しかし，未知語の検出というタスクになると，音節認識率

では検索性能が測れないということが結果として得られた．

図4.12に，表4.4に示すインデックスの種類がSYL(10-Best)とPHO(10-Best)， nSYLs(1-Best)とnPHOs(1-Best)のRecall-Precisionカーブを示す．

表4.5と図4.12より，単一の音声認識システムの10-Best出力を利用したサブワードベースインデックスより，複数の音声認識システムの1-Best出力を利用したサブワードベースインデックスの性能が良いことがわかる．すなわち，同じ仮説数を用いるのであれば，異なる音声認識システムの出力を用いることが有効であるということとなる．

以上より，複数の音声認識システムの出力を利用することが，STDに有効であることが示された．また，サブワードベースインデックスのサブワードの単位は，音節よ

2011/1/20

1

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Precision[%]

Recall[%]

WBC/Tri(10-Best)syl CB/Tri(10-Best)syl WBC/Tri(10-Best)pho CB/Tri(10-Best)pho 10SYLs(1-Best) 10PHOs(1-Best)

図 4.12: 10個の音声認識結果を利用したサブワードベースインデックスの検索性能の

比較

り音素が適していることが示された．

4.3.3 インデックスの形態ごとの評価

続いて，インデックスの形態によるSTDの性能比較を行う．この比較実験に用いたインデックスは，表4.6に示すものとなる．

この比較実験で用いた評価尺度は，Recall-PrecisionカーブとF-measure，ATWVである．

表4.7に，表4.6に示すインデックスごとにRecall-Precisionカーブを描いた際の最も高いF-measureとATWVを示す．

図4.13に，表4.6に示すWBC/Triのみを用いたインデックスのRecall-Precisionカーブを示す．

表4.7と図4.13より，単一の音声認識システムの出力を利用したインデックスでは，

10-Best出力を利用した音素単位のサブワードベースインデックスがATWVでは最も良

く，F-measureでは音節単位のネットワーク型インデックスが良いことがわかる．また，

Recall-Precisionカーブではサブワードベースのインデックスとネットワーク型インデッ

クスでは同程度の性能を示しており，どの形態のインデックスがSTDに適しているかを判断することは難しい．図4.14に，表4.6に示すインデックスの種類がSYL(10-Best)

表 4.6: インデックスの形態による効果の比較実験に用いたインデックスの種類インデックスインデックス

音声認識システムの種類の種類

WBC/Tri(1-Best)_syl SYL(1-Best) WBC/Tri WBC/Tri(10-Best)_syl SYL(10-Best) WBC/Tri

WBC/Tri(SCN) SCN WBC/Tri

WBC/Tri(1-Best)_pho PHO(1-Best) WBC/Tri WBC/Tri(10-Best)_pho PHO(10-Best) WBC/Tri

WBC/Tri(PCN) PCN WBC/Tri

10SYLs(1-Best) nSYLs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

STN(1-Best) STN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

10SCNs nSCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*

10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

PTN(1-Best) PTN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

10PCNs nPCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*

表 4.7: 表4.6に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV

WBC/Tri(1-Best)_syl 0.32 0.53 WBC/Tri(10-Best)_syl 0.39 0.58

WBC/Tri(SCN) 0.43 0.59

WBC/Tri(1-Best)_pho 0.35 0.56 WBC/Tri(10-Best)_pho 0.37 0.62

WBC/Tri(PCN) 0.43 0.57

10SYLs(1-Best) 0.64 0.79

STN(1-Best) 0.67 0.78

10SCNs 0.68 0.68

10PHOs(1-Best) 0.63 0.80

PTN(1-Best) 0.64 0.82

10PCNs 0.62 0.73

とPHO(10-Best)，nSYLs(1-Best)とnPHOs(1-Best)のRecall-Precisionカーブを示す．

表4.7と図4.14より，複数の音声認識システムの出力を利用したインデックスでは，

PTNがATWVでは最も良く，F-measureでは10SCNsが良いことがわかる．また，

Recall-Precisionカーブではネットワーク型インデックスが全体的に高い性能を示して

いる．

2011/1/24

1

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Precision[%]

Recall[%]

WBC/Tri(1-Best)syl WBC/Tri(10-Best)syl WBC/Tri(SCN) WBC/Tri(1-Best)pho WBC/Tri(10-Best)pho WBC/Tri(PCN)

図 4.13: 単一の音声認識システムの出力を利用したインデックスの検索性能の比較

2011/1/24

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Precision[%]

Recall[%]

10SYLs(1-Best) STN(1-Best) 10SCNs 10PHOs(1-Best) PTN(1-Best) 10PCNs

図 4.14: 10種類の音声認識システムの出力を利用したインデックスの検索性能の比較

表 4.8: インデックスを構成する仮説数による効果の比較実験に用いたインデックスの種類

インデックスインデックス

音声認識システムの種類の種類

WBC/Tri(10-Best)_pho PHO(10-Best) WBC/Tri

WBC/Tri(PCN) PCN WBC/Tri

10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

PTN(1-Best) PTN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

10PHOs(10-Best) nPHOs(10-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

10PCNs(10-Best) nPCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*

PTN(10-Best) PTN(10-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*

表 4.9: 表4.8に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV

WBC/Tri(10-Best)_pho 0.37 0.62

WBC/Tri(PCN) 0.43 0.57

10PHOs(1-Best) 0.63 0.80

PTN(1-Best) 0.64 0.82

10PHOs(10-Best) 0.72 0.80

10PCNs 0.62 0.73

PTN(10-Best) 0.34 0.75

以上の結果より，単一の音声認識システムでは，インデックスの形態によってSTD の性能が大きく変わることはないことが示された．しかし，複数の音声認識システムの出力を利用する場合には，ネットワーク型インデックスを用いることで，検索性能が改善されていることが示された．よって，ネットワーク型インデックスを用いることが，本研究において有効であることが示された．

4.3.4 インデックスを構成する仮説数の評価

次に，インデックスを構成する仮説数の違いによるSTDの性能比較を行う．この比較実験に用いたインデックスは，表4.8に示すものとなる．

この比較実験で用いた評価尺度は，Recall-PrecisionカーブとF-measure，ATWVである．

表4.9に，表4.8に示すインデックスごとにRecall-Precisionカーブを描いた際の最も高いF-measureとATWVを示す．

ドキュメント内音声からキーワードを検出する技術の高度化に関する研究利用統計を見る (ページ 48-64)