LM/AM Outputs of 10 recognition systems
4.3 インデックスごとの検索性能
2010/7/15
1
Input voice data :
Input voice data : Cosine Cosine (( //k o s a k o s a ii N/ N/ ))
2011/1/20
Index build phase Index build phase
Speech Data
Recognition system #1
Recognition system #10 Recognition
system #2
…
Multiple alignment in phoneme
level
Converting to PTN
An PTN based index
Term Search Engine
図 4.8: PTNを用いたSTDの例
表 4.3: 複数の音声認識システムの出力を利用したインデックスの種類 種類 仮説数 サブインデックス
サブインデックスの構成 の数
nSYLs(1-Best) n n n種の1-Best出力の音節系列
nPHOs(1-Best) n n n種の1-Best出力の音素系列
nSYLs(10-Best) n×10 n×10 n種の1〜10-Best出力の音節系列 nPHOs(10-Best) n×10 n×10 n種の1〜10-Best出力の音素系列
nSCNs n×10 n n種の1〜10-Best出力をSCN化
nPCNs n×10 n n種の1〜10-Best出力をPCN化
STN(1-Best) n 1 n種の1-Best出力をSTN化
PTN(1-Best) n 1 n種の1-Best出力をPTN化
STN(10-Best) n×10 1 n種の1〜10-Best出力をSTN化
PTN(10-Best) n×10 1 n種の1〜10-Best出力をPTN化
4.3.1 動的計画法を用いた検索方法
本研究で用いる,検索語の検出アルゴリズムはDPを用いた単純な方法である.単 純な検索アルゴリズムを用いた理由は,本研究の主旨が複数の音声認識システムを利 用したSTD用インデックスの構築にあるためである.
2010/7/15
k o s a k o s a ii NN
S e a rc h t e rm
sub-word based index
b o s u a
b o s u a ii NN
Distance: 2
substitution error
insertion error
図 4.9: サブワードベースインデックスからDPを用いた検索語の検出例
本稿では,DPの傾斜制限は図4.3のように行っており,Xがインデックス,Yが検 索語に対応する.
用語検索エンジンに用いるDPの各遷移コストは編集距離に基づいており,一致の
場合は0,誤りの場合は置換・挿入・脱落に関わらず全て1としている.
ネットワーク型インデックスは2つのNode間に複数のArcを持っており,用語検索 エンジンはこの複数のArcを考慮した距離計算を行う.また,ネットワーク型インデッ クスにはNULL遷移が存在しており,このNULL遷移に対するコストとして0.1を設 定している.
最終的に,インデックスと検索語の距離が閾値以下であれば検索エンジンは検索語 を検出したと判断する.
図4.9はサブワードベースインデックスから,DPによって“k o s a i N”を見つける 例を示す.図4.9の例では,インデックスと検索語の距離は2(置換誤り1と挿入誤り1) となる.
図4.10はPTN(またはPCN)からDPによって“k o s a i N”を見つける例である.
35
2010/7/15
k o s a k o s a ii NN
S e a rc h t e rm
PTN(PCN) based index
Distance: 0.3
noinsertion error
@
o
@
u k
b q
@
a
@
a m
a
@ i
@
@ N b
s
noinsertion errors
図 4.10: ネットワーク型インデックスからDPを用いた検索語の検出例
4.3.2 複数の音声認識システムを利用する効果
まず,単一の音声認識システムの出力を利用した場合と,複数の音声認識システム の出力を利用した場合の検索性能の違いについて比較を行う.この比較実験に用いた インデックスは,表4.4に示すものとなる.
単一の音声認識システムの出力を利用したインデックスにおいて,使用した音声認 識システムがWBC/TriとCB/Triである理由としては,「情報検索システム評価用テ ストコレクション構築プロジェクト」(National Institute of Informatics Test Collec-tion for IR Systems : NTCIR)の第9回目ワークショップでのIR for Spoken Docu-ments(“SpokenDoc”)タスク[67]において,STD評価用のデータとしてWBC/Triと
CB/Triの音声認識結果が採択されているためである.NTCIRとは,国立情報学研究
所が1998年から行なっている共同研究プロジェクトのことであり,情報検索と,テキ スト要約・情報抽出などのテキスト処理技術の研究の更なる発展を図るワークショップ 型共同研究プロジェクトのことである.
36
表 4.4: 複数の音声認識システムを利用する効果の比較実験に用いたインデックスの 種類
インデックス インデックス
音声認識システムの種類 の種類
WBC/Tri(1-Best)syl SYL(1-Best) WBC/Tri CB/Tri(1-Best)syl SYL(1-Best) CB/Tri WBC/Tri(1-Best)pho PHO(1-Best) WBC/Tri
CB/Tri(1-Best)pho PHO(1-Best) CB/Tri WBC/Tri(10-Best)syl SYL(10-Best) WBC/Tri
CB/Tri(10-Best)syl SYL(10-Best) CB/Tri WBC/Tri(10-Best)pho PHO(10-Best) WBC/Tri
CB/Tri(10-Best)pho PHO(10-Best) CB/Tri
10SYLs(1-Best) nSYLs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
表 4.5: 表4.4に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV
WBC/Tri(1-Best)syl 0.32 0.53 CB/Tri(1-Best)syl 0.43 0.65 WBC/Tri(1-Best)pho 0.35 0.56 CB/Tri(1-Best)pho 0.49 0.66 WBC/Tri(10-Best)syl 0.39 0.58 CB/Tri(10-Best)syl 0.53 0.70 WBC/Tri(10-Best)pho 0.37 0.62 CB/Tri(10-Best)pho 0.53 0.74 10SYLs(1-Best) 0.64 0.79 10PHOs(1-Best) 0.63 0.80
この比較実験で用いた評価尺度は,Recall-PrecisionカーブとF-measure,ATWVで ある.
表4.5に,表4.4に示すインデックスごとにRecall-Precisionカーブを描いた際の最 も高いF-measureとATWVを示す.
図4.11に,表4.4に示すインデックスの種類がSYL(1-Best)とPHO(1-Best)の Recall-Precision カーブを示す.
表4.5と図4.11より,単一の音声認識システムの1-Best出力を利用したサブワード ベースのインデックスでは,WBC/TriとCB/Tri共に音素単位のサブワードベースイ ンデックスの性能が良いことがわかる.これより,音節単位より音素単位の方がSTD
2011/1/20
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBC/Tri(1-Best)syl CB/Tri(1-Best)syl WBC/Tri(1-Best)pho CB/Tri(1-Best)pho
図 4.11: 単一の音声認識システムの1-Best出力を利用したサブワードベースインデッ
クスの検索性能の比較
に適していることが推測される.例えば,「コサインシータ」という検索語を検出する 際に,音節単位では“ko sa i N shi i ta”の7音節のサブワード系列となるが,音素単位 では“k o s a i N sh i i t a”の11音素のサブワード系列となる.音声認識システムの出 力では,母音または子音の片方が合っている出力が得られる可能性がある.この性質 と実験結果から,音素単位の方が未知語検出により適した検索が行えていることが示 された.
また,WBC/TriとCB/Triの音声認識結果の違いが,未知語の検出に影響している ことがわかる.前章で述べたが,WBC/TriとCB/Triの音節単位の音声認識率では,
WBC/Triの方が高かった.しかし,未知語の検出というタスクになると,音節認識率
では検索性能が測れないということが結果として得られた.
図4.12に,表4.4に示すインデックスの種類がSYL(10-Best)とPHO(10-Best), nSYLs(1-Best)とnPHOs(1-Best)のRecall-Precisionカーブを示す.
表4.5と図4.12より,単一の音声認識システムの10-Best出力を利用したサブワード ベースインデックスより,複数の音声認識システムの1-Best出力を利用したサブワー ドベースインデックスの性能が良いことがわかる.すなわち,同じ仮説数を用いるので あれば,異なる音声認識システムの出力を用いることが有効であるということとなる.
以上より,複数の音声認識システムの出力を利用することが,STDに有効であるこ とが示された.また,サブワードベースインデックスのサブワードの単位は,音節よ
38
2011/1/20
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBC/Tri(10-Best)syl CB/Tri(10-Best)syl WBC/Tri(10-Best)pho CB/Tri(10-Best)pho 10SYLs(1-Best) 10PHOs(1-Best)
図 4.12: 10個の音声認識結果を利用したサブワードベースインデックスの検索性能の
比較
り音素が適していることが示された.
4.3.3 インデックスの形態ごとの評価
続いて,インデックスの形態によるSTDの性能比較を行う.この比較実験に用いた インデックスは,表4.6に示すものとなる.
この比較実験で用いた評価尺度は,Recall-PrecisionカーブとF-measure,ATWVで ある.
表4.7に,表4.6に示すインデックスごとにRecall-Precisionカーブを描いた際の最 も高いF-measureとATWVを示す.
図4.13に,表4.6に示すWBC/Triのみを用いたインデックスのRecall-Precisionカー ブを示す.
表4.7と図4.13より,単一の音声認識システムの出力を利用したインデックスでは,
10-Best出力を利用した音素単位のサブワードベースインデックスがATWVでは最も良
く,F-measureでは音節単位のネットワーク型インデックスが良いことがわかる.また,
Recall-Precisionカーブではサブワードベースのインデックスとネットワーク型インデッ
クスでは同程度の性能を示しており,どの形態のインデックスがSTDに適しているか を判断することは難しい.図4.14に,表4.6に示すインデックスの種類がSYL(10-Best)
表 4.6: インデックスの形態による効果の比較実験に用いたインデックスの種類 インデックス インデックス
音声認識システムの種類 の種類
WBC/Tri(1-Best)syl SYL(1-Best) WBC/Tri WBC/Tri(10-Best)syl SYL(10-Best) WBC/Tri
WBC/Tri(SCN) SCN WBC/Tri
WBC/Tri(1-Best)pho PHO(1-Best) WBC/Tri WBC/Tri(10-Best)pho PHO(10-Best) WBC/Tri
WBC/Tri(PCN) PCN WBC/Tri
10SYLs(1-Best) nSYLs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
STN(1-Best) STN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
10SCNs nSCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*
10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
PTN(1-Best) PTN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
10PCNs nPCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*
表 4.7: 表4.6に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV
WBC/Tri(1-Best)syl 0.32 0.53 WBC/Tri(10-Best)syl 0.39 0.58
WBC/Tri(SCN) 0.43 0.59
WBC/Tri(1-Best)pho 0.35 0.56 WBC/Tri(10-Best)pho 0.37 0.62
WBC/Tri(PCN) 0.43 0.57
10SYLs(1-Best) 0.64 0.79
STN(1-Best) 0.67 0.78
10SCNs 0.68 0.68
10PHOs(1-Best) 0.63 0.80
PTN(1-Best) 0.64 0.82
10PCNs 0.62 0.73
とPHO(10-Best),nSYLs(1-Best)とnPHOs(1-Best)のRecall-Precisionカーブを示す.
表4.7と図4.14より,複数の音声認識システムの出力を利用したインデックスでは,
PTNがATWVでは最も良く,F-measureでは10SCNsが良いことがわかる.また,
Recall-Precisionカーブではネットワーク型インデックスが全体的に高い性能を示して
いる.
2011/1/24
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBC/Tri(1-Best)syl WBC/Tri(10-Best)syl WBC/Tri(SCN) WBC/Tri(1-Best)pho WBC/Tri(10-Best)pho WBC/Tri(PCN)
図 4.13: 単一の音声認識システムの出力を利用したインデックスの検索性能の比較
2011/1/24
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
10SYLs(1-Best) STN(1-Best) 10SCNs 10PHOs(1-Best) PTN(1-Best) 10PCNs
図 4.14: 10種類の音声認識システムの出力を利用したインデックスの検索性能の比較
41
表 4.8: インデックスを構成する仮説数による効果の比較実験に用いたインデックスの 種類
インデックス インデックス
音声認識システムの種類 の種類
WBC/Tri(10-Best)pho PHO(10-Best) WBC/Tri
WBC/Tri(PCN) PCN WBC/Tri
10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
PTN(1-Best) PTN(1-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
10PHOs(10-Best) nPHOs(10-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
10PCNs(10-Best) nPCNs WBC/*, WBH/*, CB/*, CSB/*, Non/*
PTN(10-Best) PTN(10-Best) WBC/*, WBH/*, CB/*, CSB/*, Non/*
表 4.9: 表4.8に示すインデックスごとの最大F-measureとATWV インデックス F-measure ATWV
WBC/Tri(10-Best)pho 0.37 0.62
WBC/Tri(PCN) 0.43 0.57
10PHOs(1-Best) 0.63 0.80
PTN(1-Best) 0.64 0.82
10PHOs(10-Best) 0.72 0.80
10PCNs 0.62 0.73
PTN(10-Best) 0.34 0.75
以上の結果より,単一の音声認識システムでは,インデックスの形態によってSTD の性能が大きく変わることはないことが示された.しかし,複数の音声認識システム の出力を利用する場合には,ネットワーク型インデックスを用いることで,検索性能 が改善されていることが示された.よって,ネットワーク型インデックスを用いるこ とが,本研究において有効であることが示された.
4.3.4 インデックスを構成する仮説数の評価
次に,インデックスを構成する仮説数の違いによるSTDの性能比較を行う.この比 較実験に用いたインデックスは,表4.8に示すものとなる.
この比較実験で用いた評価尺度は,Recall-PrecisionカーブとF-measure,ATWVで ある.
表4.9に,表4.8に示すインデックスごとにRecall-Precisionカーブを描いた際の最 も高いF-measureとATWVを示す.