2011/2/24
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
P re ci si o n [% ]
付 録 H 単一の音声認識システムの検 索性能
本研究で用いた12種類の音声認識システムのうち,LMにCSBを用いた音声認識シ ステム以外の10種類の音声認識システムごと音声中の検索語検出性能を示す.
インデックスの形態としては,サブワードベースインデックスとしてPHO(1-Best)
とPHO(10-Best),ネットワーク型インデックスとしてPCNの検索性能を示す.
この評価実験で用いたテストセットは,日本語STD用テストコレクションの未知語 テストセットである.なお,検索性能として示す評価尺度は,Recall-Precisionカーブ,
F-measure,MAPである.
表H.1に,単一の音声認識システムの検索性能を示す.図H.1から図H.10に Recall-Precision カーブを示す.
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBC/Tri (1-Best) WBC/Tri (10-Best) WBC/Tri (PCN)
図 H.1: WBC/Triの検索性能
XXIV
表 H.1: 単一の音声認識システムの検索性能の比較 インデックス F-measure MAP WBC/Tri(1-Best) 0.34 0.51 WBC/Tri(10-Best) 0.37 0.57 WBC/Tri(PCN) 0.43 0.59 WBH/Tri(1-Best) 0.43 0.57 WBH/Tri(10-Best) 0.48 0.60 WBC/Tri(PCN) 0.54 0.64 CB/Tri(1-Best) 0.49 0.62 CB/Tri(10-Best) 0.53 0.70 CB/Tri(PCN) 0.57 0.69 BM/Tri(1-Best) 0.51 0.62 BM/Tri(10-Best) 0.54 0.69 BM/Tri(PCN) 0.56 0.72 Non/Tri(1-Best) 0.49 0.65 Non/Tri(10-Best) 0.49 0.67 Non/Tri(PCN) 0.47 0.68 WBC/Syl(1-Best) 0.18 0.25 WBC/Syl(10-Best) 0.20 0.32 WBC/Syl(PCN) 0.18 0.33 WBH/Syl(1-Best) 0.26 0.31 WBH/Syl(10-Best) 0.28 0.39 WBC/Syl(PCN) 0.28 0.40 CB/Syl(1-Best) 0.32 0.41 CB/Syl(10-Best) 0.33 0.48 CB/Syl(PCN) 0.33 0.54 BM/Syl(1-Best) 0.32 0.39 BM/Syl(10-Best) 0.37 0.45 BM/Syl(PCN) 0.37 0.47 Non/Syl(1-Best) 0.28 0.41 Non/Syl(10-Best) 0.30 0.45 Non/Syl(PCN) 0.27 0.47
2011/3/1
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBH/Tri (1-Best) WBH/Tri (10-Best) WBH/Tri (PCN)
図 H.2: WBH/Triの検索性能
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
CB/Tri (1-Best) CB/Tri (10-Best) CB/Tri (PCN)
図 H.3: CB/Triの検索性能
XXVI
2011/3/1
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
BM/Tri (1-Best) BM/Tri (10-Best) BM/Tri (PCN)
図 H.4: BM/Triの検索性能
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
Non/Tri (1-Best) Non/Tri (10-Best) Non/Tri (PCN)
図 H.5: Non/Triの検索性能
XXVII
2011/3/1
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBC/Syl (1-Best) WBC/Syl (10-Best) WBC/Syl (PCN)
図 H.6: WBC/Sylの検索性能
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
WBH/Syl (1-Best) WBH/Syl (10-Best) WBH/Syl (PCN)
図 H.7: WBH/Sylの検索性能
XXVIII
2011/3/1
1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
CB/Syl (1-Best) CB/Syl (10-Best) CB/Syl (PCN)
図 H.8: CB/Sylの検索性能
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
BM/Syl (1-Best) BM/Syl (10-Best) BM/Syl (PCN)
図 H.9: BM/Sylの検索性能
XXIX
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Precision[%]
Recall[%]
Non/Syl (1-Best) Non/Syl (10-Best) Non/Syl (PCN)
図 H.10: Non/Sylの検索性能
XXX
付 録 I 既知検索語の検索性能
本研究では,検索語が未知語である場合に焦点を当て,検索語の検出性能を改善さ せる手法について述べた.
本付録では,検索語が既知語である場合において,提案するSTD手法が有効である かを調査した.
I.1 検索性能の比較実験条件
検索性能の比較に用いたインデックスは,表I.1に示すものとなる.
表I.1中の“ * ”は全ての音響モデルを表す.Word-baseは音声認識結果を形態素単 位のまま利用するインデックスであり,この形態素単位の認識結果に対して完全に一 致するものを検出したものである.PTN (with Voting)は,PTNに対して誤検出抑制 パラメータの“Voting”を適用したものである.
この評価実験で用いたテストセットは,日本語STD用テストコレクションの既知語 テストセットである.また,用いた評価尺度は,Recall-PrecisionカーブとF-measure,
MAPである.
表 I.1: 既知検索語の検索性能の比較実験に用いたインデックスの種類 インデックス インデックス
音声認識システムの種類 の種類
Word-base Word-base WBC/Tri
WBC/Tri(1-Best) PHO(1-Best) WBC/Tri
WBC/Tri(10-Best) PHO(10-Best) WBC/Tri
WBC/Tri(PCN) PCN WBC/Tri
10PHOs(1-Best) nPHOs(1-Best) WBC/*, WBH/*, CB/*, BM/*, Non/*
PTN (only EditDist) PTN(1-Best) WBC/*, WBH/*, CB/*, BM/*, Non/*
PTN (with Voting) PTN(1-Best) WBC/*, WBH/*, CB/*, BM/*, Non/*
表 I.2: 既知検索語の検索性能の比較 インデックス F-measure MAP Grep (simple) 0.69 N/A WBC/Tri(1-Best) 0.72 0.68 WBC/Tri(10-Best) 0.73 0.71
WBC/Tri(PCN) 0.73 0.73
10PHOs(1-Best) 0.79 0.75 PTN (only EditDist) 0.77 0.78 PTN (with Voting) 0.77 0.81
I.2 検索性能の比較結果
表I.2に,既知検索語の検索性能を示す.また,図I.1と図I.2にRecall-Precisionカー ブを示す.
I.3 考察
実験結果より,単一の音声認識システムの出力を利用する場合と比較し,複数の音声 認識システムの出力を利用することによって,検索性能が改善されることが示された.
Recall-Precisionカーブでは,単一の音声認識システムの出力を用いた場合ではイン
デックスの形態によって検索性能が大きく変化することはなかった.また,複数の音 声認識システムの出力を用いた場合においても,同様の結果が得られた.
しかし,MAPによる比較結果では,ネットワーク型のインデックスを構築すること によって検索性能が改善されている.
以上より,提案手法は検索語が未知語か既知語に限らず,音声中の検索語検出性能 を改善させることに有効であることが示された.
2011/3/1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%