0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8
D T W c o st
表 6.6: 最大の検出性能(F-measure)時のPTNのエントロピー テストセット 検出結果 発話数 平均PE 平均PE
Recall,Precision,F-measure (検出区間) (発話全体)
CORE 正解検出 150 0.459 0.573
R:64.4%, P:84.7% 誤検出 27 0.508 0.715
F:73.2% 不検出 83 0.525 0.729
NTCIR OOV 正解検出 105 0.438 0.512
R:53.8%, P:86.8% 誤検出 16 0.517 0.586
F:66.3% 不検出 90 0.528 0.701
NTCIR IV 正解検出 118 0.398 0.394
R:70.7%, P:91.5% 誤検出 11 0.434 0.429
F:79.8% 不検出 49 0.485 0.684
以上より,未知語・既知語に限らず誤検出を低く抑えようとすると,エントロピー が低い発話に含まれる検索語しか検出することができない.例えば,NTCIR IVの場
合でRecallが約70%であり,残りの約30%の検索語は音声認識が難しい発話に含まれ
ている.
STDの性能を改善するための一つのアプローチとして,エントロピーが高い発話に 対して何らかの音声認識上の対策を講じることが考えられる.例えば,未知語の場合 は,検出の閾値を緩くすることよってRecallを改善することは可能である.そこで発 生する多くの誤検出については,誤検出の方が不検出よりもエントロピーが高い傾向 にあることから,検出された区間のエントロピーが低い検索語に対する何らかのフィ ルタリングが効果的であると推察される.しかし,前節でも述べたように,単純な足 切りでは効果が薄いため,単純に足切りを行うのではなく,より厳密な音響マッチン グ等を施すことによって,検出/リジェクトの判定を行うことが検討できる.
また,誤検出よりも不検出の方がエントロピーが高いことから,誤検出された発話 には,検索語と類似している音素列が複数の音声認識システムで認識されている場合 があると考えられる.この場合,単純な音素系列のマッチングであるDPでは誤検出 かどうかの判断が難しく,検索語が含まれていると判断してしまうため,何らかの対 策が必要となる.また,エントロピーとは関係ないが,既知語の誤検出11個について は,11個中8個の誤検出が「東京都」というクエリに対しての誤検出であった.これ は「東京と○」(○には地名が入る)という発話が誤って検出されており,「東京都」と
「東京と」の誤りである.こういった同音異義語の誤りについては,コンテキスト情報 等を使うことによって解決することが可能である.
6.3 iSTD タスクにおける PTN の性能
これまで,音声中の検索語検出というタスクは検索語の検出性能を重点に評価が行 われてきた.これはSTD技術を評価する上で有用な評価手段であった.
一方で,実環境でSTD技術を利用するにあたって,ある特定の検索語がどの音声アー カイブ内にも存在していないことを発見する技術の要求もある.NTCIR-10 SpokenDoc-2 STDサブタスクでは,“inexistent Spoken Term Detection”(iSTD)タスクが新たに設 定された[37].
このiSTDタスクに対して,本研究で提案した手法が有効であるかを評価する.
6.3.1 iSTD タスク
iSTDタスクは,ある与えられた検索語が音声アーカイブ内に存在する/しないを検 査し,その結果を返すタスクである.iSTDタスクは,既存のSTDタスクと異なり,ク エリセットをまとめて一つの評価をすること,音声ドキュメント集合全体に対する検 索語の出現/非出現のみを評価することが特徴である.
NTCIR-10 SpokenDoc-2 STDサブタスクにおけるiSTDの評価音声は,音声ドキュ メント処理ワークショップ(Spoken Document Processing Workshop : SDPWS)の学会 講演音声(全104講演)が対象となる.
検索語は,SDPWSのいずれかの講演内で1回以上発話されている検索語の集合(集 合(∈))と,1度も発話されていない検索語の集合(集合(∈/))から構成される.この1度 も発話されていない検索語の集合をどこまで検出されなかったかが評価されるタスク である.NTCIR-10 SpokenDoc-2 STDサブタスクにおけるiSTDの検索語は,検索語 100件 + ダミー検索語100件の計200件である.
iSTDタスクの評価は,以下によって行われる.
• Recall-Precision カーブ
• Recall-Precision カーブにおける最大のF-measure
• detection=“no”判定に限定したRecallとPrecision
6.3.2 評価実験
PTNのiSTDタスクにおける検索語の検出方法はSTDタスクに用いたPTNからの 検出方法とほぼ同一であるが,2ステップの検出手法となる.iSTDスコアは検出され た候補に対して,STDエンジンによって計算された最も低いスコアとみなしたもので ある.これは,STDタスクにおいてはスコアが高いもの=すなわち検出できた,スコ アが低いもの=すなわち検出し難いものとしているためである.
iSTDにおけるSTDエンジンの初回ステップは,DPベースの計算に基づいてiSTD スコアを出力する.第2ステップでは,初回ステップで算出されたiSTDスコアと検出
表 6.7: PTNを用いたiSTDタスク性能
Rank 100∗1 Maximum∗2
Rec. [%] Prec. [%] F. [%] Rec. [%] Prec. [%] F. [%] Rank
Base Line 75.00 75.00 75.00 90.00 68.18 77.59 132
エントロピーなし 79.00 79.00 79.00 84.00 78.50 81.16 107 エントロピーあり 82.00 82.00 82.00 85.00 80.19 82.52 106 候補のエントロピー値を組み合わせて算出し,最終的なiSTDスコアを出力する.初回 ステップのiSTDスコアは,次式により算出される.
iSTD score (at first pass) = 1−”DTW cost” (6.11) 第2ステップで適用するエントロピーは,前節で行ったエントロピーの分析結果よ り決定した.STDプロセスの第2ステップへの適用は,線形関数y=ax+b(xはエン トロピー,yはDPコスト)を用いて検出を分離することを試みる.
パラメータa及びbは,STDの性能の最大化に寄与するように設定した.このiSTD タスクでは,a及びbはそれぞれ0.014,0を設定した.
NTCIR-10 SpokenDoc-2 STDサブタスクに対して,エントロピーを用いないiSTD エンジンとエントロピーを適用した評価実験を行った.
実験結果を表6.7に示す.表中のRank 100∗1は上位100件の値で計算した性能を表 し,Maximum∗2は上位N件の値で計算した性能を表す(NはRecall Precision カーブ においてF-measureが最大となる件数を指す).
実験結果より,検出候補に対してエントロピーを適用することで検索語リストの上 位100位の値で計算されたF-measureにおいて3.0%の改善を達成した.また,本手法 は2013年6月に開催されたNTCIR-10 SpokenDoc-2 iSTDサブタスクにおいて,最も 優れた検索性能を示した[37].
6.4 まとめ
本章では,誤検出を抑制するパラメータのより効果的な利用方法について述べた.ま ず,検索語の音素長による誤検出の傾向を調査した結果について検討を行い,音素長 に応じて誤検出抑制パラメータの適用を変えることで検索性能が改善することが示さ れた.
評価実験より,音素長が10未満の検索語に対して編集距離のコストを高くするこ とで,検索性能が改善することが示された.さらに,NULL遷移のコストをVotingに よって決定することで,NULL遷移の信頼度に応じたコストを与えることが可能であ り,検索性能が改善することが示された.このとき,音素長が10未満の検索語に対す るNULL遷移のコストを高く設定することで,F-measureが最大となる閾値を高くす
ることが可能となり,音素長が10以上の検索語におけるF-measureが最大となる閾値 に近づけることで,検索性能が改善することが示された.
次に,複数の音声認識システムの出力を利用したネットワーク型インデックスの複 雑さに着目した,検索語の検出方法について述べた.
評価実験より,エントロピーを用いることで,若干の検索性能の改善が見られた.し かし,単純なエントロピーの利用では,STDの性能改善に効果が薄いことが示された.
エントロピーの調査結果から,未知語・既知語に限らず誤検出を低く抑えようとする と,エントロピーが低い発話に含まれる検索語しか検出することができないことが示 された.STDの性能を改善するための一つのアプローチとして,エントロピーが高い 発話に対して何らかの音声認識上の対策を講じることが必要であることが示された.
また,音声中の検索語検出のタスクの一つであるiSTDタスクに対して本提案手法が 有効であるか評価を行い,その結果について述べた.iSTDタスクに対して本手法を用 いることで,高い検出性能が得られることが示された.また,エントロピーを適用す ることで,iSTDタスクにおいては検索性能が向上することが示された.