Detection Entropy

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8

D T W c o st

表 6.6: 最大の検出性能(F-measure)時のPTNのエントロピーテストセット検出結果発話数平均PE 平均PE

Recall，Precision，F-measure (検出区間) (発話全体)

CORE 正解検出 150 0.459 0.573

R:64.4%, P:84.7% 誤検出 27 0.508 0.715

F:73.2% 不検出 83 0.525 0.729

NTCIR OOV 正解検出 105 0.438 0.512

R:53.8%, P:86.8% 誤検出 16 0.517 0.586

F:66.3% 不検出 90 0.528 0.701

NTCIR IV 正解検出 118 0.398 0.394

R:70.7%, P:91.5% 誤検出 11 0.434 0.429

F:79.8% 不検出 49 0.485 0.684

以上より，未知語・既知語に限らず誤検出を低く抑えようとすると，エントロピーが低い発話に含まれる検索語しか検出することができない．例えば，NTCIR IVの場

合でRecallが約70%であり，残りの約30%の検索語は音声認識が難しい発話に含まれ

ている．

STDの性能を改善するための一つのアプローチとして，エントロピーが高い発話に対して何らかの音声認識上の対策を講じることが考えられる．例えば，未知語の場合は，検出の閾値を緩くすることよってRecallを改善することは可能である．そこで発生する多くの誤検出については，誤検出の方が不検出よりもエントロピーが高い傾向にあることから，検出された区間のエントロピーが低い検索語に対する何らかのフィルタリングが効果的であると推察される．しかし，前節でも述べたように，単純な足切りでは効果が薄いため，単純に足切りを行うのではなく，より厳密な音響マッチング等を施すことによって，検出／リジェクトの判定を行うことが検討できる．

また，誤検出よりも不検出の方がエントロピーが高いことから，誤検出された発話には，検索語と類似している音素列が複数の音声認識システムで認識されている場合があると考えられる．この場合，単純な音素系列のマッチングであるDPでは誤検出かどうかの判断が難しく，検索語が含まれていると判断してしまうため，何らかの対策が必要となる．また，エントロピーとは関係ないが，既知語の誤検出11個については，11個中8個の誤検出が「東京都」というクエリに対しての誤検出であった．これは「東京と○」(○には地名が入る)という発話が誤って検出されており，「東京都」と

「東京と」の誤りである．こういった同音異義語の誤りについては，コンテキスト情報等を使うことによって解決することが可能である．

6.3 iSTD ^{タスクにおける} PTN ^の性能

これまで，音声中の検索語検出というタスクは検索語の検出性能を重点に評価が行われてきた．これはSTD技術を評価する上で有用な評価手段であった．

一方で，実環境でSTD技術を利用するにあたって，ある特定の検索語がどの音声アーカイブ内にも存在していないことを発見する技術の要求もある．NTCIR-10 SpokenDoc-2 STDサブタスクでは，“inexistent Spoken Term Detection”(iSTD)タスクが新たに設定された[37]．

このiSTDタスクに対して，本研究で提案した手法が有効であるかを評価する．

6.3.1 iSTD タスク

iSTDタスクは，ある与えられた検索語が音声アーカイブ内に存在する／しないを検査し，その結果を返すタスクである．iSTDタスクは，既存のSTDタスクと異なり，クエリセットをまとめて一つの評価をすること，音声ドキュメント集合全体に対する検索語の出現／非出現のみを評価することが特徴である．

NTCIR-10 SpokenDoc-2 STDサブタスクにおけるiSTDの評価音声は，音声ドキュメント処理ワークショップ(Spoken Document Processing Workshop : SDPWS)の学会講演音声(全104講演)が対象となる．

検索語は，SDPWSのいずれかの講演内で1回以上発話されている検索語の集合(集合(∈))と，1度も発話されていない検索語の集合(集合(∈/))から構成される．この1度も発話されていない検索語の集合をどこまで検出されなかったかが評価されるタスクである．NTCIR-10 SpokenDoc-2 STDサブタスクにおけるiSTDの検索語は，検索語 100件 + ダミー検索語100件の計200件である．

iSTDタスクの評価は，以下によって行われる．

• Recall-Precision カーブ

• Recall-Precision カーブにおける最大のF-measure

• detection=“no”判定に限定したRecallとPrecision

6.3.2 評価実験

PTNのiSTDタスクにおける検索語の検出方法はSTDタスクに用いたPTNからの検出方法とほぼ同一であるが，2ステップの検出手法となる．iSTDスコアは検出された候補に対して，STDエンジンによって計算された最も低いスコアとみなしたものである．これは，STDタスクにおいてはスコアが高いもの=すなわち検出できた，スコアが低いもの=すなわち検出し難いものとしているためである．

iSTDにおけるSTDエンジンの初回ステップは，DPベースの計算に基づいてiSTD スコアを出力する．第2ステップでは，初回ステップで算出されたiSTDスコアと検出

表 6.7: PTNを用いたiSTDタスク性能

Rank 100^∗¹ Maximum^∗²

Rec. [%] Prec. [%] F. [%] Rec. [%] Prec. [%] F. [%] Rank

Base Line 75.00 75.00 75.00 90.00 68.18 77.59 132

エントロピーなし 79.00 79.00 79.00 84.00 78.50 81.16 107 エントロピーあり 82.00 82.00 82.00 85.00 80.19 82.52 106 候補のエントロピー値を組み合わせて算出し，最終的なiSTDスコアを出力する．初回ステップのiSTDスコアは，次式により算出される．

iSTD score (at ﬁrst pass) = 1−”DTW cost” (6.11) 第2ステップで適用するエントロピーは，前節で行ったエントロピーの分析結果より決定した．STDプロセスの第2ステップへの適用は，線形関数y=ax+b(xはエントロピー，yはDPコスト)を用いて検出を分離することを試みる．

パラメータa及びbは，STDの性能の最大化に寄与するように設定した．このiSTD タスクでは，a及びbはそれぞれ0.014，0を設定した．

NTCIR-10 SpokenDoc-2 STDサブタスクに対して，エントロピーを用いないiSTD エンジンとエントロピーを適用した評価実験を行った．

実験結果を表6.7に示す．表中のRank 100^∗¹は上位100件の値で計算した性能を表し，Maximum^∗²は上位N件の値で計算した性能を表す(NはRecall Precision カーブにおいてF-measureが最大となる件数を指す)．

実験結果より，検出候補に対してエントロピーを適用することで検索語リストの上位100位の値で計算されたF-measureにおいて3.0%の改善を達成した．また，本手法は2013年6月に開催されたNTCIR-10 SpokenDoc-2 iSTDサブタスクにおいて，最も優れた検索性能を示した[37]．

6.4 まとめ

本章では，誤検出を抑制するパラメータのより効果的な利用方法について述べた．まず，検索語の音素長による誤検出の傾向を調査した結果について検討を行い，音素長に応じて誤検出抑制パラメータの適用を変えることで検索性能が改善することが示された．

評価実験より，音素長が10未満の検索語に対して編集距離のコストを高くすることで，検索性能が改善することが示された．さらに，NULL遷移のコストをVotingによって決定することで，NULL遷移の信頼度に応じたコストを与えることが可能であり，検索性能が改善することが示された．このとき，音素長が10未満の検索語に対するNULL遷移のコストを高く設定することで，F-measureが最大となる閾値を高くす

ることが可能となり，音素長が10以上の検索語におけるF-measureが最大となる閾値に近づけることで，検索性能が改善することが示された．

次に，複数の音声認識システムの出力を利用したネットワーク型インデックスの複雑さに着目した，検索語の検出方法について述べた．

評価実験より，エントロピーを用いることで，若干の検索性能の改善が見られた．しかし，単純なエントロピーの利用では，STDの性能改善に効果が薄いことが示された．

エントロピーの調査結果から，未知語・既知語に限らず誤検出を低く抑えようとすると，エントロピーが低い発話に含まれる検索語しか検出することができないことが示された．STDの性能を改善するための一つのアプローチとして，エントロピーが高い発話に対して何らかの音声認識上の対策を講じることが必要であることが示された．

また，音声中の検索語検出のタスクの一つであるiSTDタスクに対して本提案手法が有効であるか評価を行い，その結果について述べた．iSTDタスクに対して本手法を用いることで，高い検出性能が得られることが示された．また，エントロピーを適用することで，iSTDタスクにおいては検索性能が向上することが示された．

ドキュメント内音声からキーワードを検出する技術の高度化に関する研究利用統計を見る (ページ 90-95)

D T W c o st

6.3 iSTD タスクにおける PTN の性能

6.3.1 iSTD タスク

6.3.2 評価実験

6.4 まとめ

6.3 iSTD ^{タスクにおける} PTN ^の性能