分布間距離ベクトルに基づく音響的類似度とサブワード事後確率の併用による音声検索語検出の改善

全文

(1)Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 分布間距離ベクトルに基づく音響的類似度とサブワード事後確率の併用による音声検索語検出の改善山本直樹1,a). 甲斐充彦1,b). 概要：近年, 音声や動画などのマルチメディアコンテンツの配信や利用が拡大しており，高い精度のマルチメディア検索技術が望まれている．音声ドキュメント検索に関しては，与えられた検索語が発話されている箇所を音声ドキュメント中から特定する音声検索語検出 (Spoken TermDetection：STD) の研究が盛んに行われている．最も基本的なアプローチとして，音声認識結果を元にサブワード（音素や音節）列としてインデキシングを行い，誤認識や未知語の問題に対処するためサブワード単位の誤りを許容して検索語との類似性を評価する方法が用いられることが多い．以前に我々はサブワード単位音響モデルの分布間距離ベクトルという構造的特徴表現に基づく音響的類似度を検索語検出スコアの評価のために用いることを提案し，検索性能を改善した．本研究では更に大語彙音声認識やサブワードレベルの連続音声認識での信頼度情報を反映して検出スコアを推定し，従来の方法と併用する方法を提案する．評価実験の結果，評価用データとして用いた NTCIR10 の SDPWS のデータセットでリファレンスの認識結果のみを用いた結果として，NTCIR10 SpokenDoc2 formal-run での他の方法の結果よりも高い検出精度を得た．. 1. はじめに. て，テキスト検索を行うという方法が最も単純なアプローチである．しかし，大語彙音声認識システムの辞書に存在. ユーザが入力した検索語 (クエリ) に対して，音声ドキュ. しない未知語を含む音声を認識した場合や既知語を誤認識. メント中から検索語が話されている箇所を特定すること. した場合に正確にテキスト化がされないため，検索語の検. を，音声検索語検出 (Spoken Term Detection：STD) と呼. 出性能は低下してしまう．そこで，STD タスクでは認識. ぶ．また，類似したタスクとして，検索語が含まれる，ま. された単語列をサブワード列に変換した結果を利用する. たは検索語に関連する音声ドキュメントを検索する，音声. 等，サブワード列のインデキシングに基づく方法が有効と. ドキュメント検索 (Spoken Document Retrieval：SDR) と. 考えられ，従来提案されている多くの STD タスクの検索. 呼ばれるタスクも存在するが，ここでも，STD の技術が応. 手法 [2], [6], [7], [8], [9] や，SDR タスクの検索手法 [10] 等. 用される例がある [1]．2006 年には米国の NIST を中心に. でも検討されてきた．このような音声認識結果のサブワー. STD タスクが設定され，研究が盛んにおこなれている．日. ド列に対する検索では, 認識誤りを許容した類似箇所を検. 本では 2008 年からテストコレクションの構築が開始され，. 出するもっとも基本的なアプローチとして，サブワードレ. 2010 年 5 月にはそのベースライン評価について報告が行. ベルでの連続 DP マッチングによるスポッティングが利用. われている [2]．また，国立情報学研究所を中心に 2011 年. される．これにより，音声ドキュメントから自動抽出され. から開催されている NTCIR Workshop では，SpokenDoc. たサブワード列の認識候補から，検索語として入力された. サブタスクの一部として STD タスクが設定され，評価が. サブワード列のパターンが含まれる可能性が高い箇所を抽. 行われた [3], [4]．. 出することができる．. STD タスクに対する一般的なアプローチは，音声デー. 我々の先行研究では，サブワード単位の音響的類似度評. タを大語彙音声認識システムを用いて得られた複数候補. 価の改善に焦点を当て，サブワード単位の音響モデルの分. （N-best リスト，ラティス等）を使用して検索を行うとい. 布間距離ベクトルという構造的特徴表現を提案した．そし. うものである [5]．こうしてテキスト化されたデータに対し. て，分布間距離ベクトルを検索語検出スコアの評価に用いることで，検索性能の改善を行った [11]．. 1. a) b). 静岡大学大学院・工学研究科 Graduate School of Engineering, Shizuoka University yamamoto [email protected] [email protected]. c 2013 Information Processing Society of Japan ⃝. 本研究では更に，大語彙音声認識やサブワードレベルの連続音声認識での信頼度情報を反映して検出スコアを推定. 1.

(2) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声ドキュメント. 音響モデル (サブワード単位 HMM) 音響的類似度の事前計算. 音声認識器単語 / サブワード N-bestリスト・ラティス. サブワード単位局所距離. 検索語. 検出結果. 検索語スポッティング. 2.2 サブワード対の音響的な非類似度サブワード単位の音響的な類似度としては，サブワード対の非類似度をサブワード単位 HMM の分布間距離（Bhat-. tacharyya 距離）に基づいて計算する例 [6] や，音素弁別特徴に基づく距離尺度を利用する例 [7] 等がある．我々は，サブワード間の音響的な類似度を考慮するために，音響的な非類似度を石見らの方法 [6] と同様に分布間. 図 1. 音声検索語検出のベースラインシステムの構造. 距離に基づいて算出する．音響モデルであるサブワード単位の HMM には一般に複数の状態が含まれ，それぞれの状. j. ck. 1. 1. = (i , j ). j. 2. 1. 1. ck. 1 2. = (i , j ). 1. 態に出力分布が与えられる．任意の状態間に対して何らかの分布間距離を定義することができるが，分布間距離が近い状態対は，音響的に類似していると言うことができ，また逆に距離が遠い状態対は，音響的に類似していないと言. 2. える． i. 図 2. 非対称 DP パス. i. 図 3. 対称 DP パス. し，従来の方法と併用することで検索性能の改善を図る．. 分布間距離は，HMM のパラメータから Bhattacharyya 距離を利用して算出する．Bhattacharyya 距離は，確率分布の間の距離を計算する際に用いられ，我々はある 2 つの混合分布間の距離として，任意の混合成分間の Bhattacharyya 距離の最小値を分布間距離とする．つまり，あるサブワー. 2. 連続 DP マッチングを用いた従来手法 STD に対する一般的なアプローチは，音声データを音声認識器に通してテキスト化し，サブワードレベルでの認識誤りを考慮した検索語との照合手法により検索を行うというものである．その手法の一つとして，連続 DP マッチングという手法が挙げられる．本節では，まず，連続 DP. ド a の HMM 状態 i において n 番目の混合成分の確率分布 {i,n}. を Pa. と表わすと，サブワード a の HMM 状態 i とサブ. ワード b の HMM の状態 j との距離を次式で定義する． {j}. BD(Pa{i} , Pb {i}. {j}. この BD(Pa , Pb. {j,y}. ) = min BD(Pa{i,x} , Pb x,y. ). (1). ) を分布間距離として使用する．. マッチングを利用した STD システムの概要を述べる．そ. 任意のサブワード対に対して，分布間距離を局所距離と. して，連続 DP マッチングの局所距離として使用する分布. し，図 3 に示す DP パスの制約を用いて状態系列間の DP. 間距離について述べる．. マッチングを行うことにより，サブワード間のマッチング距離を求める．このようにして，あらかじめサブワード単. 2.1 STD システム概要本研究で使用する音声検索語検出のベースラインシステ. 位の音響モデルのみで求めておくことができるサブワード間非類似度を局所距離として使用し，2.1 節で述べたよう. ムの構成を図 1 に示す．このシステムでは，あらかじめ音. にクエリと類似する区間の検出 (スポッティング) を行う．. 声データを大語彙音声認識システムによりテキスト化し，. なお，NTCIR-9 及び 10 のベースライン評価ではサブワー. データベースに蓄積する．音声認識は，単語単位とサブ. ド単位の DP マッチングの局所距離として編集距離が用い. ワード単位の 2 種類の N-gram 言語モデルによる認識結果. られるが [3], [4]，それ以外はほぼ同等の手法といえる．. をそれぞれ求め，単語ベースの認識結果はさらにサブワー. 3. 分布間距離ベクトル特徴表現に基づく音響的類似度評価. ド系列に変換しておき蓄積する．検索を行う際は，入力された検索語をサブワード系列に変換し，既知語から成る検索語の場合は単語認識データ. 連続 DP マッチングによるスポッティングにより，与え. ベース内のサブワード列，未知語から成る検索語の場合は. られたクエリとしてのサブワード列に対し，検索対象の音. 音節認識データベース内のサブワード列と連続 DP マッチ. 声ドキュメント中のサブワード列としての類似性が高い候. ングを行う．そして，連続 DP マッチングの結果，非類似. 補区間を抽出することができる．しかし，サブワード単位. 度スコア (マッチング距離) が閾値以下である解候補区間を. の荒いスコア付けであり，音響的な非類似度の算出に用い. 検出結果として出力する．. た音響モデルによる非類似度の推定精度に左右される．そ. 連続 DP マッチングの際には図 2 に示す非対称の DP パ. こで，この候補区間に対して，さらに詳細なスコア付け (リ. スの制約を用いる．また，連続 DP マッチングで使用する. スコアリング) を行う．我々の提案手法では，候補区間の. 局所距離には次節で述べるサブワード対の音響的な非類似. サブワード列を，それに対応する HMM の状態系列に拡張. 度を使用する．. した時系列の表現に変換し，状態間の分布間距離に基づく. c 2013 Information Processing Society of Japan ⃝. 2.

(3) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 距離尺度を用いる．特に，2.2 節で定義した分布間距離をもとに拡張した分布間距離ベクトルに基づく距離尺度を導入することで，検索性能の向上を図る．. 分布間距離距離. 任意のHMMの状態 (出力分布). (Bhattacharyya. P1. c. P2. 3.1 分布間距離ベクトル {i}. {j}. 2.2 節で定義した分布間距離 BD(Pa , Pb. ) は，2 つの. サブワードに対応する HMM の状態間の該当分布間の距離のみを利用して求められた．我々は，ある音節の状態に対. 分布間距離ベクトル分布間距離ベクトル. して 1 対 1 の距離を直接評価するだけではなく，他の状態徴表現を利用することを考える．これにより，サブワード単位の認識誤りに対してより頑健な距離尺度とすることを意図している．. 全サブワード全状態の出力分布の集合. 図 4. {Ps }. PS. (Distribution-distance Vector : DDV). との距離にも着目し，それぞれの距離を要素として含む特. ). φ (c ). 任意の HMM 状態に対して導出される分布間距離ベクトルの概念図. れ以降の手順をより一般化して扱うことができるが，比較. 全てのサブワードに対応する HMM の全状態の出力分布. を簡単化するため DP マッチングにより非線形時間伸縮を. の集合を P = {Ps }(s = 1, 2, · · · , S) とし，その中の任意. 行い，2 つの HMM の状態系列の長さが等しくなるように. の状態 c に対する新たな特徴表現として，以下のベクトル. アライメントを行う．このときの局所距離としては式 (1). を定義する．. の Bhattacharyya 距離を用い，アライメントされた HMM の状態系列対を F = {c1 , · · · , cK }，ck = (aik , bjk ) とす. ϕ(c) = (DBD (Pc , P1 ), DBD (Pc , P2 ), · · · , DBD (Pc , PS )). T. (2). る．この際に得られる DP マッチングスコアを Score BD とする．. このベクトルは，ある HMM の状態 c の出力分布と，自身を. アライメントされた状態系列対に基づき，それに対応す. 含む全ての状態の出力分布との分布間距離を要素に持って. る分布間距離ベクトル系列対に直すことで，状態系列間の. いることから，分布間距離ベクトル (Distribution-distance. 新たなスコアの算出を行う．我々は，以下の 3 つの式を定. vector : DDV) と呼ぶことにする（図 4）．. 義し，それぞれの式をもとにスコアの算出を試みる．. ∑K ∑S. このような構造的特徴を利用する考え方は，峯松らが提案している音声の構造的表象 [12], [13] を用いる考え方と. Score DDV. L1. 関連しており，そこで指摘されているように伝達特性や話者固有の変動の要因に対する頑健性が期待できる．また，. Muscariello ら [14] は音声入力された検索語による音声ドキュメント中の類似部分を検出する方法として，音声セグ. Score DDV. L2. =. s=1 |ψs (ck )| K ·S }1/2 ∑K {∑S 2 k=1 s=1 |ψs (ck )|. =. k=1. (3). (4). K ·S ∑S. 列として表現し，セグメント内のあるフレームと他の任意. max1≤k≤K s=1 |ψs (ck )| (5) K ·S ここで，ψs (ck ) はベクトル ϕ(ai ) − ϕ(bj ) の s 番目の要素. のフレームの対での自己類似性行列として新たに表現され. である．いずれのスコアも状態系列 A と B の類似性が高. た音声セグメント対（検索語と音声ドキュメント中の候補. いほど，0 に近い値を取るため，このスコアを非類似度ス. 区間）の類似性を評価する方法を提案し，GMM 等の学習. コアとして利用することができる．Score DDV. データと異なる言語（事前の音声言語資源の利用をほとん. る分布間距離ベクトル間の L1 ノルムを時系列上で累積し. ど仮定しない言語への適用の想定）に対する頑健性を示し. たスコア付けであり，Score DDV. ている．. 上で累積したスコア付けである．一方，Score DDV. メントを GMM や HMM の状態レベルの postriorgram 系. Score DDV. L1max. =. L2. L1. は対応す. は L2 ノルムを時系列 L1max. は状態系列上で L1 ノルムの最大値をとるスコア付けであ. 3.2 分布間距離ベクトルを用いたスコア付け分布間距離ベクトルを新たな特徴量表現と考えると，2. り，非類似性を強調する狙いがある．上述の手順で分布間距離ベクトルを用いたスコア付けを. つの HMM 状態の対に対応する分布間距離ベクトルの対を. 行うと，その過程で 2 種類のスコアが算出される（図 5）．. 比較することで，状態間の (非) 類似性を求めることがで. この 2 つのスコアの違いは，Score BD は比較する HMM の. きる．. 状態間の分布間距離に基づいて算出されたスコアであるの. 比較を行う 2 つのサブワード列を，それぞれ対応する. に対して，Score DDV は HMM の全音節全状態との分布間. HMM の状態系列 A = {a1 , · · · , aI }, B = {b1 , · · · , bJ } に. 距離を考慮して算出されたスコアである．この 2 つのスコ. 展開する．ここで，実際には一方がクエリ，もう一方が音. アを次式に従い結合させ，1 つのスコア Score fusion として. 声ドキュメントとすると，連続 DP マッチング法としてこ. 用いる．. c 2013 Information Processing Society of Japan ⃝. 3.

(4) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 検索語 A1 ... AX. サブワード系列サブワード系列 HMM 状態系列. A1. マッチング AX. 分布間距離ベクトル分布間距離ベクトル (DDV) 系列図 5. 検出候補区間 B1 ... BY B1. 比較. ScoreBD. BY. ScoreDDV. 分布間距離ベクトルに基づくスコアの算出過程の概念図. Score fusion = α · Score BD + (1 − α) · τ · Score DDV (6) ここで，α は，0 ≤ α ≤ 1 の重み付け係数であり，τ は 2 つのスコアのレンジを調整するための係数である．. 3.3 検索語検出システムの全体の流れ検出システムは 2 パス手法になっており，1 パス目で区間検出と粗い絞り込みを行い，2 パス目で詳細なスコア付けを行う．検索語検出の手順は以下の通りである．. ( 1 ) 検索キーワードを音節列に変換し，事前に大語彙認識しておいた単語ベース認識結果 (音節列に変換しておく) もしくは音節認識結果に対して，連続 DP マッチングによるスポッティングを行う．. ( 2 ) スポッティングによるマッチング距離があらかじめ定めた閾値以内のサブワード列区間を抽出する．. ( 3 ) 抽出された区間とキーワードそれぞれのサブワード列. 保持した表現であるラティス表現を利用し，サブワード事後確率に基づく信頼度を導入した検索手法について述べる．. 4.1 サブワード事後確率に基づく信頼度音声認識結果の表現の一つとして，ラティス表現がある．ラティスは単語 (もしくはサブワード)，始端時刻，終端時刻，その区間の音響スコア及び言語スコアの組の集合として定義され，単語やサブワード単位をアークに持つグラフ表現として見ることができる．そして，ラティスの始点から終点までのアークをたどることにより，一つの文仮説が得られる．ラティスから得られる各文仮説 W に対して，音声認識器がどれだけの確信を持って W を出力したかの尺度をサブワード事後確率に基づく信頼度とし，次式のように定義する．. CM (W ) = ∑. eβg(W ). ´ ∈W (X) W. ´) eβg(W. (7). に対応する音響モデル (HMM) の状態系列に対して，. ここで，g(W ) は音声認識器が音響モデル及び言語モデル. 各状態間の分布距離を局所距離として DP マッチング. を用いて算出する文仮説 W の対数尤度であり，W (X) は. を行い，スコア Score BD を求める．. 入力音声系列 X に対して出力されるラティスから得られ. ( 4 ) 手順 3 の DP マッチングによって得られた最適経路に. る文仮説の集合である．また，β は各文仮説間の尤度のば. 沿って，HMM 状態系列を伸縮させて同一の長さに正. らつきによる影響の度合いを制御するために用いる，ス. 規化し，スコア Score DDV を求める．. ムージング係数 (0 < β ≤ 1) である．. ( 5 ) Score BD ,Score DDV の重みつき結合スコアが，あらか. 本研究では，次節で述べるようにサブワード N-gram の. じめ定めた閾値より小さい解候補区間を検出結果とし. 事後確率を用いるため，前向き・後ろ向きアルゴリズムに. て出力する．. よって文単位ではなく一部のアーク (列) の事後確率を推定. 以上の 1・2 の手順を 1 パス目，3∼5 の手順を 2 パス目と. し，利用する．. する 2 段階の処理から成る．このシステムのリスコアリング部 (2 パス目) 以外は 2 節に示した音声検索語検出システムと同じものである．. 4. サブワード事後確率に基づく検出スコアの推定. 4.2 検出スコアの算出認識誤りの問題に対処するため，本研究ではサブワード. N-gram の出現によってクエリの生起の信頼度を評価する方法 [15] を用いる．検索語のサブワード列を Q = {w1 , · · · , wM } とし，検索語. 前節で述べたサブワードレベルの特徴表現に基づく検索. の部分 n-gram を {wi , · · · , wi+n−1 } (i = 1, · · · , M − n + 1). 手法では，音声認識結果の N-best リストのサブワード列に. とする．そして，CM (W , {wi , · · · , wi+n−1 }) を文仮説 W. 対してサブワードレベルの特徴表現に基づく検出手法によ. における検索語の部分 n-gram{wi , · · · , wi+n−1 } の事後確. り検索を行う．ここでは，認識候補のあいまいさの情報を. 率 (信頼度) とし，検出スコアを以下の式で定義する．. c 2013 Information Processing Society of Japan ⃝. 4.

(5) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声ドキュメント検索語. 音響モデル (サブワード単位 HMM). 音声認識器. 表 1 コア講演の認識性能 [%] 書き起こし単位. 単語 / サブワード N-bestリスト・ラティス音響的類似度の事前計算信頼度情報に基づく検出サブワード単位. HMM状態単位局所距離局所距離検出候補検索語スポッティングリスト② に基づくリスコアリング. 検出候補リスト①. DDV. (1st pass). (2nd pass). サブワードレベルの特徴表現に基づく検出. 検出結果. 単語ベース. 76.7. 71.9. 86.5. 83.0. 音節ベース. -. -. 81.8. 77.4. 検索の評価は NTCIR SpokenDoc の CSJ データでの評価方法 [3], [4] と同様に，ポーズで分割された転記基本単位. (Inter Pausal Unit : IPU) での検出を正解判定の基本単位とする．そして，音声認識結果として，テストコレクションと共に配布された単語ベースと音節ベースの 2 種類のリファレンス認識結果 (各 10-best，ラティス) を用いる．リ. 図 6 提案システム. Rn−gram =. W.Corr． W.Acc． S.Corr． S.Acc．. M∑ −n+1 i=1. ∑. ファレンスの認識性能を表 1 に示す．表 1 中の「W.Corr.」. ´ , {wi , · · · , wi+n−1 }) CM (W. は単語正解率，「W.Acc.」は単語正解精度，「S.Corr.」は音節正解率，「S.Acc.」は音節正解精度を表わしている．. ´ ∈W (X) W. ´ , {wi , · · · , wi+n−1 }) · C(W (8). 分布間距離の算出の際に利用する音響モデルの仕様を，表 2 に示す．この音響モデルはモーラ単位の HMM であり，基本的には 7 状態 5 出力分布であるが，母音の/a/，/i/，. ´ , {wi , · · · , wi+n−1 }) は文仮説 W ´ 中に検ここで，C(W. /u/，/e/，/o/や，無音の/N/，/q/，/sp/，/silB/，/silE/. 索語の部分 n-gram{wi , · · · , wi+n−1 } が出現する数である．. は 5 状態 3 出力分布となっている. 音響モデルの学習には，. そして，次式のように 1-gram から N-gram まで重み an を. CSJ コーパスのコア講演を除く全講演音声を用いる．学習. 与えて足し合わせ，最終的な検出スコアとして用いる．. 条件は，文献 [2] で述べられているリファレンスの音響モ. Score CM =. N ∑. デルの作成手順に従い，各講演音声に付与された ID が奇. an Rn−gram. (9). 数か偶数かによって 2 分割し，それぞれで学習を行った．. n=1. 使用する分布間距離も条件に従い，ID が奇数のものには. 重み an は，大きな n-gram ほど検出において重要である. 偶数で学習した音響モデルによる分布間距離，偶数のもの. ため大きな値を割り当て，小さな n-gram に対しては湧き. には奇数で学習した音響モデルによる分布間距離を使用す. 出し誤りを防ぐために小さな値を割り当てるように設定す. る．これにより，評価に用いた音声ドキュメントに対して. る．本研究では 5 節で述べる開発用データを用いて実験的. オープンな評価条件とした．. に設定した．. 本稿で述べる評価実験においては，音声認識用の音響モデルとは別に，分布間距離の算出用の音響モデルを使用す. 4.3 サブワード事後確率を併用した検索語検出システム. るが，サブワードレベルの認識結果を得る過程では一種類. 我々は，3 節で述べた分布間距離ベクトルと基づく検出. の Triphone モデルしか使用しておらず (リファレンス認識. と前述のサブワード事後確率に基づく検出を併用すること. 結果のみ利用)，複数の音響・言語モデルやデコーダを用い. で，STD 性能の改善を試みる．. る一般的なアプローチ [17] とは異なる．. 提案する STD システムを図 6 に示す．このシステムは，. 評価用セットは，NTCIR10 SpokenDoc-2 formal-run. まずサブワード事後確率に基づく検出を行い，検出結果の. SDPWS(moderate-size) タスクのクエリセット (50 個)[4]. 上位に対して更に分布間距離ベクトルと基づく検出を行. を用いる．検索対象の音声ドキュメントは，音声ドキュ. う．このように，2 つの手法を段階的に適用し絞り込みを. メント処理ワークショップ (Spoken Document Processing. 行うことで，検出精度を高める狙いがある．. Workshop : SDPWS) の講演音声 (104 講演，約 29 時間). 5. 評価実験 5.1 実験条件. である．音声認識結果として，NTCIR10 SpokenDoc-2 の際に配布された単語ベースと音節ベースの 2 種類のリファレンス認識結果 (各 10-best，ラティス) を用いる．認識性. 評価実験では，開発用セットと評価用セットを用いる. 能を表 3 に示す．分布間距離の算出の際に利用する音響モ. ことで提案手法の頑健性を検証する．開発用セットとし. デルの学習には，開発セットの際と同様に，音声認識に使. て，STD のためのテストコレクション [2] の既知語クエリ. 用された音響モデルと同条件で学習した音響モデルを使用. セット (50 個)・未知語クエリセット (50 個) を用いる．検. することで，オープンな評価条件とした．. 索対象の音声ドキュメントは，日本語話し言葉コーパス. (CSJ)[16] のコア講演データ (177 講演，約 44 時間) である．. c 2013 Information Processing Society of Japan ⃝. 検索性能の評価指標として，Recall，Precision，F-. measure，Recall-Precision 曲線を用いる．. 5.

(6) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2. 分布間距離の算出の際に利用する HMM の仕様. 表 4. カテゴリ/単位. 133 音節 (モーラ). 状態数. 7 または 5. 出力分布数. 5 または 3. 出力分布. 32 混合の多次元正規分布 (対角共分散行列). 特徴パラメータ. 38 次元 (M F CC + ∆M F CC + ∆∆M F CC. Score DDV 算出の各定義式による性能比較 [%]. Baseline. Precision. F-measure. 53.94. 85.87. 66.26. L1. 56.63. 91.76. 70.04. L1. 56.53. 92.65. 70.22. L1max. 61.02. 82.70. 70.22. Score DDV Score DDV Score DDV. Recall. +∆P ower + ∆∆P ower). 表 3 書き起こし単位. SDPWS 講演の認識性能 [%] W.Corr． W.Acc． S.Corr． S.Acc．. 単語ベース. 68.4. 63.1. 79.7. 75.3. 音節ベース. -. -. 72.7. 67.7. 5.2 比較する STD 手法比較を行う STD 手法は以下の通りである．. 100 90 80 ] 70 [% 60 n io isc 50 er 40 P 30 20 10 0. Baseline ScoreDDV_L1 ScoreDDV_L2. ScoreDDV_L1max 0. Baseline: 2 章で述べた方法 (NTCIR9，10 でのベースラ. 20. 40. 60. 80. 100. Recall[%]. イン手法とほぼ同様だがサブワード間距離の定義が異なる). 図 7 Score DDV 算出の各定義式による Recall-Precision 曲線. BD-DDV: 3 章で述べた方法 (我々の以前の提案手法) CM: 信頼度情報に基づく検出手法 (4 章の方法単独). 5.3.2 BD-DDV における Score DDV の影響. CM+BD-DDV: CM の出力結果上位 K 個の検出候補に対して BD-DDV を適用 (提案手法). BD-DDV では，式 6 で表わされるように HMM の状態単位の DP マッチングスコア Score BD と，分布間距離ベクトルに基づくスコア Score DDV をスコア結合係数 α により. 5.3 開発用セットでの評価結果. 結合し，最終的な検出スコア (非類似度スコア) としてい. 3.2 節で分布間距離ベクトルに基づくスコア Score DDV. る．そこで，このスコア結合係数 α を変化させた際の検索. の算出式として，式 (3)，(4)，(5) の 3 種類を定義した．評. 性能の影響を解析する．スコア結合重み α を 0 から 1 まで. 価実験ではまず，BD-DDV における 3 種類の定義式によ. 変化させた際の，F-measure の推移を図 8 に示す．. る性能比較を行った後，Score DDV が検索性能に与える影. 図 8 より，既知語クエリ (IV) においては重みの影響が小. 響を解析する．その後，各手法における性能評価を行う．. さいことが分かる．しかし，未知語クエリ (OOV) におい. 5.3.1 BD-DDV における Score DDV 算出の定義式の. ては 0.8 あたりを頂点とする山なりになっており，Baseline. 比較. と比較して大きく改善されている．既知語クエリ・未知語. 各定義式による評価結果を表 4 に，Recall-Precision 曲線. クエリを合わせた結果 (ALL) においても，2 つのスコアを. を図 7 に示す．表 4 中の値は，閾値を変化させて F-measure. 組み合わせることで僅かに改善を示している．これは，分. が最大となったときの値である．また，図 7 は BD-DDV. 布間距離ベクトルが多くの相対的な距離情報を持つため，. における 1 パス目の閾値と，2 パス目のスコア結合重み α. 誤りを含むサブワード対の非類似性を評価する特徴量とし. を調整し，F-measure が最大となったときのパラメータを. てうまく働き，検出性能が向上したためと思われる．なお，. 用いてプロットしている．Score DDV. の. α = 1.0 の場合においても Baseline よりも改善しているこ. Recall の延びが小さいのは，1 パス目の閾値を小さくした. とから，サブワード系列を状態系列に展開した後でのアラ. L1 ，Score DDV L1. （検出候補数を少なくした）際に最善となったため，Recall を 100%まで近付けることができなかった．評価結果から Score DDV. L1max. を用いた手法が他の定. イメントは有効であることが分かる．. 5.3.3 各手法における性能評価各手法における性能評価を表 5 に，Recall-Precision 曲. 義式と比べて僅かであるが，高い性能を示した．しかし，. 線を図 9 に示す．また，未知語クエリに対しての検索性能. BD-DDV における 1 パスのみ (サブワードレベルの連続. のみを評価した際の Recall-Precision 曲線を図 10 に示す．. DP マッチング) の手法である Baseline と比較して，DDV. 表 5 より，CM は Baseline や BD-DDV よりも優れた性能. に基づくスコアリングを行うことで大きく性能を改善する. を示した．また，CM は未知語クエリのみに対しても高い. ことができている．. 性能を示していることが図 10 からも読み取れる．この開. 以降の BD-DDV 手法では，Score DDV の算出式を. 発用セットは，評価セットと比べてリファレンスの音声認. に固定して評価を行う．. 識性能が高いため，サブワード事後確率に基づく検出を行. c 2013 Information Processing Society of Japan ⃝. 6. Score DDV. L1max.

(7) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 80. 100. 75. 90. 70. 80. Baseline(ALL). 65. Baseline(IV). ] 60 [%. Baseline(OOV). 55 値 F 50. BD-DDV(ALL). 45. BD-DDV(IV). 40. BD-DDV(OOV). 35. 70. ] [% 60 no is 50 ic er 40 P. Baseline BD-DDV CM CM+BD-DDV. 30 20 10. 30 0.0. 図 8. 0.2. 0.4. 重みα. 0.6. 0.8. 0. 1.0. 0. 図 10. Recall. Precision. F-measure. ALL. 53.94. 85.87. 66.26. IV. 58.91. 90.60. 71.40. OOV. 38.03. 75.42. 50.57. ALL. 61.02. 82.70. 70.22. IV. 61.12. 91.44. 73.27. OOV. 49.15. 74.19. 59.13. ALL. 58.43. 90.99. 71.16. IV. 62.55. 89.74. 73.72. OOV. 47.44. 95.69. 63.43. ALL. 59.42. 90.30. 71.68. IV. 62.68. 90.43. 74.04. OOV. 60.26. 71.94. 65.58. CM. CM+BD-DDV. 60. 80. 100. 各システムにおける未知語クエリの Recall-Precision 曲線. (開発用セット). 表 5 各手法における性能評価 (開発用セット)[%]. BD-DDV. 40. Recall[%]. スコア結合重み α を変化させた際の F 値の推移. Baseline. 20. 表 6 各手法における性能評価 (評価用セット)[%]. Baseline. BD-DDV. CM. CM+BD-DDV. Recall. Precision. F-measure. ALL. 30.49. 36.25. 33.12. IV. 45.42. 45.92. 45.66. OOV. 13.54. 28.02. 18.26. ALL. 29.10. 58.46. 38.86. IV. 47.38. 58.49. 52.35. OOV. 18.75. 34.22. 24.23. ALL. 29.96. 40.67. 34.50 51.18. IV. 37.77. 79.36. OOV. 17.08. 25.95. 20.60. ALL. 35.08. 55.95. 43.12. IV. 48.25. 69.06. 56.81. OOV. 19.58. 45.19. 27.33. 100 90. 5.4 評価用セットでの評価結果. 80. 開発用セットで調整を行ったパラメータを用いて評価用. 70. Baseline BD-DDV CM CM+BD-DDV. ] [% 60 no sii 50 ce rP 40 30 20. セットで評価実験を行った結果を表 6 に，Recall-Precision 曲線を図 11 に示す．また，未知語クエリに対しての検索性能のみを評価した際の Recall-Precision 曲線を図 12 に示す．これらの評価結果から，開発用セットの場合とは異なり BD-DDV が Baseline や CM よりも優れた性能を示し. 10 0 0. 20. 40. 60. 80. 100. Recall[%]. た．これは，開発用セットよりも評価用セットのリファレンスの音声認識性能が悪いため，調整パラメータが開発セットと評価用セットの違いに影響を受け易くなり，CM. 図 9 各システムにおける Recall-Precision 曲線 (開発用セット). の性能が大きく低下したと思われる．一方，BD-DDV は. CM と比較して音声認識性能の低下による影響が小さく，う CM が良い性能を示したと思われる．一方，BD-DDV. Baseline からの改善が大きいことがわかる．. も未知語クエリのみに対して大きく改善したことがわかる．. 図 10 から，CM は未知語クエリに対して Recall を延ば. そして，組み合わせ手法である CM+BD-DDV は単体. した際の Precision の低下が大ききこともわかる．しかし，. の手法よりも良い性能を示した．図 9 より，CM は低い. 開発用セットで示された検出結果の上位が正解である割. Recall において高い Precision を示している．つまり，検. 合が高いという性質は，評価用セットにおいても現れて. 出結果の上位が正解である割合が高いといえる．そして，. いることが読み取れる．そして，組み合わせ手法である. CM+BD-DDV ではその検出結果の上位候補に対して更に. CM+BD-DDV は，評価用セットに対しても単体の手法よ. BD-DDV でスコア付けすることで，より優れた性能を示. りも良い性能を示した．つまり，音声認識性能が低い条件. すことができた．. においても提案手法は有効であるといえる．. c 2013 Information Processing Society of Japan ⃝. 7.

(8) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 参考文献. 100 90. [1]. Baseline BD-DDV CM CM+BD-DDV. 80 70. ] [% 60 no is 50 ic er 40 P 30. [2]. [3]. 20 10. [4]. 0 0. 20. 40. 60. 80. 100. Recall[%]. [5] 図 11. 各システムにおける Recall-Precision 曲線 (評価用セット). [6]. [7]. 100 90. Baseline BD-DDV CM CM+BD-DDV. 80 70. ] % [ 60 no is 50 ic er 40 P 30. [8]. [9]. 20. [10]. 10 0 0. 20. 40. 60. 80. 100. Recall[%]. [11] 図 12. 各システムにおける未知語クエリの Recall-Precision 曲線. (評価用セット). [12]. 6. おわりに. [13]. 本稿では，先行研究で提案した分布間距離ベクトルという構造的特徴表現に基づく検出手法と，サブワード事後確. [14]. 率に基づく検出手法を併用することで性能の改善を行った．. NTCIR10 SpokenDoc-2 SDPWS(moderate-size) タスク formal-run テストコレクションに対する評価実験では，連. [15]. 続 DP マッチングのみを用いる Baseline が F 値 33.12 であるのに対して，提案システムは F 値 43.12 と大きく改善させることができた．また，分布間距離ベクトルに基づく検. [16]. 索手法では F 値 38.86，サブワード事後確率に基づく検索手法では F 値 34.50 と，単独の手法においても Baseline よりも改善され，特に分布間距離ベクトルに基づく検索手法は未知語クエリに対しても大きな改善を示した．. [17]. 滝上, 他：“音声検索語検出を前処理に用いた未知語や認識誤りに頑健な音声ドキュメント検索”, 情報処理学会論文誌, Vol.54, No.2, pp.1-12 (2013). 西崎博光, 他：“Spoken Term Detection のためのテストコレクション構築とベースライン評価”, 情報処理学会研究報告, Vol.2010-SLP-81, No.13 (2010). Tomoyosi Akiba, et al．：“Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop”, Proc. of 9th NTCIR Workshop Meeting, pp.223-235 (2011.12.6-9). Tomoyosi Akiba, et al．：“Overview of the NTCIR-10 SpokenDoc-2 Task,” Proc. of the 10th NTCIR Workshop Meeting, (2013). 秋葉友良：“音声ドキュメント検索の現状と課題”, 情報処理学会研究報告, Vol.2010-SLP-82, No.10 (2010). 石見, 他：“音声ドキュメント検索のための音節ラティスの拡張と n-gram 索引の削減手法”, 情報処理学会研究報告, Vol.2011-SLP-89, No.5 (2011). 勝浦, 他：“複数認識結果を用いて構築した Suﬃx Array に対する音声検索語検出”, Vol.2012-SLP-94, No.15, pp.1-6 (2012). 岩見圭介, 他：“距離付き n-gram インデックスによる認識誤りと未知語に頑健な高速検索法”, 情報処理学会研究報告, Vol.2010-SLP-83, No.3 (2010). 中川聖一, 他：“音声ドキュメントに対する未知語に頑健な検索手法の検討”, 音声ドキュメント処理ワークショップ講演論文集 3, pp.7-14 (2009.2.27). M.Wechsler, et al．：“New Techniques for OpenVocabulary Spoken Document Retrieval”, Proceedings of the 21st Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp.20-27 (1998). Naoki Yamamoto, Atsuhiko Kai : “Using Acoustic Dissimilarity Measures Based on State-level Distance Vector Representation for Improved Spoken Term Detection,” Proc. of APSIPA ASC 2013, (2013.10). 朝川智 , 峯松信明 , 広瀬啓吉：“音声の構造的表象に基づく英語学習者発音の音響的分析”, 電子情報通信学会論文誌, Vol.J90-D, No.5, pp.1249-1262 (2007). 村上隆夫 , 峯松信明 , 広瀬啓吉：“音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識”, 電子情報通信学会論文誌．Vol.J91-A, No.2, pp.181-191 (2008)． A.Muscariello, et al．：“Zero-resource audio-only spoken term detection based on a combination of template matching techniques”, Proceedings of INTERSPEECH 2011, pp.921-924 (2011). Lee. H, et al.: “Open-Vocabulary Retrieval of Spoken Content with Shorter/Longer Queries Considering Word/Subword-based Acoustic Feature Similarity,” Proceedings of Interspeech (2012). 国立国語研究所：“日本語話し言葉コーパス”, http://www.kokken.go.jp/katsudo/seika/corpus/ (2004). Hiromitsu Nishizaki, et al. :“Spoken Term Detection Using Multiple Speech Recognizers’ Outputs at NTCIR9 SpokenDoc STD subtask”, Proceedings of NTCIR-9 Workshop Meeting, pp.236-241 (2011.12.6-9).. 今後の課題として，検索の高速化やシステムパラメータの自動推定が挙げられる．前者については，これまでに音節ラティスの n-gram を検索用インデックスとする等による高速化手法が提案されており [9]，このようなインデキシングによる高速化手法との併用は容易に実現できると考えている．. c 2013 Information Processing Society of Japan ⃝. 8.

(9)