分布間距離ベクトルに基づく音響的類似度とサブワード事後確率の併用による音声検索語検出の改善
8
0
0
全文
(2) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声 ドキュメント. 音響モデル (サブワード単位 HMM) 音響的類似度の 事前計算. 音声認識器 単語 / サブワード N-bestリスト・ラティス. サブワード単位局所距離. 検索語. 検出結果. 検索語スポッティング. 2.2 サブワード対の音響的な非類似度 サブワード単位の音響的な類似度としては,サブワード 対の非類似度をサブワード単位 HMM の分布間距離(Bhat-. tacharyya 距離)に基づいて計算する例 [6] や,音素弁別特 徴に基づく距離尺度を利用する例 [7] 等がある. 我々は,サブワード間の音響的な類似度を考慮するため に,音響的な非類似度を石見らの方法 [6] と同様に分布間. 図 1. 音声検索語検出のベースラインシステムの構造. 距離に基づいて算出する.音響モデルであるサブワード単 位の HMM には一般に複数の状態が含まれ,それぞれの状. j. ck. 1. 1. = (i , j ). j. 2. 1. 1. ck. 1 2. = (i , j ). 1. 態に出力分布が与えられる.任意の状態間に対して何らか の分布間距離を定義することができるが,分布間距離が近 い状態対は,音響的に類似していると言うことができ,ま た逆に距離が遠い状態対は,音響的に類似していないと言. 2. える. i. 図 2. 非対称 DP パス. i. 図 3. 対称 DP パス. し,従来の方法と併用することで検索性能の改善を図る.. 分布間距離は,HMM のパラメータから Bhattacharyya 距離を利用して算出する.Bhattacharyya 距離は,確率分 布の間の距離を計算する際に用いられ,我々はある 2 つの混 合分布間の距離として,任意の混合成分間の Bhattacharyya 距離の最小値を分布間距離とする.つまり,あるサブワー. 2. 連続 DP マッチングを用いた従来手法 STD に対する一般的なアプローチは,音声データを音 声認識器に通してテキスト化し,サブワードレベルでの認 識誤りを考慮した検索語との照合手法により検索を行うと いうものである.その手法の一つとして,連続 DP マッチ ングという手法が挙げられる.本節では,まず,連続 DP. ド a の HMM 状態 i において n 番目の混合成分の確率分布 {i,n}. を Pa. と表わすと,サブワード a の HMM 状態 i とサブ. ワード b の HMM の状態 j との距離を次式で定義する. {j}. BD(Pa{i} , Pb {i}. {j}. この BD(Pa , Pb. {j,y}. ) = min BD(Pa{i,x} , Pb x,y. ). (1). ) を分布間距離として使用する.. マッチングを利用した STD システムの概要を述べる.そ. 任意のサブワード対に対して,分布間距離を局所距離と. して,連続 DP マッチングの局所距離として使用する分布. し,図 3 に示す DP パスの制約を用いて状態系列間の DP. 間距離について述べる.. マッチングを行うことにより,サブワード間のマッチング 距離を求める.このようにして,あらかじめサブワード単. 2.1 STD システム概要 本研究で使用する音声検索語検出のベースラインシステ. 位の音響モデルのみで求めておくことができるサブワード 間非類似度を局所距離として使用し,2.1 節で述べたよう. ムの構成を図 1 に示す.このシステムでは,あらかじめ音. にクエリと類似する区間の検出 (スポッティング) を行う.. 声データを大語彙音声認識システムによりテキスト化し,. なお,NTCIR-9 及び 10 のベースライン評価ではサブワー. データベースに蓄積する.音声認識は,単語単位とサブ. ド単位の DP マッチングの局所距離として編集距離が用い. ワード単位の 2 種類の N-gram 言語モデルによる認識結果. られるが [3], [4],それ以外はほぼ同等の手法といえる.. をそれぞれ求め,単語ベースの認識結果はさらにサブワー. 3. 分布間距離ベクトル特徴表現に基づく音響 的類似度評価. ド系列に変換しておき蓄積する. 検索を行う際は,入力された検索語をサブワード系列に 変換し,既知語から成る検索語の場合は単語認識データ. 連続 DP マッチングによるスポッティングにより,与え. ベース内のサブワード列,未知語から成る検索語の場合は. られたクエリとしてのサブワード列に対し,検索対象の音. 音節認識データベース内のサブワード列と連続 DP マッチ. 声ドキュメント中のサブワード列としての類似性が高い候. ングを行う.そして,連続 DP マッチングの結果,非類似. 補区間を抽出することができる.しかし,サブワード単位. 度スコア (マッチング距離) が閾値以下である解候補区間を. の荒いスコア付けであり,音響的な非類似度の算出に用い. 検出結果として出力する.. た音響モデルによる非類似度の推定精度に左右される.そ. 連続 DP マッチングの際には図 2 に示す非対称の DP パ. こで,この候補区間に対して,さらに詳細なスコア付け (リ. スの制約を用いる.また,連続 DP マッチングで使用する. スコアリング) を行う.我々の提案手法では,候補区間の. 局所距離には次節で述べるサブワード対の音響的な非類似. サブワード列を,それに対応する HMM の状態系列に拡張. 度を使用する.. した時系列の表現に変換し,状態間の分布間距離に基づく. c 2013 Information Processing Society of Japan ⃝. 2.
(3) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 距離尺度を用いる.特に,2.2 節で定義した分布間距離を もとに拡張した分布間距離ベクトルに基づく距離尺度を導 入することで,検索性能の向上を図る.. 分布間距離 距離. 任意のHMMの状態 (出力分布). (Bhattacharyya. P1. c. P2. 3.1 分布間距離ベクトル {i}. {j}. 2.2 節で定義した分布間距離 BD(Pa , Pb. ) は,2 つの. サブワードに対応する HMM の状態間の該当分布間の距離 のみを利用して求められた.我々は,ある音節の状態に対. 分布間距離ベクトル 分布間距離 ベクトル. して 1 対 1 の距離を直接評価するだけではなく,他の状態 徴表現を利用することを考える.これにより,サブワード 単位の認識誤りに対してより頑健な距離尺度とすることを 意図している.. 全サブワード 全状態の 出力分布の集合. 図 4. {Ps }. PS. (Distribution-distance Vector : DDV). との距離にも着目し,それぞれの距離を要素として含む特. ). φ (c ). 任意の HMM 状態に対して導出される分布間距離ベクトルの 概念図. れ以降の手順をより一般化して扱うことができるが,比較. 全てのサブワードに対応する HMM の全状態の出力分布. を簡単化するため DP マッチングにより非線形時間伸縮を. の集合を P = {Ps }(s = 1, 2, · · · , S) とし,その中の任意. 行い,2 つの HMM の状態系列の長さが等しくなるように. の状態 c に対する新たな特徴表現として,以下のベクトル. アライメントを行う.このときの局所距離としては式 (1). を定義する.. の Bhattacharyya 距離を用い,アライメントされた HMM の状態系列対を F = {c1 , · · · , cK },ck = (aik , bjk ) とす. ϕ(c) = (DBD (Pc , P1 ), DBD (Pc , P2 ), · · · , DBD (Pc , PS )). T. (2). る.この際に得られる DP マッチングスコアを Score BD と する.. このベクトルは,ある HMM の状態 c の出力分布と,自身を. アライメントされた状態系列対に基づき,それに対応す. 含む全ての状態の出力分布との分布間距離を要素に持って. る分布間距離ベクトル系列対に直すことで,状態系列間の. いることから,分布間距離ベクトル (Distribution-distance. 新たなスコアの算出を行う.我々は,以下の 3 つの式を定. vector : DDV) と呼ぶことにする(図 4).. 義し,それぞれの式をもとにスコアの算出を試みる.. ∑K ∑S. このような構造的特徴を利用する考え方は,峯松らが提 案している音声の構造的表象 [12], [13] を用いる考え方と. Score DDV. L1. 関連しており,そこで指摘されているように伝達特性や話 者固有の変動の要因に対する頑健性が期待できる.また,. Muscariello ら [14] は音声入力された検索語による音声ド キュメント中の類似部分を検出する方法として,音声セグ. Score DDV. L2. =. s=1 |ψs (ck )| K ·S }1/2 ∑K {∑S 2 k=1 s=1 |ψs (ck )|. =. k=1. (3). (4). K ·S ∑S. 列として表現し,セグメント内のあるフレームと他の任意. max1≤k≤K s=1 |ψs (ck )| (5) K ·S ここで,ψs (ck ) はベクトル ϕ(ai ) − ϕ(bj ) の s 番目の要素. のフレームの対での自己類似性行列として新たに表現され. である.いずれのスコアも状態系列 A と B の類似性が高. た音声セグメント対(検索語と音声ドキュメント中の候補. いほど,0 に近い値を取るため,このスコアを非類似度ス. 区間)の類似性を評価する方法を提案し,GMM 等の学習. コアとして利用することができる.Score DDV. データと異なる言語(事前の音声言語資源の利用をほとん. る分布間距離ベクトル間の L1 ノルムを時系列上で累積し. ど仮定しない言語への適用の想定)に対する頑健性を示し. たスコア付けであり,Score DDV. ている.. 上で累積したスコア付けである.一方,Score DDV. メントを GMM や HMM の状態レベルの postriorgram 系. Score DDV. L1max. =. L2. L1. は対応す. は L2 ノルムを時系列 L1max. は状態系列上で L1 ノルムの最大値をとるスコア付けであ. 3.2 分布間距離ベクトルを用いたスコア付け 分布間距離ベクトルを新たな特徴量表現と考えると,2. り,非類似性を強調する狙いがある. 上述の手順で分布間距離ベクトルを用いたスコア付けを. つの HMM 状態の対に対応する分布間距離ベクトルの対を. 行うと,その過程で 2 種類のスコアが算出される(図 5).. 比較することで,状態間の (非) 類似性を求めることがで. この 2 つのスコアの違いは,Score BD は比較する HMM の. きる.. 状態間の分布間距離に基づいて算出されたスコアであるの. 比較を行う 2 つのサブワード列を,それぞれ対応する. に対して,Score DDV は HMM の全音節全状態との分布間. HMM の状態系列 A = {a1 , · · · , aI }, B = {b1 , · · · , bJ } に. 距離を考慮して算出されたスコアである.この 2 つのスコ. 展開する.ここで,実際には一方がクエリ,もう一方が音. アを次式に従い結合させ,1 つのスコア Score fusion として. 声ドキュメントとすると,連続 DP マッチング法としてこ. 用いる.. c 2013 Information Processing Society of Japan ⃝. 3.
(4) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 検索語 A1 ... AX. サブワード系列 サブワード系列 HMM 状態系列. A1. マッチング AX. 分布間距離ベクトル 分布間距離ベクトル (DDV) 系列 図 5. 検出候補区間 B1 ... BY B1. 比較. ScoreBD. BY. ScoreDDV. 分布間距離ベクトルに基づくスコアの算出過程の概念図. Score fusion = α · Score BD + (1 − α) · τ · Score DDV (6) ここで,α は,0 ≤ α ≤ 1 の重み付け係数であり,τ は 2 つ のスコアのレンジを調整するための係数である.. 3.3 検索語検出システムの全体の流れ 検出システムは 2 パス手法になっており,1 パス目で区 間検出と粗い絞り込みを行い,2 パス目で詳細なスコア付 けを行う. 検索語検出の手順は以下の通りである.. ( 1 ) 検索キーワードを音節列に変換し,事前に大語彙認識 しておいた単語ベース認識結果 (音節列に変換してお く) もしくは音節認識結果に対して,連続 DP マッチ ングによるスポッティングを行う.. ( 2 ) スポッティングによるマッチング距離があらかじめ定 めた閾値以内のサブワード列区間を抽出する.. ( 3 ) 抽出された区間とキーワードそれぞれのサブワード列. 保持した表現であるラティス表現を利用し,サブワード事 後確率に基づく信頼度を導入した検索手法について述べる.. 4.1 サブワード事後確率に基づく信頼度 音声認識結果の表現の一つとして,ラティス表現がある. ラティスは単語 (もしくはサブワード),始端時刻,終端時 刻,その区間の音響スコア及び言語スコアの組の集合とし て定義され,単語やサブワード単位をアークに持つグラフ 表現として見ることができる.そして,ラティスの始点か ら終点までのアークをたどることにより,一つの文仮説が 得られる. ラティスから得られる各文仮説 W に対して,音声認識 器がどれだけの確信を持って W を出力したかの尺度をサ ブワード事後確率に基づく信頼度とし,次式のように定義 する.. CM (W ) = ∑. eβg(W ). ´ ∈W (X) W. ´) eβg(W. (7). に対応する音響モデル (HMM) の状態系列に対して,. ここで,g(W ) は音声認識器が音響モデル及び言語モデル. 各状態間の分布距離を局所距離として DP マッチング. を用いて算出する文仮説 W の対数尤度であり,W (X) は. を行い,スコア Score BD を求める.. 入力音声系列 X に対して出力されるラティスから得られ. ( 4 ) 手順 3 の DP マッチングによって得られた最適経路に. る文仮説の集合である.また,β は各文仮説間の尤度のば. 沿って,HMM 状態系列を伸縮させて同一の長さに正. らつきによる影響の度合いを制御するために用いる,ス. 規化し,スコア Score DDV を求める.. ムージング係数 (0 < β ≤ 1) である.. ( 5 ) Score BD ,Score DDV の重みつき結合スコアが,あらか. 本研究では,次節で述べるようにサブワード N-gram の. じめ定めた閾値より小さい解候補区間を検出結果とし. 事後確率を用いるため,前向き・後ろ向きアルゴリズムに. て出力する.. よって文単位ではなく一部のアーク (列) の事後確率を推定. 以上の 1・2 の手順を 1 パス目,3∼5 の手順を 2 パス目と. し,利用する.. する 2 段階の処理から成る.このシステムのリスコアリン グ部 (2 パス目) 以外は 2 節に示した音声検索語検出システ ムと同じものである.. 4. サブワード事後確率に基づく検出スコアの 推定. 4.2 検出スコアの算出 認識誤りの問題に対処するため,本研究ではサブワード. N-gram の出現によってクエリの生起の信頼度を評価する 方法 [15] を用いる. 検索語のサブワード列を Q = {w1 , · · · , wM } とし,検索語. 前節で述べたサブワードレベルの特徴表現に基づく検索. の部分 n-gram を {wi , · · · , wi+n−1 } (i = 1, · · · , M − n + 1). 手法では,音声認識結果の N-best リストのサブワード列に. とする.そして,CM (W , {wi , · · · , wi+n−1 }) を文仮説 W. 対してサブワードレベルの特徴表現に基づく検出手法によ. における検索語の部分 n-gram{wi , · · · , wi+n−1 } の事後確. り検索を行う.ここでは,認識候補のあいまいさの情報を. 率 (信頼度) とし,検出スコアを以下の式で定義する.. c 2013 Information Processing Society of Japan ⃝. 4.
(5) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声 ドキュメント 検索語. 音響モデル (サブワード単位 HMM). 音声認識器. 表 1 コア講演の認識性能 [%] 書き起こし単位. 単語 / サブワード N-bestリスト・ラティス 音響的類似度の 事前計算 信頼度情報に 基づく検出 サブワード単位. HMM状態単位 局所距離 局所距離 検出候補 検索語スポッティング リスト② に基づくリスコアリング. 検出候補リスト①. DDV. (1st pass). (2nd pass). サブワードレベルの特徴表現に基づく検出. 検出結果. 単語ベース. 76.7. 71.9. 86.5. 83.0. 音節ベース. -. -. 81.8. 77.4. 検索の評価は NTCIR SpokenDoc の CSJ データでの評価 方法 [3], [4] と同様に,ポーズで分割された転記基本単位. (Inter Pausal Unit : IPU) での検出を正解判定の基本単位 とする.そして,音声認識結果として,テストコレクショ ンと共に配布された単語ベースと音節ベースの 2 種類のリ ファレンス認識結果 (各 10-best,ラティス) を用いる.リ. 図 6 提案システム. Rn−gram =. W.Corr. W.Acc. S.Corr. S.Acc.. M∑ −n+1 i=1. ∑. ファレンスの認識性能を表 1 に示す.表 1 中の「W.Corr.」. ´ , {wi , · · · , wi+n−1 }) CM (W. は単語正解率, 「W.Acc.」は単語正解精度, 「S.Corr.」は音 節正解率,「S.Acc.」は音節正解精度を表わしている.. ´ ∈W (X) W. ´ , {wi , · · · , wi+n−1 }) · C(W (8). 分布間距離の算出の際に利用する音響モデルの仕様を, 表 2 に示す.この音響モデルはモーラ単位の HMM であ り,基本的には 7 状態 5 出力分布であるが,母音の/a/,/i/,. ´ , {wi , · · · , wi+n−1 }) は文仮説 W ´ 中に検 ここで,C(W. /u/,/e/,/o/や,無音の/N/,/q/,/sp/,/silB/,/silE/. 索語の部分 n-gram{wi , · · · , wi+n−1 } が出現する数である.. は 5 状態 3 出力分布となっている. 音響モデルの学習には,. そして,次式のように 1-gram から N-gram まで重み an を. CSJ コーパスのコア講演を除く全講演音声を用いる.学習. 与えて足し合わせ,最終的な検出スコアとして用いる.. 条件は,文献 [2] で述べられているリファレンスの音響モ. Score CM =. N ∑. デルの作成手順に従い,各講演音声に付与された ID が奇. an Rn−gram. (9). 数か偶数かによって 2 分割し,それぞれで学習を行った.. n=1. 使用する分布間距離も条件に従い,ID が奇数のものには. 重み an は,大きな n-gram ほど検出において重要である. 偶数で学習した音響モデルによる分布間距離,偶数のもの. ため大きな値を割り当て,小さな n-gram に対しては湧き. には奇数で学習した音響モデルによる分布間距離を使用す. 出し誤りを防ぐために小さな値を割り当てるように設定す. る.これにより,評価に用いた音声ドキュメントに対して. る.本研究では 5 節で述べる開発用データを用いて実験的. オープンな評価条件とした.. に設定した.. 本稿で述べる評価実験においては,音声認識用の音響モ デルとは別に,分布間距離の算出用の音響モデルを使用す. 4.3 サブワード事後確率を併用した検索語検出システム. るが,サブワードレベルの認識結果を得る過程では一種類. 我々は,3 節で述べた分布間距離ベクトルと基づく検出. の Triphone モデルしか使用しておらず (リファレンス認識. と前述のサブワード事後確率に基づく検出を併用すること. 結果のみ利用),複数の音響・言語モデルやデコーダを用い. で,STD 性能の改善を試みる.. る一般的なアプローチ [17] とは異なる.. 提案する STD システムを図 6 に示す.このシステムは,. 評価 用 セッ ト は ,NTCIR10 SpokenDoc-2 formal-run. まずサブワード事後確率に基づく検出を行い,検出結果の. SDPWS(moderate-size) タスクのクエリセット (50 個)[4]. 上位に対して更に分布間距離ベクトルと基づく検出を行. を用いる.検索対象の音声ドキュメントは,音声ドキュ. う.このように,2 つの手法を段階的に適用し絞り込みを. メント処理ワークショップ (Spoken Document Processing. 行うことで,検出精度を高める狙いがある.. Workshop : SDPWS) の講演音声 (104 講演,約 29 時間). 5. 評価実験 5.1 実験条件. である.音声認識結果として,NTCIR10 SpokenDoc-2 の 際に配布された単語ベースと音節ベースの 2 種類のリファ レンス認識結果 (各 10-best,ラティス) を用いる.認識性. 評価実験では,開発用セットと評価用セットを用いる. 能を表 3 に示す.分布間距離の算出の際に利用する音響モ. ことで提案手法の頑健性を検証する.開発用セットとし. デルの学習には,開発セットの際と同様に,音声認識に使. て,STD のためのテストコレクション [2] の既知語クエリ. 用された音響モデルと同条件で学習した音響モデルを使用. セット (50 個)・未知語クエリセット (50 個) を用いる.検. することで,オープンな評価条件とした.. 索対象の音声ドキュメントは,日本語話し言葉コーパス. (CSJ)[16] のコア講演データ (177 講演,約 44 時間) である.. c 2013 Information Processing Society of Japan ⃝. 検 索 性 能 の 評 価 指 標 と し て ,Recall,Precision,F-. measure,Recall-Precision 曲線を用いる.. 5.
(6) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2. 分布間距離の算出の際に利用する HMM の仕様. 表 4. カテゴリ/単位. 133 音節 (モーラ). 状態数. 7 または 5. 出力分布数. 5 または 3. 出力分布. 32 混合の多次元正規分布 (対角共分散行列). 特徴パラメータ. 38 次元 (M F CC + ∆M F CC + ∆∆M F CC. Score DDV 算出の各定義式による性能比較 [%]. Baseline. Precision. F-measure. 53.94. 85.87. 66.26. L1. 56.63. 91.76. 70.04. L1. 56.53. 92.65. 70.22. L1max. 61.02. 82.70. 70.22. Score DDV Score DDV Score DDV. Recall. +∆P ower + ∆∆P ower). 表 3 書き起こし単位. SDPWS 講演の認識性能 [%] W.Corr. W.Acc. S.Corr. S.Acc.. 単語ベース. 68.4. 63.1. 79.7. 75.3. 音節ベース. -. -. 72.7. 67.7. 5.2 比較する STD 手法 比較を行う STD 手法は以下の通りである.. 100 90 80 ] 70 [% 60 n io isc 50 er 40 P 30 20 10 0. Baseline ScoreDDV_L1 ScoreDDV_L2. ScoreDDV_L1max 0. Baseline: 2 章で述べた方法 (NTCIR9,10 でのベースラ. 20. 40. 60. 80. 100. Recall[%]. イン手法とほぼ同様だがサブワード間距離の定義が異 なる). 図 7 Score DDV 算出の各定義式による Recall-Precision 曲線. BD-DDV: 3 章で述べた方法 (我々の以前の提案手法) CM: 信頼度情報に基づく検出手法 (4 章の方法単独). 5.3.2 BD-DDV における Score DDV の影響. CM+BD-DDV: CM の出力結果上位 K 個の検出候補 に対して BD-DDV を適用 (提案手法). BD-DDV では,式 6 で表わされるように HMM の状態 単位の DP マッチングスコア Score BD と,分布間距離ベク トルに基づくスコア Score DDV をスコア結合係数 α により. 5.3 開発用セットでの評価結果. 結合し,最終的な検出スコア (非類似度スコア) としてい. 3.2 節で分布間距離ベクトルに基づくスコア Score DDV. る.そこで,このスコア結合係数 α を変化させた際の検索. の算出式として,式 (3),(4),(5) の 3 種類を定義した.評. 性能の影響を解析する.スコア結合重み α を 0 から 1 まで. 価実験ではまず,BD-DDV における 3 種類の定義式によ. 変化させた際の,F-measure の推移を図 8 に示す.. る性能比較を行った後,Score DDV が検索性能に与える影. 図 8 より,既知語クエリ (IV) においては重みの影響が小. 響を解析する.その後,各手法における性能評価を行う.. さいことが分かる.しかし,未知語クエリ (OOV) におい. 5.3.1 BD-DDV における Score DDV 算出の定義式の. ては 0.8 あたりを頂点とする山なりになっており,Baseline. 比較. と比較して大きく改善されている.既知語クエリ・未知語. 各定義式による評価結果を表 4 に,Recall-Precision 曲線. クエリを合わせた結果 (ALL) においても,2 つのスコアを. を図 7 に示す.表 4 中の値は,閾値を変化させて F-measure. 組み合わせることで僅かに改善を示している.これは,分. が最大となったときの値である.また,図 7 は BD-DDV. 布間距離ベクトルが多くの相対的な距離情報を持つため,. における 1 パス目の閾値と,2 パス目のスコア結合重み α. 誤りを含むサブワード対の非類似性を評価する特徴量とし. を調整し,F-measure が最大となったときのパラメータを. てうまく働き,検出性能が向上したためと思われる.なお,. 用いてプロットしている.Score DDV. の. α = 1.0 の場合においても Baseline よりも改善しているこ. Recall の延びが小さいのは,1 パス目の閾値を小さくした. とから,サブワード系列を状態系列に展開した後でのアラ. L1 ,Score DDV L1. (検出候補数を少なくした)際に最善となったため,Recall を 100%まで近付けることができなかった. 評価結果から Score DDV. L1max. を用いた手法が他の定. イメントは有効であることが分かる.. 5.3.3 各手法における性能評価 各手法における性能評価を表 5 に,Recall-Precision 曲. 義式と比べて僅かであるが,高い性能を示した.しかし,. 線を図 9 に示す.また,未知語クエリに対しての検索性能. BD-DDV における 1 パスのみ (サブワードレベルの連続. のみを評価した際の Recall-Precision 曲線を図 10 に示す.. DP マッチング) の手法である Baseline と比較して,DDV. 表 5 より,CM は Baseline や BD-DDV よりも優れた性能. に基づくスコアリングを行うことで大きく性能を改善する. を示した.また,CM は未知語クエリのみに対しても高い. ことができている.. 性能を示していることが図 10 からも読み取れる.この開. 以 降 の BD-DDV 手 法 で は ,Score DDV の 算 出 式 を. 発用セットは,評価セットと比べてリファレンスの音声認. に固定して評価を行う.. 識性能が高いため,サブワード事後確率に基づく検出を行. c 2013 Information Processing Society of Japan ⃝. 6. Score DDV. L1max.
(7) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 80. 100. 75. 90. 70. 80. Baseline(ALL). 65. Baseline(IV). ] 60 [%. Baseline(OOV). 55 値 F 50. BD-DDV(ALL). 45. BD-DDV(IV). 40. BD-DDV(OOV). 35. 70. ] [% 60 no is 50 ic er 40 P. Baseline BD-DDV CM CM+BD-DDV. 30 20 10. 30 0.0. 図 8. 0.2. 0.4. 重みα. 0.6. 0.8. 0. 1.0. 0. 図 10. Recall. Precision. F-measure. ALL. 53.94. 85.87. 66.26. IV. 58.91. 90.60. 71.40. OOV. 38.03. 75.42. 50.57. ALL. 61.02. 82.70. 70.22. IV. 61.12. 91.44. 73.27. OOV. 49.15. 74.19. 59.13. ALL. 58.43. 90.99. 71.16. IV. 62.55. 89.74. 73.72. OOV. 47.44. 95.69. 63.43. ALL. 59.42. 90.30. 71.68. IV. 62.68. 90.43. 74.04. OOV. 60.26. 71.94. 65.58. CM. CM+BD-DDV. 60. 80. 100. 各システムにおける未知語クエリの Recall-Precision 曲線. (開発用セット). 表 5 各手法における性能評価 (開発用セット)[%]. BD-DDV. 40. Recall[%]. スコア結合重み α を変化させた際の F 値の推移. Baseline. 20. 表 6 各手法における性能評価 (評価用セット)[%]. Baseline. BD-DDV. CM. CM+BD-DDV. Recall. Precision. F-measure. ALL. 30.49. 36.25. 33.12. IV. 45.42. 45.92. 45.66. OOV. 13.54. 28.02. 18.26. ALL. 29.10. 58.46. 38.86. IV. 47.38. 58.49. 52.35. OOV. 18.75. 34.22. 24.23. ALL. 29.96. 40.67. 34.50 51.18. IV. 37.77. 79.36. OOV. 17.08. 25.95. 20.60. ALL. 35.08. 55.95. 43.12. IV. 48.25. 69.06. 56.81. OOV. 19.58. 45.19. 27.33. 100 90. 5.4 評価用セットでの評価結果. 80. 開発用セットで調整を行ったパラメータを用いて評価用. 70. Baseline BD-DDV CM CM+BD-DDV. ] [% 60 no sii 50 ce rP 40 30 20. セットで評価実験を行った結果を表 6 に,Recall-Precision 曲線を図 11 に示す.また,未知語クエリに対しての検索 性能のみを評価した際の Recall-Precision 曲線を図 12 に 示す.これらの評価結果から,開発用セットの場合とは異 なり BD-DDV が Baseline や CM よりも優れた性能を示し. 10 0 0. 20. 40. 60. 80. 100. Recall[%]. た.これは,開発用セットよりも評価用セットのリファレ ンスの音声認識性能が悪いため,調整パラメータが開発 セットと評価用セットの違いに影響を受け易くなり,CM. 図 9 各システムにおける Recall-Precision 曲線 (開発用セット). の性能が大きく低下したと思われる.一方,BD-DDV は. CM と比較して音声認識性能の低下による影響が小さく, う CM が良い性能を示したと思われる.一方,BD-DDV. Baseline からの改善が大きいことがわかる.. も未知語クエリのみに対して大きく改善したことがわかる.. 図 10 から,CM は未知語クエリに対して Recall を延ば. そして,組み合わせ手法である CM+BD-DDV は単体. した際の Precision の低下が大ききこともわかる.しかし,. の手法よりも良い性能を示した.図 9 より,CM は低い. 開発用セットで示された検出結果の上位が正解である割. Recall において高い Precision を示している.つまり,検. 合が高いという性質は,評価用セットにおいても現れて. 出結果の上位が正解である割合が高いといえる.そして,. いることが読み取れる.そして,組み合わせ手法である. CM+BD-DDV ではその検出結果の上位候補に対して更に. CM+BD-DDV は,評価用セットに対しても単体の手法よ. BD-DDV でスコア付けすることで,より優れた性能を示. りも良い性能を示した.つまり,音声認識性能が低い条件. すことができた.. においても提案手法は有効であるといえる.. c 2013 Information Processing Society of Japan ⃝. 7.
(8) Vol.2013-SLP-99 No.1 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 参考文献. 100 90. [1]. Baseline BD-DDV CM CM+BD-DDV. 80 70. ] [% 60 no is 50 ic er 40 P 30. [2]. [3]. 20 10. [4]. 0 0. 20. 40. 60. 80. 100. Recall[%]. [5] 図 11. 各システムにおける Recall-Precision 曲線 (評価用セット). [6]. [7]. 100 90. Baseline BD-DDV CM CM+BD-DDV. 80 70. ] % [ 60 no is 50 ic er 40 P 30. [8]. [9]. 20. [10]. 10 0 0. 20. 40. 60. 80. 100. Recall[%]. [11] 図 12. 各システムにおける未知語クエリの Recall-Precision 曲線. (評価用セット). [12]. 6. おわりに. [13]. 本稿では,先行研究で提案した分布間距離ベクトルとい う構造的特徴表現に基づく検出手法と,サブワード事後確. [14]. 率に基づく検出手法を併用することで性能の改善を行った.. NTCIR10 SpokenDoc-2 SDPWS(moderate-size) タスク formal-run テストコレクションに対する評価実験では,連. [15]. 続 DP マッチングのみを用いる Baseline が F 値 33.12 であ るのに対して,提案システムは F 値 43.12 と大きく改善さ せることができた.また,分布間距離ベクトルに基づく検. [16]. 索手法では F 値 38.86,サブワード事後確率に基づく検索 手法では F 値 34.50 と,単独の手法においても Baseline よ りも改善され,特に分布間距離ベクトルに基づく検索手法 は未知語クエリに対しても大きな改善を示した.. [17]. 滝上, 他:“音声検索語検出を前処理に用いた未知語や認 識誤りに頑健な音声ドキュメント検索”, 情報処理学会論 文誌, Vol.54, No.2, pp.1-12 (2013). 西崎博光, 他:“Spoken Term Detection のためのテスト コレクション構築とベースライン評価”, 情報処理学会研 究報告, Vol.2010-SLP-81, No.13 (2010). Tomoyosi Akiba, et al.:“Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop”, Proc. of 9th NTCIR Workshop Meeting, pp.223-235 (2011.12.6-9). Tomoyosi Akiba, et al.:“Overview of the NTCIR-10 SpokenDoc-2 Task,” Proc. of the 10th NTCIR Workshop Meeting, (2013). 秋葉友良:“音声ドキュメント検索の現状と課題”, 情報処 理学会研究報告, Vol.2010-SLP-82, No.10 (2010). 石見, 他:“音声ドキュメント検索のための音節ラティス の拡張と n-gram 索引の削減手法”, 情報処理学会研究報 告, Vol.2011-SLP-89, No.5 (2011). 勝浦, 他:“複数認識結果を用いて構築した Suffix Array に 対する音声検索語検出”, Vol.2012-SLP-94, No.15, pp.1-6 (2012). 岩見圭介, 他:“距離付き n-gram インデックスによる認 識誤りと未知語に頑健な高速検索法”, 情報処理学会研究 報告, Vol.2010-SLP-83, No.3 (2010). 中川聖一, 他:“音声ドキュメントに対する未知語に頑健 な検索手法の検討”, 音声ドキュメント処理ワークショッ プ講演論文集 3, pp.7-14 (2009.2.27). M.Wechsler, et al.:“New Techniques for OpenVocabulary Spoken Document Retrieval”, Proceedings of the 21st Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp.20-27 (1998). Naoki Yamamoto, Atsuhiko Kai : “Using Acoustic Dissimilarity Measures Based on State-level Distance Vector Representation for Improved Spoken Term Detection,” Proc. of APSIPA ASC 2013, (2013.10). 朝川 智 , 峯松信明 , 広瀬啓吉:“音声の構造的表象に基づ く英語学習者発音の音響的分析”, 電子情報通信学会論文 誌, Vol.J90-D, No.5, pp.1249-1262 (2007). 村上隆夫 , 峯松信明 , 広瀬啓吉:“音声の構造的表象に基 づく日本語孤立母音系列を対象とした音声認識”, 電子情 報通信学会論文誌.Vol.J91-A, No.2, pp.181-191 (2008). A.Muscariello, et al.:“Zero-resource audio-only spoken term detection based on a combination of template matching techniques”, Proceedings of INTERSPEECH 2011, pp.921-924 (2011). Lee. H, et al.: “Open-Vocabulary Retrieval of Spoken Content with Shorter/Longer Queries Considering Word/Subword-based Acoustic Feature Similarity,” Proceedings of Interspeech (2012). 国立国語研究所:“日本語話し言葉コーパス”, http://www.kokken.go.jp/katsudo/seika/corpus/ (2004). Hiromitsu Nishizaki, et al. :“Spoken Term Detection Using Multiple Speech Recognizers’ Outputs at NTCIR9 SpokenDoc STD subtask”, Proceedings of NTCIR-9 Workshop Meeting, pp.236-241 (2011.12.6-9).. 今後の課題として,検索の高速化やシステムパラメータ の自動推定が挙げられる.前者については,これまでに音 節ラティスの n-gram を検索用インデックスとする等によ る高速化手法が提案されており [9],このようなインデキシ ングによる高速化手法との併用は容易に実現できると考え ている.. c 2013 Information Processing Society of Japan ⃝. 8.
(9)
図
関連したドキュメント
ゼオライトが充填されている吸着層を通過させることにより、超臨界状態で吸着分離を行うもので ある。
基本波を用いる近似はピクセル単位の時間放射能曲線に対しては用いることができる
Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC
最後に要望ですが、A 会員と B 会員は基本的にニーズが違うと思います。特に B 会 員は学童クラブと言われているところだと思うので、時間は
本検討で距離 900m を取った位置関係は下図のようになり、2点を結ぶ両矢印線に垂直な破線の波面
FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの
現時点の航続距離は、EVと比べると格段に 長く、今後も水素タンクの高圧化等の技術開
⑥同じように︑私的契約の権利は︑市民の自由の少なざる ⑤