Top-down,bottom-up及びLDA手法に基づく音韻HMM のクラスタリング
2
0
0
全文
(2) 2010 年度 修士論文要旨. TopTop-down, down,bottombottom-up 及び LDA 手法に基づく 音韻 HMM のクラスタリング 関西学院大学大学院 理工学研究科 情報科学専攻 川端研究室 宮垣 諒一 大語彙連続音声認識では音韻を認識単位とし,HMM(Hidden Markov Model)を作り学 習することが一般的である.また音韻の音響的特徴はその音韻の先行・後続音韻などによっ て大きく変化することが知られ,その 3 音韻連鎖であるトライフォンを使用することでより 正確な音響スコアを求めることができる. しかし,トライフォンには膨大な種類が考えられるため,学習データ中に十分な個数のト ライフォンが含まれない状況が起こりうる.学習データに現れないトライフォンは原理的に 認識できず,また出現回数が少なければ HMM の信頼性が低下するという問題が起きる. この問題を解決するために,いくつかのトライフォンをグループ化(クラスタリング)し, 一つの HMM を学習することによってモデル数を削減する手法が研究されてきた. 例えば, 音韻文脈に基づくトップダウン的な情報を用いてクラスタリングを行う TBC(Tree Based Clustering)が有名である. 本研究では音響モデルの精度を従来よりも向上させるため,適切なトライフォンのクラス タリング方法を 2 つ提案した.一つ目は,音韻文脈に基づくトップダウン的手法及び音響的 に類似するトライフォンをまとめ上げるボトムアップ的手法を併用した方法である.トップ ダウンクラスタリングでは音響的に類似したトライフォンが同じクラスタ内にあるとは限 らない.そこで音響的に類似するトライフォンを探し,それらを一つクラスタとするボトム アップ的音韻クラスタリング手法をトップダウン的手法に組み合わせる方式を提案した.こ の手法を用いた音声認識実験では,TBC のみでの実験結果よりも良い認識性能が得られた. またクラスタを作る際のリンク数によっても認識結果は変動することから,さらに優れたク ラスタ生成方法があるのではないかと考えられる. 二つ目は,文書クラスタリングでよく利用される LDA(潜在的ディリクレ配分法,Latent Dirichlet allocation)を音韻クラスタリングに適用する方法である.音韻クラスタリングの 構造に着目すると,トライフォンの各状態やクラスタをノード,データの共有関係をリンク とするネットワーク構造であることが分かる.本研究ではネットワーク構造に基づいて各ト ライフォンの状態を自動的にクラスタに割り当てる手法として,LDA の適用を考えた。こ の手法では LDA の単語に対応する確率ベクトルߚをトピックとトライフォンの状態に対応 させ,その初期化の検討を様々な条件で行った.また変分 EM 法を用いてパラメータ推定 を行った.LDA クラスタリングを利用した音声認識実験では TBC のみの結果よりも精度が 向上し,また初期パラメータߚに最適な設定方法があることが示唆された..
(3)
関連したドキュメント
奈良先端科学技術大学院大学 Nara Institute of Science and Technology, Nara 630-0192, Japan 国際電気通信基礎技術研究所 ATR Intelligent Robotics
BIC に基づくクラスタリングの結果と KL 距離に基づく クラスタリングによる結果を比較すると,ほぼ同数のモ
概要:近年,深層学習によるニューラルネットを用いることにより,音声認識システムの大幅な性能向上が 得られることが示されている.本研究では
3 つ目の比較手法は PCA による次元圧縮によって生成さ れた主成分の内,第一主成分のみを HMM に用いる HMM 手法(PCAfpi -HMM
Keywords: Peer-to-Peer P2P, live streaming, chunk scheduling method, chunk diffusion ratio.. 慶應義塾大学大学院理工学研究科 Graduate School of Science and
学習者が朝鮮語の音韻現象の仕組みを理解したうえで発音変化を習得できるようにするために
の関連の発達的変化、ならびに読み困難児10名(小・
概要:近年,音声認識にディープニューラルネットワークを用いることで,従来手法である