DNN-HMM -HMM
う い ?
2013/02/21 談話会
増村 亮
え
Deep Neural Network
– 一般的 MLP( 中間層 1 層 )
中間層 深ーいニューラルネット
• Pre-Training 、
誤差逆伝搬法 勾配 伝搬し い問題 解決
• 計算量 増 、 GPU 利用可能
あ 多層パーセプトロン 延長、
識別モデル あ 変わ い
音声認識 識別モデル 簡単 ほ
単純 い
え
• DNN-HMM
– LVCSR 使わ 形
根本的 疑問
識別モデル あ DNN 、生成モデル あ
HMM う関わ い ?理論的 位置 ?
識別モデル 音響モデル 過去 大庭 教え い
研究 LWLM 、 HMM 仲間
ニューラルネットベー 言語モデル 最近勉強し
理解 、様々 ( 自然言語処理等 ) 使え 気
音響モデル い
⇒ 調査 至 種々 理由
目
HMM MLM
a. Hidden Markov Model
b. Multi Layer Perceptron
c. 両者 不整合性
HMM MLP ハ ブリッド プローチ
a. Discriminant HMM
b. モデル学習
c. 音声認識 デコーデ ン
d. 報告 い 性能
e. 関連研究
HMM MLP
Hidden Markov Model
� � �
� �|� ; � � �|� ; � � �|� ; �
� � |� ; � � � |� ; � � � |� ; �
� � |� ; � � � |� ; �
典型的 生成モデル プローチ
( 例 )3 状態音素モデル
� � = � �
��
�; � � �
�|�
�−; �
�
� � � � � �
�
考え得 全ての状態系列の総和
a いう音素 モデル ( �= a ) 、
モデル � 程度生成し う モデル化
� = � , � , � , � , � , �
HMM 利点 点
時系列モデリン 適し い
音素 長 吸
学習時 認識時 音素境界 自動決定
一 マルコフ連鎖し 見 い い
� �
�−�
�; �
入力ベ トル コンテ ト情報 使え い
� �
��
�; �
HMM � 独立性 考え い
混合 ウ 分布 パラメトリッ モデル化
縛 、識別学習 限界 あ
利点
点
Multi Layer Perceptron
典型的 識別モデル プローチ
( 例 ) 音素認識器
�
�
�
��
� � |�
� � |�
� � |�
入力層 中間層 出力層
中間層
ℎ
ℎ
ℎ�
�
�
�
� = + exp−�
出力層
�� = exp −�exp −��
�
��
あ 入力ベ トル � 音素 直接モデル化
ロ テ ッ モ ド
ソフトマッ
MLP 利点 点
直接的 識別問題 解い い
特別 パラメトリッ 分布 考え 必要 い
結構自由
� 独立性 モデル制約 、自由 特徴設計
利点
点
時系列 扱う 難しい
音素境界 決定 枠組 い
MLP 点 HMM
補完 う 分
HMM MLP 不整合性
� �|�
� � |�
モデル化し い 方向 逆
HMM 中 (GMM ) モデル化し い
⇒ 生成モデル
MLP モデル化し い
⇒ 識別モデル
Links between hidden Markov models and multilayer perceptrons (Bourlard. et al, 1990.)
MLP HMM ハ ブリッド プローチ 提案
MLP HMM
ハ ブリッド プローチ
本 デ
� � �
� �|� ; � � �|� ; � � �|� ; �
� � |� ; � � � |� ; � � � |� ; �
� � |� ; � � � |� ; �
� � � � � �
�
Discriminant HMM
入力ベ トル 対 事後確率 直接 映
形 、 HMM い 作
�
Discriminant HMM モデル定義
� � = � �, �
�
あ 音素�に対す考え得 全ての状態系列
HMM 的 隠 状態系列 考慮し
直接 � � 求
� � �
� � � � �
� |� = � �, �
�
普通 HMM
� � �
�
= 事後確率 直接求 い 、
� 対し 周辺化 1 !
� �
尤度し 得 い
Discriminant HMM モデル定義
� �, � = � � �, � �|
� � = � �, �
�
X S 経路 通 決
時点 、 M あ 確率 1.0
� � = , , , = � , � , , �
= P P , P , , , , −
= � � , � �
�=
識別モデル 連鎖
� � , � � =
��
Discriminant HMM モデル定義
� � = � �, �
�
= �
�, �
��=
�
状態 関 識別モデル 組 合わ 、
事後確率 構成
あ � 対し 周辺化し
� �
��
= �
�, �
��=
���
=
あらゆ � 音素 に対す 考え得 全ての状態系列
� � , � � モデル化 第 、
様々 形 考え ⇒ MLP 利用
Discriminant HMM モデル定義
� �
��
= �
�, �
��=
���
=
あ 音素モデル 3 状態、音素モデル 種類 43 、
43*3 状態 識別 確率的識別モデル 構成
結局 識別モデル 利用 ?
⇒ 音素 状態 識別 モデル
使え 識別モデル
出力層 ソフトマッ 関数 し
ニューラルネット全般
他 ラ ロ テ ッ 回帰
多値分類 確率 し 出力 ?
識別モデル モデル化方法
様々 モデル 置
� � , � � = � � |� �
� � , � � = � � |� � , �−
� � , � � = � � |� �− , � �− , � � , � �+ , � �+
� � , � � = � � � � , �− = � � � � � � | �−
� � , � � = � � � �− , � �− , � � , � �+ , � �+ , �−
= � � |� �− , � �− , � � , � �+ , � �+ � � | �−
一般的 う 形 DNN-HMM 利用し い
MLP 使 一般的 枠組
� �
��,
��,
��,�
中間層
出力層 ℎ
ℎ
ℎ�
� ,
� ,
� ,
� �−
��− ,
��− ,
��− ,�
� �+
��+ ,
��+ ,
��+ ,�
� ,
� ,
�
��
� �|��− , ��, ��+
� | , �
� | , �
MLP 計算
ML推定値
ハ ブリッド プローチ 学習
通常 HMM 同様、学習データ 対
状態系列 未知 計算 必要 あ
⇒ 一般的 ビタビパ 使 モデル学習 行う
※ 全体(Baum-Welch的) 行え い い 、
リフ レン 0-1 、期待値 大 う
期待値 対し 、識別モデル 学習し い ?
Deep 場合 Pre-training 必要 し謎多し?
� � � � � MLP
� � � � � MLP
各音素 隠 状態 、様々 バリエー ョン 考え
ハ ブリッド プローチ 学習
初期 状態系列 GMM-HMM 使 計算
� � � � � MLP
GMM-HMM 最尤パ 決定
決定し パ リフ レン し MLP 学習
� [ , , ]=[ , , ]
� [ , , ]=[ , , ]
� [ , , ]=[ , , ]
� [ , , ]=[ , , ]
� [ , , ]=[ , , ]
状態遷移確率 ML or MAP 推定
� = .5
� = .5
� = .5
� = .5
� =
※ 初期状態 終了状態 確率
し 、状態生起確率� � 求
デコーデ ン 時 使用
� = � m�x
� � �, �
�
ハ ブリッド プローチ 学習
後 学習し モデル ビタビパ 決定
パラメータ 再学習 繰 返
非線形 識別モデル 過学習 起 い
⇒ 開発データ 用い 、学習 終了 見 べ
DNN-HMM 場合
ビタビパ 決定 後、 Pre-Training 行
パラメータ推定 行う 特段変わ い
状態共有構 Context-Dependent モデル
※ ハ ブリッド プローチ 、
GMM-HMM 小細工 利用可能
音声認識 デコーデ ン
モデル 使 、
音声認識全体 生成モデル 形
= � m�x � | ∝ � m�x � �
言語モデル 音響モデル
音素レベル 落
� |� = � �, �
�
≅ m�x
�� �, �
デコーデ ン 時 ビタビ
� � = , … , , � = �
� �−� �
�|
��=
音声認識 デコーデ ン
Discriminant HMM 形 直
� � = , … , , � = �
� �−� �
�|
��=
= �
� �−�
�� �
�� �
��= �
∝ �
� �−� �
��
��= �
MLP 求 確率
状態 出現確率
状態遷移確率
※初期 研究 部分 無視し い 、
最近 部分 計算し ほう
良い 示 い 模様
報告 い 性能
マ ロソフト 最近 報告
(George. et al, 2011.)
隠 層の数 開発 Acc テスト Acc
GMM-HMM(ML) 62.9 60.4
GMM-HMM(MPE) 65.5 63.8
MLP-HMM 1 68.1 -
DNN-HMM 5 71.8 69.6
初期 研究 、ML推定 2,3ポ ント勝 過 、
学習データ量 あ 程度得 現在 、
1990年 提案 、MLP-HMM あ 程度性能 得
近年発展し DNN 、MLP 性能 上