• 検索結果がありません。

サーベイ資料pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "サーベイ資料pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

DNN-HMM -HMM

う い ?

2013/02/21 談話会

増村 亮

(2)

 Deep Neural Network

一般的 MLP( 中間層 1 )

中間層 深ーいニューラルネット

• Pre-Training

誤差逆伝搬法 勾配 伝搬し い問題 解決

計算量 GPU 利用可能

あ 多層パーセプトロン 延長、

識別モデル あ 変わ い

音声認識 識別モデル 簡単 ほ

単純 い

(3)

• DNN-HMM

– LVCSR 使わ

根本的 疑問

識別モデル DNN 、生成モデル

HMM う関わ ?理論的 位置

識別モデル 音響モデル 過去 大庭 教え

研究 LWLM HMM 仲間

ニューラルネットベー 言語モデル 最近勉強し

理解 、様々 ( 自然言語処理等 ) 使え

音響モデル

⇒ 調査 至 種々 理由

(4)

HMM MLM

a. Hidden Markov Model

b. Multi Layer Perceptron

c. 両者 不整合性

HMM MLP ブリッド プローチ

a. Discriminant HMM

b. モデル学習

c. 音声認識 デコーデ

d. 報告 性能

e. 関連研究

(5)

HMM MLP

(6)

Hidden Markov Model

� � �

� �|� ; � � �|� ; � � �|� ; �

� � |� ; � � � |� ; � � � |� ; �

� � |� ; � � � |� ; �

典型的 生成モデル プローチ

( )3 状態音素モデル

� � = � �

; � � �

|�

�−

; �

� �

考え得 全ての状態系列の総和

a いう音素 モデル ( �= a )

モデル 程度生成し う モデル化

� = � , � , � , � , � , �

(7)

HMM 利点

時系列モデリン 適し

音素

学習時 認識時 音素境界 自動決定

マルコフ連鎖し

 � �

�−

; �

入力ベ トル コンテ ト情報 使え

 � �

; �

 HMM � 独立性 考え

混合 分布 パラメトリッ モデル化

縛 、識別学習 限界 あ

利点

(8)

Multi Layer Perceptron

典型的 識別モデル プローチ

( ) 音素認識器

� � |�

� � |�

� � |�

入力層 中間層 出力層

中間層

� = + exp⁡−�

出力層

= exp⁡ −�exp⁡ −�

あ 入力ベ トル 音素 直接モデル化

ソフトマッ

(9)

MLP 利点

直接的 識別問題 解い

特別 パラメトリッ 分布 考え 必要

結構自由

 � 独立性 モデル制約 、自由 特徴設計

利点

時系列 扱う 難しい

音素境界 決定 枠組

MLP HMM

補完 う 分

(10)

HMM MLP 不整合性

� �|�

� � |�

モデル化し 方向

HMM (GMM ) モデル化し

⇒ 生成モデル

MLP モデル化し

⇒ 識別モデル

Links between hidden Markov models and multilayer perceptrons (Bourlard. et al, 1990.)

MLP HMM ブリッド プローチ 提案

(11)

MLP HMM

ハ ブリッド プローチ

(12)

本 デ

� �|� ; � � �|� ; � � �|� ; �

� � |� ; � � � |� ; � � � |� ; �

� � |� ; � � � |� ; �

� �

Discriminant HMM

入力ベ トル 事後確率 直接

形 、 HMM い 作

(13)

Discriminant HMM モデル定義

� � = � �, �⁡

音素に対す

考え得 全ての状態系列

 HMM 状態系列 考慮し

直接 � �

� � � �

� |� = � �, ⁡ �

普通 HMM

� �

= 事後確率 直接求

対し 周辺化 1

� �

尤度し 得 い

(14)

Discriminant HMM モデル定義

� �, �⁡ = � � �, ⁡� �|

� � = � �, �⁡

X S 経路

時点 、 M あ 確率 1.0

� � = , , , = � , � , , �

= P P , P , , , ,

= � , �

�=

識別モデル 連鎖

, � =

(15)

Discriminant HMM モデル定義

� � = � �, �⁡

= �

, �

�=

状態 識別モデル 合わ

事後確率 構成

対し 周辺化し

� �

= �

, �

�=

��

=

あらゆ 音素 に対す 考え得 全ての状態系列

, � モデル化

様々 形 考え ⇒ MLP 利用

(16)

Discriminant HMM モデル定義

� �

= �

, �

�=

��

=

あ 音素モデル 3 状態、音素モデル 種類 43

43*3 状態 識別 確率的識別モデル 構成

結局 識別モデル 利用

⇒ 音素 状態 識別 モデル

使え 識別モデル

出力層 ソフトマッ 関数

ニューラルネット全般

回帰

多値分類 確率 出力

(17)

識別モデル モデル化方法

様々 モデル

, � = � |�

, � = � |� , �−

, � = � |� �− , � �− , � , � �+ , � �+

, � = � , �− = � ⁡ � | �−

, � = � �− , � �− , � , � �+ , � �+ , �−

= � |� �− , � �− , � , � �+ , � �+ | �−

一般的 う 形 DNN-HMM 利用し い

(18)

MLP 使 一般的 枠組

�,

�,

�,�

中間層

出力層 ℎ

� ,

� ,

� ,

�−

�− ,

�− ,

�− ,�

�+

�+ ,

�+ ,

�+ ,�

� ,

� ,

|��− , �, ��+

� | , �

� | , �

MLP 計算

ML推定値

(19)

ハ ブリッド プローチ 学習

通常 HMM 同様、学習データ

状態系列 未知 計算 必要 あ

⇒ 一般的 ビタビパ 使 モデル学習 行う

※ 全体(Baum-Welch) 行え

リフ レン 0-1 、期待値

期待値 対し 、識別モデル 学習し い ?

Deep 場合 Pre-training 必要 し謎多し?

� � � � MLP

� � � � MLP

各音素 隠 状態 、様々 バリエー ョン 考え

(20)

ハ ブリッド プローチ 学習

初期 状態系列 GMM-HMM 使 計算

� � � � MLP

GMM-HMM 最尤パ 決定

決定し パ リフ レン し MLP 学習

[ , , ]=[ , , ]

[ , , ]=[ , , ]

[ , , ]=[ , , ]

[ , , ]=[ , , ]

[ , , ]=[ , , ]

状態遷移確率 ML or MAP 推定

� = .5

� = .5

� = .5

� = .5

� =

初期状態 終了状態 確率

、状態生起確率

デコーデ ン 時 使用

� = � ⁡m�x

� �, �⁡

(21)

ハ ブリッド プローチ 学習

学習し モデル ビタビパ 決定

パラメータ 再学習 繰 返

非線形 識別モデル 過学習 起 い

⇒ 開発データ 用い 、学習 終了 見 べ

DNN-HMM 場合

ビタビパ 決定 後、 Pre-Training

パラメータ推定 行う 特段変わ い

状態共有構 Context-Dependent モデル

※ ハ ブリッド プローチ 、

GMM-HMM 小細工 利用可能

(22)

音声認識 デコーデ ン

モデル 使

音声認識全体 生成モデル 形

= � ⁡m�x � | ∝ � ⁡m�x � �

言語モデル 音響モデル

音素レベル 落

� |� = � �, ⁡ �

≅ m�x

� �, ⁡ �

デコーデ ン 時 ビタビ

� � = , … , , ⁡ � = �

� �−

� �

|

�=

(23)

音声認識 デコーデ ン

 Discriminant HMM

� � = , … , , ⁡ � = �

� �−

� �

|

�=

= �

� �−

� �

�= �

� �−

�= �

MLP 確率

状態 出現確率

状態遷移確率

※初期 研究 部分 無視し

最近 部分 計算し ほう

良い 模様

(24)

報告 い 性能

ロソフト 最近 報告

(George. et al, 2011.)

層の数 開発 Acc テスト Acc

GMM-HMM(ML) 62.9 60.4

GMM-HMM(MPE) 65.5 63.8

MLP-HMM 1 68.1 -

DNN-HMM 5 71.8 69.6

初期 研究 、ML推定 2,3ポ ント勝 過 、

学習データ量 あ 程度得 現在 、

1990 提案 MLP-HMM 程度性能

近年発展し DNNMLP 性能 上

(25)

関連研究

タンデム プローチ:

フロントエンド 特徴抽出器 し MLP 利用

(H.Helmansky, et.al , 2000.)

ブリッド プローチ 一旦諦

モデル自体 GMM-HMM

近年 大量 研究あ

ICASSP2012

話者認識等 使わ い 印象

(26)
(27)

• DNN-HMM 礎概念 1990 提案

し 眠 後 、再び脚光 浴び !!

過去 研究 、面白い方法 いあ

データ 十分 あ 、計算機 高 今 、

活 技術 埋 い

サーベ 通し DNN-HMM ベー

音声認識 実用レベル し い 痛感、

MLP レベル (1 ) CPU 学習、

デコーデ ン 余裕 動

ニューラルネットベー 言語モデル

結構調査し 、い 機会 !!

参照

関連したドキュメント

章番号 ページ番号 変更後 変更前 変更理由.. 1 補足説明資

章番号 ページ番号 変更後 変更前

エリアP 雑固体廃棄物 焼却設備 処理設備     瓦礫保管エリア     伐採木保管エリア

3R・適正処理の促進と「持続可能な資源利用」の推進 自然豊かで多様な生きものと 共生できる都市環境の継承 快適な大気環境、良質な土壌と 水循環の確保 環 境 施 策 の 横 断 的 ・ 総

3R・適正処理の促進と「持続可能な資源利用」の推進 自然豊かで多様な生きものと 共生できる都市環境の継承 快適な大気環境、良質な土壌と 水循環の確保 環 境 施 策 の 横 断 的 ・ 総

3R・適正処理の促進と「持続可能な資源利用」の推進 自然豊かで多様な生きものと 共生できる都市環境の継承 快適な大気環境、良質な土壌と 水循環の確保 環 境 施 策 の 横 断 的 ・ 総

相談者が北海道へ行くこととなっ た。現在透析を受けており、また車

3R・適正処理の促進と「持続可能な資源利用」の推進 自然豊かで多様な生きものと 共生できる都市環境の継承 快適な大気環境、良質な土壌と 水循環の確保 環 境 施 策 の 横 断 的 ・ 総