サーベイ資料pdf 最近の更新履歴 Ryo Masumura: Web

(1)

(2)

識別的言語モデル (Discriminative LM)

○ 識別モデル言語モデル

△ 言語モデル識別学習

※ 通常識別学習生成モデル学習手法指

^多 ^、 N-gram ^識別学習 ^い ^勘違い ^う

メヸ

生成モデル生成複数仮説対、リン行う

生成モデル

( ^通常 ^認識 )

1^位仮説 : 1^位

N^位仮説 : N^位

ヷヷヷ

識別モデル

(DLM)

1^位仮説 : 1^位

N^位仮説 : N^位ヷヷヷ

生成モデル後段使う、リランキンモデル (Reranking Models)

や誤訂正モデル (Error Corrective Models) ^呼

(3)

求基本式

識別的言語モデル ㆁ組

識別モデル

(DLM)

入力文書

( ^認識時

あ仮説 ₎

ういう時

大値与え、

ういう時い値

与え _DLM ポント

素性ベトル

入力文書

表現ベトル

ベトル

各要素

表現ベトル

ポント

素性ベトル構成

入力文書表現ベトル

う特徴入？

ベトル学習方法

ベトルう

ンプト学習？

※ 、対数線形モデル

^や CRF ^確率表現 ^い

(4)

識別モデル

生成モデル ₍ 通常音声認識 ₎

う書、生成モデル部分

線形モデル組込、いい！！

うリランキン音声認識、

いう複数仮説リト対、

認識結果決定い

(5)

(6)

自然言語処理分

文書ベトル (Document vector)

呼自由表現型

自由構成

単語素性 _(1-gram 素性 ₎ 、

2-gram ^素性、 3-gram ^素性、

品詞素性、音素素性

要素 ₍ 特徴 ₎ 使う？

要素値何使う？

ブヸリン _(0,1) 、頻度

機械学習分、素性ベトル

テキト書出感通例

( ^例 ) 20:1 24:4 700:2 773:1

次元 _: 値

( ^実用例 ) SVM ^、パヸ ^プトロン

(7)

素性ベトル各要素

対あ、

モデルパラメヸタあ

学習手法ンプト多種多様構成可能

例 ₎ 回帰分析

説明変数線形和解出、

学習 ₂ 乗誤差最少基準

例 _{) SVM}

値分類説明変数線形和正負値表、

学習マヸン最大化基準

(8)

 ^通常 ^N-gram ^、

考慮いい特徴考慮与え

 ^通常 ^N-gram ^、

違うンプト言語的正解う測

⇒ 品詞情報や音素情報簡単考慮可能

⇒ 通常音声認識起やい誤、

^実際 ^正解 ^違い ^モデル化

(9)

(10)

ベトル！

前述いヷヷヷ

(11)

1位仮説 : 1位

N^位仮説 : N^位ヷヷヷ

音声

ヷヷヷ

音声

1^位仮説 : 1^位

N位仮説 : N位

ヷヷヷ

^ヷヷヷ

音声

1位仮説 : 1位

N位仮説 : N位

様々音声 _{( 1} _{– M )} 対音声認識行、

複数仮説 _{( 1 - I )} 用意、学習

数式的書

I ^種類 ^音声 ^リ ^ト ^あ

I ^番目 ^リ ^ト ^仮説数

ㄥ位 _N _i あ

(12)

音声

1位仮説 : 1位

N位仮説 : N位

ヷヷヷ

正解仮説 _{or WER} 最い仮説正ラベル

け、そ ㆂ 負ラベルけ学習

×_(-1)

○(1)

利用可能一般的値分類器

 ^パヸ ^プトロン ^ル ^リ ^ム

 Online Passive Agrressive ^ル ^リ ^ム

バッチルリム学習

時間、

オンランルリム主流

立派識別的言語モデルモデル学習！

2^位仮説 : 2^位

ヷヷヷ

×_(-1)

3^位仮説 : 3^位

×(-1)

音声 ₁

1位仮説 : 1位

N位仮説 : N位

×(-1)

×(-1) 2位仮説 : 2位

ヷヷヷ

×(-1)

3位仮説 : 3位

○(1)

音声 _M

1位仮説 : 1位

N位仮説 : N位

×(-1)

×(-1) 2位仮説 : 2位

ヷヷヷ

○(1)

3位仮説 : 3位

×(-1)

(13)

要度 _WER 入、

柔軟モデル学習行う

オリナル損失関数定義、

モデル学習行う可能

ヷヷヷ

音声 ₁

1位仮説 : 1位

N位仮説 : N位

×(75%)

×(33%) 2位仮説 : 2位

ヷヷヷ

×(25%)

3位仮説 : 3位

○(0%)

音声 _M

1位仮説 : 1位

N位仮説 : N位

×(50%)

×(20%) 2位仮説 : 2位

ヷヷヷ

○(0%)

3位仮説 : 3位

×(15%)

音声

1位仮説 : 1位

N位仮説 : N位

×(25%)

○(3%) 2位仮説 : 2位

ヷヷヷ

×(8%)

3位仮説 : 3位

×(15%)

1 or -1 ^連続値 ^代わ ^い ^点 ^値分類器 ^大 ^異

(14)

(15)

誤訂正学習 Error Correcting Learning

2 ^値分類器 ^場合 ^学習

初期定基本的適当

全学習デヸタ ₍₁ ～ _i ～ _N) 対、収束繰返

- if ^現在 ^正 ^識別 ^ヷヷヷ

- else if ^{正例デヸタ} ^、現在 ^負例 ^間違え ^ヷヷヷ

- else if ^{負例デヸタ} ^、現在 ^正例 ^間違え ^ヷヷヷ

更新幅制御パラメヸタ

(16)

要度利用場合学習

初期定基本的適当

^収束 ^繰 ^返

-1 ^{全学習デヸタ} (1 ^～ i ^～ N) ^中 ^{代表対立素性} ^決

最大

-2 ^更新

- If ^ヷヷヷ

正解対立差考えけ、基本誤訂正学習

要度 _(WER)

更新幅制御パラメヸタ

正解素性

対立素性

(17)

(18)

線形和 _- ∞ ₊ ∞ 、

指数関数乗必正値

嬉い

 ^正 ^値 ^、足 ^足 ^ほ ^大

⇒ 目的関数最問題非常便利

 ^確率 ^扱う枠組 ^変更

※ 特段話い、ロテッ回帰モデル

最大エントロピヸモデル関係分完璧

線形和指数関数乗意味？

(19)

目的関数

正則化項

モデルパラメヸタ

局所最適陥い

工夫、 _L1 正則化や

L2 ^正則化 ^え

望い

目的関数、損失決累計い

式解大抵、最急降ㄦ法や準ニュヸトン法使う

簡単損失：正解文差

(20)

(21)

Reranking Boosting (RB)

要度付、線形和指数関数乗加算い

要度 _(WER) 対数

Weighted Global Conditional Log-linear Model

(WGCLM)

※ _log 理由増村存、

^気 ^方 ^大庭 ^聞 ^い

(22)

対立素性正解素性

(23)

Minimum Error Rate Training(MERT)

要度 _(WER) ^対数

対数 _-best 和

ハパヸパラメヸタ

(面倒無視

いヷヷヷ₎

WGCLM ^比べ ^、

過学習い目的関数あ

分母多数項構成い

(24)

対立素性

平均的

対立素性

(25)

Round-Robin Duel Discrimination(R2D2)

要度 _(WER)

対数

比較！！

いう忙い目的関数

先ほ Σ 回数回増えいヷヷヷ

(26)

、全部比べ！！！！

(27)

(28)

(29)

増村勝手考え識別的言語モデル学習手法

問題一般化考え、

実識別的言語モデル固執い

( ^ㄥ記 ^目的関数 ^{リランキン} ^良い ^分 ^い )

(30)

(31)

サーベイ資料pdf 最近の更新履歴 Ryo Masumura: Web

識別的言語モデル (Discriminative LM)

○ 識別モデル 言語モデル

△ 言語モデル 識別学習

※ 通常 識別学習 生成モデル 学習手法 指

多 、 N-gram 識別学習 い 勘違い う

メヸ

生成モデル 生成 複数仮説 対 、 リン 行う

生成モデル

( 通常 認識 )

識別モデル

(DLM)

生成モデル 後段 使う 、リランキン モデル (Reranking Models)

や誤 訂正モデル (Error Corrective Models) 呼

求 基本式

識別的言語モデル ㆁ組

識別モデル

(DLM)

入力文書

( 認識時

あ 仮説 )

ういう時

大 値 与え、

ういう時 い値

与え DLM ポ ント

素性ベ トル

入力文書

表現 ベ トル

ベ トル

各要素

表現 ベ トル

ポ ント

素性ベ トル 構成

入力文書 表現 ベ トル

う 特徴 入 ？

ベ トル 学習方法

ベ トル う

ン プト 学習 ？

※ 、対数線形モデル

や CRF 確率表現 い

識別モデル

生成モデル ( 通常 音声認識 )

う 書 、生成モデル 部分

線形モデル 組 込 、 いい！！

う リランキン 音声認識 、

いう複数仮説リ ト 対 、

認識結果 決定 い

自然言語処理 分

文書ベ トル (Document vector)

呼 自由表現型

自由 構成

単語素性 (1-gram 素性 ) 、

2-gram 素性、 3-gram 素性、

品詞素性、音素素性

要素 ( 特徴 ) 使う？

要素 値 何 使う？

ブヸリ ン (0,1) 、頻度

機械学習分 、素性ベ トル

テキ ト 書 出 感 通例

( 例 ) 20:1 24:4 700:2 773:1

次元 : 値

( 実用例 ) SVM 、パヸ プトロン

素性ベ トル 各要素

対 あ 、

モデルパラメヸタ あ

学習手法 ン プト 多種多様 構成可能

例 ) 回帰分析

説明変数 線形和 解 出 、

学習 2 乗誤差最少基準

例 ) SVM

値分類 説明変数 線形和 正負 値 表 、

学習 マヸ ン最大化基準

 通常 N-gram 、

考慮 い い特徴 考慮 与え

 通常 N-gram 、

違う ン プト 言語的 正解 う 測

⇒ 品詞情報や音素情報 簡単 考慮可能

⇒ 通常 音声認識 起 や い誤 、

実際 正解 違い モデル化

ベ トル！

○ 識別モデル言語モデル

△ 言語モデル識別学習

※ 通常識別学習生成モデル学習手法指

^多 ^、 N-gram ^識別学習 ^い ^勘違い ^う

生成モデル生成複数仮説対、リン行う

( ^通常 ^認識 )

生成モデル後段使う、リランキンモデル (Reranking Models)

や誤訂正モデル (Error Corrective Models) ^呼

求基本式

( ^認識時

あ仮説 ₎

大値与え、

ういう時い値

与え _DLM ポント

素性ベトル

表現ベトル

ベトル

表現ベトル

ポント

素性ベトル構成

入力文書表現ベトル

う特徴入？

ベトル学習方法

ベトルう

ンプト学習？

^や CRF ^確率表現 ^い

生成モデル ₍ 通常音声認識 ₎

う書、生成モデル部分

線形モデル組込、いい！！

うリランキン音声認識、

いう複数仮説リト対、

認識結果決定い

自然言語処理分

文書ベトル (Document vector)

呼自由表現型

自由構成

単語素性 _(1-gram 素性 ₎ 、

2-gram ^素性、 3-gram ^素性、

要素 ₍ 特徴 ₎ 使う？

要素値何使う？

ブヸリン _(0,1) 、頻度

機械学習分、素性ベトル

テキト書出感通例

( ^例 ) 20:1 24:4 700:2 773:1

次元 _: 値

( ^実用例 ) SVM ^、パヸ ^プトロン

素性ベトル各要素

対あ、

モデルパラメヸタあ

学習手法ンプト多種多様構成可能

例 ₎ 回帰分析

説明変数線形和解出、

学習 ₂ 乗誤差最少基準

例 _{) SVM}

値分類説明変数線形和正負値表、

学習マヸン最大化基準

 ^通常 ^N-gram ^、

考慮いい特徴考慮与え

 ^通常 ^N-gram ^、

違うンプト言語的正解う測

⇒ 品詞情報や音素情報簡単考慮可能

⇒ 通常音声認識起やい誤、

^実際 ^正解 ^違い ^モデル化

ベトル！

前述いヷヷヷ

様々音声 _{( 1} _{– M )} 対音声認識行、

複数仮説 _{( 1 - I )} 用意、学習

数式的書

I ^種類 ^音声 ^リ ^ト ^あ

I ^番目 ^リ ^ト ^仮説数

ㄥ位 _N _i あ

正解仮説 _{or WER} 最い仮説正ラベル

け、そ ㆂ 負ラベルけ学習

利用可能一般的値分類器

 ^パヸ ^プトロン ^ル ^リ ^ム

 Online Passive Agrressive ^ル ^リ ^ム

バッチルリム学習

時間、

オンランルリム主流

立派識別的言語モデルモデル学習！