識別的言語モデル (Discriminative LM)
○ 識別モデル 言語モデル
△ 言語モデル 識別学習
※ 通常 識別学習 生成モデル 学習手法 指
多 、 N-gram 識別学習 い 勘違い う
メヸ
生成モデル 生成 複数仮説 対 、 リン 行う
生成モデル
( 通常 認識 )
1位仮説 : 1位
N位仮説 : N位
ヷヷヷ
識別モデル
(DLM)
1位仮説 : 1位
N位仮説 : N位 ヷヷヷ
生成モデル 後段 使う 、リランキン モデル (Reranking Models)
や誤 訂正モデル (Error Corrective Models) 呼
求 基本式
識別的言語モデル ㆁ組
識別モデル
(DLM)
入力文書
( 認識時
あ 仮説 )
ういう時
大 値 与え、
ういう時 い値
与え DLM ポ ント
素性ベ トル
入力文書
表現 ベ トル
ベ トル
各要素
表現 ベ トル
ポ ント
素性ベ トル 構成
入力文書 表現 ベ トル
う 特徴 入 ?
ベ トル 学習方法
ベ トル う
ン プト 学習 ?
※ 、対数線形モデル
や CRF 確率表現 い
識別モデル
生成モデル ( 通常 音声認識 )
う 書 、生成モデル 部分
線形モデル 組 込 、 いい!!
う リランキン 音声認識 、
いう複数仮説リ ト 対 、
認識結果 決定 い
自然言語処理 分
文書ベ トル (Document vector)
呼 自由表現型
自由 構成
単語素性 (1-gram 素性 ) 、
2-gram 素性、 3-gram 素性、
品詞素性、音素素性
要素 ( 特徴 ) 使う?
要素 値 何 使う?
ブヸリ ン (0,1) 、頻度
機械学習分 、素性ベ トル
テキ ト 書 出 感 通例
( 例 ) 20:1 24:4 700:2 773:1
次元 : 値
( 実用例 ) SVM 、パヸ プトロン
素性ベ トル 各要素
対 あ 、
モデルパラメヸタ あ
学習手法 ン プト 多種多様 構成可能
例 ) 回帰分析
説明変数 線形和 解 出 、
学習 2 乗誤差最少基準
例 ) SVM
値分類 説明変数 線形和 正負 値 表 、
学習 マヸ ン最大化基準
通常 N-gram 、
考慮 い い特徴 考慮 与え
通常 N-gram 、
違う ン プト 言語的 正解 う 測
⇒ 品詞情報や音素情報 簡単 考慮可能
⇒ 通常 音声認識 起 や い誤 、
実際 正解 違い モデル化
ベ トル!
前述 い ヷヷヷ
1位仮説 : 1位
N位仮説 : N位 ヷヷヷ
音声
ヷヷヷ
音声
1位仮説 : 1位
N位仮説 : N位
ヷヷヷ
ヷヷヷ音声
1位仮説 : 1位
N位仮説 : N位
様々 音声 ( 1 – M ) 対 音声認識 行 、
複数仮説 ( 1 - I ) 用意 、学習
数式的 書
I 種類 音声 リ ト あ
I 番目 リ ト 仮説数
ㄥ位 N i あ
音声
1位仮説 : 1位
N位仮説 : N位
ヷヷヷ
正解仮説 or WER 最 い仮説 正 ラベル
け、そ ㆂ 負 ラベル け 学習
×(-1)
○(1)
利用可能 一般的 値分類器
パヸ プトロン ル リ ム
Online Passive Agrressive ル リ ム
バッチ ル リ ム 学習
時間 、
オンラ ン ル リ ム 主流
立派 識別的言語モデル モデル学習!
2位仮説 : 2位
ヷヷヷ
×(-1)
3位仮説 : 3位
×(-1)
音声 1
1位仮説 : 1位
N位仮説 : N位
×(-1)
×(-1) 2位仮説 : 2位
ヷヷヷ
×(-1)
3位仮説 : 3位
○(1)
音声 M
1位仮説 : 1位
N位仮説 : N位
×(-1)
×(-1) 2位仮説 : 2位
ヷヷヷ
○(1)
3位仮説 : 3位
×(-1)
要度 WER 入 、
柔軟 モデル学習 行う
オリ ナル 損失関数 定義 、
モデル学習 行う 可能
ヷヷヷ
音声 1
1位仮説 : 1位
N位仮説 : N位
×(75%)
×(33%) 2位仮説 : 2位
ヷヷヷ
×(25%)
3位仮説 : 3位
○(0%)
音声 M
1位仮説 : 1位
N位仮説 : N位
×(50%)
×(20%) 2位仮説 : 2位
ヷヷヷ
○(0%)
3位仮説 : 3位
×(15%)
音声
1位仮説 : 1位
N位仮説 : N位
×(25%)
○(3%) 2位仮説 : 2位
ヷヷヷ
×(8%)
3位仮説 : 3位
×(15%)
1 or -1 連続値 代わ い 点 値分類器 大 異
誤 訂正学習 Error Correcting Learning
2 値分類器 場合 学習
初期 定 基本的 適当
全学習デヸタ (1 ~ i ~ N) 対 、 収束 繰 返
- if 現在 正 識別 ヷヷヷ
- else if 正例デヸタ 、現在 負例 間違え ヷヷヷ
- else if 負例デヸタ 、現在 正例 間違え ヷヷヷ
更新幅 制御パラメヸタ
要度 利用 場合 学習
初期 定 基本的 適当
収束 繰 返
-1 全学習デヸタ (1 ~ i ~ N) 中 代表対立素性 決
最 大
-2 更新
- If ヷヷヷ
正解 対立 差 考え け 、基本 誤 訂正学習
要度 (WER)
更新幅 制御パラメヸタ
正解素性
対立素性
線形和 - ∞ + ∞ 、
指数関数 乗 必 正 値
嬉 い
正 値 、足 足 ほ 大
⇒ 目的関数 最 問題 非常 便利
確率 扱う枠組 変更
※ 特段話 い 、ロ テ ッ 回帰モデル
最大エントロピヸモデル 関係 分 完璧
線形和 指数関数 乗 意味 ?
目的関数
正則化項
モデルパラメヸタ
局所最適 陥 い
工夫、 L1 正則化や
L2 正則化 え
望 い
目的関数 、損失決 累計 い
式 解 大抵 、最急降ㄦ法や準ニュヸトン法 使う
簡単 損失:正解文 差
Reranking Boosting (RB)
要度 付 、線形和 指数関数 乗 加算 い
要度 (WER) 対数
Weighted Global Conditional Log-linear Model
(WGCLM)
※ log 理由 増村 存 、
気 方 大庭 聞 い
対立素性 正解素性
Minimum Error Rate Training(MERT)
要度 (WER) 対数
対数 -best 和
ハ パヸパラメヸタ
(面倒 無視
いヷヷヷ)