線形分類器 音響
☆増村亮䈂䈃,大庭隆伸䈂,伊藤彰則䈃,牧 正三䈃
䈂日本電信電話株式会社NTT ュニ ョン科学基礎研究所
䈃東 大学大学院工学研究科
2
確率的 枠組 基 、音響 言語
構成
言語 :N-gram
両 異 構 を持 、独立 学習
現在 一般的 音声認識技術
言語 :識別的言語 学習
⇒ 高精度 、
音声認識 全体最適 必要 あ
各 識別学習
音響 :Hidden Markov Model (HMM)
音響 :HMM 最 識別誤 学習(MCE)
3
線形分類器 アプ
識別的 枠組 全体最適 (H.Kuo et al., 2007.)
問題:
異 構 を持 両 を扱う 、学習 設計 複雑
⇒線形分類器 枠組 け 音声認識を構想
本稿 、線形分類器 音響 再注目
音響
線形分類器 アプ 古く 検討 い (S.Makino et al., 1986.)(A.Weibel, 1989.)
言語
誤 訂正 線形分類器を利用(T.Oba et al., 2007.)
汎用的 学習手法 入 困難
線形分類器 ン
4
本研究 目的
誤 訂正 利用
初期的検討
識別的 アプ
音響 再検討
構築 孤立音素認識
線形分類器 音響 構築
線形分類器 研究 進歩 新 学習法
•Passive Aggressive (PA) ア : ン イン学習手
当時法 比 整備状況 大 く進歩
•条件付確率場(CRF) : 大域的最適解 収束を保証
5
線形分類器 音響
)
(
)
( x x
D
p λ
pTΦ
線形分類器 音響 表現
音素p 識別関数
パ
音響信号x 得 素性ベ
パ を学習 推定
⇒音響信号 素性ベ 識別的 学習
正例:あ 音素p い 素性ベ 負例:p以外 音素 い 素性ベ λp 学習
6
時間伸縮構
n= 10対 考慮 い素性ベ
、10フ 分
390次元 ベ を構成
n= 11 、最初 10フ 分
390次元 ベ を構成
n= 7 、7フ 分+ ベ
390次元 ベ を構成
音響的特徴 素性ベ
t番目 フ 始 、フ 長n あ 音素 音響信号x
対 音響的特徴 素性ベ Φ(x) 表現
T T n N T
n t T
t T
x ) [
t, , , , ]
( m m
1m
0
Φ
各フ 得 特徴ベ mを並
固定長 素性ベ Φ(x)を構成
a k o:
各フ
12次元MFCC+log-Energy+Δ+ΔΔ 39次元 mを構成
N= 10 固定長 素性ベ を構成 場合
7
正例 負例 場合
線形分類器 学習
学習 簡略 並列 各音素 値分類器を学習 、 One vs Rest法 多値分類 拡張
正例:入力 音素[a] 素性ベ
負例:入力 音素[a] 以外 素性ベ
音素[a] 値分類器
音素[a] 対 値分類器
PassiveAggressiveア 値分類器 学習
SVM 同様 ン最大 問題を解く
訓練 例を観察 パ
を更新 いう非常 高 ン イン学習
8
線形分類器 評価
学習 CSJ 学会講演150講演 (全音素数:12100623) 開発 CSJ 学会講演10講演 (全音素数:98272)
評価 A CSJ 学会講演10講演 (全音素数:99752) 評価 B CSJ 模擬講演10講演 (全音素数:63308)
特徴 1フ あ MFCC39次元
音素 数 43音素
実験条件 :
フ ンHMM
3000状態64混合、認識 SOLON
PAア + One versus Rest法
線形分類器
イパ パ 、再帰関数 開発 ッ 決定
9
線形分類器 孤立音素認識
音素[N] 値分類器
音素[z] 値分類器
….
最大 アを返 音素 識別
孤立音素認識
音響 を用い 、音素区間 既知 各音素 、 音素 属 を識別
HMM
最大 アを返 音素 識別
あ 音素 発話区間 対
? ? ?
※線形分類器 時間伸縮構 考慮
※HMM 時間伸縮構 考慮あ
10
孤立音素認識 結果
評価B: HMM 劣 、線形識別 汎 性 低 由来 40
50 60 70
評価 評価
Accuracy(%)
HMM 線形分類器
線形分類器 孤立音素認識 HMM
近い精度 行え い
評価A: 十分存在 環境 高い精度を発揮
学習 同
学会講演
学習 異
模擬講演
11
誤 訂正 利用
HMM 最大 アを返
音素 識別
)}
(
)
(
{
max
arg
*
best N
x
D
x
G
p
p pp
HMM 複数仮説 43-best 対 、線形分類器を 用い ア ン 誤 訂正を行う
HMM ア
線形分類器 ア
※本質的 誤 訂正用 音響 学習 直 、 本稿 同一 線形分類器を用い
α ア 、開発 ッ 調節
認識結果 誤 訂正
音素[N] 2値分類器
音素[z] 2値分類器
….
12
実験結果
誤 訂正 HMM 孤立音素認識
結果 約 10 イン 精度改善
40 50 60 70 80
評価 評価
Accuracy(%)
HMM 線形分類器 誤 訂正
線形分類器 HMM 異 情報を表現
13
孤立音素認識 線形分類器 性能評価
線形分類器 極 単純 構 を持 関わ 、 HMM 近い性能を示
識別的 アプ
音響 再検討
線形分類器 音響
PAア One versus Rest法 構築
線形分類器を誤 訂正 用い 、
HMM 認識結果 、精度を約10 イン 改善
誤 訂正 利用
14
今後 課題
他 識別ア 検討
非線形 識別境界 入( ッ )
CRF 識別的確率
他 音響的特徴 検討
音響信号 微細構 考慮
時間伸縮構 対応