• 検索結果がありません。

pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

線形分類器 音響

☆増村亮䈂䈃,大庭隆伸䈂,伊藤彰則䈃,牧 正三䈃

䈂日本電信電話株式会社NTT ュニ ョン科学基礎研究所

䈃東 大学大学院工学研究科

(2)

2

確率的 枠組 、音響 言語

構成

言語 N-gram

両 異 構 を持 、独立 学習

現在 一般的 音声認識技術

言語 :識別的言語 学習

⇒ 高精度 、

音声認識 全体最適 必要

各 識別学習

音響 Hidden Markov Model (HMM)

音響 HMM 識別誤 学習(MCE)

(3)

3

線形分類器 アプ

識別的 枠組 全体最適 (H.Kuo et al., 2007.)

問題:

を持 を扱う 、学習 設計 複雑

⇒線形分類器 枠組 け 音声認識を構想

本稿 、線形分類器 音響 再注目

音響

線形分類器 アプ 古く 検討 (S.Makino et al., 1986.)(A.Weibel, 1989.)

言語

訂正 線形分類器を利用(T.Oba et al., 2007.)

汎用的 学習手法 困難

線形分類器 ン

(4)

4

本研究 目的

訂正 利用

初期的検討

識別的 アプ

音響 再検討

構築 孤立音素認識

線形分類器 音響 構築

線形分類器 研究 進歩 学習法

Passive Aggressive (PA) : イン学習手

当時 整備状況 く進歩

•条件付確率場(CRF) : 大域的最適解 収束を保証

(5)

5

線形分類器 音響

)

(

)

( x x

D

p

λ

pT

Φ

線形分類器 音響 表現

音素p 識別関数

音響信号x 素性ベ

を学習 推定

⇒音響信号 素性ベ 識別的 学習

正例:あ 音素p 素性ベ 負例:p以外 音素 素性ベ λp 学習

(6)

6

時間伸縮構

n= 10

対 考慮 い素性ベ

10

390次元 を構成

n= 11 、最初 10

390次元 を構成

n= 7 7 +

390次元 を構成

音響的特徴 素性ベ

t番目 、フ n 音素 音響信号x

音響的特徴 素性ベ Φ(x) 表現

T T n N T

n t T

t T

x ) [

t

, , , , ]

( m m

1

m

0

Φ

各フ 特徴ベ mを並

固定長 素性ベ Φ(x)を構成

a k o:

各フ

12次元MFCC+log-Energy+Δ+ΔΔ 39次元 mを構成

N= 10 固定長 素性ベ を構成 場合

(7)

7

正例 負例 場合

線形分類器 学習

学習 簡略 並列 各音素 値分類器を学習 One vs Rest 多値分類 拡張

正例:入力 音素[a] 素性ベ

負例:入力 音素[a] 以外 素性ベ

音素[a] 値分類器

音素[a] 値分類器

PassiveAggressive 値分類器 学習

SVM 同様 ン最大 問題を解く

訓練 例を観察

を更新 いう非常 イン学習

(8)

8

線形分類器 評価

学習 CSJ 学会講演150講演 (全音素数:12100623) 開発 CSJ 学会講演10講演 (全音素数:98272)

評価 A CSJ 学会講演10講演 (全音素数:99752) 評価 B CSJ 模擬講演10講演 (全音素数:63308)

特徴 1 MFCC39次元

音素 43音素

実験条件 :

HMM

3000状態64混合、認識 SOLON

PA + One versus Rest

線形分類器

イパ 、再帰関数 開発 決定

(9)

9

線形分類器 孤立音素認識

音素[N] 値分類器

音素[z] 値分類器

.

最大 アを返 音素 識別

孤立音素認識

音響 を用い 、音素区間 既知 各音素 、 音素 を識別

HMM

最大 アを返 音素 識別

音素 発話区間

? ? ?

※線形分類器 時間伸縮構 考慮

※HMM 時間伸縮構 考慮あ

(10)

10

孤立音素認識 結果

評価B: HMM 、線形識別 由来 40

50 60 70

評価 評価

Accuracy(%)

HMM 線形分類器

線形分類器 孤立音素認識 HMM

近い精度 行え

評価A: 十分存在 環境 高い精度を発揮

学習

学会講演

学習

模擬講演

(11)

11

誤 訂正 利用

HMM 最大 アを返

音素 識別

)}

(

)

(

{

max

arg

*

best N

x

D

x

G

p

p p

p

HMM 複数仮説 43-best 、線形分類器を 用い 訂正を行う

HMM

線形分類器

※本質的 訂正用 音響 学習 本稿 同一 線形分類器を用い

α 、開発 調節

認識結果 誤 訂正

音素[N] 2値分類器

音素[z] 2値分類器

.

(12)

12

実験結果

訂正 HMM 孤立音素認識

結果 10 イン 精度改善

40 50 60 70 80

評価 評価

Accuracy(%)

HMM 線形分類器 訂正

線形分類器 HMM 情報を表現

(13)

13

孤立音素認識 線形分類器 性能評価

線形分類器 単純 を持 関わ HMM 近い性能を示

識別的 アプ

音響 再検討

線形分類器 音響

PA One versus Rest 構築

線形分類器を誤 訂正 用い

HMM 認識結果 、精度を約10 イン 改善

訂正 利用

(14)

14

今後 課題

識別ア 検討

非線形 識別境界 ( )

CRF 識別的確率

音響的特徴 検討

音響信号 微細構 考慮

時間伸縮構 対応

参照

関連したドキュメント

東京電力パワーグリッド株式会社 東京都千代田区 東電タウンプランニング株式会社 東京都港区 東京電設サービス株式会社

東電不動産株式会社 東京都台東区 株式会社テプコシステムズ 東京都江東区 東京パワーテクノロジー株式会社 東京都江東区

東電不動産株式会社 東京都台東区 東京発電株式会社 東京都台東区 株式会社テプコシステムズ 東京都江東区

4.「注記事項 連結財務諸表作成のための基本となる重要な事項 4.会計処理基準に関する事項 (8)原子力発 電施設解体費の計上方法

ⅴ)行使することにより又は当社に取得されることにより、普通株式1株当たりの新株予約権の払

ⅴ)行使することにより又は当社に取得されることにより、普通株式1株当たりの新株予約権の払

ⅴ)行使することにより又は当社に取得されることにより、普通株式1株当たりの新株予約権の払

ⅴ)行使することにより又は当社に取得されることにより、普通株式1株当たりの新株予約権の払