• 検索結果がありません。

修 士 論 文 概 要 書

N/A
N/A
Protected

Academic year: 2021

シェア "修 士 論 文 概 要 書"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

修 士 論 文 概 要 書

2008 2 月提出 学籍番号 3606U029 4 CD

専攻名

情報・ネットワーク専攻

氏名 加藤 健一 指導

教員 小林 哲則

研究

題目 HMM

における尤度パターンの非対称性を利用した音声認識に関する研究

1 はじめに

本稿では,

HMM

における尤度パターンの非対称性 を利用した音声認識システムにおいて,学習データ量と 認識性能の関連の調査,および特徴選択に基づく尤度特 徴の次元削減法について述べる.

音響モデルは,正解カテゴリのデータに対して高い 尤度を与えるように学習されるが,不正解のカテゴリで あっても音韻的に類似しているカテゴリのデータであれ ば,不当に高い尤度を与える可能性がある.このように,

異なるカテゴリに同等の尤度が与えられた場合,最大の 尤度を与えるカテゴリを推定する最尤識別の枠組では,

認識誤りを劇的に減じることは困難である.このような 誤りを減じるために,本研究では

HMM

が出力する各 カテゴリに対する尤度のパターンを特徴として捉え,静 的にパターン認識を行うことで,音声認識性能を向上さ せる.

本研究が対象とする,確率モデルが与える尤度のパ ターンを特徴量として識別を行う枠組は

2

通りに大別 できる.一方は,音素や状態などの比較的短い時間構造 を持つ確率モデルを用いて,複数フレームの情報を保持 したスペクトルに基づく特徴ベクトルの尤度パターン を抽出し,それらの時系列に対して

HMM

を用いた動 的な認識を行う枠組である.もう一方は,単語などの比 較的長い時間構造を持つ確率モデルを用いて,単語発話 に対して尤度パターンを抽出し,それらを特徴として静 的な認識を行う枠組である.本研究においては,この枠 組を採用する.後者の手法で採用されている単語などの 長い時間構造を持つ

HMM

から得られた尤度のパター ンは,音韻的に類似する単語カテゴリであっても類似す るパターンを与えるとは限らず,非対称なパターンを示 す.そのため,これをパターン認識の特徴量として利用 することで,特に誤り易い識別カテゴリ同士の識別精度 の向上が期待できる.本稿では,まず,

HMM

が与える 尤度の非対称性に注目し,長い時間構造を持つ

HMM

から得られる尤度パターンの非対称性,およびそれを 認識の特徴量として利用することの妥当性について述 べる.

この手法のように,単語のような長い時間長を持つ単 位に対する尤度パターンを用いた場合,学習データの収 集が困難になる.そのため,大語彙を扱うタスクでは学 習データを十分に得ることができず,モデルの信頼性が 低下することで,高い認識性能が得られない可能性があ る.そこで本稿では,単語

HMM

から得られた尤度パ ターンを特徴量として用いた階層的な音声認識手法に おいて,学習データ量と音声認識性能の関係について調 査を行う.また,この手法では,識別対象語彙に対する 尤度を特徴量としているため,大語彙を扱うタスクでは 特徴量の次元数が膨大になり,計算量の観点で問題とな る.本稿では,上記の枠組に,特徴選択に基づく尤度特 徴ベクトルの次元数削減を適用した場合についても評価 を行う.

2 尤度パターンの非対称性

本研究で扱う尤度パターンについて述べる.尤度パ ターンとは,音声データに対して各々のクラスの確率モ

"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*

,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **

02134 02134 02134 02134

X

"!" "!# "!" "!#$&%% %%')(+*')(+*')(+*')(+*

,$-. ,$-. ,$-. ,$-./&%% %%'' ''+(( ((+** **

02134 02134 02134 02134

X

1:

尤度パターンの非対称性.

デルが与える尤度の値である.単語発話に対して識別 対象カテゴリである単語の尤度を

HMM

を用いて計算 し,それらの値をパターンとして捉え,認識の特徴量と して利用する.この尤度パターンは,類似する単語同士 であっても図

1

のように非対称性を示す.ここで,未知 発話を

HMM

に入力した際,図

1

の破線のような尤度 パターンを示した場合を考える.従来の最尤基準の識別 では,尤度の大小で正解カテゴリを推定するが,図のよ うに高い尤度が複数の

HMM

から出力されている場合 に推定された結果の信頼度は低いと言える.しかし,本 研究で採用する尤度パターンの非対称性を利用した認識 手法では尤度の大小ではなく尤度パターンの形で正解カ テゴリを推定するため,従来の識別法では認識が困難な カテゴリ間の識別精度を向上できることを期待できる.

3 尤度パターンを用いた単語音声認識

尤度パターンを特徴とした,階層型単語音声認識手 法について述べる.まず前段において,あらかじめ設 定したカテゴリ群

(

本実験では単語

)

が入力データに対 して与える尤度を計算する.ここで,単語などの長い時 間構造を持つ発話に対して

HMM

から得られる尤度パ ターンを

long-time structure based likelihood pattern (LLP)

と呼ぶことにする.後段では,得られた尤度パ ターン

(LLP)

を特徴ベクトルとして,識別対象カテゴ リ

(

単語

)

の認識を行う.図

2

に,尤度パターンを特徴 ベクトルとして用いた,階層型音声認識の概要を示す.

4 尤度特徴の次元削減

LLP

を用いた認識法では,語彙中の全ての単語カテ ゴリの尤度から尤度パターンを生成している.そのた め,小語彙のタスクには比較的容易に適用出来るが,大 語彙のタスクに適用することは,後段の認識において特 徴ベクトルの次元数が膨大になるため,計算量の観点か ら現実的ではない.そこで,尤度特徴量の次元数削減方 法について検討する.単語ごとに誤り易い単語の集合を 予め調査し,その集合に含まれる単語に対してのみ計算 される尤度パターンを特徴量として利用することを試み る.尤度特徴の次元数削減方法,学習手順,および評価 手順については以下の通りである.

1

(2)

Spectrum feature vector

sequence

Word Utterance

N W -dim

Category : word Likelihood

pattern vector (each word)

SVM-based static recognition Calculate likelihoods for

word templates

Number of templates:

N W

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

kakurepyu:ritaN vs. rest result

Category : word ikioi (15-states)

iyoiyo (18-states)

omoshiroi (24-states)

kakurepyu:ritaN

(39-states)

Spectrum feature vector

sequence

Word Utterance

N W -dim

Category : word Likelihood

pattern vector (each word)

SVM-based static recognition Calculate likelihoods for

word templates

Number of templates:

N W

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

kakurepyu:ritaN vs. rest

ikioi vs. rest iyoiyo vs. rest omoshiroi vs. rest

kakurepyu:ritaN vs. rest result

Category : word ikioi (15-states)

iyoiyo (18-states)

omoshiroi (24-states)

kakurepyu:ritaN

(39-states)

……

2:

階層型単語音声認識システムの概要.

尤度特徴量次元数削減手順

1.

単語単位の

HMM

を用いて,学習データ

(

単語音 声

)

の認識を行う.

2.

語彙数を

N

としたとき,単語

w i

に誤認識され易い

(

つまり,

w i

に対して高い尤度が与えられる

)

単語 カテゴリの上位

n

(n < N )

のカテゴリから構成 される単語カテゴリの部分集合

W i = (w i 1 , · · · , w n i )

を考え、それらに対する尤度パターンを,単語

w i

に対する尤度特徴量とする.すなわち,単語カテゴ リごとに固有の

n

次元の尤度から成る部分空間を 構築する.これを,単語

w i

に対する尤度部分空間 と呼ぶ.

学習手順

1.

単語

w i

のモデルを構築する際,

w i

の発話に対し て,単語カテゴリの部分集合

W i

に対する尤度を 計算する.

2.

単語

w i

に対する

SVM

は,単語カテゴリ部分集 合

W i

に対する尤度から成る部分空間上で構成さ れる.ここで,

W i

の尤度パターンによって形成さ れる部分空間上では,

W i

を構成する単語カテゴリ に対してのみ識別器

(SVM)

を構築する.

評価手順

1.

前段の認識で最大の尤度を出力した単語カテゴリ を求める.

2.

最大尤度を出力した単語カテゴリに対する尤度部 分空間上において特徴ベクトルを計算し,これを

n

次元の

LLP

特徴量とする.

3. n

次元の

LLP

特徴量と

SVM

を用いて単語音声認 識を行う.このとき,後段の認識対象カテゴリは,

前段の

MFCC-HMM

による認識で最大尤度を出力 した単語カテゴリ

w i

に対する尤度部分空間を構成 する

n

個の単語カテゴリのみである.

5 孤立単語音声認識実験

LLP

に基づく認識法の妥当性を示すため,また,提 案した尤度特徴次元数削減手法の有効性を示すため,孤 立単語音声認識実験を行なった.

! "#$%&'())*

+,- ./--,--0 1/

2

35476$698;:=<93>3 ?&?A@B8;:!CEDF3 ?&?A@8;:=CED=3!8HGJI 35476$6987KL<93>3

3:

学習データ量による単語誤り率.

5.1

評価項目

評価項目は以下の

4

通りの識別方法である.

MFCC

を用いたトライフォン

HMM

による識別

(MFCC-pHMM)

単語発話を学習に用いて生成した単語単位の

HMM

による識別

(MFCC-wHMM)

語彙中の全ての単語カテゴリの尤度パターンを用 いた

SVM

による識別

(LLP-wSVM)

特徴選択により次元数を削減した尤度パターン特 徴を用いた

SVM

による識別

(LLP-wSVM-fs)

評価用の孤立単語音声データは,

ATR

の音素バランス 単語

216

単語を男性

20

話者がそれぞれ

5

回発話した 計

21600

発話を用いた.

5.2

実験結果

3

に,単語あたりの学習データ数に対する単語誤り 率を示す.これより,

75

発話のように比較的多くの単語 発話を学習に用いた場合は,

LLP

を用いた手法

(LLP- wSVM)

は,単語

HMM (MFCC-wHMM)

と同等の性能 しか与えない.しかし,学習データが

25

発話のように 少量の場合,

LLP-wSVM

MFCC-wHMM

に比べて

64%

の誤りを削減した.また,

LLP-wSVM

は,

MFCC- pHMM

の誤りも

43%

削減した.また,

LLP-wSVM

で 用いた

216

次元の特徴量から,そのわずか

4.6%

に相 当する

10

次元の特徴量を選択して用いた

LLP-SVM-fs

は,

25

発話を用いて学習した場合で,

MFCC-wHMM

MFCC-pHMM

の誤りを各々

61%

35%

削減した.こ のように,

LLP-wSVM

は,少量の学習データを用いた 場合,および尤度特徴を削減した場合において,

MFCC- pHMM

MFCC-wHMM

の誤りを削減していることか ら,大語彙を扱うタスクにおいても有効であることが期 待できる.

6 まとめ

本稿では,

HMM

から得られる尤度パターンの非対 称性と,それを音声認識に利用することの有効性を述 べた.単語などの長い時間構造を持つ

HMM

が与える 尤度パターンを特徴量として用いてパターン認識を行 う手法において,学習データ量と音声認識性能の関係 を調査したところ,学習データが少量の場合でも従来の

HMM

に対する有効性が示された.また,特徴選択によ り

4.6%

に圧縮したベクトルを特徴量として用いた場合 においても,少量の学習データで

HMM

の誤りを削減 することを確認した.

参照

関連したドキュメント

和音認識 フレームごとに DNCOF ベクトルを求めていくと, 楽曲全体にわたり図 3 のような DNCOF ベクトルの 時系列が得られる.図 3

本研究では MPI を用いてクラスタ向けに作られた学習 節共有による並列効果の高い並列 SAT ソルバ, c-sat を ベースに SAT Competition2009 で最も優秀な成績を修めた

通信データサイズによる MN の分類のために,閾値 τ を用いる.閾値 τ は単位を [KB] とし,予め MR に設 定しておく.通信データサイズが閾値 τ 以上の MN を 上位 MAP ,閾値 τ 以下の MN

提案手法の 提案手法の一般物体認識への 一般物体認識への応用 への応用 3.1 実験概要 一般物体認識に用いる特徴量として、従来手法・ 提案手法のそれぞれにおける

4 まとめ 本研究では JPEG 画像を対象とし、原画像を参照しな い画質評価手法の提案を行った。通常原画像を用いて 評価する 2 つの手法 PSNR と SSIM について、DCT 係

資料1:Y町日本語教室の学習者へのインタビュー記録に基づく事例-コードマトリックス 1来日目的・理由 2日本の生活プラス 3日本の生活マイナス 4教室参加目的・理由 5教室参加プラス 6教室参加その他 7来ない理由 ①まずお金を稼ぎたい ①貯金してベトナムで家を建てる ①仕事が大変重い/熱い/寒い/うる さい ①日本語を勉強して仕事に慣れる

データ転送中にバックエンドサーバを切り換える 手法を導入したことで、効果的な負荷分散を行う 手法を提案した。この切り換え機構には RFC

1998)の単語 341,771 語の頻度のデータと,同書第 1 巻(1999, 三省堂)の単語の親密度のデ