• 検索結果がありません。

第 4 章 実験 30

4.3 A-K-D 区間推定の性能評価

従来手法と提案手法で推定したA-K-D区間の特徴量を用いた分類器における認識率の 比較で性能の評価を行った.本研究で用いたA-K-D区間特徴は24次元である.分類器 は4.2章で最も高い性能を得られた提案分類器を用いた.

表 4.4: A-K-D区間特徴を用いた認識結果 喜び 怒り 悲しみ 平静 全体 従来手法 19.6% 52.9% 52.0% 55.9% 45.1%

提案手法 35.3% 72.6% 61.8% 63.7% 58.3%

提案手法により全体の性能は29.3%向上した.また全ての感情においても性能が高かっ

た(表4.4).これは,提案手法が時間構造を正確に分割できており,各区間で特徴量を

効果的に抽出できているためだと考えられる.そのため提案したA-K-D区間推定は,従 来手法よりも感情分類に有効な時間構造分割を可能にしている.これは発話によるKeep 区間の有無の推定が有効であることを示している.

しかし,喜びの認識率は提案手法においても35.3%と低い認識率であった.主観評価に おいて,喜びと比較して他の感情の時間構造分割の精度が極端に増減することがなかった ため,時間構造分割が喜びの分類に有効でない,もしくは時間構造中の音響特徴量(F0,

パワーなど)が有効でない可能性がある.

また,本研究では,A-K-D区間を求める際に有声区間を検出しているため,誤推定が 存在すると時間構造分割に影響を及ぼす.より精度の高い時間構造分割を行うために,ロ バストな有声区間推定を行う必要がある.

5 章 あとがき

本研究では,声優の感情発声分類を行った.喜び,怒り,悲しみ,平静の4感情につ いて,378次元の音響特徴量を用い,感情発声分類に有効といわれているサポートベク ターマシンによる分類を行った.また本論では,従来研究で感情発声の分類に効果的な 時間構造モデルであるA-K-D区間推定の手法と,独立特徴選択を適用したDAGSVMを 提案した.

提案手法による時間構造分割特徴量は,従来手法と比較して全体の性能が29.3%向上 した.全ての感情においても提案手法による時間構造分割特徴量の方が性能が高かった そのため,提案手法は精度の高い時間構造分割が可能であり,効果的に時間構造特徴量 を推定できる.

また本研究で提案した独立特徴選択を適用したDAGSVMは,最も性能が高く80.1%の 認識率が得られた.従来手法である独立特徴選択を適用したOneVsOne-SVMと比較し

て性能が13.5%向上し,グローバル特徴選択を行ったモデルと比較して性能が5.1%向上

した.DAGSVMは全体の認識率が各分類器の性能に依存すると考えられる.そのため 提案分類器は,各クラス対の性能が向上すれば全体の性能も同時に向上するモデルであ るといえる.以上の理由から,提案分類器が最も高い性能であったと考えられる.しか し本研究で用いたコーパスのみでは,分類器の評価が十分ではないと考えられる.コー パスによって認識性能が異なる可能性もあり,今後は複数の感情発声コーパスを用いて 評価する必要がある.

本研究では,文献[6]のような意図的発話における4感情分類の認識率(60%)よりも,

高い性能を示すことができた.これは多くの音響特徴量及び提案分類器による効果が大 きい.また多くの従来研究では,サンプル収集の際に一定の言語列をもとに発話が収集 されるが,本研究ではアニメから感情発声を抽出しており,サンプルは不定長であり言 語列も一定ではない.そのため,実環境の自然な会話で発話されるような感情発話にお いても,高い性能を持つモデルであると考えられる.

喜びと怒りは互いに誤認識が多く,それらの感情を分類するために必要な特徴量が元 の特徴集合に含まれていない可能性がある.今後は喜びと怒りを分類できる特徴量につ いて考慮する必要がある.また,言語情報でこれらの感情を分類できる可能性があり,今 後は音響特徴量に言語情報を付加したモデルにより認識率の向上を目指す.

参考文献

[1] Shunji Mitsuoka et al.”Emotion Recognition”, IEEJ,125,3,pp641-644,2005.

[2] B.Schuller et al.”Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine - belief network architecture”, ICASSP

’04, vol.1, pp.I-577-80, 2004.

[3] W.J.Yoon et al.”A Study of Emotion Recognition and Its Applications”, Modeling Deci-sions for Artificial Intelligence, vol.4617/2007, pp.455-462, 2007.

[4] 直井 克也他,”Teager Energy Operatorを使用した音声感情認識”, IEICE technical report.

Speech 105(572), pp.1-6, 2006.

[5] D.Ververidis,”Emotional Speech Classification Using Gaussian Mixture Models and the Sequential Floating Forward Selection Algorithm”, ICME, pp.1500-1503, 2005.

[6] S.Mitsuyoshi et al.”NON-VERBAL VOIVE EMOTION ANALYSIS SYSTEM”, IJICIC, vol2, pp.819-830, 2006.

[7] N.Amir,”Characterizing emotion in the soundtrack of an animated film: Credible or in-credible?”, Affective Computing and Intelligent Interaction, vol.4738/2007, pp.148-158, 2007.

[8] B.Bird (Director),”The Incredibles [motion picture]”, United States: Walt Disney Pic-tures, 2004.

[9] I.Guyon,”Gene Selection for Cancer Classification using Support Vector Machines”, Ma-chine Learning, vol.46, pp.389-422, 2002.

[10] John C. Platt et al.”Large Margin DAGs for Multiclass Classification”, MIT Press, pp.547-553, 2000.

[11] C.F.Huang et al.”A three-layered model for expressive speech perception”, Speech Com-munication, vol50(10), pp.810-828, 2008.

[12] K.Hideki et al.”FIXED POINT ANALYSIS OF FREQUENCY TO INSTANTANEOUS FREQUENCY MAPPING FOR ACCURATE ESTMATION OF F0 AND PERIODIC-ITY ”, Proc.EUROSPEECH’99, vol.6, pp.2781-2784, 1999.

[13] W.Ser et al.”A Hybrid PNN-GMM Classification Scheme for Speech Emotion Recognition

”, ICPR, pp.1-4, 2008.

[14] Olusola Olumide Aina et al.”Extracting Emotion from Speech: Towards Emotional Speech-Driven Facail Animations”,Smart Graphics,Volume 2733/2003,pp.65-80,2003.

[15] 有本泰子他,”感情音声のコーパス構築と音響的特徴の分析: MMORPGにおける音声チャッ トを利用した対語中に表れた感情の識別”,IPSJ SIG Notes 2008(12), pp.133-138, 2008.

関連したドキュメント