スライド 1

(1)

スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム

○阿曽慎平（京大）,

齋藤毅（金沢大）, 後藤真孝（産総研）,

(2)

人：歌声・話声（朗読音声含む）聞き分け応答 • 奥乃研・音楽情報処理グループの日常阿曽天気悪いなぁ雨降るらしいでアイウォンチュ～♪ アイウォンチュ～♪ I want you!! 何言うてんの？

(3)

機械（計算機）上も聞き分け応答してほしい

• 多様な音声サービス

東京の

(4)

機械（計算機）上も聞き分け応答してほしい • 多様な音声サービス ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス

(5)

機械（計算機）上も聞き分け応答してほしい • 多様な音声サービス • 違う音声なので自動的に判断してほしい東京の天気 Google 音声検索など ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス手動切替

(6)

歌声朗読音声自動識別により達成可能 • 一般の音声サービス：朗読音声 or 歌声 • 自動識別で利便性増 • 常時起動させておけば手作業無し朗読音声or歌声発話機械による自動識別・振り分け Google 音声検索など Shazam SoundHound midomi

(7)

難しさ：歌声と朗読音声の間は連続的変化 • 歌声？朗読音声？判断してください • 歌舞伎（女形）音声データベース日本語を歌・唄・謡うから • お経白隠禅師坐禅和讃 • 赤ちゃん（4カ月） youtube投稿動画 • スキャット楽曲Scatmanから • 歌声・朗読音声は2値で決定不可本報告：連続値表現できる識別器開発

(8)

自動識別2つの課題 1. 特徴量設計 • 識別に有効な特徴量を（複数）選択する • 抽出手法の制約：実時間動作 2. 識別器設計 • 連続値表現できる枠組み • 実時間動作

(9)

人の弁別に基づいた特徴量設計人が識別に利用する特徴量 • 音の高さ（基本周波数）：ΔF0 ΔlogF0 - 音階は対数周波数上に並ぶ - Δは時間変化 • 音色（短時間のスペクトル特徴）： MFCC, ΔMFCC • 音素を伸ばす時間（音素継続時間）：アクセント（スペクトル変化量）ピーク間隔

(10)

ΔlogF0・MFCC・ΔMFCC抽出方法 • F0：10ミリ秒毎に推定 • [yegnanarayana, 08]を利用 • 実時間で抽出可 • MFCC：10ミリ秒毎に算出，12次元 • Δ成分：5フレームの回帰係数 0 200 400 600 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 周波数時間

(11)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図のの長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法時間軸スペクトログラム周波数縦の破線はアクセントピーク

(12)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図のの長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量をアクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔時間軸スペクトログラムアクセント周波数強さ

(13)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図のの長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量をアクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔スペクトログラムアクセント周波数強さ

(14)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図のの長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量をアクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔時間軸スペクトログラムアクセント周波数強さ

(15)

識別器の設計 1. 特徴量毎に識別器を構成（単独特徴量識別器と呼ぶ） 2. 出力尤度に対し重み付けで統合 • シンプルで強力 3. 重みは音声長に応じて可変 • 短時間・長時間で効く特徴量は異なると予測 • 最適な重み：学習データから推定

(16)

本自動識別システム概念図音声長に応じた重み付け和による統合結果切り出された音声アクセントピーク間隔識別機 ΔlogF0 識別機 MFCC 識別機 ΔMFCC 識別機音声長朗読音声・歌声の尤度単独特徴量識別機

(17)

単独特徴量識別機の構築 1/2 朗読音声データベース EMアルゴリズム朗読音声 GMMパラメタ歌声データベース歌声 GMMパラメタ 1.学習概念図特徴量抽出，分布を出力特徴量毎に歌声，朗読音声それぞれパラメータ学習（プロファイルデータ作成）

(18)

単独特徴量識別機の構築 2/2 朗読音声 GMMパラメタ歌声 GMMパラメタ GMM GMM 音声データ歌声尤度 – 話声尤度特徴量抽出尤度差入力出力 2.構築学習データから識別器構築内部情報として以下を持つ •歌声度合い（尤度） •朗読音声度合い（尤度）

(19)

学習用データ

• 大量の歌声・朗読音声から学習

• AISTハミングデータベース7500音

• 男声37名，女声38名分

(20)

本統合法：重み付け和入力音声入力音声長に応じた重みづけ和出力尤度差 ΔlogF0 識別器 MFCC 識別器アクセントピーク間隔識別器・・・ ΔMFCC 識別器

(21)

統合重みの推定法学習データに対する識別精度が最も高くなる重みの組み合わせを全空間探索 • 重みは0から10までの11段階 • 探索空間は11^4通り • 最も精度の高い組み合わせ選択 • 重みの総和が1となるよう正規化

(22)

(23)

本手法と従来法

[大石ら，06]

の比較

本手法 •本特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 4. アクセントピーク間隔 •本統合法：時間長に応じた重み付けによる統合従来法 •従来特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 •従来統合法：ベクトル結合

(24)

評価の目的 1. 新たに導入した ΔF0・アクセントピーク間隔の有効性従来特徴量との比較 2. 本手法の総合的な有効性 1. 従来統合法との比較 2. 従来特徴量との比較評価方法：7500音声の15クロスバリデーション

(25)

1-1 アクセントピーク間隔の効果 • ΔMFCC（音色時間変化）がprimary • ΔlogF0（音高時間変化）がsecondary • アクセントピーク間隔は長時間音声向け識別精度 [% ] 単独特徴量識別機の識別精度 65 70 75 80 85 90 95 100 _ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0

(26)

• 単独特徴量識別器より高い精度 2-1 本統合法により精度向上識別精度 [% ] 評価音声長 [ミリ秒] 識別精度 55 60 65 70 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0 本特徴・本統合

(27)

2-2,3本統合法と従来統合法の比較 • 特徴量選択，統合方法いずれも精度向上 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 従来特徴・従来統合従来特徴・本統合本特徴・本統合 86.2% 88.4%（△2.2） 88.9% (△2.7) 平均精度

(28)

推定された統合重み • ΔlogF0：1500～2000ミリ秒で重要な役割 • ΔMFCC，ΔlogF0が重要（重みの８割）評価音声長 [ミリ秒] 重み係数単独特徴量識別機の統合時の重み 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 500 1000 1500 2000 2500 3000 ピーク間隔 ΔlogF0 MFCC ΔMFCC

(29)

デモ：歌声朗読音声自動識別システム • ゼロ交差数に基づく音声切り出し • 歌声？朗読音声？我々の解答 • 歌舞伎（女形）音声データベース日本語を歌・唄・謡うから • お経白隠禅師坐禅和讃 • 赤ちゃん（4カ月） youtube投稿動画 • スキャット楽曲 Scatman から

(30)

今後の課題 1. 音声検索（Google音声検索等）と歌声検索（SoundHound，midomi等）の自動切り替えを行うアプリケーション尤度差が小⇒やり直し 2. 人への発話と機械への発話を識別必要な時だけ駆動する朗読音声・自由発話識別が一つの方法では機械への話声：朗読音声に近い人同士の話声：自由発話

(31)

むすびのことば切り出された音声に対してΔlogF0・MFCC・ ΔMFCC・アクセントピーク間隔に基づく単独特徴量識別器の尤度に，時間長に応じた重み付け統合することで，歌声と朗読音声を連続的に識別するシステムを開発した