スペクトル変化量のピーク間隔・F0・MFCCを 用いた歌声と朗読音声の自動識別システム
○阿曽 慎平(京大),
齋藤 毅(金沢大), 後藤 真孝(産総研),
人:歌声・話声(朗読音声含む)聞き分け応答 • 奥乃研・音楽情報処理グループの日常 阿曽 天気悪いなぁ 雨降るらしいで アイウォンチュ~♪ アイウォンチュ~♪ I want you!! 何言うてんの?
機械(計算機)上も聞き分け応答してほしい
• 多様な音声サービス
東京の
機械(計算機)上も聞き分け応答してほしい • 多様な音声サービス ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス
機械(計算機)上も聞き分け応答してほしい • 多様な音声サービス • 違う音声なので自動的に判断してほしい 東京の 天気 Google 音声検索など ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス 手動切替
歌声朗読音声自動識別により達成可能 • 一般の音声サービス:朗読音声 or 歌声 • 自動識別で利便性増 • 常時起動させておけば手作業無し 朗読音声or歌声 発話 機械による自動識別・振り分け Google 音声検索など Shazam SoundHound midomi
難しさ:歌声と朗読音声の間は連続的変化 • 歌声?朗読音声?判断してください • 歌舞伎(女形) 音声データベース日本語を歌・唄・謡うから • お経 白隠禅師坐禅和讃 • 赤ちゃん(4カ月) youtube投稿動画 • スキャット 楽曲Scatmanから • 歌声・朗読音声は2値で決定不可 本報告:連続値表現できる識別器開発
自動識別2つの課題 1. 特徴量設計 • 識別に有効な特徴量を(複数)選択する • 抽出手法の制約:実時間動作 2. 識別器設計 • 連続値表現できる枠組み • 実時間動作
人の弁別に基づいた特徴量設計 人が識別に利用する特徴量 • 音の高さ(基本周波数):ΔF0 ΔlogF0 - 音階は対数周波数上に並ぶ - Δは時間変化 • 音色(短時間のスペクトル特徴): MFCC, ΔMFCC • 音素を伸ばす時間(音素継続時間): アクセント(スペクトル変化量)ピーク間隔
ΔlogF0・MFCC・ΔMFCC抽出方法 • F0:10ミリ秒毎に推定 • [yegnanarayana, 08]を利用 • 実時間で抽出可 • MFCC:10ミリ秒毎に算出,12次元 • Δ成分:5フレームの回帰係数 0 200 400 600 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 周波数 時間
アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 時間軸 スペクトログラム 周波数 縦の破線はアクセントピーク
アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 時間軸 スペクトログラム アクセント 周波数 強さ
アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 スペクトログラム アクセント 周波数 強さ
アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 時間軸 スペクトログラム アクセント 周波数 強さ
識別器の設計 1. 特徴量毎に識別器を構成 (単独特徴量識別器と呼ぶ) 2. 出力尤度に対し重み付けで統合 • シンプルで強力 3. 重みは音声長に応じて可変 • 短時間・長時間で効く特徴量は異なると予測 • 最適な重み:学習データから推定
本自動識別システム概念図 音声長に応じた重み付け和による統合結果 切り出された音声 アクセントピーク 間隔識別機 ΔlogF0 識別機 MFCC 識別機 ΔMFCC 識別機 音 声 長 朗読音声・ 歌声の尤度 単 独 特 徴 量 識 別 機
単独特徴量識別機の構築 1/2 朗読音声 データベース EMアルゴリズム 朗読音声 GMMパラメタ 歌声 データベース 歌声 GMMパラメタ 1.学習概念図 特徴量抽出,分布を出力 特徴量毎に歌声,朗読音声 それぞれパラメータ学習 (プロファイルデータ作成)
単独特徴量識別機の構築 2/2 朗読音声 GMMパラメタ 歌声 GMMパラメタ GMM GMM 音声データ 歌声尤度 – 話声尤度 特徴量抽出 尤度差 入力 出力 2.構築 学習データから識別器構築 内部情報として以下を持つ •歌声度合い(尤度) •朗読音声度合い(尤度)
学習用データ
• 大量の歌声・朗読音声から学習
• AISTハミングデータベース7500音
• 男声37名,女声38名分
本統合法:重み付け和 入力音声 入力音声長に応じた重みづけ和 出力尤度差 ΔlogF0 識別器 MFCC 識別器 アクセント ピーク間隔 識別器 ・・・ ΔMFCC 識別器
統合重みの推定法 学習データに対する識別精度が最も高くな る重みの組み合わせを全空間探索 • 重みは0から10までの11段階 • 探索空間は11^4通り • 最も精度の高い組み合わせ選択 • 重みの総和が1となるよう正規化
本手法と従来法
[大石ら,06]の比較
本手法 •本特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 4. アクセントピーク間隔 •本統合法:時間長に応じ た重み付けによる統合 従来法 •従来特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 •従来統合法:ベクトル結合評価の目的 1. 新たに導入した ΔF0・アクセントピーク間隔の有効性 従来特徴量との比較 2. 本手法の総合的な有効性 1. 従来統合法との比較 2. 従来特徴量との比較 評価方法:7500音声の15クロスバリデーション
1-1 アクセントピーク間隔の効果 • ΔMFCC(音色時間変化)がprimary • ΔlogF0(音高時間変化)がsecondary • アクセントピーク間隔は長時間音声向け 識別精度 [% ] 単独特徴量識別機の識別精度 65 70 75 80 85 90 95 100 ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0
• 単独特徴量識別器より高い精度 2-1 本統合法により精度向上 識別精度 [% ] 評価音声長 [ミリ秒] 識別精度 55 60 65 70 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0 本特徴・本統合
2-2,3本統合法と従来統合法の比較 • 特徴量選択,統合方法いずれも精度向上 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 従来特徴・従来統合 従来特徴・本統合 本特徴・本統合 86.2% 88.4%(△2.2) 88.9% (△2.7) 平均精度
推定された統合重み • ΔlogF0:1500~2000ミリ秒で重要な役割 • ΔMFCC,ΔlogF0が重要(重みの8割) 評価音声長 [ミリ秒] 重み係数 単独特徴量識別機の統合時の重み 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 500 1000 1500 2000 2500 3000 ピーク間隔 ΔlogF0 MFCC ΔMFCC
デモ:歌声朗読音声自動識別システム • ゼロ交差数に基づく音声切り出し • 歌声?朗読音声?我々の解答 • 歌舞伎(女形) 音声データベース日本語を歌・唄・謡うから • お経 白隠禅師坐禅和讃 • 赤ちゃん(4カ月) youtube投稿動画 • スキャット 楽曲 Scatman から
今後の課題 1. 音声検索(Google音声検索等)と 歌声検索(SoundHound,midomi等)の 自動切り替えを行うアプリケーション 尤度差が小⇒やり直し 2. 人への発話と機械への発話を識別 必要な時だけ駆動する 朗読音声・自由発話識別が一つの方法では 機械への話声:朗読音声に近い 人同士の話声:自由発話
むすびのことば 切り出された音声に対してΔlogF0・MFCC・ ΔMFCC・アクセントピーク間隔に基づく単独 特徴量識別器の尤度に,時間長に応じた重 み付け統合することで,歌声と朗読音声を 連続的に識別するシステムを開発した