• 検索結果がありません。

スライド 1

N/A
N/A
Protected

Academic year: 2021

シェア "スライド 1"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

スペクトル変化量のピーク間隔・F0・MFCCを 用いた歌声と朗読音声の自動識別システム

○阿曽 慎平(京大),

齋藤 毅(金沢大), 後藤 真孝(産総研),

(2)

人:歌声・話声(朗読音声含む)聞き分け応答 • 奥乃研・音楽情報処理グループの日常 阿曽 天気悪いなぁ 雨降るらしいで アイウォンチュ~♪ アイウォンチュ~♪ I want you!! 何言うてんの?

(3)

機械(計算機)上も聞き分け応答してほしい

• 多様な音声サービス

東京の

(4)

機械(計算機)上も聞き分け応答してほしい • 多様な音声サービス ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス

(5)

機械(計算機)上も聞き分け応答してほしい • 多様な音声サービス • 違う音声なので自動的に判断してほしい 東京の 天気 Google 音声検索など ♪〜♪〜 Shazam SoundHound midomi 歌声検索サービス 手動切替

(6)

歌声朗読音声自動識別により達成可能 • 一般の音声サービス:朗読音声 or 歌声 • 自動識別で利便性増 • 常時起動させておけば手作業無し 朗読音声or歌声 発話 機械による自動識別・振り分け Google 音声検索など Shazam SoundHound midomi

(7)

難しさ:歌声と朗読音声の間は連続的変化 • 歌声?朗読音声?判断してください • 歌舞伎(女形) 音声データベース日本語を歌・唄・謡うから • お経 白隠禅師坐禅和讃 • 赤ちゃん(4カ月) youtube投稿動画 • スキャット 楽曲Scatmanから • 歌声・朗読音声は2値で決定不可 本報告:連続値表現できる識別器開発

(8)

自動識別2つの課題 1. 特徴量設計 • 識別に有効な特徴量を(複数)選択する • 抽出手法の制約:実時間動作 2. 識別器設計 • 連続値表現できる枠組み • 実時間動作

(9)

人の弁別に基づいた特徴量設計 人が識別に利用する特徴量 • 音の高さ(基本周波数):ΔF0 ΔlogF0 - 音階は対数周波数上に並ぶ - Δは時間変化 • 音色(短時間のスペクトル特徴): MFCC, ΔMFCC • 音素を伸ばす時間(音素継続時間): アクセント(スペクトル変化量)ピーク間隔

(10)

ΔlogF0・MFCC・ΔMFCC抽出方法 • F0:10ミリ秒毎に推定 • [yegnanarayana, 08]を利用 • 実時間で抽出可 • MFCC:10ミリ秒毎に算出,12次元 • Δ成分:5フレームの回帰係数 0 200 400 600 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 周波数 時間

(11)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 時間軸 スペクトログラム 周波数 縦の破線はアクセントピーク

(12)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 時間軸 スペクトログラム アクセント 周波数 強さ

(13)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 スペクトログラム アクセント 周波数 強さ

(14)

アクセントピーク間隔の抽出 • アクセントピーク間隔 • 右図の の長さ • 音素継続時間に関連 • 実時間抽出可能 • 抽出方法 1. スペクトル変化量を アクセント[Klapuriら, 06]として算出 2. ピークピッキング 3. 隣り合うピークの時間間隔 時間軸 スペクトログラム アクセント 周波数 強さ

(15)

識別器の設計 1. 特徴量毎に識別器を構成 (単独特徴量識別器と呼ぶ) 2. 出力尤度に対し重み付けで統合 • シンプルで強力 3. 重みは音声長に応じて可変 • 短時間・長時間で効く特徴量は異なると予測 • 最適な重み:学習データから推定

(16)

本自動識別システム概念図 音声長に応じた重み付け和による統合結果 切り出された音声 アクセントピーク 間隔識別機 ΔlogF0 識別機 MFCC 識別機 ΔMFCC 識別機 音 声 長 朗読音声・ 歌声の尤度 単 独 特 徴 量 識 別 機

(17)

単独特徴量識別機の構築 1/2 朗読音声 データベース EMアルゴリズム 朗読音声 GMMパラメタ 歌声 データベース 歌声 GMMパラメタ 1.学習概念図 特徴量抽出,分布を出力 特徴量毎に歌声,朗読音声 それぞれパラメータ学習 (プロファイルデータ作成)

(18)

単独特徴量識別機の構築 2/2 朗読音声 GMMパラメタ 歌声 GMMパラメタ GMM GMM 音声データ 歌声尤度 – 話声尤度 特徴量抽出 尤度差 入力 出力 2.構築 学習データから識別器構築 内部情報として以下を持つ •歌声度合い(尤度) •朗読音声度合い(尤度)

(19)

学習用データ

• 大量の歌声・朗読音声から学習

• AISTハミングデータベース7500音

• 男声37名,女声38名分

(20)

本統合法:重み付け和 入力音声 入力音声長に応じた重みづけ和 出力尤度差 ΔlogF0 識別器 MFCC 識別器 アクセント ピーク間隔 識別器 ・・・ ΔMFCC 識別器

(21)

統合重みの推定法 学習データに対する識別精度が最も高くな る重みの組み合わせを全空間探索 • 重みは0から10までの11段階 • 探索空間は11^4通り • 最も精度の高い組み合わせ選択 • 重みの総和が1となるよう正規化

(22)
(23)

本手法と従来法

[大石ら,06]

の比較

本手法 •本特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 4. アクセントピーク間隔 •本統合法:時間長に応じ た重み付けによる統合 従来法 •従来特徴量 1. MFCC 2. ΔMFCC 3. ΔlogF0 •従来統合法:ベクトル結合

(24)

評価の目的 1. 新たに導入した ΔF0・アクセントピーク間隔の有効性 従来特徴量との比較 2. 本手法の総合的な有効性 1. 従来統合法との比較 2. 従来特徴量との比較 評価方法:7500音声の15クロスバリデーション

(25)

1-1 アクセントピーク間隔の効果 • ΔMFCC(音色時間変化)がprimary • ΔlogF0(音高時間変化)がsecondary • アクセントピーク間隔は長時間音声向け 識別精度 [% ] 単独特徴量識別機の識別精度 65 70 75 80 85 90 95 100 ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0

(26)

• 単独特徴量識別器より高い精度 2-1 本統合法により精度向上 識別精度 [% ] 評価音声長 [ミリ秒] 識別精度 55 60 65 70 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 ΔF0 MFCC ΔMFCC ピーク間隔 ΔlogF0 本特徴・本統合

(27)

2-2,3本統合法と従来統合法の比較 • 特徴量選択,統合方法いずれも精度向上 75 80 85 90 95 100 0 500 1000 1500 2000 2500 3000 従来特徴・従来統合 従来特徴・本統合 本特徴・本統合 86.2% 88.4%(△2.2) 88.9% (△2.7) 平均精度

(28)

推定された統合重み • ΔlogF0:1500~2000ミリ秒で重要な役割 • ΔMFCC,ΔlogF0が重要(重みの8割) 評価音声長 [ミリ秒] 重み係数 単独特徴量識別機の統合時の重み 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 500 1000 1500 2000 2500 3000 ピーク間隔 ΔlogF0 MFCC ΔMFCC

(29)

デモ:歌声朗読音声自動識別システム • ゼロ交差数に基づく音声切り出し • 歌声?朗読音声?我々の解答 • 歌舞伎(女形) 音声データベース日本語を歌・唄・謡うから • お経 白隠禅師坐禅和讃 • 赤ちゃん(4カ月) youtube投稿動画 • スキャット 楽曲 Scatman から

(30)

今後の課題 1. 音声検索(Google音声検索等)と 歌声検索(SoundHound,midomi等)の 自動切り替えを行うアプリケーション 尤度差が小⇒やり直し 2. 人への発話と機械への発話を識別 必要な時だけ駆動する 朗読音声・自由発話識別が一つの方法では 機械への話声:朗読音声に近い 人同士の話声:自由発話

(31)

むすびのことば 切り出された音声に対してΔlogF0・MFCC・ ΔMFCC・アクセントピーク間隔に基づく単独 特徴量識別器の尤度に,時間長に応じた重 み付け統合することで,歌声と朗読音声を 連続的に識別するシステムを開発した

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

文献資料リポジトリとの連携および横断検索の 実現である.複数の機関に分散している多様な

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(採択) 」と「先生が励ましの声をかけてくれなかった(削除) 」 )と判断した項目を削除すること で計 83

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

本事業を進める中で、