The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
v.Connect
v.Connect
ユーザが声色操作を
ユーザが声色操作を
指定できる歌声合成器
指定できる歌声合成器
電気通信大学 情報工学科
電気通信大学 情報工学科
小川 真, 矢崎 俊志, 阿部 公輝
小川 真, 矢崎 俊志, 阿部 公輝
(
(
阿部公輝 研究室
阿部公輝 研究室
)
)
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
v.Connect(開発当初)
●素片接続型合成器
●入力 :
VSQファイル
●コーパス :
UTAU音源
●分析合成:
STRAIGHT
●STRAIGHT版は
開発終了
Vocaloid2用 シーケンス v.Connect UTAU用 ライブラリ STRAIGHT 合成音The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
v.Connect(現在)
●素片接続型合成器
●GUI :Cadencii
●コーパス :
UTAU音源
●分析合成:
WORLD
●Cadencii Projectにて
現在も開発中
v.Connect UTAU用 ライブラリ WORLD 合成音 GUI CadenciiThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
Cadencii
●HN: kbinani 氏制作
GUI アプリケーション
●歌声合成器向け
ピアノロール シーケンサ
●様々な合成器に対し
統一的な操作が可能
●v.Connect を
合成器として添付
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(1)
●v.Connect デモンストレーション
●「
Toss Up」
●本発表の技術を使用
●sm15561654
【歌声合成器デモ】Toss Up【波音リツコネクト】The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
発表の流れ
●v.Connect 開発の経緯
●研究背景・動機・目的
●提案法
●課題点
●研究成果
●まとめ
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
歌声合成ツール
UTAU
●フリーの歌声合成器
●HN : 飴屋/菖蒲氏開発
●規格がオープン
– 自由にライブラリを作成可能 – 3,000 以上のライブラリThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
UTAU 向けライブラリ
●アライメント情報つき波形データ
●多くはキャラクタと共に配布
●声色別の収録
波形データ アライメント 先行発音 300ms 固定長区間 600ms ファイル名 あえ.wav VCV音素名 a えThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
UTAU 向けライブラリ例 (1)
●櫻歌ミコ
●2ch VIP 発
●声
: HN: 赤ずきん氏
●絵
: HN: 縣氏
●収録内容
– CV / VCV 音素片 – 「パワー」「ささやき」などの 声色別の収録 7 種類 – キャラクタイラスト ●http://miko35.is-mine.net/
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
UTAU 向けライブラリ例 (2)
●歌う音ナミ
●マレーシア発
●声・絵
: HN: Nami-chan 氏
●収録内容
– CV / VCV 音素片 – “Soft”, “Sweet” などの 声色別の収録 5 種類 – キャラクタイラスト ●http://utaunenami.webs.com/
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
UTAU 向けライブラリ例 (3)
●龍音セイチ
●アメリカ発
●声:
HN: RyuuSeichi 氏
●絵:
HN: 漆原 龍紅氏
●録音
: HN: Yoru 氏
●収録内容
– VCV 音素片 – “Normal”, “Whisper” の 声色別の収録 2 種類 – キャラクタイラストThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
問題点
●1ライブラリに対し1合成器
●フレーズ/音符毎に切り替えを行う
声色A ライブラリ 歌声合成器 楽譜情報 声色Aの歌声 声色B ライブラリ 歌声合成器 楽譜情報 声色Bの歌声 DAWなど 波形編集ソフトThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
問題点
●1ライブラリに対し1合成器
●フレーズ/音符毎に切り替えを行う
声色A ライブラリ 歌声合成器 楽譜情報 声色Aの歌声 声色B ライブラリ 歌声合成器 楽譜情報 声色Bの歌声 DAWなど 波形編集ソフト ライブラリを同時に使いたいThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
問題点
●1ライブラリに対し1合成器
●フレーズ/音符毎に切り替えを行う
声色A ライブラリ 歌声合成器 楽譜情報 声色Aの歌声 声色B ライブラリ 歌声合成器 楽譜情報 声色Bの歌声 DAWなど 波形編集ソフト ライブラリを同時に使いたい できれば滑らかに変化させたいThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
目的
●歌声合成器に声質モーフィング機能を追加
●任意時刻での
モーフィング率指定を
可能にする
声色A 声色BThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(概要)
F0生成モデル WORLD Synthesis Output: 合成歌唱 表情パラメータ 音高情報 歌詞 スペクトル・残差 F0 声色A ライブラリ 声色B ライブラリ 時間伸縮用 マッチング関数 接続モデル 時間伸縮モデル 統合された 声色ライブラリ Input: 演奏情報 GUI CadenciiThe University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
課題点
(Webでの配布に向けて)
●処理速度低下
●モーフィングによる処理量の増大
⇒事前に合成しやすい形へ分析
●ライブラリ容量の増大
●処理速度とトレードオフ
⇒低次メルケプストラムと
Vorbis で圧縮
●ライブラリ間での発音の違い
⇒素片ごとに時間の対応付けを行い補正
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
課題点
●処理速度低下
●モーフィングによる処理量の増大
⇒事前に合成しやすい形へ分析
●ライブラリ容量の増大
●処理速度とトレードオフ
⇒低次メルケプストラムと
Vorbis で圧縮
●ライブラリ間での発音の違い
⇒素片ごとに時間の対応付けを行い補正
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
音声分析合成系
WORLD
音声信号 WORLD F0 列 STAR スペクトログラム 励起信号スペクトル DIO STAR PLATINUM ●Vocoder ベースで高速・高品質
●単純な分析・再合成だけなら同時に行なえる
– かかる時間は分析>再合成The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
課題点
●処理速度低下
●モーフィングによる処理量の増大
⇒事前に合成しやすい形へ分析
●ライブラリ容量の増大
●処理速度とトレードオフ
⇒低次メルケプストラムと
Vorbis で圧縮
●ライブラリ間での発音の違い
⇒素片ごとに時間の対応付けを行い補正
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
WORLD のデータサイズ
●標本化周波数
44,100[Hz] の場合
⇛分析シフト長
n[ms] 毎に約 3,000 点必要
n = 2 の時で波形の 約 30 倍のデータ量
音声信号 WORLD F0 列 STAR スペクトログラム 励起信号スペクトル DIO STAR PLATINUM 1025 次元 1 次元 2048 次元The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
課題点
●処理速度低下
●モーフィングによる処理量の増大
⇒事前に合成しやすい形へ分析
●ライブラリ容量の増大
●処理速度とトレードオフ
⇒低次メルケプストラムと
Vorbis で圧縮
●ライブラリ間での発音の違い
⇒素片ごとに時間の対応付けを行い補正
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
課題点
●処理速度低下
●モーフィングによる処理量の増大
⇒事前に合成しやすい形へ分析
●ライブラリ容量の増大
●処理速度とトレードオフ
⇒低次メルケプストラムと
Vorbis で圧縮
●ライブラリ間での発音の違い
⇒素片ごとに時間の対応付けを行い補正
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(事前分析)
声色 A 波形 WORLD Analysis F0 Vorbis Encoder IFFT PLATINUM STAR OggVorbis 励起信号波形 励起信号波形 メル周波数変換 MelCepstrum 声色 B 波形 WORLD Analysis F0 Vorbis Encoder メル周波数変換 OggVorbis 励起信号波形 IFFT MelCepstrum 伸縮マッチング 時間伸縮関数 振幅包絡 振幅包絡 低次元化 IFFT IFFT DIO 対数化The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(事前分析)
声色 A 波形 WORLD Analysis F0 Vorbis Encoder IFFT PLATINUM STAR OggVorbis 励起信号波形 励起信号波形 メル周波数変換 MelCepstrum 声色 B 波形 WORLD Analysis F0 Vorbis Encoder メル周波数変換 OggVorbis 励起信号波形 IFFT MelCepstrum 伸縮マッチング 時間伸縮関数 振幅包絡 振幅包絡 低次元化 IFFT IFFT DIO 対数化 ノイズ成分 声の特徴 発音の差The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(事前分析)
声色 A 波形 WORLD Analysis F0 Vorbis Encoder IFFT PLATINUM STAR OggVorbis 励起信号波形 励起信号波形 メル周波数変換 MelCepstrum 声色 B 波形 WORLD Analysis F0 Vorbis Encoder メル周波数変換 OggVorbis 励起信号波形 IFFT MelCepstrum 伸縮マッチング 時間伸縮関数 振幅包絡 振幅包絡 低次元化 IFFT IFFT DIO 対数化The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(事前分析)
声色 A 波形 WORLD Analysis F0 Vorbis Encoder IFFT PLATINUM STAR OggVorbis 励起信号波形 励起信号波形 メル周波数変換 MelCepstrum 声色 B 波形 WORLD Analysis F0 Vorbis Encoder メル周波数変換 OggVorbis 励起信号波形 IFFT MelCepstrum 伸縮マッチング 時間伸縮関数 振幅包絡 振幅包絡 低次元化 IFFT IFFT DIO 対数化The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
励起信号抽出法
PLATINUM
●実信号スペクトル と,
パワースペクトルの最小位相スペクトル
から励起信号を以下の式で求める
●位相を無視しない高品質な分析合成系
●励起信号スペクトル
R(ω) は
パワースペクトル的な扱いに適さない.
X (ω)
H (ω)
R(ω)=
X (ω)
H (ω)
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
励起信号の圧縮法
●実信号スペクトル と,
パワースペクトルの最小位相スペクトル
から励起信号を以下の式で求める
●モーフィング時
R(ω) は線形補間
●として
Vorbis 圧縮
X
H
R=
X
H
r t =IDFT [ R]
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(事前分析)
声色 A 波形 WORLD Analysis F0 Vorbis Encoder IFFT PLATINUM STAR OggVorbis 励起信号波形 励起信号波形 メル周波数変換 MelCepstrum 声色 B 波形 WORLD Analysis F0 Vorbis Encoder メル周波数変換 OggVorbis 励起信号波形 IFFT MelCepstrum 伸縮マッチング 時間伸縮関数 振幅包絡 振幅包絡 低次元化 IFFT IFFT DIO 対数化 発音の差The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
時間伸縮関数の設計
●ライブラリ間の発音の差を補正
●振幅包絡の差の積分を最小とする経路
●対応する素片同士で
T(t)を記録
E t=
∑
i=−m m
x t
i
f
s
2, f
s: 標本化周波数
∫
t=0 lA∣
E
A
t −E
B
T t
∣
d
t
2
T
2
t min , s.t.
dT t
dt
0
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
提案法(合成)
時間伸縮関数 OggVorbis 励起信号波形 MelCepstrum vorbis Decoder OggVorbis 励起信号波形 MelCepstrum 声色A 線形周波数化 声色B FFT FFT 線形周波数化 FFT vorbis Decoder FFT 重みつき和 重みつき和 WORLD Synthesis 音声波形 F0 generator F0 対数パワースペクトル 励起信号スペクトル 対応時刻The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
波音リツコネクト
●本技術によるライブラリ
●波音リツ
Project と共同制作
– http://hal-the-cat.music. coocan.jp/ritsu.html – 上記で「波音リツコネクト」 として公開されています.The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
波音リツコネクト収録内容
収録単位 VCV 収録語数 955語 マイク Audio-Technica AT-4040Audio I/F Roland UA-25EX
収録場所 約60畳の業務用冷凍庫 MelCepstrum 32 次元 OggVorbis 44.1サンプルあたり 64kbit 声色指定 「強い」「中間」「弱い」 三種類
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成速度
●波形からの合成の約
2 倍高速
●32 秒のシーケンスの合成時間(単位:秒)
CPU 波形から合成 提案手法 スレッド数 Celeron 1.73Ghz 89.1 40.4 1 Core2Quad 2.8Ghz 39.6 20.7 1 Core2Quad 2.8Ghz 22.3 10.5 2 Core i7 3.5Ghz 22.9 13.1 1 Core i7 3.5Ghz 11.6 6.6 2The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
ライブラリ容量
波形 WORLD RAW 提案手法 元データ 176.4 - -スペクトル - 4096 128 励起信号 - 8192 約200 合計 176.4 12288 約330 ●波形の約
2 倍
●2[ms] あたりに必要なデータ量[bytes]
●圧縮の条件は波音リツコネクトと同じ
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(2)
●童謡「ふるさと」
– 声色指定パラメタのみ手作業で編集 ●圧縮の影響の比較
– 波形から合成 – 提案法で合成 ●操作パラメタの比較
– モーフィング率一定 – モーフィング率手動変更The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(2)
●童謡「ふるさと」
– 声色指定パラメタのみ手作業で編集 ●圧縮の影響の比較
– 波形から合成 – 提案法で合成 ●操作パラメタの比較
– モーフィング率一定 – モーフィング率手動変更The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(2)
●童謡「ふるさと」
– 声色指定パラメタのみ手作業で編集 ●圧縮の影響の比較
– 波形から合成 – 提案法で合成 ●操作パラメタの比較
– モーフィング率一定 – モーフィング率手動変更The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(2)
●童謡「ふるさと」
– 声色指定パラメタのみ手作業で編集 ●圧縮の影響の比較
– 波形から合成 – 提案法で合成 ●操作パラメタの比較
– モーフィング率一定 – モーフィング率手動変更The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(2)
●童謡「ふるさと」
– 声色指定パラメタのみ手作業で編集 ●圧縮の影響の比較
– 波形から合成 – 提案法で合成 ●操作パラメタの比較
– モーフィング率一定 – モーフィング率手動変更The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
合成例
(3)
●拙作「
Breathe -retrieval-」
●声色指定パラメタ
音程遷移を付加
(手作業)
●sm16309748
【波音リツコネクト】Breathe -retrieval-【オリジナル】The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
変換ツール
●インターネット上での
利用を前提
●変換用の
GUI を配布
●「波音リツコネクト」と
同じページで公開中
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
変換ツール
●インターネット上での
利用を前提
●変換用の
GUI を配布
●「波音リツコネクト」と
同じページで公開中
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
まとめ
●ユーザが声色操作可能な歌声合成器
v.Connect を作成した
●任意時刻・任意強度でモーフィング率を指定可能
●合成速度とライブラリ容量を改善
●速度約
2 倍・ライブラリ容量は波形の約 2 倍
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
今後の課題
●品質についての定量的評価
●モーフィング精度の向上
●声色変化パラメタの自動生成
●シーケンスの入力は手作業に依るところが大きい
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
予稿訂正のお詫び
●予稿中「
VocaListener2」の表記を
「
VocalListener2」と誤記しておりました.
大変失礼致しました.
ここに訂正するとともに
謹んでお詫び申し上げます.
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project Cadencii Project
謝辞
開発にご助力いただいた
Cadencii 開発者の kbinani 様
音源の制作にご協力いただいた
波音リツ
Project のみなさま
WORLD 開発の立命館大学の森勢助教
UTAU 開発の飴屋/菖蒲様
この場をお借りして感謝申し上げます.
The University of Electro-Communications
The University of Electro-Communications
Cadencii Project
Cadencii Project