修士論文
機械学習に基づく歌唱音声の 声質評価システムの構築
平成
26年度
三重大学大学院 工学研究科 博 士 前 期 課 程 物 理 工 学 専 攻
岩 本 享 大
2
目 次
第
1章 序 論
41 .
1研究の背景と必要性 . . . . . . . . . . . . . . .
•. . . . . . . . . . . . .
•.
•..
41 .
2研 究 概 要 . . . . . . .
•. .
•.
•. . .
•. . . . . . .
•.
•. . . . . . . . . .
•.
.• 51 .
3本 論 文 の 構 成 . . .
•.
•. . . . . . . . . . .
•. .
•. . . . . . . . . .
•. . . . ..
6第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
7 2.1ヒトの発声メカニズ、ム
23 . • . . . • . . . . • . • . . . • • . • . . .. 7 2.2音韻と音程の違い.
•. . . .
•. . . . . . . . . . . . . . . . . . . . . . . . . . . ..
7 2.3裏声と表声の違い. . . . . . . . . . . .
•. . . . . . . .
•. . . . . . . . .
•. . ..
10 2. 4 換声点及び換声点ショック. .
•. . . . . . . . . .
•. . . . . . . . . . . . . .
• .• 11 2.5 YUBAメソッド. .
•.
•. . . . . . . . . . . . . . . .
•. . . . . .
•. . . .
•. ..
11 2.6普及のための課題. . . . . . . .
•. . . . . . . . . . .
•. . . . . . . . . . . . . ..
13第
3章 歌 唱 音 声 デ ー タ ベ ー ス の 構 築
144 5 7 9
4EA唱
E 4 1 E 4
噌Eム
訳
・ 価 内 タ 評 の 一 と ス 題 デ 析 一 課 声 解 べ と 音 の タ め 録 声 一 と 収 音 デ ま 1 2 3 4
q u q d q d q d
第
4章
FMRの評価精度に関する検討
214.1 SVM
について
28 . . . . • . • • . . • • . • . . . • . • . • • . • . . . .. 21 4.2 SVMの 構 成 . . . . . . . . . .
•. . . . . . . . . . . . . . . . . . . . . . . .
•. ..
22 4.2.1入力要素.
• •.
•. .
• •.
• •. .
• • •.
•. . .
• •. . .
• • • •. .
•.
•• 22 4.2.2出 力 .
•.
•.
• • • • •. .
•. .
• • •.
• • • •.
•.
• •.
• • • •.
• •.
•. 22 4.2.3学習データと評価データ. . . . . . . .
•. . . .
•. . . .
•. . . .
•. .
•. 223 4.3
評価結果. . . . . . . . . . . . . . . .
•. . . . . . . .
•.
•. . . . . . . . .
•. ..
234.3.1
連続値での出力. . . . . . . . . . . . . . . .
•.
•. . . . . . . . . . . . ..
24 4.3.2離散値での出力結果 . . . . .
•. . . .
•.
•. . . . . .
•.
•. . . . . . ..
25 4. 4 まとめ.
• •.
•.
• •.
• • • • • •.
• • • • • • •.
•.
•.
•.
• •.
• •.
•.
• • .• 279 9 9 0 1 1 2 4
9a
っ ︒
‑ q d q d q o q d 9 d
価
‑
U T
‑
討 果
・
・
・
・ 計 検 結 一 一 一 一
B
る 価
・
・
・
・ の す 評
・
・
・
・ で 聞 の
・
・
・
・ ル 比 何 件 果 一
・ げ 糊 剣 条 結 入 択 詐 価 同 噌 柵 導 選 学 評 と 宅 一 色 町 の の た
ぬ
R l
! R R
し め
S M U U N N良 と
B F ι ι H H改 ま 章 一 1 2 3 4 5
V O F O v o v u v O
匝 り
第
5 5 5 5 6 7 8
q d q d q d q d q o q d q o
例 事
高 山 高 山
・
・
・
・ 新 制 川 口 同 め 湘 の の 伊 伊 伊 と 拒 声 事 事 事 ま の
B
音 崎 叩 畑 舟 郎
ル
﹄ 日 日 号 ロ 苔 町 一 一 ぜ 町 田
rhE
フ と
R
歌
1 2
結 R M M 説
L l u
咽 M E 迫
6 6 6
劃 F
章 ・ 1 2 3 6 6 6 6
第
第 7章 総 括
394
第
1章 序 論
1.1
研究の背景と必要性
最近、若者だけでなく、中高年でも趣味でカラオケを楽しんだり合唱サークルに所属して歌を 歌う人が多い。また、その人達が歌いたいと思う曲には高音域の発声(一般に裏声あるいはフア ルセットボイスと言われる)を要するものも多く、「どうすればプロ歌手のように高音をきれいに 発声できるのか」ということに彼等は強い関心を持っている。その中で、
5年程前から
YUBAメ
ソッドという発声トレーニング法がテレビなどのメディアでよく紹介され
1‑4、注目を集めている。
YUBA
メソッドとは三重大学教育学部教授弓場徹が提唱する歌唱トレーニング法(第
2章参照) であり、本研究はこれに関連する弓場との共同研究の一部として実施されたものである。
ここで、まず
YUBAメソッドのトレーニング法について簡単に説明する。
YUBAメソッドでは 最初に音域の拡張を目的に裏声と表声(地声ともいう)を分離して発声する訓練を行う。その後、
表声が声帯の振動様態の異なる裏声に切り換わる音域つまり換声域
5での音色の急激な変化や音 程の乱れ(換声点ショックという)を目立たせないように裏声と表声を滑らかに変化させる訓練に 移行する。このような一連の訓練を行うには裏声が正しく発声されているか、裏声と表声が滑ら かに変化しているか(換声点ショックが小さいか)について熟練した指導者が耳で聞いて判断する 必要がある。そのため、これまでに
YUBAメソッドの普及を目的に、その具体的な方法を解説し た書籍
6‑11、
CD12,
13、
DVD14‑18が多数出版・販売されている。また
YUBAメソッドを利用した 歌唱トレーニングでの音痴克服や安定した歌唱習得の成果も発表
19,
20されており、
YUBAメソッ
ド自体の有効性は既に確認されている。
YUBA
メソッドのトレーニングでは表声と裏声をしっかりと出し分けられているのかを発声者
自身も意識することが重要とされているが、初心者にとっては自分の感覚に基づいて表声と裏声
を判別すること自体が難しい場合もあり、 トレーニングの導入の妨げになっていた。そこで、当
研究室では個人によるトレーニングを効率よく実施できるよう機械による表声/裏声の自動判別の
ためのシステムの構築を試みてきた
21320一方、歌唱トレーニングにおいては表声/裏声の判別以
第 1 章 序 論
5外にも「息の漏れ度合」を評価するこ左も重要視されている。例えば同じ裏声でも、息漏れの少 ないいわゆる「歌える裏声
Jと、息漏れの多い「息漏れの裏声」の区別があり、前者は歌唱に適し た発声である。一方、後者は歌唱には適さないものの、音程をとるために働く輪状甲状筋を効率 よく鍛えるための発声であり、
YUBAメソッドの初期段階では特にこの発声が求められる。した がって表声/裏声の判別に加え息漏れの度合を評価することにより、正確で信頼できる声質の評価 が可能となり、より効率的なトレーニングが可能になると考えられる。本研究は表声/裏声評価に 加え、新たに「息も入れ度合」を機械学習により評価するための可能性を探るものである。今回 は機械学習にサポートベクターマシン
(SVM)を用いた。
1.2
研究概要
YUBA
メソッドでは人の発声は男声、女声ともに
2声区(表声・裏声)しか存在しないものとし ている。しかし専門家が歌唱音声を評価する場合、「裏声の混ざった表声」や「表声の混ざった裏 声」などといった表現をする場合がある。そこで従来までの単なる表声/裏声のみの
2段階評価で はなく、表声にどのくらい裏声が混ざっているのかを表す指標
FalsettoMixing Ratio(F M R)を 導入した。また前述した「息漏れ具合」の評価のための指標
BreathyStrength(BS)も新たに導入 し歌唱音声の評価に用いることにした。これらの指標は
Oから
1までの数値で表され、
FMR=Oが「完全な表声」、
FMR=lが「完全な裏声」であることを意味し、
BS=Oが「息漏れのほとんど ない歌声」、
BS=lが「息漏れが最も多い歌声」であることを意味している。これらの指標は専門 家の耳による感覚を頼りに単音ごとに値を割り振り、
SVMによる機械学習のための教師データと
して用いた
(3章参照)。
また従来研究においても
FMRの評価に類似した表声/裏声の機械学習による判別が試みられ ている
21が、男声、女声それぞれ
3名という少人数のデータによる検証であり精度や誤差などの 検討は十分とは言えなかった。そこで機械学習での評価結果をより説得力のあるものにするため 様々な年代の歌唱データを網羅したデータベースを作成した
(3章参照)口このデータベースには幅 広い年齢層 ( 2 0 ' " ' ‑ ‑ 5 0代の 23名)の総計約 10000件におよぶ男声サンフロルが収録されており、各音 に音高(ピッチ周波数)、音量、高周波比率などの物理的評価値と共に専門家による
FMRと
BSの評価結果が収録されている。本研究では、このデータベースを利用し
FMRと
BSを予測する
SVM
をそれぞれ構築し評価精度の検証を行う
D第 1章 序 論
1.3
本論文の構成
以下に本論文の構成を示す。
第
1章では、研究背景・目的
第
2章では、発声メカニズ、ムと
YUBAメソッド 第 3 章では、歌唱音声データベースの構築 第
4章では、
FMRの評価精度に関する検討 第
5章では、
BSの評価精度に関する検討 第
6章では、
FMRと
BSの評価事例 第 7章では、総括と今後の課題
について述べる。
6
7
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
本章では、ヒトの音声の特徴とともに研究の遂行に必要となる裏声・表声の発声メカニズムと 歌唱トレーニング法
WYUBAメソッド』について概説する。
2.1
ヒトの発声メ力ニズム 23
歌唱音声に限らず、ヒトが発する様々な声の多く(有声音として母音が代表的)は、肺から送ら れた呼気流によって声帯(声門)が振動する(閉じたり開いたりする状態を繰り返す)ことで生 じた音(声帯音源という)によって作り出されている。声帯音源は気流の断続で生ずる波形(三 角波に近い形状)で、どちらかといえばブザー音のようなものであり、我々が普段耳にする声と
は異質のものである。しかし、これが口腔・咽頭・喉頭・鼻腔・副鼻腔で構成される断面形状が 長手方向に複雑に変化する管(音声学的には声道という)を通ることで特定の周波数成分が強調 されたり抑圧されたりして(周波数スベクトルに変化が生じ)、口や鼻干しから聞き慣れた声として 大気中に放射されている。つまり声道は声帯原音のスベクトルを変化させて声に変換するフィル タ装置と見なすことができ、これを声道フィルタと呼ぶ。要約すれば、ヒトの声は声帯で発声し た声帯音源を声道フィルタに通すことで得られる音といえる。図
2.1は声帯音源から音声が作ら れるイメージを図示したものである。
2.2
音韻と音程の遣い
ヒトの声を特徴付けるものとして、大きさ、音韻、音高(ピッチ)がある。音声の大きさの変 化が声帯音源の大きさに依存していることは自明である。
これに対して、「あ
Jr しリ「う
Jのような音韻の認識の違いは音声のスベクトルのエンベロープ
のピーク、すなわち声道フィルタの局所ピーク(フォルマントと呼ばれる)の相対的なレベルとそ
の位置関係(フォルマント周波数の組み合わせ)によるものと考えられている。
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
. . . . . . . . .
( 音声 品 ; . . ( (
<<‑•
. .
..図
2.1:人の発声過程の図
8
また、声の高さ(ピッチ、音高)は音声のフォルマントとは関係なく声帯原音の周期に依存して おり、その逆数である基本周波数で決定される。つまり、音の高さはフォルマント情報には関係 がなく声帯の振動周期のみに依存していることになる。
図
2.2に母音 「 あ
J音声波形とスペクトルの一例を示し、図
2.3に一般的な母音「あ」のフォル マントの形状を示す。本論文では図
2.2に示すようにピッチ周波数(単位
Hz)を
10、基本波のスベ クトル強度(単位
dB)を
Hlで表し、その高調波である
2̲""̲̲η倍音のスベクトル強度を
H2̲""̲̲Hη,で 表すことにする 。 同図よりスベクトルの細かな周期構造がピッチを決める要因になっていること がわかる。また、図
2.3に示すようにスベクトル包絡に現れるピークがフオルマントであり、低い 周波数の方から順に第
1、第
2…フォルマントと呼ばれる。本論文中でのそれらのピーク周波数 (単位
Hz)をフオルマント周波数として記号
Fl,
F2, ・・・で表す。またそれぞれのピーク値(スベク トノレ強度、単位
dB)を
Al,A2,… で 表 す。 このようなゆるやかなスベクトル包絡が音韻を決める 要素になっている 。
ところで、会話音声のピッチ(声の高さ)は声帯が最も効率よく振動する周波数で決定されて
おり、個人(特に男女)聞のピッチ差は声帯の長さ・質量・張力などと関連がある。通常の会話音
声の場合、ピッチ周波数は男声で
60" ,260Hz、女声で
120" ,520Hzに分布するが、通常の会話で各
個人が変化させる範囲はせいぜい
100" ,200Hz程度である。しかし、歌を歌う場合にはこのピッチ
をメロディに合わせて、より広い範囲で変化させることが必要 となる。当然、通常の会話音声の
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソ ッ ド
9芯 ろ 湖 む
を
S4it1
会
‑42..L
々
、
〈。? く 叫
J' ι
M H
rE t
図
2.2:母音「あ」の倍音波形図
( ∞ 忍
強
84
倒
コ ミ
‑42‑'‑
ξ¥
て ? く
w1000 2000
燭波数
[Hz]3000
図
2.3:母音「あ」のフォルマント図
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
10発声とは異なる声帯の振動が必要とされる。後述するように特に高音を発声する場合には声帯の コントローノレが難しくなり、発声ができなかったり、音程を外す原因となる。
2.3
裏声と表声の違い
弓場の著書 奇跡のボイストレーニング
BOOK(主婦の友社,
2004)"によれば、裏声と表声の 発声法の違いには内喉頭筋群が関係している。内喉頭筋群とは声帯を引っ張ったり、声門(左右 の声帯のすき間)を閉じたり開いたりして、声帯の動きをコントロールしている喉にある一連の 筋肉群のことであり、喉ぼとけや甲状軟骨に付随する閉鎖筋群や開大筋がある(図
2.4参照)。
弓場はこれらの筋肉の中でも声帯を引っ張り伸ばす筋肉や声門を閉じる筋肉ことを、歌うこと の中心的な役割を担っているので「歌う筋肉」 と呼んでいる。
怠 い こ う と う き ん
・ 副 慌
lj̲︐S
事 ︑
~ ~~~ ~~fl賂鎖鱗
1
1 路大筋
1 jC
待問を開ける筋肉) 甲状軟脅
図
2.4:内喉頭筋の様子
5これら筋肉のうち、音の高さを変えるのに主役となって働くのが輪状甲状筋である。この筋肉 は気管の一番上にある輪状軟骨と甲状軟骨(突出したところを一般に喉ぼとけと呼ぶ)をつない でいる。この筋肉が働くと、甲状軟骨と輪状軟骨が近づいて声帯が引き伸ばされこの時声帯の傾 きが弱く声帯の質量が小さいと音が高くなり裏声が出る。一方、閉鎖筋群が輪状甲状筋に対して 優勢に働き、声帯筋の働きにより声帯の質量が大きい状態で声門が閉じられると息漏れの少ない 表声になる。
したがって表声か裏声かは、内喉頭筋の筋肉運動による声帯の振動状態の違いで決まるので、あっ
て、声の響きの状態で決まるわけではない。図
2.5に裏声発声時の輪状甲状筋の働きを示す。
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
11図
2.5:裏声発声時の輪状甲状筋の働き
52.4
換声点及び換声点ショック
換声点とは、裏声と表声の変わり目のことを指す。例えば低い表声から徐々に高い裏声に上行 させたり、逆に高い裏声から徐々に低い表声に下行させていくと、途中で急に音質や音量が変化 するところがある。これが換声点である。歌唱中に換声点を挟んで表声から裏声に切り替わる瞬 間に音程が外れ、歌唱が不安定になる人も多い。これは声帯の筋肉が表声を発声するよう働いて いたのに、換声点付近で急に裏声の筋肉運動へ変えたため、筋肉運動が提示された音声の変化に ついていけない状態と考えられる。
2.5 YUBA
メソッド
YUBA
メソッドとは弓場が提唱しているボイストレーニング法のことである。このトレーニン グ法は、ヒトは内喉頭筋を直接意識してコントロールすることは出来ないが、出す声によってどこ の筋肉が働くかはおおよそ予想できるため、モデルとなる声をまねて発声することにより間接的 に「歌う筋肉」を効率よくコントローノレで、きるようになるという考え方、つまり
YUBA理論(発 声制御理論)に基づいている。 トレーニング手順の簡単な流れは図
2.6に示す通りである。
図
2.6中のそれぞれの
Stageの目的と練習内容は次のように定義されている。
• Stage 1:裏声と表声をはっきりと分けて出す
例
1:息漏れのある高い裏声を出す
フクロウの鳴き声「ホー
jや犬の遠吠え「ウォー
J等をまねて発声し、裏声を出 すことに慣れる。
例
2:息漏れのない表声を出す
12
発声メカニズムと
YUBAメソッド
第
2章
とはっきりした息漏れ の形に開け、息を止めてからひと息で
「アー」
口を「あ
jのない(実際には、息が効率よく声帯振動に変わる状態に相当する)低めの声で
2rv3秒声を出す。
• Stage 2:
裏声・表声でいろいろな高さの音を出す 例 :
Stage1で発声した音を様々な音程で歌唱する
と一声ずつ音の高さを と高めの裏声で始め、「ホー・ホー・ホー・ホー」
「ホー」
「アー
jに変えて行う 。 変えて出す。次に「ホー
Jを表声の
• Stage 3:
裏声・表声で簡単なメロディを歌う
例:i かえるの合唱
Jなどの簡単なメロディーを高い音域の裏声「オー
J(または「ウー
J)で 歌う。息漏れを少なくし、一息で長めのフレーズを歌う。次に音域を下げて低めの息漏れの
で同じメロディーを歌う。
ない表声「アー」
YUBAメソッドの発声 ~III 線手 JI褒
Stage 6 Stage
5 Stage
4 Stage
3 Stage
2 Stage
l
南方の声を強めよく混ぜて一体化する
. ︐
••一 向 方 の
tF
を
山 混 ぜ て 換 世 同 点 を 口 出 立 た な
くする
蝿
輯
ーー
十 向 't
H
の
声 を 行 き 来 し て 敬
︑ コ
ー竃
毛
護
j=
3
受
戸笠 松3
で 務 主 義 な メ
仁
3イ
灘蝿警 官竺・・歎 つ
議 長
議 官 伊 ・ 表 世 間
6
で急々な惑さの替をおす
・ ・ ・ ・ ・
⁝ ・ ・
一 塁 一 円 と 表
︑ 一 声 を は っ き り と 刊 分 け て 宅
泌 す
b F
誕 祭 戸
愉悦惜戸点
•
•
墜 さ
一 戸
•
{ 忌
図
2.6:YUBAメソッドのトレーニング段階図(弓場によるイメージ図)
第
2章 発 声 メ カ ニ ズ ム と
YUBAメソッド
13• Stage 4:
裏声と表声の両方の声を行き来して歌う
例: r ドーシーラーソーファーミーレードー」と高い音から「裏声→表声」に向かつて歌い、
反対に低い音から「表声→裏声
jでも練習する。途中換声点で、声がひっくり返ったり、出し にくくなっても音程が外れなければ良好な状態と判断する。
• Stage 5:
両方の声を混ぜて換声点を目立たなくする
例:出来るだけ高めの息漏れのない裏声を「オー
J(息漏れするようなら「アー
J)で歌い 始め、表声に向かつて
2オクターブ(ドーシラソファミレドーシラソファミレドー)下げて し 、 く 。
• Stage 6:
両方の声を強めよく混ぜて一体化する
例:さらに喉の筋肉トレーニングが進んで
Stage5がより発展した状態である。
このボイストレーニング法を行うことで、表声と裏声の境目である換声点での急激な音質や音 量の変化を減らし、広い音域をなめらかに発声することが可能になる。
インストラクタの模範発声をまねて実践的にボイストレーニングできるトレーニング本 (CD 付)や
CD,
DVDl1‑17が出版されている。
2.6
普及のための課題
本章で紹介した
YUBAメソッドの発声・歌唱教育上の効果の高さは既に検証されている
21が 、 第 1 章で述べたように、個人で本 (CD付)や
DVDを購入してトレーニングする場合を考えると、
発声状態の確認は自己判断に委ねられるため練習が効率的に進まないことが多々ある。そのため、
個人レベルで、客観的に自分の発声が裏声なのか表声なのかまた息がどのくらい漏れているのかが
判断できるように、
FMRや
BSなどの声質判別指標を導入することが求められている。また、こ
のような指標を利用した個人で、簡単かっ効率的にトレーニングできるアプリケーションの開発も
期待されている。
14
歌唱音声データベースの構築 第
3章
本章では本研究の遂行のために新たに構築したデータベースの作成手順と内包されるデータに ついてに解説する
。収録音声データ
3.1データベースを構築するためにはまず様々な年代の歌唱音声を収録する必要がある。今回は
20代
'"'"'50代の 一般男性(計
23名)の音声収録を行った。図
3.1に示すように歌唱者はスタンドで固定
したマイクロホンの前に立ち、開放型のヘッドホンを装着する。録音は熟練者同伴で行い、歌唱 者は必要に応じてガイドメロディやキーボードの伴奏を聞きながら歌唱を行った。
名人ゆJV︑︐eAす母︑︐
︑︐AAVVvy‑‑冒
A A v a e h
族
蜘
︑ e
︑
︐
︑
︐
︑
︐ ι e . ム 守 v A . .
︐e
︑
A+
γ
︑︾︐46@︐︿︑A︒守︐JA︒噂︐︿︑白@
•
h .. ︐A︒v命'〆J£砂︑為.︐︐
ι . ︐a守可A争︐︑
av'
A V a n
︐
︐ 4
︑ ぜ
・ u内
・
・
私︑︐
e
︐
AV .
︑ . .
︑
︒ . A V ま
‑
‑ L V A
込AAV︑︐︐︑︑
. b .
︐ A v e . 緒 m v q h u 色
︒ 誌 を
@ a
︐
︑ 仇
B' e h
働e
‑ ゆ ム 唱
︑ゐWA‑‑︽
e v
‑
‑
偽'AVAV︐
︒ 杭 N 4 h w φ
A
A U
︑ 日 胃 .
︐ . h S
AV
‑A
‑
曳
旬
︒ . 6 h u A M a e
‑
‑ 4 嶋 私
︒ . A A Au‑v由
v v
・
‑ e A w
‑
‑
‑
‑ e a e
uw
峰
︑
︒ 司 ゆ 句
︑ V A
‑
‑ e
‑ u a d J A M M
頃 桜
島南︐Aeゆ
@ hn d A d u x
‑ 局
︑
︑ 私 A w
‑
‑ s
・ a
‑ s q a M e
‑
‑
・
・ 4
・ A N a
‑
‑
‑
‑
也・awAHA
A 両
・
・
・ 9
・
・ A ' A
・ 0 命
鴨. . '
凶軌柄骨Ah︑.4@'4@守品待符
. . . 品 ' v
巴模
慣︑
い vv 品骨wA£..︐命
A必R.A私帆峰.写匂噌胃M
. . ム e e . .
企a畏M
管 咽
d6.A必H
. .
品ふ
'a
.
唱
信 駒 場
λ 4 9 9 a A
喝
A V A ム 吻 合 併 0 4
・ 令 A ゆ 凶 w a v w ぷ ム 柄
︒
︒ ψ e u ' V A
‑
‑ A '
み も
S F e u 事 吻 持
・
図
3.1:マイクと歌唱者の位置関係
録音はノートパソコンを用いて実施し、
USB接続したオーディオインターフェイスによりマイ ビット数は
16とした。使用した機器につ クからの音声を取り込み、サンプルレートは
44.1kHz、
いて表
3.1にまとめる。
実際に行った録音内容を以下に示す。
第
3章 歌 唱 音 声 デ ー タ ベ ー ス の 構 築
15表
3.1:使用機器
ス
エブタ ン
イ ン ン オ ホ ホ イ ロ ド デ ク 器 一 ッ 一 イ 機 一 ヘ オ マ
メーカー 型番
SENNHEISER HD650EDIROL UA‑101 audio‑technica AE5400
1 .
YUBAメソッドの歌唱トレーニング
CD6の
track3と
track5の歌唱によるのどならし
2.キーボード(ピアノ音)の伴奏に合わせた表声による
5母音別の歌唱
3.
キーボード(ピアノ音)の伴奏に合わせた息漏れの裏声による
5母音別の歌唱
4.楽曲
24,
25の一部を"歌える裏声"(息漏れの少ない裏声)による
5母音別の歌唱
5.楽曲
25,
26のサピ部分の歌唱
録音した音声は
1人あたり
30分程度の長さである。歌唱者の年代と人数の内訳を表
3.2に示す。
表
3.2:録音データ内訳
年代
20代
30代
40代
50代 合 計 人数
6 6 6 5 233.2
音声の解析と評価
録音した音声はまずフレーズ毎におおまかな切り出しを行い、それらを音声解析ソフト
Voice‑ Sauce27にかけた。解析では、まず
VoiceSauceで算出される音圧レベルを頼りに収録データ内で
1
つの音の発声を
1セグメントとして特定し切り出しを行う。全ての音声データを
VoiceSauce~こ 通した結果、約
10000個のセグメントが得られた。歌唱者別のセグメント数の内訳を表
3.3に示 す。次に
VoiceSauceでは分析結果が
1ms毎に算出されるため
1つのセグメントごとにそれらの中 央値を代表値として算出した。このようにして抽出されたデータベースに内包されるパラメータ ( 計
37個)を表
3.4、音声の解析イメージを図
3.2に示す。
また各セグメントは専門家により
FMRと
BSの値ならびに音名(フィーノレド名
MIDI)が評価
された。
FMRと
BSについては第
1章で述べたように
Oから
1までの数値で表し
FMRは
{Oう第
3章 歌唱音声データベースの構築
16表
3.3:歌唱者別データ数内訳
20
代歌唱者
30代歌唱者
歌唱者番号 セグメント数 歌唱者番号 セグメント数
201 323 301 234202 378 302 379
203 361 303 301
204 310 304 827
205 238 305 687
206 444 306 478
合 計
2054合計
290640
代歌唱者
50代歌唱者
歌唱者番号 セグメント数 歌唱者番号 セグメント数
401 237 501 278 402 295 502 509403 492 503 534
404 596 504 790
405 634 505 379
406 562
合計
2816合計
2490音声波彩 = 圭 = ヨ E
VoiceSa ucef
こより解析
主
=5主L主聾
54書 愚 君 総 玲 容
8器 島
8信
8
笠
3ヰ
世d議 言 容 を
i図
3.2:解析のイメージ図
第
3章 歌唱音声データベースの構築
17記号(フィーノレド名)
SUBVOWEL FMR BS
MIDI
m
H1H2,H1H3うH1H4うH1H5 H1A1,H1A2うH1A3 H1H2c,H1H4c
H1A1c
,
H1A2c,
H1A3c H2KF2K H42Kc H5K H2KH5Kc sF1ぅsF2,sF3,sF4 sBl,sB2ヲsB3 A1ヲA2,A3
HNR05ヲHNR15
,
HNR25うHNR35表
3.4:内包パラメータ一覧
内容 歌唱者番号
母音コード
(l:/a/ス
:/i/,
3:/u/,
4:/e/点
:/0/)F'alsetto Mixing
Ratio の専門家による評価値 (0~1)
Breathy Strength
の専門家による評価値
(0'"'‑'1)音名
(MIDIノート番号)
基本周波数
fo[Hz]H
l‑H2、
H1‑H3・ ・ ・ H
l‑Al、
HI‑A2…H
l‑H2、
H1‑H4の修正値
H
l‑Al、
HI‑A2、
H1‑A3の修正値
2kHz付近での倍音レベル
H2k2kHz
付近のフォルマント周波数
[Hz]H
4‑H2kの修正値
5kHz
付近での倍音レベル
H5kH
2k‑H
5kの修正値
第
1、第
2、第
3フオルマント周波数
[Hz]F
1、 F2~
F3第
1、第
2、第
3フォルマント帯域幅
[Hz]B1、
B2、
B3第
1、第
2、第
3フオルマントのスベクトノレ強度
[dB]A1、
A2、
A3 Harmonic to NoiseRatio(05 は 0~500Hz までの測定値)
0.25ヲ0.5,0.75, 1}
の
5段階、
BSは
{Oヲ0.5,1}の
3段階で評価した。
FMRと
BSの評価イメー ジを図
3.3に示す。この図は専門家のおおよその感覚を図的に表したものであり、
FMRと
BSの 評価軸は直交するものと仮定している。切り分けた約
10000個の音声データが図のどの位置の音 声であるのかを専門家の耳の感覚でプロットしてもらいラベリングを行った。
最終的に、専門家の耳での評価と
VoiceSauceによる各パラメーターの算出結果を結合しデータ ベースを構築した。この時、両者でのピッチ推定値に半音よりも大きな差がある場合には解析ソ フトでの解析ミスと判断しデータベースから除外した。作成手順を図
3.4に示す。このデータベー スはさまざまな年代の音声データを網羅しており汎用性が高く貴重であるといえる。
3.3
データベースの内訳
表
3.5はデータベースに収録されているサンプルの
FMRと
BSの値別の収録数を示している。
どの
FMRの値でも
BS=0.5の収録データが他に比べて多くなっている傾向がみられる。また
18
歌唱音声データベースの構築
第
3章
金 ? る
参事
義 務
密 接 恥 一
w
議
選 管
官 一
議 ︒
意 義
恥
O•
句
e番
論 惨
祭器議
義言鰯
1提yS 智線機鈴
{義務
図
3.3:FMR. BS評価のイメ
ージ図
lms
ごと
ζi替のパラ
メータを検出
‑
P i
愉(fO)‑Retative Harmonit level(HIH2州Hl S}
崎
Formant
Freq. (Fl" ' F 4 )
愉
FonnanlP
悶k(AI‑A3)
etc山
201
そ
."""50代のデータ整理
WAV,
44.1k糾
z,
16BIT23
人の男性
(20代
:6名30代
:6名40代
:6名
501‑t:5名)
表湾、 察予 容 の警 ' f 笠 を1 フ
v一二え'ごとに媛く 、
区切る
Makingof
Databαse図
3.4:デー タベースの作成手順
第
3章 歌唱音声データベースの構築
19 FMR=Oの完全な表声の部分では
BS=lの収録数が少なくなっており、息漏れの表声はあまり収 録されていないことがわかる。これは
2章で説明したように、表声発声時は声門が閉じている状 態であり、表声では息漏れ自体があまり発生しないためであると考えられる。
表
3.5:FMR・
BS値別でのデータベース内訳
BS=l BS=0.5 BS=l
合計
FMR=l 331 746 364 1441 FMR=0.75 565 1617 380 2562 FMR=0.5 292 1474 192 1958 FMR=0.25 621 1598 119 2338 FMR='
む
675 1243 48 1966也主
2484 6678 1103 1110265 1図
3.5は
FMRと
BSそれぞれの値別の収録数を示している。
FMRでは、
0.75のデータ数が最 も多く 1のデータ数が最も少なくなっている。
FMR=lと判定されることを狙った音声の収録を 最も多く実施したにも関わらず、
FMR=lのデータ数が最も少なくなってしまったので完全な裏 声を発声すること自体が難しいことがわかる。値別での多少のデータ数の差はあるが、おおよそ 均等に収録できていることがわかる。
BSでは
FMRにくらべてデータ数の差が大きく、
BS=0.5のデータ数が圧倒的に多く
BS=lの音声が最も少ない。つまり一般の歌唱者はどのような発声を しでもある程度は息が漏れてしまっているといえる。
図
3.6は母音別の収録割合を円グラフで示しているが
5母音が均等に収録されておりバランスが とれている。
3.4
まとめと課題
本章では実際に作成したデータベースの作成手順と内包されているデータの内訳について説明し た。データ内訳のグラフから、現在の収録方法では、
FMRに関してはほぼ均等に収録できるが、
BS
に関しては
0.5の音声が圧倒的に多くなってしまうことを確認した。したがって今後は
BSの 偏りを生じさせないよう、発声者の選別や収録方法を考える必要がある。
また現在は
FMRと
BSの評価を
YUBAメソッドに精通した一人の専門家により行っている が、複数の評価者による平均化も検討しなければならない。加えて女声のデータベース作成も行
う必要がある。
第
3章 歌唱音声データベースの構築
30α3
ァ 一 一 …一 一 … 一 一 一 一 一 一 町 一 町 一 一 一 一 一 一 一 一 抑 制 一 一 … , … 一 一 一 一 一
80∞
70∞
2S
∞
so
∞
20
∞
学 期
50∞
1
ト
30
∞
10∞
20
∞
500
10∞
。 。
。
0.25ふ 。
0.75 1 。FMR
図
3.5:FMR. BSの値別のデータ数
図
3.6:母音別のデータ割合
0.5 BS
1
20
21
第
4章
FMRの評価精度に関する検討
本章では、前章で述べたベータベースを用いて F M Rを予測評価するための
SVMを学習させ、
表声/裏声の判別精度を検証する。
4.1 SVM
について
28SVM