機械学習に基づく歌唱音声の声質評価システムの構築

(1)

修士論文

機械学習に基づく歌唱音声の声質評価システムの構築

平成

26

年度

三重大学大学院工学研究科博士前期課程物理工学専攻

岩本享大

(2)

2

第

1

章序論

4

1 .

1

研究の背景と必要性 . . . . . . . . . . . . . . .

•

. . . . . . . . . . . . .

•

.

•

..

4

1 .

2

研究概要 . . . . . . .

•

. .

•

.

•

. . .

•

. . . . . . .

•

.

•

. . . . . . . . . .

•

.

.• 5

1 .

3

本論文の構成 . . .

•

.

•

. . . . . . . . . . .

•

. .

•

. . . . . . . . . .

•

. . . . ..

6

第

2

章発声メカニズムと

YUBA

メソッド

7 2.1

ヒトの発声メカニズ、ム

23 . • . . . • . . . . • . • . . . • • . • . . .. 7 2.2

音韻と音程の違い.

•

. . . .

•

. . . . . . . . . . . . . . . . . . . . . . . . . . . ..

7 2.3

裏声と表声の違い. . . . . . . . . . . .

•

. . . . . . . .

•

. . . . . . . . .

•

. . ..

10 2

. 4 換声点及び換声点ショック. .

•

. . . . . . . . . .

•

. . . . . . . . . . . . . .

• .• 11 2.5 YUBA

メソッド. .

•

.

•

. . . . . . . . . . . . . . . .

•

. . . . . .

•

. . . .

•

. ..

11 2.6

普及のための課題. . . . . . . .

•

. . . . . . . . . . .

•

. . . . . . . . . . . . . ..

13

第

3

章歌唱音声データベースの構築

14

4 5 7 9

4EA唱

E 4 1 E 4

噌Eム

訳

・価内タ評の一とス題デ析一課声解べと音のタめ録声一と収音デま 1 2 3 4

q u q d q d q d

第

4

章

FMR

の評価精度に関する検討

21

4.1 SVM

について

28 . . . . • . • • . . • • . • . . . • . • . • • . • . . . .. 21 4.2 SVM

の構成 . . . . . . . . . .

•

. . . . . . . . . . . . . . . . . . . . . . . .

•

. ..

22 4.2.1

入力要素.

• •

.

•

. .

• •

.

• •

. .

• • •

.

•

. . .

• •

. . .

• • • •

. .

•

.

•• 22 4.2.2

出力 .

•

.

•

.

• • • • •

. .

•

. .

• • •

.

• • • •

.

•

.

• •

.

• • • •

.

• •

.

•. 22 4.2.3

学習データと評価データ. . . . . . . .

•

. . . .

•

. . . .

•

. . . .

•

. .

•. 22

(3)

3 4.3

評価結果. . . . . . . . . . . . . . . .

•

. . . . . . . .

•

.

•

. . . . . . . . .

•

. ..

23

4.3.1

連続値での出力. . . . . . . . . . . . . . . .

•

.

•

. . . . . . . . . . . . ..

24 4.3.2

離散値での出力結果 . . . . .

•

. . . .

•

.

•

. . . . . .

•

.

•

. . . . . . ..

25 4

. 4 まとめ.

• •

.

•

.

• •

.

• • • • • •

.

• • • • • • •

.

•

.

•

.

•

.

• •

.

• •

.

•

.

• • .• 27

9 9 9 0 1 1 2 4

9a

っ ︒

‑ q d q d q o q d 9 d

価

‑

U T

‑

討果

・

・計検結一一一一

B

る価

・

・のす評

・

・で聞の

・

・ル比何件果一

・げ糊剣条結入択詐価同噌柵導選学評と宅一色町ののた

ぬ

R l

! R R

しめ

S M U U N N

良と

B F ι ι H H

改ま章一 1 2 3 4 5

V O F O v o v u v O

匝り

第

5 5 5 5 6 7 8

q d q d q d q d q o q d q o

例事

高山高山

・

・新制川口同め湘のの伊伊伊と拒声事事事まの

B

音崎叩畑舟郎

ル

﹄日日号ロ苔町一一ぜ町田

rhE

フと

R

歌

1 2

結 R M M 説

L l u

咽 M E 迫

6 6 6

劃 F

章・ 1 2 3 6 6 6 6

第

第 7章総括

39

(4)

4 第

1

章序論

1.1

研究の背景と必要性

最近、若者だけでなく、中高年でも趣味でカラオケを楽しんだり合唱サークルに所属して歌を歌う人が多い。また、その人達が歌いたいと思う曲には高音域の発声(一般に裏声あるいはフアルセットボイスと言われる)を要するものも多く、「どうすればプロ歌手のように高音をきれいに発声できるのか」ということに彼等は強い関心を持っている。その中で、

5

年程前から

YUBA

メ

ソッドという発声トレーニング法がテレビなどのメディアでよく紹介され

1‑4

、注目を集めている。

YUBA

メソッドとは三重大学教育学部教授弓場徹が提唱する歌唱トレーニング法(第

2

章参照) であり、本研究はこれに関連する弓場との共同研究の一部として実施されたものである。

ここで、まず

YUBA

メソッドのトレーニング法について簡単に説明する。

YUBA

メソッドでは最初に音域の拡張を目的に裏声と表声(地声ともいう)を分離して発声する訓練を行う。その後、

表声が声帯の振動様態の異なる裏声に切り換わる音域つまり換声域

5

での音色の急激な変化や音程の乱れ(換声点ショックという)を目立たせないように裏声と表声を滑らかに変化させる訓練に移行する。このような一連の訓練を行うには裏声が正しく発声されているか、裏声と表声が滑らかに変化しているか(換声点ショックが小さいか)について熟練した指導者が耳で聞いて判断する必要がある。そのため、これまでに

YUBA

メソッドの普及を目的に、その具体的な方法を解説した書籍

6‑11

、

CD¹²

，

13

、

DVD¹⁴‑18

が多数出版・販売されている。また

YUBA

メソッドを利用した歌唱トレーニングでの音痴克服や安定した歌唱習得の成果も発表

19

，

20

されており、

YUBA

メソッ

ド自体の有効性は既に確認されている。

YUBA

メソッドのトレーニングでは表声と裏声をしっかりと出し分けられているのかを発声者

自身も意識することが重要とされているが、初心者にとっては自分の感覚に基づいて表声と裏声

を判別すること自体が難しい場合もあり、トレーニングの導入の妨げになっていた。そこで、当

研究室では個人によるトレーニングを効率よく実施できるよう機械による表声/裏声の自動判別の

ためのシステムの構築を試みてきた

21320

一方、歌唱トレーニングにおいては表声/裏声の判別以

(5)

第 1 章序論

5

外にも「息の漏れ度合」を評価するこ左も重要視されている。例えば同じ裏声でも、息漏れの少ないいわゆる「歌える裏声

J

と、息漏れの多い「息漏れの裏声」の区別があり、前者は歌唱に適した発声である。一方、後者は歌唱には適さないものの、音程をとるために働く輪状甲状筋を効率よく鍛えるための発声であり、

YUBA

メソッドの初期段階では特にこの発声が求められる。したがって表声/裏声の判別に加え息漏れの度合を評価することにより、正確で信頼できる声質の評価が可能となり、より効率的なトレーニングが可能になると考えられる。本研究は表声/裏声評価に加え、新たに「息も入れ度合」を機械学習により評価するための可能性を探るものである。今回は機械学習にサポートベクターマシン

(SVM)

を用いた。

1.2

研究概要

YUBA

メソッドでは人の発声は男声、女声ともに

2

声区(表声・裏声)しか存在しないものとしている。しかし専門家が歌唱音声を評価する場合、「裏声の混ざった表声」や「表声の混ざった裏声」などといった表現をする場合がある。そこで従来までの単なる表声/裏声のみの

2

段階評価ではなく、表声にどのくらい裏声が混ざっているのかを表す指標

FalsettoMixing Ratio(F M R)

を導入した。また前述した「息漏れ具合」の評価のための指標

BreathyStrength(BS)

も新たに導入し歌唱音声の評価に用いることにした。これらの指標は

O

から

1

までの数値で表され、

FMR=O

が「完全な表声」、

FMR=l

が「完全な裏声」であることを意味し、

BS=O

が「息漏れのほとんどない歌声」、

BS=l

が「息漏れが最も多い歌声」であることを意味している。これらの指標は専門家の耳による感覚を頼りに単音ごとに値を割り振り、

SVM

による機械学習のための教師データと

して用いた

(3

章参照)。

また従来研究においても

FMR

の評価に類似した表声/裏声の機械学習による判別が試みられている

21

が、男声、女声それぞれ

3

名という少人数のデータによる検証であり精度や誤差などの検討は十分とは言えなかった。そこで機械学習での評価結果をより説得力のあるものにするため様々な年代の歌唱データを網羅したデータベースを作成した

(3

章参照)口このデータベースには幅広い年齢層 ( 2 0 ' " ' ‑ ‑ 5 0代の 23名)の総計約 10000件におよぶ男声サンフロルが収録されており、各音に音高(ピッチ周波数)、音量、高周波比率などの物理的評価値と共に専門家による

FMR

と

BS

の評価結果が収録されている。本研究では、このデータベースを利用し

FMR

と

BS

を予測する

SVM

をそれぞれ構築し評価精度の検証を行う

D

(6)

第 1章序論

1.3

本論文の構成

以下に本論文の構成を示す。

第

1

章では、研究背景・目的

第

2

章では、発声メカニズ、ムと

YUBA

メソッド第 3 章では、歌唱音声データベースの構築第

4

章では、

FMR

の評価精度に関する検討第

5

章では、

BS

の評価精度に関する検討第

6

章では、

FMR

と

BS

の評価事例第 7章では、総括と今後の課題

について述べる。

6

(7)

7 第

2

章発声メカニズムと

YUBA

メソッド

本章では、ヒトの音声の特徴とともに研究の遂行に必要となる裏声・表声の発声メカニズムと歌唱トレーニング法

WYUBA

メソッド』について概説する。

2.1

ヒトの発声メ力ニズム 23

歌唱音声に限らず、ヒトが発する様々な声の多く(有声音として母音が代表的)は、肺から送られた呼気流によって声帯(声門)が振動する(閉じたり開いたりする状態を繰り返す)ことで生じた音(声帯音源という)によって作り出されている。声帯音源は気流の断続で生ずる波形(三角波に近い形状)で、どちらかといえばブザー音のようなものであり、我々が普段耳にする声と

は異質のものである。しかし、これが口腔・咽頭・喉頭・鼻腔・副鼻腔で構成される断面形状が長手方向に複雑に変化する管(音声学的には声道という)を通ることで特定の周波数成分が強調されたり抑圧されたりして(周波数スベクトルに変化が生じ)、口や鼻干しから聞き慣れた声として大気中に放射されている。つまり声道は声帯原音のスベクトルを変化させて声に変換するフィルタ装置と見なすことができ、これを声道フィルタと呼ぶ。要約すれば、ヒトの声は声帯で発声した声帯音源を声道フィルタに通すことで得られる音といえる。図

2.1

は声帯音源から音声が作られるイメージを図示したものである。

2.2

音韻と音程の遣い

ヒトの声を特徴付けるものとして、大きさ、音韻、音高(ピッチ)がある。音声の大きさの変化が声帯音源の大きさに依存していることは自明である。

これに対して、「あ

J

r しリ「う

J

のような音韻の認識の違いは音声のスベクトルのエンベロープ

のピーク、すなわち声道フィルタの局所ピーク(フォルマントと呼ばれる)の相対的なレベルとそ

の位置関係(フォルマント周波数の組み合わせ)によるものと考えられている。

(8)

第

2

章発声メカニズムと

YUBA

メソッド

. . . . . . . . .

( 音声品 ; . . ( (

^<^<

‑•

. .

..

図

2.1:

人の発声過程の図

8

また、声の高さ(ピッチ、音高)は音声のフォルマントとは関係なく声帯原音の周期に依存しており、その逆数である基本周波数で決定される。つまり、音の高さはフォルマント情報には関係がなく声帯の振動周期のみに依存していることになる。

図

2.2

に母音「あ

J

音声波形とスペクトルの一例を示し、図

2.3

に一般的な母音「あ」のフォルマントの形状を示す。本論文では図

2.2

に示すようにピッチ周波数(単位

Hz)

を

10

、基本波のスベクトル強度(単位

dB)

を

Hl

で表し、その高調波である

2̲""̲̲η

倍音のスベクトル強度を

H2̲""̲̲H^η^，

で表すことにする。同図よりスベクトルの細かな周期構造がピッチを決める要因になっていることがわかる。また、図

2.3

に示すようにスベクトル包絡に現れるピークがフオルマントであり、低い周波数の方から順に第

1

、第

2

…フォルマントと呼ばれる。本論文中でのそれらのピーク周波数 (単位

Hz)

をフオルマント周波数として記号

Fl

，

F2

，・・・で表す。またそれぞれのピーク値(スベクトノレ強度、単位

dB)

を

Al，A2，

… で表す。このようなゆるやかなスベクトル包絡が音韻を決める要素になっている。

ところで、会話音声のピッチ(声の高さ)は声帯が最も効率よく振動する周波数で決定されて

おり、個人(特に男女)聞のピッチ差は声帯の長さ・質量・張力などと関連がある。通常の会話音

声の場合、ピッチ周波数は男声で

60" ，260Hz

、女声で

120" ，520Hz

に分布するが、通常の会話で各

個人が変化させる範囲はせいぜい

100^{" ，}200Hz

程度である。しかし、歌を歌う場合にはこのピッチ

をメロディに合わせて、より広い範囲で変化させることが必要となる。当然、通常の会話音声の

(9)

第

2

章発声メカニズムと

YUBA

メソッド

9

芯ろ湖む

を

S

4it1

会

‑42

..L

々

、

〈。

? く叫

J' ι

M H

rE t

図

2.2:

母音「あ」の倍音波形図

( ∞ 忍

強

8

4

倒

コミ

‑42

‑'‑

ξ¥

て ? く

^w

1000 2000

燭波数

[Hz]

3000

図

2.3:

母音「あ」のフォルマント図

(10)

第

2

章発声メカニズムと

YUBA

メソッド

10

発声とは異なる声帯の振動が必要とされる。後述するように特に高音を発声する場合には声帯のコントローノレが難しくなり、発声ができなかったり、音程を外す原因となる。

2.3

裏声と表声の違い

弓場の著書奇跡のボイストレーニング

BOOK

(主婦の友社，

2004)

"によれば、裏声と表声の発声法の違いには内喉頭筋群が関係している。内喉頭筋群とは声帯を引っ張ったり、声門(左右の声帯のすき間)を閉じたり開いたりして、声帯の動きをコントロールしている喉にある一連の筋肉群のことであり、喉ぼとけや甲状軟骨に付随する閉鎖筋群や開大筋がある(図

2.4

参照)。

弓場はこれらの筋肉の中でも声帯を引っ張り伸ばす筋肉や声門を閉じる筋肉ことを、歌うことの中心的な役割を担っているので「歌う筋肉」と呼んでいる。

怠いこうとうきん

・副慌

lj̲

︐S

事 ︑

~ ~ fl賂鎖鱗

1

1 路大筋

1 jC

待問を開ける筋肉) 甲状軟脅

図

2

.4:内喉頭筋の様子

5

これら筋肉のうち、音の高さを変えるのに主役となって働くのが輪状甲状筋である。この筋肉は気管の一番上にある輪状軟骨と甲状軟骨(突出したところを一般に喉ぼとけと呼ぶ)をつないでいる。この筋肉が働くと、甲状軟骨と輪状軟骨が近づいて声帯が引き伸ばされこの時声帯の傾きが弱く声帯の質量が小さいと音が高くなり裏声が出る。一方、閉鎖筋群が輪状甲状筋に対して優勢に働き、声帯筋の働きにより声帯の質量が大きい状態で声門が閉じられると息漏れの少ない表声になる。

したがって表声か裏声かは、内喉頭筋の筋肉運動による声帯の振動状態の違いで決まるので、あっ

て、声の響きの状態で決まるわけではない。図

2.5

に裏声発声時の輪状甲状筋の働きを示す。

(11)

第

2

章発声メカニズムと

YUBA

メソッド

11

図

2.5:

裏声発声時の輪状甲状筋の働き

5

2.4

換声点及び換声点ショック

換声点とは、裏声と表声の変わり目のことを指す。例えば低い表声から徐々に高い裏声に上行させたり、逆に高い裏声から徐々に低い表声に下行させていくと、途中で急に音質や音量が変化するところがある。これが換声点である。歌唱中に換声点を挟んで表声から裏声に切り替わる瞬間に音程が外れ、歌唱が不安定になる人も多い。これは声帯の筋肉が表声を発声するよう働いていたのに、換声点付近で急に裏声の筋肉運動へ変えたため、筋肉運動が提示された音声の変化についていけない状態と考えられる。

2.5 YUBA

メソッド

YUBA

メソッドとは弓場が提唱しているボイストレーニング法のことである。このトレーニング法は、ヒトは内喉頭筋を直接意識してコントロールすることは出来ないが、出す声によってどこの筋肉が働くかはおおよそ予想できるため、モデルとなる声をまねて発声することにより間接的に「歌う筋肉」を効率よくコントローノレで、きるようになるという考え方、つまり

YUBA

理論(発声制御理論)に基づいている。トレーニング手順の簡単な流れは図

2.6

に示す通りである。

図

2.6

中のそれぞれの

Stage

の目的と練習内容は次のように定義されている。

• Stage 1:裏声と表声をはっきりと分けて出す

例

1

:息漏れのある高い裏声を出す

フクロウの鳴き声「ホー

j

や犬の遠吠え「ウォー

J

等をまねて発声し、裏声を出すことに慣れる。

例

2:

息漏れのない表声を出す

(12)

12

発声メカニズムと

YUBA

メソッド

第

2

章

とはっきりした息漏れの形に開け、息を止めてからひと息で

「

アー」

口を「あ

j

のない(実際には、息が効率よく声帯振動に変わる状態に相当する)低めの声で

2rv3

秒声を出す。

• Stage 2:

裏声・表声でいろいろな高さの音を出す例 :

Stage1

で発声した音を様々な音程で歌唱する

と一声ずつ音の高さをと高めの裏声で始め、「ホー・ホー・ホー・ホー」

「ホー」

「アー

j

に変えて行う。変えて出す。次に「ホー

J

を表声の

• Stage 3:

裏声・表声で簡単なメロディを歌う

例:i かえるの合唱

J

などの簡単なメロディーを高い音域の裏声「オー

J

(または「ウー

J)

で歌う。息漏れを少なくし、一息で長めのフレーズを歌う。次に音域を下げて低めの息漏れの

で同じメロディーを歌う。

ない表声「アー」

YUBAメソッドの発声 ~III 線手 JI褒

Stage 6 Stage

5 Stage

4 Stage

3 Stage

2 Stage

l

南方の声を強めよく混ぜて一体化する

. ︐

••

一向方の

tF

を

山混ぜて換世同点を口出立たな

くする

蝿

輯

ーー

十向 't

H

の

声を行き来して敬

︑ コ

ー竃

毛

護

j=

3

受

戸笠松3

で務主義なメ

仁

3

イ

灘蝿警官竺・・

歎つ

議長

議官伊・表世間

6

で急々な惑さの替をおす

・・・・・

⁝ ・・

一塁一円と表

︑ 一声をはっきりと刊分けて宅

泌す

b F

誕祭戸

愉悦惜戸点

•

• 墜さ

一戸

• { 忌

図

2.6:YUBA

メソッドのトレーニング段階図(弓場によるイメージ図)

(13)

第

2

章発声メカニズムと

YUBA

メソッド

13

• Stage 4:

裏声と表声の両方の声を行き来して歌う

例: r ドーシーラーソーファーミーレードー」と高い音から「裏声→表声」に向かつて歌い、

反対に低い音から「表声→裏声

j

でも練習する。途中換声点で、声がひっくり返ったり、出しにくくなっても音程が外れなければ良好な状態と判断する。

• Stage 5:

両方の声を混ぜて換声点を目立たなくする

例:出来るだけ高めの息漏れのない裏声を「オー

J

(息漏れするようなら「アー

J

)で歌い始め、表声に向かつて

2

オクターブ(ドーシラソファミレドーシラソファミレドー)下げてし、く。

• Stage 6:

両方の声を強めよく混ぜて一体化する

例:さらに喉の筋肉トレーニングが進んで

Stage5

がより発展した状態である。

このボイストレーニング法を行うことで、表声と裏声の境目である換声点での急激な音質や音量の変化を減らし、広い音域をなめらかに発声することが可能になる。

インストラクタの模範発声をまねて実践的にボイストレーニングできるトレーニング本 (CD 付)や

CD

，

DVD^l1‑17

が出版されている。

2.6

普及のための課題

本章で紹介した

YUBA

メソッドの発声・歌唱教育上の効果の高さは既に検証されている

21

が、第 1 章で述べたように、個人で本 (CD付)や

DVD

を購入してトレーニングする場合を考えると、

発声状態の確認は自己判断に委ねられるため練習が効率的に進まないことが多々ある。そのため、

個人レベルで、客観的に自分の発声が裏声なのか表声なのかまた息がどのくらい漏れているのかが

判断できるように、

FMR

や

BS

などの声質判別指標を導入することが求められている。また、こ

のような指標を利用した個人で、簡単かっ効率的にトレーニングできるアプリケーションの開発も

期待されている。

(14)

14

歌唱音声データベースの構築第

3

章

本章では本研究の遂行のために新たに構築したデータベースの作成手順と内包されるデータについてに解説する

。

収録音声データ

3.1

データベースを構築するためにはまず様々な年代の歌唱音声を収録する必要がある。今回は

20

代

'"'"'50

代の一般男性(計

23

名)の音声収録を行った。図

3.1

に示すように歌唱者はスタンドで固定

したマイクロホンの前に立ち、開放型のヘッドホンを装着する。録音は熟練者同伴で行い、歌唱者は必要に応じてガイドメロディやキーボードの伴奏を聞きながら歌唱を行った。

名人ゆJV︑︐eAす母︑︐

︑︐AAVVvy‑‑冒

A A v a e h

族

蜘

︑ e

︑

︐

︑

︐

︑

︐ ι e . ム守 v A . .

︐e

︑

A+

γ

︑︾︐46@︐︿︑A︒守︐JA︒噂︐︿︑白@

•

h .. ︐A︒v命'〆J￡砂︑為.︐︐

ι . ︐a守可A争︐︑

av'

A V a n

︐

︐ 4

︑ ぜ

・ u内

・

私︑︐

e

︐

AV .

︑ . .

︑

︒ . A V ま

‑

‑ L V A

込AAV︑︐︐︑︑

. b .

︐ A v e . 緒 m v q h u 色

︒ 誌を

@ a

︐

︑ 仇

B' e h

働e

‑ ゆム唱

︑ゐWA‑‑︽

e v

‑

偽'AVAV︐

︒ 杭 N 4 h w φ

A

A U

︑ 日胃 .

︐ . h S

AV

‑A

‑

曳

旬

︒ . 6 h u A M a e

‑

‑ 4 嶋私

︒ . A A Au‑v由

v v

・

‑ e A w

‑

‑ e a e

uw

峰

︑

︒ 司ゆ句

︑ V A

‑

‑ e

‑ u a d J A M M

頃桜

島南︐Aeゆ

@ hn d A d u x

‑ 局

︑

︑ 私 A w

‑

‑ s

・ a

‑ s q a M e

‑

・

・ 4

・ A N a

‑

也・awAHA

A 両

・

・ 9

・

・ A ' A

・ 0 命

鴨. . '

凶軌柄骨Ah︑.4@'4@守品待符

. . . 品 ' v

巴模

慣︑

い vv 品骨wA￡..︐命

A必R.A私帆峰.写匂噌胃M

. . ム e e . .

企a畏M

管咽

d6.A必H

. .

品ふ

'a

.

唱

信駒場

λ 4 9 9 a A

喝

A V A ム吻合併 0 4

・令 A ゆ凶 w a v w ぷム柄

︒

︒ ψ e u ' V A

‑

‑ A '

みも

S F e u 事吻持

・

図

3.1:

マイクと歌唱者の位置関係

録音はノートパソコンを用いて実施し、

USB

接続したオーディオインターフェイスによりマイビット数は

16

とした。使用した機器につクからの音声を取り込み、サンプルレートは

44.1kHz

、

いて表

3.1

にまとめる。

実際に行った録音内容を以下に示す。

(15)

第

3

章歌唱音声データベースの構築

15

表

3.1:

使用機器

ス

エブ

タン

インンオホホイロドデク器一ッ一イ機一ヘオマ

メーカー型番

SENNHEISER HD650

EDIROL UA‑101 audio‑technica AE5400

1 .

YUBA

メソッドの歌唱トレーニング

CD⁶

の

track3

と

track5

の歌唱によるのどならし

2.

キーボード(ピアノ音)の伴奏に合わせた表声による

5

母音別の歌唱

3.

キーボード(ピアノ音)の伴奏に合わせた息漏れの裏声による

5

母音別の歌唱

4.

楽曲

24

，

25

の一部を"歌える裏声"(息漏れの少ない裏声)による

5

母音別の歌唱

5.

楽曲

25

，

26

のサピ部分の歌唱

録音した音声は

1

人あたり

30

分程度の長さである。歌唱者の年代と人数の内訳を表

3.2

に示す。

表

3.2:

録音データ内訳

年代

20

代

30

代

40

代

50

代合計人数

6 6 6 5 23

3.2

音声の解析と評価

録音した音声はまずフレーズ毎におおまかな切り出しを行い、それらを音声解析ソフト

Voice‑ Sauce²⁷

にかけた。解析では、まず

VoiceSauce

で算出される音圧レベルを頼りに収録データ内で

1

つの音の発声を

1

セグメントとして特定し切り出しを行う。全ての音声データを

VoiceSauce

~こ通した結果、約

10000

個のセグメントが得られた。歌唱者別のセグメント数の内訳を表

3.3

に示す。次に

VoiceSauce

では分析結果が

1ms

毎に算出されるため

1

つのセグメントごとにそれらの中央値を代表値として算出した。このようにして抽出されたデータベースに内包されるパラメータ ( 計

37

個)を表

3

.4、音声の解析イメージを図

3.2

に示す。

また各セグメントは専門家により

FMR

と

BS

の値ならびに音名(フィーノレド名

MIDI)

が評価

された。

FMR

と

BS

については第

1

章で述べたように

O

から

1

までの数値で表し

FMR

は

{O^う

(16)

第

3

章歌唱音声データベースの構築

16

表

3.3:

歌唱者別データ数内訳

20

代歌唱者

30

代歌唱者

歌唱者番号セグメント数歌唱者番号セグメント数

201 323 301 234

202 378 302 379

203 361 303 301

204 310 304 827

205 238 305 687

206 444 306 478

合計

2054

合計

2906

40

代歌唱者

50

代歌唱者

歌唱者番号セグメント数歌唱者番号セグメント数

401 237 501 278 402 295 502 509

403 492 503 534

404 596 504 790

405 634 505 379

406 562

合計

2816

合計

2490

音声波彩 = 圭 = ヨ ^E

VoiceSa ucef

こより解析

主

=5主L主

聾

54

書愚君総玲容

8

器島

8

信

8

笠

3

^ヰ

^世^d

^議 ^言 ^容 ^を

ⁱ

図

3.2:

解析のイメージ図

(17)

第

3

章歌唱音声データベースの構築

17

記号(フィーノレド名)

SUB

VOWEL FMR BS

MIDI

m

H1H2，H1H3うH1H4うH1H5 H1A1，H1A2うH1A3 H1H2c，H1H4c

H1A1c

，

H1A2c

，

H1A3c H2K

F2K H42Kc H5K H2KH5Kc sF1ぅsF2，sF3，sF4 sBl，sB2ヲsB3 A1ヲA2，A3

HNR05ヲHNR15

，

HNR25うHNR35

表

3

.4:内包パラメータ一覧

内容歌唱者番号

母音コード

(l:/a/

ス

:/i/

，

3:/u/

，

4:/e/

点

:/0/)

F'alsetto Mixing

Ratio の専門家による評価値 (0~1)

Breathy Strength

の専門家による評価値

(0'"'‑'1)

音名

(MIDI

ノート番号)

基本周波数

fo[Hz]

H

l‑H2

、

H1‑H3

・・・ H

l‑Al

、

HI‑A2…

H

l‑H2

、

H₁‑H₄

の修正値

H

_l_‑Al

、

HI‑A2

、

H₁‑A3

の修正値

2kHz

付近での倍音レベル

H2k

2kHz

付近のフォルマント周波数

[Hz]

H

4‑H2k

の修正値

5kHz

付近での倍音レベル

H5k

H

2k‑

H

5k

の修正値

第

1

、第

2

、第

3

フオルマント周波数

[Hz]

_F

₁

_{、 F2~}

F3

第

1

、第

2

、第

3

フォルマント帯域幅

[Hz]B₁

、

B2

、

B3

第

1

、第

2

、第

3

フオルマントのスベクトノレ強度

[dB]A₁

、

A2

、

A3 Harmonic to Noise

Ratio(05 は 0~500Hz までの測定値)

0.25ヲ0.5，0.75， 1}

の

5

段階、

BS

は

{O^ヲ0.5，1}

の

3

段階で評価した。

FMR

と

BS

の評価イメージを図

3.3

に示す。この図は専門家のおおよその感覚を図的に表したものであり、

FMR

と

BS

の評価軸は直交するものと仮定している。切り分けた約

10000

個の音声データが図のどの位置の音声であるのかを専門家の耳の感覚でプロットしてもらいラベリングを行った。

最終的に、専門家の耳での評価と

VoiceSauce

による各パラメーターの算出結果を結合しデータベースを構築した。この時、両者でのピッチ推定値に半音よりも大きな差がある場合には解析ソフトでの解析ミスと判断しデータベースから除外した。作成手順を図

3

.4に示す。このデータベースはさまざまな年代の音声データを網羅しており汎用性が高く貴重であるといえる。

3.3

データベースの内訳

表

3.5

はデータベースに収録されているサンプルの

FMR

と

BS

の値別の収録数を示している。

どの

FMR

の値でも

BS=0.5

の収録データが他に比べて多くなっている傾向がみられる。また

(18)

18

歌唱音声データベースの構築

第

3

章

金 ? る

参事

義務

密接恥一

w

議

選管

官一

議 ︒

意義

恥

O•

句

e

番

論惨

祭器

議

義言鰯

1

提yS 智線機鈴

{

義務

図

3.3:FMR. BS

評価のイメ

ー

ジ図

lms

ごと

ζi

替のパラ

メ

ータを検出

‑

P i

愉(fO)

‑Retative Harmonit level(HIH2州Hl S}

崎

Formant

Freq. (Fl

" ' F 4 )

愉

FonnanlP

悶

k(AI‑A3)

etc山

201

そ

."""50

代のデータ整理

WAV

，

44.1k

糾

z

，

16BIT

23

人の男性

(20

代

:6名30

代

:6名40

代

:6

名

501‑t^:⁵

名)

表湾、察予容の警 ' f 笠を1 フ

v

^{一二え'ごとに媛く} ^、

区切る

Makingof

Databαse

図

3.4:

データベースの作成手順

(19)

第

3

章歌唱音声データベースの構築

19 FMR=O

の完全な表声の部分では

BS=l

の収録数が少なくなっており、息漏れの表声はあまり収録されていないことがわかる。これは

2

章で説明したように、表声発声時は声門が閉じている状態であり、表声では息漏れ自体があまり発生しないためであると考えられる。

表

3.5:FMR

・

BS

値別でのデータベース内訳

BS=l BS=0.5 BS=l

合計

FMR=l 331 746 364 1441 FMR=0.75 565 1617 380 2562 FMR=0.5 292 1474 192 1958 FMR=0.25 621 1598 119 2338 FMR='

む

675 1243 48 1966

也主

²⁴⁸⁴ ⁶⁶⁷⁸ ¹¹⁰³¹¹¹⁰²⁶⁵¹

図

3.5

は

FMR

と

BS

それぞれの値別の収録数を示している。

FMR

では、

0.75

のデータ数が最も多く 1のデータ数が最も少なくなっている。

FMR=l

と判定されることを狙った音声の収録を最も多く実施したにも関わらず、

FMR=l

のデータ数が最も少なくなってしまったので完全な裏声を発声すること自体が難しいことがわかる。値別での多少のデータ数の差はあるが、おおよそ均等に収録できていることがわかる。

BS

では

FMR

にくらべてデータ数の差が大きく、

BS=0.5

のデータ数が圧倒的に多く

BS=l

の音声が最も少ない。つまり一般の歌唱者はどのような発声をしでもある程度は息が漏れてしまっているといえる。

図

3.6

は母音別の収録割合を円グラフで示しているが

5

母音が均等に収録されておりバランスがとれている。

3.4

まとめと課題

本章では実際に作成したデータベースの作成手順と内包されているデータの内訳について説明した。データ内訳のグラフから、現在の収録方法では、

FMR

に関してはほぼ均等に収録できるが、

BS

に関しては

0.5

の音声が圧倒的に多くなってしまうことを確認した。したがって今後は

BS

の偏りを生じさせないよう、発声者の選別や収録方法を考える必要がある。

また現在は

FMR

と

BS

の評価を

YUBA

メソッドに精通した一人の専門家により行っているが、複数の評価者による平均化も検討しなければならない。加えて女声のデータベース作成も行

う必要がある。

(20)

第

3

章歌唱音声データベースの構築

30α3

ァ一一 …一一 … 一一一一一一町一町一一一一一一一一抑制一一 … ， … 一一一一一

80

∞

70∞

2S

∞

so

∞

20

∞

学期

⁵⁰

^∞

1

ト

30

∞

10∞

20

∞

500

10∞

。。

。

₀_.₂₅

ふ。

₀_.₇₅ ₁ 。

FMR

図

3.5:FMR. BS

の値別のデータ数

図

3.6:

母音別のデータ割合

0.5 BS

1

20

(21)

21

第

4

章

FMR

の評価精度に関する検討

本章では、前章で述べたベータベースを用いて F M Rを予測評価するための

SVM

を学習させ、

表声/裏声の判別精度を検証する。

4.1 SVM

について

²⁸

SVM

は教師あり学習を用いる識別手法の一つであり、現在知られている多くの手法の中で一番認識性能が優れた学習モデ、ルの一つで、ある。

SVM

で、はまずグ、ルーフ。分けした学習のグ、ルーフ。パターンをコンヒ。ュータに学習させ、その学習結果をもとに評価データをグループ。分けすることでパターン認識を行う。また

SVM

の最大の特徴としてマージン最大化がある。これは最も適したグノレープ分けを行うために学習データの中で最も他クラスと近い位置にいるものを基準として、そのユークリッド距離が最も大きくなるような位置に識別境界を設定する。このノンパラメトリックな手法で明確な基準で識別境界をを与えているという事が他に例のないことで、

SVM

の最も優れた部分である(図

4.1

参照)。

図

4.1:SVM

によるマージン最大化イメージ図

28

機械学習に基づく歌唱音声の 声質評価システムの構築

修士論文