• 検索結果がありません。

機械学習に基づく歌唱音声の 声質評価システムの構築

N/A
N/A
Protected

Academic year: 2021

シェア "機械学習に基づく歌唱音声の 声質評価システムの構築"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

修士論文

機械学習に基づく歌唱音声の 声質評価システムの構築

平成

26

年度

三重大学大学院 工学研究科 博 士 前 期 課 程 物 理 工 学 専 攻

岩 本 享 大

(2)

目 次

1

章 序 論

1 .

研究の背景と必要性 .  .  .  .  .  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  . 

.. 

1 .

研 究 概 要 . .  .  .  .  .  . 

.  . 

.  .  . 

.  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  . 

.•

1 .

本 論 文 の 構 成 . .  . 

.  .  .  .  .  .  .  .  .  .  . 

.  . 

.  .  .  .  .  .  .  .  .  . 

.  .  .  .  .. 

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

2.1 

ヒトの発声メカニズ、ム

23 .  . . .  . . . .  . . . • • . . ..  2.2 

音韻と音程の違い.

.  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .. 

2.3 

裏声と表声の違い. .  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  . 

.  .  .. 

10  2

. 4   換声点及び換声点ショック. . 

.  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  .  . 

• .• 11  2.5  YUBA

メソッド. . 

.  .  .  .  .  .  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  . 

.  .  .  . 

.  .. 

11  2.6 

普及のための課題. .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  .  .. 

13 

3

章 歌 唱 音 声 デ ー タ ベ ー ス の 構 築

14 

4 5 7 9  

4EA

E 4 1 E 4

E

・ 価 内 タ 評 の 一 と ス 題 デ 析 一 課 声 解 べ と 音 の タ め 録 声 一 と 収 音 デ ま 1 2 3 4  

q u q d q d q d  

4

FMR

の評価精度に関する検討

21 

4.1  SVM

について

28 . . . .  • • . . • • . . .  • • . . . ..  21  4.2  SVM

の 構 成 . .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  . 

.  .. 

22  4.2.1 

入力要素.

• •

.  . 

• •

• •

.  . 

• • •

.  .  . 

• •

.  .  . 

• • • •

.  . 

•• 22  4.2.2 

出 力 .

• • • • •

.  . 

.  . 

• • •

• • • •

• •

• • • •

• •

•. 22  4.2.3 

学習データと評価データ. .  .  .  .  .  .  . 

.  .  .  . 

.  .  .  . 

.  .  .  . 

.  . 

•. 22 

(3)

4.3 

評価結果. .  .  .  .  .  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  . 

.  .. 

23 

4.3.1 

連続値での出力. .  .  .  .  .  .  .  .  .  .  .  .  .  .  . 

.  .  .  .  .  .  .  .  .  .  .  .  .. 

24  4.3.2 

離散値での出力結果 .  .  .  .  . 

.  .  .  . 

.  .  .  .  .  . 

.  .  .  .  .  .  .. 

25  4

. 4   まとめ.

• •

• •

• • • • • •

• • • • • • •

• •

• •

• • .• 27 

9 9 9 0 1 1 2 4  

9a

っ ︒

q d q d q o q d 9 d

U T

討 果

・ 計 検 結 一 一 一 一

B

る 価

・ の す 評

・ で 聞 の

・ ル 比 何 件 果 一

・ げ 糊 剣 条 結 入 択 詐 価 同 噌 柵 導 選 学 評 と 宅 一 色 町 の の た

R l

! R R

し め

S M U U N N

良 と

B F ι ι H H

改 ま 章 一 1 2 3 4 5

V O F O v o v u v O

匝 り

5 5 5 5 6 7 8  

q d q d q d q d q o q d q o  

例 事

高 山 高 山

・ 新 制 川 口 同 め 湘 の の 伊 伊 伊 と 拒 声 事 事 事 ま の

B

音 崎 叩 畑 舟 郎

﹄ 日 日 号 ロ 苔 町 一 一 ぜ 町 田

rhE

フ と

R

1 2

結 R M M 説

L l u

咽 M E 迫

6 6 6

劃 F

章 ・ 1 2 3 6 6 6 6  

第 7章 総 括

39 

(4)

1

章 序 論

1.1 

研究の背景と必要性

最近、若者だけでなく、中高年でも趣味でカラオケを楽しんだり合唱サークルに所属して歌を 歌う人が多い。また、その人達が歌いたいと思う曲には高音域の発声(一般に裏声あるいはフア ルセットボイスと言われる)を要するものも多く、「どうすればプロ歌手のように高音をきれいに 発声できるのか」ということに彼等は強い関心を持っている。その中で、

5

年程前から

YUBA

ソッドという発声トレーニング法がテレビなどのメディアでよく紹介され

1‑4

、注目を集めている。

YUBA

メソッドとは三重大学教育学部教授弓場徹が提唱する歌唱トレーニング法(第

2

章参照) であり、本研究はこれに関連する弓場との共同研究の一部として実施されたものである。

ここで、まず

YUBA

メソッドのトレーニング法について簡単に説明する。

YUBA

メソッドでは 最初に音域の拡張を目的に裏声と表声(地声ともいう)を分離して発声する訓練を行う。その後、

表声が声帯の振動様態の異なる裏声に切り換わる音域つまり換声域

5

での音色の急激な変化や音 程の乱れ(換声点ショックという)を目立たせないように裏声と表声を滑らかに変化させる訓練に 移行する。このような一連の訓練を行うには裏声が正しく発声されているか、裏声と表声が滑ら かに変化しているか(換声点ショックが小さいか)について熟練した指導者が耳で聞いて判断する 必要がある。そのため、これまでに

YUBA

メソッドの普及を目的に、その具体的な方法を解説し た書籍

6‑11

CD12

13

DVD14‑18

が多数出版・販売されている。また

YUBA

メソッドを利用した 歌唱トレーニングでの音痴克服や安定した歌唱習得の成果も発表

19

20

されており、

YUBA

メソッ

ド自体の有効性は既に確認されている。

YUBA

メソッドのトレーニングでは表声と裏声をしっかりと出し分けられているのかを発声者

自身も意識することが重要とされているが、初心者にとっては自分の感覚に基づいて表声と裏声

を判別すること自体が難しい場合もあり、 トレーニングの導入の妨げになっていた。そこで、当

研究室では個人によるトレーニングを効率よく実施できるよう機械による表声/裏声の自動判別の

ためのシステムの構築を試みてきた

21320

一方、歌唱トレーニングにおいては表声/裏声の判別以

(5)

第 1 章 序 論

外にも「息の漏れ度合」を評価するこ左も重要視されている。例えば同じ裏声でも、息漏れの少 ないいわゆる「歌える裏声

J

と、息漏れの多い「息漏れの裏声」の区別があり、前者は歌唱に適し た発声である。一方、後者は歌唱には適さないものの、音程をとるために働く輪状甲状筋を効率 よく鍛えるための発声であり、

YUBA

メソッドの初期段階では特にこの発声が求められる。した がって表声/裏声の判別に加え息漏れの度合を評価することにより、正確で信頼できる声質の評価 が可能となり、より効率的なトレーニングが可能になると考えられる。本研究は表声/裏声評価に 加え、新たに「息も入れ度合」を機械学習により評価するための可能性を探るものである。今回 は機械学習にサポートベクターマシン

(SVM)

を用いた。

1.2 

研究概要

YUBA

メソッドでは人の発声は男声、女声ともに

2

声区(表声・裏声)しか存在しないものとし ている。しかし専門家が歌唱音声を評価する場合、「裏声の混ざった表声」や「表声の混ざった裏 声」などといった表現をする場合がある。そこで従来までの単なる表声/裏声のみの

2

段階評価で はなく、表声にどのくらい裏声が混ざっているのかを表す指標

FalsettoMixing Ratio(F R)

を 導入した。また前述した「息漏れ具合」の評価のための指標

BreathyStrength(BS)

も新たに導入 し歌唱音声の評価に用いることにした。これらの指標は

O

から

1

までの数値で表され、

FMR=O

が「完全な表声」、

FMR=l

が「完全な裏声」であることを意味し、

BS=O

が「息漏れのほとんど ない歌声」、

BS=l

が「息漏れが最も多い歌声」であることを意味している。これらの指標は専門 家の耳による感覚を頼りに単音ごとに値を割り振り、

SVM

による機械学習のための教師データと

して用いた

(3

章参照)。

また従来研究においても

FMR

の評価に類似した表声/裏声の機械学習による判別が試みられ ている

21

が、男声、女声それぞれ

3

名という少人数のデータによる検証であり精度や誤差などの 検討は十分とは言えなかった。そこで機械学習での評価結果をより説得力のあるものにするため 様々な年代の歌唱データを網羅したデータベースを作成した

(3

章参照)口このデータベースには幅 広い年齢層 ( 2 0 ' " ' ‑ ‑ 5 0代の 23名)の総計約 10000件におよぶ男声サンフロルが収録されており、各音 に音高(ピッチ周波数)、音量、高周波比率などの物理的評価値と共に専門家による

FMR

BS

の評価結果が収録されている。本研究では、このデータベースを利用し

FMR

BS

を予測する

SVM

をそれぞれ構築し評価精度の検証を行う

D

(6)

第 1章 序 論

1.3 

本論文の構成

以下に本論文の構成を示す。

1

章では、研究背景・目的

2

章では、発声メカニズ、ムと

YUBA

メソッド 第 3 章では、歌唱音声データベースの構築 第

4

章では、

FMR

の評価精度に関する検討 第

5

章では、

BS

の評価精度に関する検討 第

6

章では、

FMR

BS

の評価事例 第 7章では、総括と今後の課題

について述べる。

(7)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

本章では、ヒトの音声の特徴とともに研究の遂行に必要となる裏声・表声の発声メカニズムと 歌唱トレーニング法

WYUBA

メソッド』について概説する。

2.1 

ヒトの発声メ力ニズム 23

歌唱音声に限らず、ヒトが発する様々な声の多く(有声音として母音が代表的)は、肺から送ら れた呼気流によって声帯(声門)が振動する(閉じたり開いたりする状態を繰り返す)ことで生 じた音(声帯音源という)によって作り出されている。声帯音源は気流の断続で生ずる波形(三 角波に近い形状)で、どちらかといえばブザー音のようなものであり、我々が普段耳にする声と

は異質のものである。しかし、これが口腔・咽頭・喉頭・鼻腔・副鼻腔で構成される断面形状が 長手方向に複雑に変化する管(音声学的には声道という)を通ることで特定の周波数成分が強調 されたり抑圧されたりして(周波数スベクトルに変化が生じ)、口や鼻干しから聞き慣れた声として 大気中に放射されている。つまり声道は声帯原音のスベクトルを変化させて声に変換するフィル タ装置と見なすことができ、これを声道フィルタと呼ぶ。要約すれば、ヒトの声は声帯で発声し た声帯音源を声道フィルタに通すことで得られる音といえる。図

2.1

は声帯音源から音声が作ら れるイメージを図示したものである。

2.2 

音韻と音程の遣い

ヒトの声を特徴付けるものとして、大きさ、音韻、音高(ピッチ)がある。音声の大きさの変 化が声帯音源の大きさに依存していることは自明である。

これに対して、「あ

J

r しリ「う

J

のような音韻の認識の違いは音声のスベクトルのエンベロープ

のピーク、すなわち声道フィルタの局所ピーク(フォルマントと呼ばれる)の相対的なレベルとそ

の位置関係(フォルマント周波数の組み合わせ)によるものと考えられている。

(8)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

. . . . . . . . .  

( 音声 品 ; . . (  ( 

<< 

  . .

 ..

2.1:

人の発声過程の図

また、声の高さ(ピッチ、音高)は音声のフォルマントとは関係なく声帯原音の周期に依存して おり、その逆数である基本周波数で決定される。つまり、音の高さはフォルマント情報には関係 がなく声帯の振動周期のみに依存していることになる。

2.2

に母音 「 あ

J

音声波形とスペクトルの一例を示し、図

2.3

に一般的な母音「あ」のフォル マントの形状を示す。本論文では図

2.2

に示すようにピッチ周波数(単位

Hz)

10

、基本波のスベ クトル強度(単位

dB)

Hl

で表し、その高調波である

2̲""̲̲η

倍音のスベクトル強度を

H2̲""̲̲Hη

で 表すことにする 。 同図よりスベクトルの細かな周期構造がピッチを決める要因になっていること がわかる。また、図

2.3

に示すようにスベクトル包絡に現れるピークがフオルマントであり、低い 周波数の方から順に第

1

、第

2

…フォルマントと呼ばれる。本論文中でのそれらのピーク周波数 (単位

Hz)

をフオルマント周波数として記号

Fl

F2

, ・・・で表す。またそれぞれのピーク値(スベク トノレ強度、単位

dB)

AlA2

… で 表 す。 このようなゆるやかなスベクトル包絡が音韻を決める 要素になっている 。

ところで、会話音声のピッチ(声の高さ)は声帯が最も効率よく振動する周波数で決定されて

おり、個人(特に男女)聞のピッチ差は声帯の長さ・質量・張力などと関連がある。通常の会話音

声の場合、ピッチ周波数は男声で

60" ,260Hz

、女声で

120" ,520Hz

に分布するが、通常の会話で各

個人が変化させる範囲はせいぜい

100" ,200Hz

程度である。しかし、歌を歌う場合にはこのピッチ

をメロディに合わせて、より広い範囲で変化させることが必要 となる。当然、通常の会話音声の

(9)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソ ッ ド

芯 ろ 湖 む

S

4it1 

‑42

..L 

? く 叫

J' ι  

M H  

rE t 

2.2:

母音「あ」の倍音波形図

( ∞ 忍

8

4

コ ミ

‑42 

'

ξ¥ 

て ? く

w

1000  2000 

燭波数

[Hz]

3000 

2.3:

母音「あ」のフォルマント図

(10)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

10 

発声とは異なる声帯の振動が必要とされる。後述するように特に高音を発声する場合には声帯の コントローノレが難しくなり、発声ができなかったり、音程を外す原因となる。

2.3 

裏声と表声の違い

弓場の著書 奇跡のボイストレーニング

BOOK

(主婦の友社,

2004)

"によれば、裏声と表声の 発声法の違いには内喉頭筋群が関係している。内喉頭筋群とは声帯を引っ張ったり、声門(左右 の声帯のすき間)を閉じたり開いたりして、声帯の動きをコントロールしている喉にある一連の 筋肉群のことであり、喉ぼとけや甲状軟骨に付随する閉鎖筋群や開大筋がある(図

2.4

参照)。

弓場はこれらの筋肉の中でも声帯を引っ張り伸ばす筋肉や声門を閉じる筋肉ことを、歌うこと の中心的な役割を担っているので「歌う筋肉」 と呼んでいる。

怠 い こ う と う き ん

・ 副 慌

lj̲

S

事 ︑

~ ~~~ ~~fl賂鎖鱗

1 路大筋

jC

待問を開ける筋肉) 甲状軟脅

2

.4:内喉頭筋の様子

5

これら筋肉のうち、音の高さを変えるのに主役となって働くのが輪状甲状筋である。この筋肉 は気管の一番上にある輪状軟骨と甲状軟骨(突出したところを一般に喉ぼとけと呼ぶ)をつない でいる。この筋肉が働くと、甲状軟骨と輪状軟骨が近づいて声帯が引き伸ばされこの時声帯の傾 きが弱く声帯の質量が小さいと音が高くなり裏声が出る。一方、閉鎖筋群が輪状甲状筋に対して 優勢に働き、声帯筋の働きにより声帯の質量が大きい状態で声門が閉じられると息漏れの少ない 表声になる。

したがって表声か裏声かは、内喉頭筋の筋肉運動による声帯の振動状態の違いで決まるので、あっ

て、声の響きの状態で決まるわけではない。図

2.5

に裏声発声時の輪状甲状筋の働きを示す。

(11)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

11 

2.5:

裏声発声時の輪状甲状筋の働き

5

2.4 

換声点及び換声点ショック

換声点とは、裏声と表声の変わり目のことを指す。例えば低い表声から徐々に高い裏声に上行 させたり、逆に高い裏声から徐々に低い表声に下行させていくと、途中で急に音質や音量が変化 するところがある。これが換声点である。歌唱中に換声点を挟んで表声から裏声に切り替わる瞬 間に音程が外れ、歌唱が不安定になる人も多い。これは声帯の筋肉が表声を発声するよう働いて いたのに、換声点付近で急に裏声の筋肉運動へ変えたため、筋肉運動が提示された音声の変化に ついていけない状態と考えられる。

2.5  YUBA

メソッド

YUBA

メソッドとは弓場が提唱しているボイストレーニング法のことである。このトレーニン グ法は、ヒトは内喉頭筋を直接意識してコントロールすることは出来ないが、出す声によってどこ の筋肉が働くかはおおよそ予想できるため、モデルとなる声をまねて発声することにより間接的 に「歌う筋肉」を効率よくコントローノレで、きるようになるという考え方、つまり

YUBA

理論(発 声制御理論)に基づいている。 トレーニング手順の簡単な流れは図

2.6

に示す通りである。

2.6

中のそれぞれの

Stage

の目的と練習内容は次のように定義されている。

Stage 1:裏声と表声をはっきりと分けて出す

1

:息漏れのある高い裏声を出す

フクロウの鳴き声「ホー

j

や犬の遠吠え「ウォー

J

等をまねて発声し、裏声を出 すことに慣れる。

2:

息漏れのない表声を出す

(12)

12 

発声メカニズムと

YUBA

メソッド

2

とはっきりした息漏れ の形に開け、息を止めてからひと息で

アー」

口を「あ

j

のない(実際には、息が効率よく声帯振動に変わる状態に相当する)低めの声で

2rv3

秒声を出す。

Stage 2:

裏声・表声でいろいろな高さの音を出す 例 :

Stage1

で発声した音を様々な音程で歌唱する

と一声ずつ音の高さを と高めの裏声で始め、「ホー・ホー・ホー・ホー」

「ホー」

「アー

j

に変えて行う 。 変えて出す。次に「ホー

J

を表声の

Stage 3:

裏声・表声で簡単なメロディを歌う

例:i かえるの合唱

J

などの簡単なメロディーを高い音域の裏声「オー

J

(または「ウー

J)

で 歌う。息漏れを少なくし、一息で長めのフレーズを歌う。次に音域を下げて低めの息漏れの

で同じメロディーを歌う。

ない表声「アー」

YUBAメソッドの発声 ~III 線手 JI褒

Stage  Stage 

Stage 

Stage 

Stage 

Stage 

南方の声を強めよく混ぜて一体化する

. ︐ 

••

一 向 方 の

tF

山 混 ぜ て 換 世 同 点 を 口 出 立 た な

くする

十 向 't

H

声 を 行 き 来 し て 敬

︑ コ

j= 

3

笠 松3

で 務 主 義 な メ

3

灘蝿警 官竺・・

歎 つ

議 長

議 官 伊 ・ 表 世 間

6

で急々な惑さの替をおす

・ ・ ・ ・ ・

⁝ ・ ・

一 塁 一 円 と 表

︑ 一 声 を は っ き り と 刊 分 け て 宅

泌 す

b F

誕 祭 戸

愉悦惜戸点

墜 さ

一 戸

{ 忌

2.6:YUBA

メソッドのトレーニング段階図(弓場によるイメージ図)

(13)

2

章 発 声 メ カ ニ ズ ム と

YUBA

メソッド

13 

Stage 4:

裏声と表声の両方の声を行き来して歌う

例: r ドーシーラーソーファーミーレードー」と高い音から「裏声→表声」に向かつて歌い、

反対に低い音から「表声→裏声

j

でも練習する。途中換声点で、声がひっくり返ったり、出し にくくなっても音程が外れなければ良好な状態と判断する。

Stage 5:

両方の声を混ぜて換声点を目立たなくする

例:出来るだけ高めの息漏れのない裏声を「オー

J

(息漏れするようなら「アー

J

)で歌い 始め、表声に向かつて

2

オクターブ(ドーシラソファミレドーシラソファミレドー)下げて し 、 く 。

Stage 6:

両方の声を強めよく混ぜて一体化する

例:さらに喉の筋肉トレーニングが進んで

Stage5

がより発展した状態である。

このボイストレーニング法を行うことで、表声と裏声の境目である換声点での急激な音質や音 量の変化を減らし、広い音域をなめらかに発声することが可能になる。

インストラクタの模範発声をまねて実践的にボイストレーニングできるトレーニング本 (CD 付)や

CD

DVDl1‑17

が出版されている。

2.6 

普及のための課題

本章で紹介した

YUBA

メソッドの発声・歌唱教育上の効果の高さは既に検証されている

21

が 、 第 1 章で述べたように、個人で本 (CD付)や

DVD

を購入してトレーニングする場合を考えると、

発声状態の確認は自己判断に委ねられるため練習が効率的に進まないことが多々ある。そのため、

個人レベルで、客観的に自分の発声が裏声なのか表声なのかまた息がどのくらい漏れているのかが

判断できるように、

FMR

BS

などの声質判別指標を導入することが求められている。また、こ

のような指標を利用した個人で、簡単かっ効率的にトレーニングできるアプリケーションの開発も

期待されている。

(14)

14 

歌唱音声データベースの構築 第

3

本章では本研究の遂行のために新たに構築したデータベースの作成手順と内包されるデータに ついてに解説する

収録音声データ

3.1 

データベースを構築するためにはまず様々な年代の歌唱音声を収録する必要がある。今回は

20

'"'"'50

代の 一般男性(計

23

名)の音声収録を行った。図

3.1

に示すように歌唱者はスタンドで固定

したマイクロホンの前に立ち、開放型のヘッドホンを装着する。録音は熟練者同伴で行い、歌唱 者は必要に応じてガイドメロディやキーボードの伴奏を聞きながら歌唱を行った。

名人ゆJV︐eAす母︑︐

︑︐AAVVvy‑‑

A A v a e h

︑ e

︐ ι e . ム 守 v A . .  

e

A+

γ

46@︿AJA︿@

h .. ︐A︒v命'〆J£砂︑為.︐︐

ι . ︐a守可A争︐︑

av'

A V a n

4

u

私︑︐

e

AV .

. .  

︒ . A V ま

‑ L V A

AAV︑︐︐︑︑

. b .

︐ A v e . m v q h u

@ a

B' e h

e

‑ ゆ ム 唱

ゐWA‑‑

e v

'AVAV︐

︒ 杭 N 4 h w φ

A

A U

︑ 日 胃 .

. h S

AV

A

. 6 h u A M a e

4

. A A Au‑v

v v

e A w

e a e

uw

V A

e

u a d J A M M

島南︐Ae

@ hn d A d u x

‑ 局

︑ 私 A w

‑ s

a

s q a M e

4

A N a

也・awAHA

A

・ 9

・ A ' A

0

. .   ' 

Ah.4@'4@

. . .   品 ' v

い vv 骨wA£..︐命

AR.A私帆峰.写匂噌胃M

. .   ム e e . .  

aM

d6.AH

. .  

品ふ

'a

.

λ 4 9 9 a A

A V A ム 吻 合 併 0 4

・ 令 A ゆ 凶 w a v w ぷ ム 柄

︒ ψ e u ' V A

‑ A '

み も

S F e u 事 吻 持

3.1:

マイクと歌唱者の位置関係

録音はノートパソコンを用いて実施し、

USB

接続したオーディオインターフェイスによりマイ ビット数は

16

とした。使用した機器につ クからの音声を取り込み、サンプルレートは

44.1kHz

いて表

3.1

にまとめる。

実際に行った録音内容を以下に示す。

(15)

3

章 歌 唱 音 声 デ ー タ ベ ー ス の 構 築

15 

3.1:

使用機器

タ ン

イ ン ン オ ホ ホ イ ロ ド デ ク 器 一 ッ 一 イ 機 一 ヘ オ マ

メーカー 型番

SENNHEISER  HD650 

EDIROL  UA‑101  audio‑technica  AE5400 

1 .  

YUBA

メソッドの歌唱トレーニング

CD6

track3

track5

の歌唱によるのどならし

2.

キーボード(ピアノ音)の伴奏に合わせた表声による

5

母音別の歌唱

3.

キーボード(ピアノ音)の伴奏に合わせた息漏れの裏声による

5

母音別の歌唱

4.

楽曲

24

25

の一部を"歌える裏声"(息漏れの少ない裏声)による

5

母音別の歌唱

5.

楽曲

25

26

のサピ部分の歌唱

録音した音声は

1

人あたり

30

分程度の長さである。歌唱者の年代と人数の内訳を表

3.2

に示す。

3.2:

録音データ内訳

年代

20

30

40

50

代 合 計 人数

23 

3.2 

音声の解析と評価

録音した音声はまずフレーズ毎におおまかな切り出しを行い、それらを音声解析ソフト

Voice Sauce27

にかけた。解析では、まず

VoiceSauce

で算出される音圧レベルを頼りに収録データ内で

1

つの音の発声を

1

セグメントとして特定し切り出しを行う。全ての音声データを

VoiceSauce

~こ 通した結果、約

10000

個のセグメントが得られた。歌唱者別のセグメント数の内訳を表

3.3

に示 す。次に

VoiceSauce

では分析結果が

1ms

毎に算出されるため

1

つのセグメントごとにそれらの中 央値を代表値として算出した。このようにして抽出されたデータベースに内包されるパラメータ ( 計

37

個)を表

3

.4、音声の解析イメージを図

3.2

に示す。

また各セグメントは専門家により

FMR

BS

の値ならびに音名(フィーノレド名

MIDI)

が評価

された。

FMR

BS

については第

1

章で述べたように

O

から

1

までの数値で表し

FMR

{O

(16)

3

章 歌唱音声データベースの構築

16 

3.3:

歌唱者別データ数内訳

20

代歌唱者

30

代歌唱者

歌唱者番号 セグメント数 歌唱者番号 セグメント数

201  323  301  234 

202  378  302  379 

203  361  303  301 

204  310  304  827 

205  238  305  687 

206  444  306  478 

合 計

2054 

合計

2906 

40

代歌唱者

50

代歌唱者

歌唱者番号 セグメント数 歌唱者番号 セグメント数

401  23 501  278  402  295  502  509 

403  492  503  534 

404  596  504  790 

405  634  505  379 

406  562 

合計

2816 

合計

2490 

音声波彩 = 圭 = ヨ E

VoiceSa ucef

こより解析

=5L

54

書 愚 君 総 玲 容

器 島

i

3.2:

解析のイメージ図

(17)

3

章 歌唱音声データベースの構築

17 

記号(フィーノレド名)

SUB 

VOWEL  FMR  BS 

MIDI 

H1H2H1H3H1H4H1H5 H1A1H1A2H1A3 H1H2cH1H4c 

H1A1c

H1A2c

H1A3c  H2K 

F2K  H42Kc  H5K  H2KH5Kc  sF1sF2sF3sF4 sBlsB2sB3 A1A2A3

HNR05HNR15

HNR25HNR35

3

.4:内包パラメータ一覧

内容 歌唱者番号

母音コード

(l:/a/

:/i/

3:/u/ 

4:/e/

:/0/)

F'alsetto Mixing 

Ratio の専門家による評価値 (0~1)

Breathy Strength

の専門家による評価値

(0'"''1)

音名

(MIDI

ノート番号)

基本周波数

fo[Hz]

H

l‑H2

H1‑H3 

・ ・ ・ H

lAl

HI‑A2

H

lH2

H1‑H4

の修正値

H

lAl

HI‑A2

H1A3

の修正値

2kHz

付近での倍音レベル

H2k

2kHz

付近のフォルマント周波数

[Hz]

H

4H2k

の修正値

5kHz

付近での倍音レベル

H5k

H

2k‑

H

5k

の修正値

1

、第

2

、第

3

フオルマント周波数

[Hz]

F

1

、 F2~

F3 

1

、第

2

、第

3

フォルマント帯域幅

[Hz]B1

B2

B3

1

、第

2

、第

3

フオルマントのスベクトノレ強度

[dB]A1

A2

A3 Harmonic to Noise 

Ratio(05 は 0~500Hz までの測定値)

0.250.50.75, 1}

5

段階、

BS

{O0.51}

3

段階で評価した。

FMR

BS

の評価イメー ジを図

3.3

に示す。この図は専門家のおおよその感覚を図的に表したものであり、

FMR

BS

の 評価軸は直交するものと仮定している。切り分けた約

10000

個の音声データが図のどの位置の音 声であるのかを専門家の耳の感覚でプロットしてもらいラベリングを行った。

最終的に、専門家の耳での評価と

VoiceSauce

による各パラメーターの算出結果を結合しデータ ベースを構築した。この時、両者でのピッチ推定値に半音よりも大きな差がある場合には解析ソ フトでの解析ミスと判断しデータベースから除外した。作成手順を図

3

.4に示す。このデータベー スはさまざまな年代の音声データを網羅しており汎用性が高く貴重であるといえる。

3.3 

データベースの内訳

3.5

はデータベースに収録されているサンプルの

FMR

BS

の値別の収録数を示している。

どの

FMR

の値でも

BS=0.5

の収録データが他に比べて多くなっている傾向がみられる。また

(18)

1

歌唱音声データベースの構築

3

金 ? る

参事

義 務

密 接 恥 一

w

選 管

官 一

議 ︒

意 義

O

e

論 惨

義言鰯

1

提yS 智線機鈴

{

義務

3.3:FMR. BS

評価のイメ

ジ図

lms

ごと

ζi

替のパラ

ータを検出

P i

愉(fO)

‑Retative Harmonit level(HIH2Hl S}

Formant

Freq. (Fl

" ' F 4 )  

FonnanlP

k(AI‑A3)

etc

201

."""50

代のデータ整理

WAV

, 

44.1k

z

16BIT

23

人の男性

(20

:630

:640

:6

501t:5

名)

表湾、 察予 容 の警 ' f 笠 を1 フ

v

一二え'ごとに媛く

区切る

Makingof 

Databαse 

3.4:

デー タベースの作成手順

(19)

3

章 歌唱音声データベースの構築

19  FMR=O

の完全な表声の部分では

BS=l

の収録数が少なくなっており、息漏れの表声はあまり収 録されていないことがわかる。これは

2

章で説明したように、表声発声時は声門が閉じている状 態であり、表声では息漏れ自体があまり発生しないためであると考えられる。

3.5:FMR

BS

値別でのデータベース内訳

BS=l  BS=0.5  BS=l 

合計

FMR=l  331  746  364  1441  FMR=0.75  565  1617  380  2562  FMR=0.5  292  1474  192  1958  FMR=0.25  621  1598  119  2338  FMR='

675  1243  48  1966 

也主

2484  6678  1103  1110265 1 

3.5

FMR

BS

それぞれの値別の収録数を示している。

FMR

では、

0.75

のデータ数が最 も多く 1のデータ数が最も少なくなっている。

FMR=l

と判定されることを狙った音声の収録を 最も多く実施したにも関わらず、

FMR=l

のデータ数が最も少なくなってしまったので完全な裏 声を発声すること自体が難しいことがわかる。値別での多少のデータ数の差はあるが、おおよそ 均等に収録できていることがわかる。

BS

では

FMR

にくらべてデータ数の差が大きく、

BS=0.5

のデータ数が圧倒的に多く

BS=l

の音声が最も少ない。つまり一般の歌唱者はどのような発声を しでもある程度は息が漏れてしまっているといえる。

3.6

は母音別の収録割合を円グラフで示しているが

5

母音が均等に収録されておりバランスが とれている。

3.4 

まとめと課題

本章では実際に作成したデータベースの作成手順と内包されているデータの内訳について説明し た。データ内訳のグラフから、現在の収録方法では、

FMR

に関してはほぼ均等に収録できるが、

BS

に関しては

0.5

の音声が圧倒的に多くなってしまうことを確認した。したがって今後は

BS

の 偏りを生じさせないよう、発声者の選別や収録方法を考える必要がある。

また現在は

FMR

BS

の評価を

YUBA

メソッドに精通した一人の専門家により行っている が、複数の評価者による平均化も検討しなければならない。加えて女声のデータベース作成も行

う必要がある。

(20)

3

章 歌唱音声データベースの構築

30α3

ァ 一 一 …一 一 … 一 一 一 一 一 一 町 一 町 一 一 一 一 一 一 一 一 抑 制 一 一 … , … 一 一 一 一 一

80

∞ 

70∞ 

2S

∞ 

so

∞ 

20

∞ 

学 期

50

∞ 

1

30

∞ 

10∞ 

20

∞ 

500 

10∞ 

。 。

0.25 

ふ 。

0.75 

FMR 

3.5:FMR. BS

の値別のデータ数

3.6:

母音別のデータ割合

0.5  BS 

20 

(21)

21 

4

FMR

の評価精度に関する検討

本章では、前章で述べたベータベースを用いて F M Rを予測評価するための

SVM

を学習させ、

表声/裏声の判別精度を検証する。

4.1  SVM

について

28

SVM

は教師あり学習を用いる識別手法の 一つであり、現在知られている多くの手法の中で一番 認識性能が優れた学習モデ、ルの一つで、ある。

SVM

で、はまずグ、ルーフ。分けした学習のグ、ルーフ 。 パ ターンをコンヒ。ュータに学習させ、その学習結果をもとに評価データをグループ。分けすることで パターン認識を行う。また

SVM

の最大の特徴としてマージン最大化がある。これは最も適したグ ノレープ分けを行うために学習データの中で最も他クラスと近い位置にいるものを基準として、そ のユークリッド距離が最も大きくなるような位置に識別境界を設定する。このノンパラメトリッ クな手法で明確な基準で識別境界をを与えているという事が他に例のないことで、

SVM

の最も優 れた部分である(図

4.1

参照)。

4.1:SVM

によるマージン最大化イメージ図

28

参照

関連したドキュメント

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと

C =&gt;/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

本稿 は昭和56年度文部省科学研究費 ・奨励

音節の外側に解放されることがない】)。ところがこ

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom