統計モデルに基づく多様な音声の合成技術

(1)

統計モデルに基づく多様な音声の合成技術

能勢隆

^†

Synthesis Techniques of Diverse Speech Based on Statistical Models Takashi NOSE

^†

あらまし HMM音声合成に代表される統計モデルに基づくテキスト音声合成は，モデルがコンパクトであるにもかかわらず，従来の波形接続方式に比べて少ない音声データで音声に含まれる話者性や感情表現・発話様式

（スタイル）を合成音声に反映することができる手法として急速に利用が広まっている．本論文では，HMM音声合成を中心とし，話者やスタイル，声質を多様化する手法についてそのアイデアや実験結果なども含めて解説を行う．HMM音声合成ではスペクトルや韻律特徴量がモデル内の各状態の分布パラメータとして表現されるため，モデルパラメータの操作，モデルの拡張が容易であり，様々な多様化手法が提案されている．代表的な話者の多様化手法として話者適応，話者補間，話者強調について，またスタイルの多様化手法としてスタイルモデリング，スタイル適応，スタイル補間，スタイル制御，スタイル変換について基本的な枠組を説明する．更に声質の制御法や話し言葉音声についても概説し，今後の課題や展望について述べる．

キーワード HMM音声合成，話者の多様化，スタイルの多様化，声質制御，話し言葉音声合成

1.

^{まえがき}

映画や漫画の世界に登場する「人間と自然に対話するロボット」を実現することは工学における我々の大きな夢の一つである．このようなロボットを実現するには多種多様な技術が必要となるが，その中でも人間の口の役割を果たすテキスト音声合成技術は，相手に情報を伝える上で重要な役割を果たす．これまで，

コンピュータにおける情報伝達は主にディスプレイが中心であったが，人間同士のような自然で手軽なインタラクションを行うためには音声によるコミュニケーションが重要となる．また，単に言語情報だけでなく，

音声に表れる話者性などの非言語情報，感情や意図などのパラ言語情報を伝えることができれば，より気軽にロボットに接することが可能となるであろう．

テキスト音声合成技術は，ロボットへの応用だけでなくカーナビ，電話自動応答，ナレーション作成，ゲームなど幅広い分野において実用化が進んでいる．更に最近ではスマートフォンにおいて音声対話により情報案内を行う

Apple

の「

Siri

」，

NTT

ドコモの「しゃ

†東北大学，仙台市

Tohoku University, Sendai-shi, 980–8579 Japan DOI:10.14923/transinfj.2016JDS0001

べってコンシェル」や，自動翻訳サービスなどが登場し，大きな注目を集めている．一方で，一部ではタレントやキャラクターによる会話調の合成音声を用いる試みもされているが，一般的には未だプロのナレータによる読上げ調の音声が用いられることが多く，話者や発話様式・感情表現などのスタイルを柔軟に変更することは容易ではない．人間同士に近い自然な音声対話システムや映画，コマーシャルなどで利用可能な多様で高品質な合成音声を生成するためには，様々な話者やスタイルを限られた時間的，金銭的コストで実現可能な音声合成の枠組みが必要となる．

このような要求のうち，特にその柔軟性とコストの面において近年注目を集めているのが隠れマルコフモデル

(hidden Markov model, HMM)

に基づく音声合成（

HMM

音声合成）

[1]

を中心とした統計的音声合成である．

HMM

音声合成は同じく

HMM

を利用する音声認識からそのアイデアの多くを得ているが，一方で音声認識において通常扱われない韻律情報^（注1）が音韻情報と並んで重要な役割を果たすこと，また個人性やスタイルなどを十分に表現できる必要があることな

（注1）：ただし，感情認識などにおいては韻律情報が積極的に利用される．

(2)

ど，相違点も多い．

本論文では，

HMM

音声合成における話者，感情表現・発話様式（スタイル），声質，韻律の多様化手法

[2], [3]

に焦点を当て，著者が関わったものも含め，

これまでに提案されてきた手法について，その基本的な仕組みや性能について解説する．具体的には，話者の多様化技術として，平均声モデルに基づく話者適応，

話者補間，話者強調について述べる．スタイルの多様化は感情音声合成などと関係し，パラ言語情報の表現のために特に重要な役割を果たすと考えられ，この実現方法として，スタイル依存モデル，スタイル混合モデル，スタイル補間，スタイル制御，スタイル変換について述べる．これ以外にも声質制御や強調表現，話し言葉音声合成についても概説する．最後に今後の課題や展望について述べる．

2.

統計モデルに基づく音声合成

合成音声の多様化の多くは統計モデルに基づく音声合成により実現されている．ここではまず，その中でも特に広く研究，利用されている

HMM

に基づく音声合成の概略について説明し，同様に

HMM

を利用する音声認識との相違点について述べる．また，近年

HMM

音声合成を上回る性能が得られることが示されているディープニューラルネットワーク

(DNN)

に基づく音声合成，ガウス過程回帰

(Gaussian process regression, GPR)

に基づく音声合成についても触れる．

2. 1

隠れマルコフモデルに基づく音声合成図

1

に

HMM

音声合成の概略を示す．

HMM

音声合成では通常音素単位で音声のモデル化を行う．この際，

音声認識の場合と異なりスペクトル特徴量に加えて韻律特徴量，すなわち基本周波数

(F0)

及び状態継続長のモデル化が必須となる．

F0

は有声部分では連続量，

無声部分では値をもたず，通常の

HMM

では直接表現することができない．このため，異なる次元をもつ観測データを同時にモデル化できる多空間上の確率分布に基づく

HMM(MSD-HMM) [4]

などが用いられる．

学習データに現れる各音素セグメントから抽出されたスペクトル・韻律特徴量は当該の音素の種類は当然のことながら，前後の音素やアクセント，文長などの要因によって変化する．そのためモデル化の際にはこれらの変動要因をコンテクストとして考慮したコンテクスト依存モデルを使用する．ただし，コンテクストの組合せは膨大となるため，通常決定木クラスタリングを用いてモデルパラメータ数の削減を行う

[1]

．合成

図1 HMM音声合成の概略

Fig. 1 Overview of HMM-based speech synthesis.

時には学習時に得られた決定木に基づき未知のコンテクストに対してモデルパラメータを推定する．そして，

入力文章から得られたコンテクストラベル列に従って学習したコンテクスト依存

HMM

を連結することで文

HMM

を生成し，これからゆう度最大化基準により音声パラメータ列を生成する

[5]

．この際動的特徴量を考慮することにより，不連続感の少ない滑らかな音声パラメータ列を生成することができる

[6]

．

図

2

に自然音声と合成音声のランニングスペクトル

（スペクトル包絡の時間変化）の例を示す．図

2(b)

は文

HMM

から動的特徴量を用いずに生成されたランニングスペクトルであり，これは入力ラベルに対応するコンテクスト依存モデルの各状態の平均パラメータを並べたものに対応しており，各状態内で一定，状態間で不連続であることが確認できる．一方で，スペクトル包絡の主要なピークはある程度図

2(a)

の自然音声のものを再現できているといえる．これに対し，音声パラメータ生成時に動的特徴量を考慮した場合が図

2(c)

である．スペクトルピークの情報は保持しつつ，

自然音声と同様にフレーム間で滑らかに変化するランニングスペクトルが得られている．しかし，自然音声のスペクトル包絡と比べると，学習時の汎化処理により，スペクトルが全体的に平坦化してしまっており，

スペクトルピークが過度に平滑化されていることが確

(3)

図2 自然音声と合成音声のランニングスペクトルの比較 Fig. 2 Comparison of running spectra of natural and

synthetic speech.

認できる．このような現象は合成音声の知覚において自然性と明瞭性の低下に繋がる．そこで通常は何らかの方法でスペクトルピークの強調処理を行う．最も一般的に用いられているのは，メルケプストラムなどのスペクトル特徴量系列において，各次元において時間方向に対し分散補償を行う方法である．代表的な手法としては発話の系列内変動

(global variance, GV)

を音声パラメータ生成時に制約として利用する手法である

[7]

．これに対し，計算コストを抑え，主観的・客観的にも優れたアフィン変換に基づく分散補償が提案されている

[8]

．図

2(d)

では図

2(c)

の音声パラメータ系列に対し，アフィン変換に基づく分散補償を行っており，スペクトルピークが図

2(c)

よりはっきりし，自然音声に近づいていることが確認できる．

2. 2

音声認識との相違点

統計的音声合成は，音声を音素セグメント単位でモデル化して利用する点，動的特徴量を用いる点など，

基本的な枠組は音声認識と似ている部分も多い．一方で，音声認識では通常用いられない基本周波数

(F0)

などの韻律情報が重要な役割を果たすなど，異なる点

表1 音声認識と音声合成における代表的なコンテクスト Table 1 Representative contexts for speech recogni-

tion and speech synthesis.

音声認識

{先行・当該・後続}の音素音声合成

{先行・当該・後続}の音素当該アクセント句内でのモーラ位置

当該アクセント句のアクセント核からの相対モーラ位置 {先行・当該・後続}のアクセント句のモーラ数 {先行・当該・後続}のアクセント句のアクセント型当該呼気段落内での当該アクセント句の位置 {先行・後続}アクセント句間のポーズの有無文のモーラ数

もある．本節では両者の相違点について簡単に述べる．

まず，音響モデルをどのように用いるか，という点において根本的な違いが存在する．音声認識では多様な話者性や発話様式を含んだ音声から言語情報を抽出することを目的としており，音声の音響的な多様性に依らず高い性能が得られることが望ましい．また，音声認識はフレーム単位の連続的な入力データをセグメント単位の有限の言語パターンへとマッピングする問題と考えられるため，音声に含まれる個々の表現を必ずしも精細にモデル化せずとも，言語情報が正解であれば良いといえる．これに対し，音声合成では学習データに含まれる多様な表現はそれぞれ再現すべき対象であり，それらの再現度合により合成音声の総合的な品質が決定される．

音声合成では音韻情報だけでなく韻律情報も適切に再現する必要があるため，モデル化に必要なコンテクストが音声認識に比べて多いという特徴がある．表

1

に音声認識と音声合成で用いられる典型的なコンテクストを示す．なお，ここでは音声合成は日本語を対象としている．日本語の音声では

F0

のモデル化にアクセント情報が非常に重要であることが分かっており

[9]

，学習用の音声データに対して正しいアクセントラベルを付与することが重要となる．最近では統計的音声合成のためのアクセントラベルの自動推定も検討されており

[10]

，手動で付与した場合に近い性能が得られることが報告されている

[11]

．

F0

自体は無音，無声音では値をもたないため，値のない部分は前後の値を用いて補間を行ったり，多空間上の確率分布に基づいた

HMM [4]

を利用するなどの対応が必要である．また，

音素や状態の継続長についても適切に取り扱うために，

(4)

状態継続長を明示的にモデル化した隠れセミマルコフモデル

(hidden semi-Markov model, HSMM) [12]

を用いたり

[13]

，音素継続長を外部モデルとして組み合わせる手法などが存在する

[14]

．

2. 3 HMM

以外を用いたアプローチ

HMM

音声合成では状態とその確率的遷移により音声特徴量の時間方向の伸縮に対応し，各状態の分布パラメータの予測モデルとしては回帰木を用いることが多い．これに対し，近年画像認識や音声認識において大きな性能向上が報告されている

DNN

に基づく手法

[15]

や，声質変換などで有効性が示されている

[16]GPR

に基づく手法

[17]

などが提案されており，

HMM

音声合成を上回る性能が示されている．

DNN

音声合成や

GPR

音声合成においても多様な音声の合成については検討されており，本論文では詳しくは述べないが，ここで幾つか概要を紹介しておく．

DNN

音声合成では音素やアクセントなどの言語情報をフレーム単位で数値化したものを入力特徴量とし，

この言語ベクトルから音声パラメータへのマッピングを

DNN

により表現することで音声パラメータの予測を行う．文献

[18]

では，

5. 4

で述べる合成音声のスタイル制御手法と同様に，低次元のベクトルにより学習データに含まれる感情表現などの変動を制御することを目的とし，これを

DNN

音声合成の枠組で試みている．具体的には学習用の発話文セットのうち，どの文であるかを表す

one-hot

ベクトルを別途用意したネットワークにより低次元のベクトルにマッピングし，これを

DNN

の入力に加えて学習を行うことにより，文間の音響的な変動をモデル化・制御することができる．

文献

[19]

などによると感情音声を収録する際に文間で感情の度合いが緩やかに変動することはある意味妥当であり，このような場合は低次元ベクトルにより適切な制御が行えると期待できる．この手法では重回帰

HSMM

に基づくスタイル制御

[20]

のようなスタイルの種類や度合いを直接表現したベクトル（スタイルベクトル）は利用していないため，スタイルを直観的に制御することは困難であるが，スタイルベクトルを入力として使用することにより，文献

[20]

と同様に直観的な制御は可能であると考えられる．

GPR

音声合成では同様にフレームごとに言語情報に基づく入力特徴量から音声パラメータへのマッピングを直接モデル化し，これに

GPR

を用いる．

DNN

がユニット数と層数の両方を用いて複雑なネットワークを表現するのに対し，

GPR

では学習データの音声

パラメータを直接予測に利用する浅く密なネットワークを用いるという特徴がある．

GPR

音声合成においても，スタイル音声合成についての検討が行われている

[21], [22]

．文献

[21]

では

HMM

音声合成の場合（

5.

参照）と同様にスタイルごとに独立にモデル化を行うスタイル依存モデル，全スタイルを一つの

GPR

でモデル化するスタイル混合モデルが提案され，自然音声に近いスタイル再現性が得られることが示されている．

また，文献

[22]

では

GRP

に基づく話者適応

[23]

をスタイルに応用し，目標話者の十分な量の読み上げ調の音声で学習した

GPR

に対し，目標話者の少量の目標スタイル音声を用いて学習データである読み上げ調の音声特徴量に対しアフィン変換を施し，これを用いて合成用の音声パラメータの予測を行う．これにより従来の

HMM

に基づくスタイル適応

[24]

と同等あるいはそれ以上のスタイル再現性が得られることが示されている．

3.

多様化の実現に向けたアプローチ音声合成において多様化と一言で言ってもその実現方法は様々である．

HMM

音声合成では音声はスペクトル・

F0

・状態継続長などの音声パラメータとしてモデル化されているため，例えば単純に

F0

をシフトするだけで声の高低を変化させることができ，また状態継続長を定数倍することにより話速を制御できる．ただし，このようなごく単純な操作で得られる多様化はかなり限定的であるためここでは取り扱わない．本論文で述べる多様化は実際の利用における以下のような要求に応えるものとする．

1.

様々な話者の声を低コスト，短時間で作りたい（

4. 3

^）

2.

ある話者の声の特徴を強調したい（

4. 5

）

3.

感情表現や発話様式などの多様なスタイル

を含んだ音声を合成したい（

5. 1

，

5. 2

）

4.

スタイルの度合を直観的に変化させたい

（

5. 3

^，

5. 4

^）

5.

自分の好みの声質をもつ音声を作り出したい（

6.

）

6.

音声のある部分を自然に強調したい（

7. 1

）

7.

自然な話し言葉音声を合成したい（

7. 2

^）

1.

については，

HMM

音声合成では数十分程度の学習データのみでも比較的自然で安定した合成音声を生成することができるが，平均声モデル

[25]

や固有声

HMM [26]

といったあらかじめ用意した複数の話者の

(5)

データから得られるモデルを利用することで必要な学習データ量を大幅に減らすことができる．

2.

については，音声に現れる話者の特徴を平均的な音声からの差分と捉え，これをモデル化することによって話者性を強調することができる

[27]

．

3.

については，目標話者の目標スタイル音声が用意できる場合にはスタイル依存モデルやスタイル混合モデル

[28]

を用いることで

「楽しげ」や「ぞんざい」といった読上げ音声に比べて韻律変動が激しいスタイルの音声についても原音声に近い自然な合成音声を得ることができる．また，目標話者の読上げ調の音響モデルをスタイル変換

[29]

により目標スタイルに変換することで目標話者の目標スタイル音声が得られない場合でもスタイル音声を合成することができる．

4.

については，スタイル補間

[30]

やスタイル制御

[20]

を用いることで「少し楽しげ」「非常に悲しげ」といったスタイルの変化を容易に実現することができる．

5.

については，あらかじめ用意した複数の話者の音声に対して「かすれた

—

澄んだ」「張りのある

—

ない」などの声質の特徴を定量化しておき，

これを重回帰モデルで表現することにより，所望の声質に近い合成音声を生成することができる

[31]

．

6.

については，学習時に強調部分をコンテクストとして考慮することで合成音声に強調表現を再現することができるが

[32]

，強調は通常音声の特定の語や句に対して現れるため，これを効率的にラベリングする手法が必要となる

[33]

．

7.

については，我々が普段使用するような話し言葉音声ではこれまでコンテクストとして用いられてきた東京方言を前提としたアクセント情報のみでは

F0

の変化を十分に表現することができないため，句末境界音調などを考慮したより複雑なコンテクスト

[34]

が必要となる．

以降の節ではこれらの多様化のアプローチについてより具体的に紹介する．

4.

多様な話者性の実現

人間の身体的特徴はそれぞれ多様に異なり，そのため音声にも多様な話者性が含まれている．それらを適切に表現することで，親近感のある合成音声であったり，付加価値の高い合成音声を提供することが可能となる．本節ではまず目標話者の音声が十分に得られる場合に起こり得る問題点について述べ，それを軽減するための平均声モデルと話者適応に基づくアプローチについて説明する．また，新たな話者性を実現する手法として話者補間や話者強調についても簡単に触れる．

4. 1

話者依存モデルにおける問題点

統計的音声合成では，合成したい目標話者の学習データが十分に得られる場合には話者依存モデルにより自然性の高い音声を合成することができる．必要なデータ量は話者や発話様式などにより異なるが，プロのナレーターやアナウンサーの音声の場合，

30

分程度のデータがあればその話者の特徴を再現し，かつ自然な音声を合成することができる場合が多い．しかし，

この程度の音声であっても実際の収録には数時間程度は必要であり，収録文の準備やアクセントの付与などを考慮すると学習データの構築にかかるコストは低いとはいえない．例えばある高校の一クラスの学生全員の音響モデルを

1

日で用意する，などは現実には非常に困難である．そのため，より少量の音声データのみで目標話者の話者性を反映させた音響モデルを学習する枠組が求められる．これを実現するのが平均声モデル

[25]

という概念である．

4. 2

平均声モデル

平均声モデルとは

HMM

音声合成において複数の話者の音声データにより学習された音響モデルのことであり，特定の話者の音声特徴に依存しないという点で音声認識における不特定話者モデルと類似している．一方，スペクトル情報だけでなく韻律情報も保持しており「声」としての性質が強いという点，また実用において音声認識の場合のように数百人規模の音声を必ずしも使用せず，数人程度の音声のみで学習した平均声を用いて話者適応を行った場合でも話者依存モデルに比べて品質の改善が見られる点

[35]

などから両者を区別して扱う．平均声モデルは

4. 3

^{で述べる話者} 適応における初期モデル（事前知識）として用いられるだけでなく，話者とスタイルの同時適応

[36]

や話者強調

[27]

，スタイル制御

[37]

，スタイル変換

[29]

，クロスリンガル音声合成

[38]

などでも利用される重要な概念である．なお，類似したモデルとして固有声モデル

[26]

や重回帰モデル

[39]

がある．これらのモデルはいずれも平均声モデルと同様に複数の話者やスタイルの音声により学習されるが，平均声モデルが平均的な特徴をもつ単一話者の音響モデルを想定しそれ自体は特定の話者性やスタイルをもたないのに対し，これらのモデルは話者やスタイルの空間を仮定し，固有ベクトルやスタイルベクトルを制御することで話者性やスタイルそのものを変化させる機能がある．

4. 3

話者適応

(speaker adaptation)

とは，元々音声認識

(6)

において，不特定話者モデルを事前情報とし，それから線形回帰などを用いて少ない変換行列により不特定話者モデルのパラメータを適応データに近づける枠組を指す

[40]

．音声認識では話者だけでなく雑音環境などへの適応も広く用いられる

[41]

．

HMM

音声合成においても，平均声モデルと最ゆう線形回帰

(maximum likelihood linear regression, MLLR) [42]

などの話者適応を組み合わせることで，目標話者の数文から数十文程度の音声だけでもその話者に近い特徴をもつ合成音声を生成することができることが報告されている．

線形変換に基づく手法は

MLLR

以外にもその改良手法が数多く提案されており，代表的なものとしては，モデルパラメータを変換する

MLLR

に対して入力特徴量を変換する制約付き

MLLR [43]

，回帰行列を

MAP

推定する事後確率最大線形回帰

(MAPLR) [44]

を応用した構造的事後確率最大線形回帰

(SMAPLR) [45]

など音声認識分野で提案されたものや，音声合成において独自に提案された制約付き

SMAPLR [46]

などが検討されている

[47]

．話者適応を用いて実際に

1500

名を超える非常に多数の話者の合成音声を生成する試みも報告されており

[48]

，平均声モデルと話者適応の組合せの威力が示されている．

4. 4

話者補間

平均声モデルを用いた話者適応を利用することで目標話者の少量の音声のみでその話者の特徴を含んだ音声を合成できる．一方で，これにより表現できるのはあくまで実際に存在する話者の特徴のみであり，学習データとして用意できない話者の特徴を表現することは不可能である．このような制約を緩和する手法として，

HMM

音声合成における話者補間

[49]

がある．話者補間では，あらかじめ十分なデータにより学習した話者依存モデル間で^（注2）

HMM

のモデルパラメータの補間を行うことで新たな音響モデルを作成し，それから音声パラメータを生成することで，それらの話者の中間的な特徴をもつ音声を合成する手法である．この手法は画像におけるモーフィングに相当し，時間的に補間比率をある話者から相手の話者へ徐々に変化させることで同様の効果を得ることもできる．また，顔画像のモーフィングではモーフィング前後の顔画像に対し，あらかじめ特徴点の対応付けを手作業で行う必要があるのに対し，音声合成の場合はメルケプストラム

（注2）：実際には平均声モデルと話者適応を用いて得られる話者適応モデルでも良い

などを用いることで次元間の対応付けが自動的に行われるため，このような手作業が要らないという利点がある．

4. 5

話者強調

音声において話者性・個人性とは何かと考えた場合，

平均的な音声に比べどのように異なっているかが重要となる．平均声モデルと目標話者モデルが与えられた場合，

4. 4

で述べた話者補間手法により両者の間の補間比率を変えることで目標話者モデルと平均声モデルの中間的な特徴をもった音響モデルを生成することができる．このようなモデルから生成した合成音声では目標話者の話者性が弱まり，より平均的な（無個性な）

音声となる．このように目標話者モデルと平均声モデル間の差分に着目し，これをモデル化し話者性を制御することで話者性を強調することができる．

HMM

音声合成ではモデル学習時の汎化処理によりスペクトル・韻律パラメータが平滑化され話者性の低下の一因となる．文献

[27]

ではモデル化に

5. 4

^{で述べる重回} 帰隠れセミマルコフモデル（重回帰

HSMM

）

[20]

を用いて話者強調を行う手法が提案されている（図

3

）．

重回帰

HSMM

を用いた話者強調では，あらかじめ目標話者の性別と一致した平均声モデルを学習してお

図3 話者強調の流れ[27]

Fig. 3 Flow of speaker characteristics emphasis [27].

(7)

図4 話者強調の有無による合成音声の再現性の比較．参照音声として原音声の分析合成音を使用[27]

Fig. 4 Comparison of speech reproducibility of synthetic speech with and without speaker characteristics emphasis. Vocoded speech of orig- inal speech was used as the reference [27].

き，それと目標話者のモデルから重回帰

HSMM

を求める．この際，話者性を表現する制御ベクトルとして一次元のベクトル空間を考え，

0

を平均声，

1

を目標話者として学習を行う．こうすることで合成時に制御ベクトルとして

1

より大きな値を与えることで，平均声を基準として目標話者の話者性を強調することができる．図

4

に文献

[27]

におけるプロのナレーターを目標話者とした場合の主観評価実験の結果を示す．図から，ナレーター，一般話者のいずれにおいても話者強調を行うことによって合成音声の再現性が向上することが確認できる．これは通常の音響モデルの学習においては学習時の汎化作用により失われた話者性が補完されたと見ることもできる．

5.

多様な感情表現・発話様式による音声合成

4.

で述べた話者性の多様化と同様に感情表現・発話様式についても多様化を行うことができる．以降ではこれらを単にスタイルと呼ぶ．話者性の多様化と異なる点として，感情表現や発話様式などは音声コミュンケーションにおいてその種類のみならず表出度合も時に重要な役割を果たすことが挙げられる．このため，

スタイル音声合成においては単に学習データに現れるスタイルを再現するだけでなく，スタイルを柔軟かつ直観的に制御できることが求められる．

5. 1

スタイル依存モデルによる表現

話者性のモデル化における話者依存モデルの場合と同様に，目標話者の目標スタイルの音声が十分に用意できる場合には個々のスタイル別にモデルの学習を行うスタイル依存モデルを用いて，スタイルの特徴が反

映された合成音声を生成することができる．経験的にプロのナレータであれば

30

分程度の音声があれば比較的自然性の高いスタイル音声を合成できることが分かっている．文献

[28]

では，男女各

1

名のプロのナレーターの，平静，ぞんざい，楽しげ，悲嘆の四つのスタイルについて，それぞれ

450

文の演技音声を用いて音響モデルの学習を行い，被験者の主観によるスタイル識別実験を行っている．実験結果は，平静，ぞんざい，楽しげ，悲嘆の識別率はそれぞれ

98.3%, 82.3%, 94.9%, 94.9%

となっており，ぞんざいのスタイルにおいて若干それ以外のスタイルに比べ識別率が下っているものの，いずれも高い識別率を示している．

5. 2

スタイル混合モデルの導入

5. 1

で述べたように，スタイル依存モデルでは同一の話者であっても各スタイルについて独立にモデルの学習が行われる．しかし，スタイル間でモデルパラメータの共有を行うことができれば，より効率の良くモデルの学習が行えるのではないかと考えられる．これを実現する手法として，同一話者の複数スタイルの音声を同時に単一のモデルで表現するスタイル混合モデルが提案されている．スタイル混合モデルではスタイルの違いも音韻やアクセントなどと同様に音響的な変動要因とみなし，コンテクストとして学習用ラベルに含めることで各スタイルの違いを表現する．モデルの学習時には，決定木に基づくコンテクストクラスタリングの際の質問にスタイルの情報も加えることで，

スタイル間でもモデルパラメータの共有が行われ，スタイル依存モデルに比べてより効率的なモデルの学習が行われることが期待できる．

図

5

は文献

[28]

の評価実験において構築されたスタイル混合モデルの決定木の例である．図より，決定木の比較的上層のノードにおいてスタイルに関する質問が使用されていることが分かる．なお，決定木のリーフノードにおいてスタイルを多分木により分割した場合はスタイル依存モデルと同等となるため，スタイル依存モデルはスタイル混合モデルの特殊な場合と見ることもできる．

5. 1

のスタイル依存モデルの場合と同様の識別評価実験を行ったところ，スタイル混合モデルを用いた場合の識別率は，平静，ぞんざい，楽しげ，悲嘆に対し，それぞれ

98.9%, 89.8%, 96.0%,

96.0%

となっており，スタイル依存モデルを用いた場

合に比べてスタイルの再現性が向上していることが分かる．これはスタイル間でもモデルパラメータの共有が行われるため，パラメータ当りの学習データ数が増

(8)

図5 スタイル混合モデルにおいて構築された決定木の例[28]

Fig. 5 Example of decision tree constructed in a style-mixed model [28].

加し，より頑健なモデルの学習が行われたためだと考えられる．

5. 3

スタイル補間

スタイル依存モデルやスタイル混合モデルを利用することにより，学習データに含まれるスタイルを合成音声に反映させることができることは分かった．しかし，人間は同一のスタイルであっても常に一定の度合で発声するわけではなく，場合に応じて「少し悲しげ」などの中間的な表現を利用し，多様な音声コミュニケーションを実現している．スタイル依存モデルやスタイル混合モデルではこのような中間的な表現のモデルを学習するには，所望の表現をもつ目標話者の音声を新たに収録する必要がある．スタイルの表現の度合ごとにこのような学習データを十分に用意することはコストが高くしばしば現実的ではない．この問題を解決するため，

4. 4

で述べた話者補間の考えをスタイルに導入したスタイル補間手法が提案されている

[30]

．

スタイル補間により「少し悲しげ」のスタイルを実現したい場合，あらかじめ目標話者の読み上げ調の音声と悲嘆スタイルの音声を用意しスタイル依存モデルを学習しておく．そして話者補間と同様の方法で二つのモデルパラメータの補間を行う．一般的に二つのスタイルのモデルのパラメータ共有構造は異なるため，文献

[30]

では合成時に入力テキストから得られるコンテクスト依存ラベル列に対応する文

HSMM

に対してモデルパラメータの補間を行っている．これに対し，平均声モデルにおけるパラメータ共有のために提案されている共有決定木コンテクストクラスタリング

(shared-decision-tree-based context clustering, STC) [50]

を用いることで，二つのスタイルのモデル

図6 スタイル空間の例．空間内の各点は学習用の各スタイル音声に対するスタイルベクトル[20]

Fig. 6 Example of style spaces and style vectors for training data [20].

学習を同時に行い，パラメータ共有構造を同じにしておくことで，補間音声の品質が改善することが分かっている

[20]

．これは別々にモデル化した場合には対応するコンテクストラベルに対して割り当てられる学習データ量に差が生じることが一因であると考えられる．

STC

を用いることで，あらかじめ中間的な表現をもつ音響モデルを用意することができるため，生成時の計算コストを抑えることができる．一方で，両方のスタイルのデータを用いて学習を行う必要があるため，

任意のスタイルを新たに追加する場合には，合成時に補間を行うほうが現実的である．

5. 4

スタイル制御

スタイル補間の考えを発展させ，図

6

のような複数のスタイル軸からなるスタイル空間を定義し，スタイルの種類や度合を直観的に変化させることを目的としたのがスタイル制御

[20], [39]

である．スタイル制御では複数のスタイルに対し個々に音響モデルを学習するのではなく，重回帰

HMM [39]

あるいは重回帰隠れセミマルコフモデル（重回帰

HSMM

）

[20]

により単一のモデルとして表現する．具体的には，重回帰

HMM

の場合にはモデルの第

i

状態の出力分布の平均パラメータ

μ

_iがスタイル空間内のベクトル

v

（スタイルベクトルと呼ぶ）の重回帰により次式のように表現されると仮定する．

μ

_i

= H

i

ξ, ξ = [1, v

]

(1)

図

7

に重回帰

HSMM

に基づくスタイル制御の学習及び合成の流れを示す．モデル学習時は，まず目標話者の複数のスタイルの音声を用意し，スタイルごとにスタイル依存モデルを学習する．この際，それぞれのモデルのパラメータ共有構造が同じになるように共有決定木コンテクストクラスタリングを行う．このようにして得られたスタイル依存モデルから重回帰

(9)

図7 重回帰HSMMに基づくスタイル制御の流れ[20]

Fig. 7 Flow of style control based on multiple- regression HSMMs [20].

HSMM

の初期値を求め，学習データとそれに対応するスタイルベクトルが与えられた場合のゆう度を最大化するようにモデルパラメータセット

λ

^∗^{を推定する．}

λ

^∗

= arg max

λ

K k=1

P (O

^(k)

|λ, v

^(k)

) (2)

ここで

O

^(k)^及び

v

^(k)^は

k

番目の学習データ及び対応するスタイルベクトルである．

合成時には所望の度合に対応するスタイルベクトルを与え，式

(1)

から各状態の平均ベクトルを求め，文

HMM

を生成し，これから通常の

HMM

の場合と同様に音声パラメータを生成する．スタイルベクトルを変化させることで，合成音声に現れるスタイルの種類と度合を直観的に制御することができる．なお，実際にはスペクトルや

F0

などのフレーム単位の特徴量だけでなく，話速やリズムも適切に制御するため，状態継続長分布を明示的にモデル化した

HSMM [13]

に基づく重回帰

HSMM [51]

を用いる

[20]

．合成音声に対

図8 スタイルベクトルを変化させた場合に合成音声に対し知覚されるスタイルの度合の変化の例．v1は楽しげスタイルの軸を表す[20]

Fig. 8 Example of the variation of perceived style ex- pressivity for the synthetic speech samples.v1

represents the joyful style axis [20].

しどの程度直観的にスタイルを制御できるかを評価した結果

[20]

の一例を図

8

に示す．図では男性ナレータ

MMI

の楽しげスタイルを制御しており，

v

1

= 1.0

が標準的なスタイルの表出度合を表す．スコアは「

1:

非常に弱い」から「

7:

非常に強い」までの

7

段階である．

スタイル制御においても学習データ量削減のために話者適応手法が有効である．文献

[52]

では重回帰モデル自体を最ゆう線形回帰

[42]

の枠組で変換する手法が，

文献

[53]

では平均声モデルからの話者・スタイルの同時適応がそれぞれ提案されている．話者適応を利用することで各スタイル数分程度の音声があればある程度自然性を保持したまま，目標話者のスタイルを制御できることが示されている

[37]

．最近では，よりユーザにとって直観的な制御を実現するため，主観評価スコアの導入

[54]

や系列内変動の利用

[55]

が検討され，それぞれ有効性が示されている．

スタイル制御は音声合成だけでなく，歌声合成にも応用可能である．文献

[56]

では，大人っぽい歌声と子供っぽい歌声の

2

種類の異なる歌唱スタイルの歌声を収録し，それらに対して歌唱スタイルの制御が可能であることが示されている．また，音声以外にも動作生成において歩幅や歩行速度などの少数の制御パラメータを導入することで動作を重回帰

HSMM

によりモデル化し，制御する手法も提案されている

[51]

．近年では，

HMM

ではなくディープニューラルネットワーク

(DNN)

を用いてオーディオブック音声においてスタ

イルの制御を行う試みも報告されている

[18]

．

(10)

5. 5

スタイル適応

スタイル依存モデルやスタイル混合モデルを用いて自然な合成音声を生成するには通常数十分程度の学習データが必要となる．しかし，任意の話者に対してスタイルごとにそのような十分な音声データを用意することは話者に対する負担の面から望ましくない．このような問題を低減する手法としてスタイル適応

[24]

が提案されている．スタイル適応ではあらかじめ十分用意するのは目標話者の読上げ調の音声のみでよく，これにより学習したモデルと，別途用意した目標話者の少量の目標スタイル音声を用いて話者適応の場合と同様に

MLLR

などのモデル適応アルゴリズムによりモデルの学習を行う．また，平均声モデルからの話者とスタイルの同時適応

[36]

を用いることで，読上げ調の音声が不要となり，更に負担を軽減することができる．

5. 6

スタイル変換

これまで紹介したスタイルの多様化手法はいずれも目標話者の目標スタイルのデータを必要とするものであった．これに対し，感情音声合成の研究においては古くから規則に基づいて読上げ調の音声の韻律特徴を変化させることによって音声の表現を多様化する手法が検討されてきた

[57]

．例えば，悲しげな音声は一般的に感情を含まない音声に比べ

F0

の発話平均が低く，

話速が遅い傾向があるため

[58]

このような変換を読上げ調の合成音声に施すことにより意図したスタイルに近い結果が得られる．しかし，このような発見的な規則に基づくアプローチが適用可能なスタイルは限られており，またスタイル間の変換性能の違いも大きい．

そこで，この変換規則を統計的に学習し

HMM

音声合成の枠組で実現しようとするスタイル変換法が提案されている

[59]

．

スタイル変換では，あらかじめ複数の話者がそれぞれ読上げ調と目標スタイルで発話した音声データを用意しておく．次に読上げ調の音声により平均声モデルを学習し，これから目標スタイルの音声への線形変換をスタイル適応の枠組みにより求める．このようにして求めた変換行列は特定の話者に依存しない不特定話者のスタイル変換を表現していると考えることができる．この変換行列を目標話者の読上げ調のモデルに適用することによりスタイル変換を行う（図

9

）．また，変換行列の推定に話者正規化学習

[60]

の枠組みを導入することで変換性能が向上することが示されている

[61]

．スタイル変換を利用することで，目標話者については読上げ調の音声を用意するだけで，その話者

図9 平均声に基づくスタイル変換[59]

Fig. 9 Style conversion based on average voices [59].

の多様なスタイルによる音声を生成することが可能となり，話者ごとのデータ収集コストを大幅に削減することができる．

6.

多様な声質を伴う音声の合成

これまでの多様化のアプローチはいずれも目標となる話者が存在し，その話者性やスタイルの再現を目的としていた．これとは異なる方法として，平均声のような仮想的な音声に対して，その声質をユーザが自分の好みにより自由に変化させるような枠組が考えられる．このような声質の柔軟な制御を目的として固有声

[62]

に基づく手法

[26]

や重回帰

HSMM

に基づく手法

[31]

が提案されている．固有声に基づく手法では主成分分析により話者性を表現する固有声ベクトルを求め，それらの重みを変更することにより合成音声の声質を変化させる．しかし，固有声空間の各軸は必ずしも声質に対応する物理的な意味をもたないため，直観的に声質を制御することは難しい．これに対し，声質評価スコアを導入し，スコアと固有声の重みの間で重回帰分析を行うことによりこの問題を改善する手法が提案されている

[63]

．一方，重回帰

HSMM

に基づく手法では各軸がそれぞれ特定の声質を表すため，より直観的な制御が可能であるという特徴をもつ．

7.

^{韻律の多様化}

話者やスタイルの多様化においては，基本的にはスペクトルと音源の特徴量は区別せず，同時にモデル化し，補間や制御などを行ってきた．これに対し，強調

(11)

表現や話し言葉音声のモデル化においては，特に韻律の果たす役割が重要となる．本節ではこのような韻律に関する多様化について述べる．

7. 1

強調表現の再現

これまで述べてきた話者やスタイルの多様化により，

学習用音声に現れるグローバルな特徴については精度よく再現できることが示されているが，一方で，強調などの音声発話中に局所的に現れる表現についてはそのままではモデル化することが難しい．このような単語や句単位で現れる局所的な特徴をモデル化，再現するために幾つかの手法が提案されている．局所的に現れる特徴の代表例は強調表現である．これまでの研究では収録時にあらかじめ強調箇所を指定し，それに従って発話した音声を使用し，モデル化時に強調箇所をコンテクストとして考慮することで，強調表現を再現できることが示されている

[32]

．

一方で，強調を意図的に表現しない読上げ調の音声においては，単にコンテクストとして考慮するだけでは合成音声における強調表現が十分でないため，コンテクスト正規化学習によりこれを改善する手法が提案されている

[64]

．これらの手法はいずれも強調箇所をあらかじめ知っておく必要があり，自然なスタイル表現に現れる強調などに適用しようとした場合，人手によるラベル付けが必要となる．この作業は時間的，金銭的なコストがかかる上，ラベラー間で結果が同じになるとは限らないという問題点がある．この問題を解決するため，強調の自動ラベリング手法が提案されている

[65]

．この手法では強調表現において最も重要な

F0

に着目し，強調をコンテクストとして含まない従来のラベルを使用してモデルの学習・パラメータの生成を行った場合に，原音声に比べて生成された

F0

が強調箇所において低くなる特性に着目し，この差分に基づいて強調の自動ラベリングを行っている．図

10

に，女性話者

1

名の自然な商品宣伝口調による音声において，自動ラベリングを用いた場合の生成

F0

の例を示す．

7. 2

話し言葉音声合成

話し言葉音声の合成は音声合成の中でも最も難しい課題の一つであり，まだまだ限られた研究成果しか得られていないのが現状である．これは，話し言葉音声は読み上げ調の音声のように常に一定の調子で話されているわけではなく，滑舌が悪かったりアクセントが不正確になることも多いため，同じコンテクストラベルに対して観測特徴量系列の揺らぎが大きく，精

図10 自動ラベリングによる強調ラベルの有無による生成F0パターンの例[65]

Fig. 10 Example of generated F0 contours with and without emphatic labels using the unsupervised labeling technique [65].

度良くモデル化できないことが一因となっている．文献

[66]

ではスペクトル特徴量のモデル化には

HMM

を用い，

F0

及び音素継続長のモデル化には数量化

I

類を用いて日本語話し言葉コーパスの講演音声の合成を試みている．また，限られた話し言葉音声データにおいて問題となる音素カバー率を上げるため，

HMM

によるモデル化の際に読上げ調の音声を併用する手法が提案されている

[67]

．

音声合成の究極の目標は人間と同じように音声に現れる様々な感情や発話様式，発話意図などをその場の状況に応じて適切に変化させながら自発性の高い音声を生成可能な手法の実現である．しかし，講演や商品宣伝などの独話や人間同士の対話において用いられる話し言葉音声には，読上げ調の音声とは異なる様々な特徴が存在する

[68]

．具体的には，従来のアクセント型だけでは表現できないような句末における音調の変化やフィラーや言い淀みの存在，母音の引き延ばしなどがある．このような韻律特徴を適切に考慮するために，文献

[34]

では

HMM

に基づく話し言葉音声合成のためのコンテクストの拡張が検討されており，拡張されたコンテクストを用いることで合成音声の自然性が改善することが報告されている．

8.

今後の課題

これまでの節で述べてきたように，統計的音声合成の登場によりプロのナレーターやアナウンサーが目標話者であれば，読上げ調の音声だけでなく，感情表現・

発話様式を含んだ演技音声についても高い精度で再現できることが示されてきた．一方で，発声訓練を受け

(12)

ていない一般の話者が対象となると，その自然性や再現性はプロの話者に比べて劣るということも分かってきている．その上読上げ調ではなく，我々が普段の日常生活において発声する自発性の高い話し言葉音声となると，品質の劣化は更に激しいものとなる．これは，

一般の話者は音韻性やアクセントが必ずしも常に安定しているわけではなく，曖昧な音韻をもつ音声や，アクセント核がはっきりしない音声が頻繁に含まれることが一因である．このような場合には従来の音韻・韻律コンテクストだけでは音響的変動を十分に表現できないため，より詳細にそれらを記述できる

X-JToBI

などのラベリングスキームが必要となる．ただし，現状ではこのようなラベルを自動で高精度に付与する技術は未だ確立されていない．また，音声データベースの多くは個々の話者の発話時間は数分から数十分程度と比較的短い．

HMM

音声合成では話者適応を用いるなどにより学習に必要なデータ量を減らすことができるものの，話者適応では初期モデル（平均声）の影響を受けるため，研究の初期段階としてはやはり目標話者の十分なデータが利用できることが望ましい．話し言葉音声では数十分程度では十分でない場合が多く，

韻律ラベルを含めこのようなデータベースの整備は今後の大きな課題である．

9.

むすび

本論文では，統計的音声合成法のうち，最も合成音声の多様化手法が確立されている

HMM

音声合成に焦点を当て，筆者がこれまでに関わった研究成果を中心に，話者やスタイルの多様化手法について解説した．

音声認識のような多人数の非常に大規模なコーパスによるパターン情報処理とはまた異なる「多様化」という側面が重要となる音声合成技術に著者は惹かれ研究を続けている．今後人間と機械とのより自然でかつ魅力的なインタラクションを実現するためには，音声の多様化技術が果たす役割はますますその重要性が高くなるものと思われる．本論文により音声合成における多様化の魅力が少しでも伝わり，研究の一助となれば幸いある．

謝辞本論文は東京工業大学大学院総合理工学研究科小林隆夫教授並びに学生の方々との共同成果に基づいており，ここに感謝いたします．

文献

[1] 吉村貴克，徳田恵一，益子貴史，小林隆夫，北村正，

“HMMに基づく音声合成におけるスペクトル・ピッチ・

継続長の同時モデル化，”信学論（D-II），vol.J83-D-II, no.11, pp.2099–2107, Nov. 2000.

[2] 小林隆夫，“多様な話者性および発話スタイル・感情表現による音声合成，”音響秋季講論集，pp.283–286, 2005.

[3] T. Nose and T. Kobayashi, “Recent development of HMM-based expressive speech synthesis and its ap- plications,” Proc. APSIPA ASC, 2011, Available on- line at http://www.apsipa.org/proceedings 2011/.

[4] 徳田恵一，益子貴史，宮崎昇，小林隆夫，“多空間上の確率分布に基づいたHMM，”信学論（D-II），vol.J83-D-II, no.7, pp.1579–1589, July 2000.

[5] K. Tokuda, T. Masuko, T. Yamada, T. Kobayashi, and S. Imai, “An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features,” Proc. Eurospeech, pp.757–760, 1995.

[6] 益子貴史，徳田恵一，小林隆夫，今井聖，“動的特徴量を用いたHMMに基づく音声合成，”信学論（D-II），

vol.J79-D-II, no.12, pp.2184–2190, Dec. 1996.

[7] T. Toda and K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM- based speech synthesis,” IEICE Trans. Inf. & Syst., vol.E90-D, no.5, pp.816–824, May 2007.

[8] T. Nose and A. Ito, “Analysis of spectral enhance- ment using global variance in HMM-based speech synthesis,” Proc. INTERSPEECH, pp.2917–2921, 2014.

[9] 横溝秀始，能勢隆，小林隆夫，“HMM音声合成における韻律コンテキストの評価，”音響春季講論集，pp.403–404, 2010.

[10] 鈴木啓史，郡山知樹，能勢隆，篠崎隆宏，小林隆夫，“音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定，”音響春季講論集，pp.441–442, 2014.

[11] 増子理菜，郡山知樹，小林隆夫，“音声合成のための

CRF/HMMに基づく自動アクセント推定の評価，” 信

学技報，SP2015-85, 2016.

[12] S.E. Levinson, “Continuously variable duration hidden Markov models for automatic speech recognition,” Comput. Speech Lang., vol.1, no.1, pp.29–45, 1986.

[13] H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “A hidden semi-Markov model-based speech synthesis system,” IEICE Trans. Inf. & Syst., vol.E90-D, no.5, pp.825–834, May 2007.

[14] 能勢隆，小林隆夫，“HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討，”信学技報，

SP2011-100, 2011.

[15] Z.-H. Ling, S.-Y. Kang, H. Zen, A. Senior, M.

Schuster, X.-J. Qian, H.M. Meng, and L. Deng,

“Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends,” IEEE Signal Process.

Mag., vol.32, no.3, pp.35–52, 2015.

[16] N.C. Pilkington, H. Zen, M.J. Gales, et al., “Gaus-

(13)

sian process experts for voice conversion,” Proc. IN- TERSPEECH, pp.2772–2775, 2011.

[17] T. Koriyama, T. Nose, and T. Kobayashi, “Statistical parametric speech synthesis based on Gaussian process regression,” IEEE J. Sel. Top. Signal Process., vol.8, no.2, pp.173–183, 2013.

[18] O. Watts, Z. Wu, and S. King, “Sentence-level control vectors for deep neural network speech synthesis,” Proc. INTERSPEECH, pp.2217–2221, 2015.

[19] T. Nose and T. Kobayashi, “A technique for esti- mating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM,” IEICE Trans. Inf. & Syst., vol.E93-D, no.1, pp.116–124, Jan. 2010.

[20] T. Nose, J. Yamagishi, T. Masuko, and T. Kobayashi,

“A style control technique for HMM-based expressive speech synthesis,” IEICE Trans. Inf. & Syst., vol.E90-D, no.9, pp.1406–1413, Sept. 2007.

[21] 岡元伶洋，郡山知樹，小林隆夫，“多様なスタイルによる GPR音声合成の検討，”音響春季講論集，pp.361–362, March 2016.

[22] 前野雄也，郡山知樹，小林隆夫，“GPR音声合成におけるスタイル適応の検討，”音響春季講論集，pp.233–234, March 2016.

[23] T. Koriyama, S. Oshio, and T. Kobayashi, “A speaker adaptation technique for gaussian process regression based speech synthesis using feature space trans- form,” Proc. ICASSP, pp.5610–5614, 2016.

[24] M. Tachibana, J. Yamagishi, T. Masuko, and T.

Kobayashi, “A style adaptation technique for speech synthesis using HSMM and suprasegmental features,”

IEICE Trans. Inf. & Syst., vol.E89-D, no.3, pp.1092–

1099, March 2006.

[25] M. Tamura, T. Masuko, K. Tokuda, and T.

Kobayashi, “Text-to-speech synthesis with arbitrary speaker’s voice from average voice,” Proc. Eu- rospeech, pp.345–348, 2001.

[26] 沢辺敦，七里建吾，吉村貴克，徳田恵一，益子貴史，小林隆夫，北村正，“HMM音声合成におけるスペクトル・

ピッチへの固有声手法の適用，” 信学技報，SP2001-72, 2001.

[27] T. Nose, J. Asada, and T. Kobayashi, “HMM-based speaker characteristics emphasis using average voice model,” Proc. INTERSPEECH, pp.2631–2634, 2009.

[28] J. Yamagishi, K. Onishi, T. Masuko, and T.

Kobayashi, “Acoustic modeling of speaking styles and emotional expressions in HMM-based speech synthesis,” IEICE Trans. Inf. & Syst., vol.E88-D, no.3, pp.503–509, March 2005.

[29] 金川裕紀，能勢隆，小林隆夫，“HMM音声合成における不特定話者スタイル変換の検討，”信学技報，SP2011-99, 2011.

[30] M. Tachibana, J. Yamagishi, T. Masuko, and T.

Kobayashi, “Speech synthesis with various emotional expressions and speaking styles by style interpolation

and morphing,” IEICE Trans. Inf. & Syst., vol.E88- D, no.11, pp.2484–2491, Nov. 2005.

[31] M. Tachibana, T. Nose, J. Yamagishi, and T.

Kobayashi, “A technique for controlling voice qual- ity of synthetic speech using multiple regression HSMM,” Proc. INTERSPEECH, pp.2438–2441, 2006.

[32] 森實久美子，中村圭吾，戸田智基，猿渡洋，鹿野清宏，

“HMMに基づく音声合成における強調音声の生成，”情処学研報，2009-SLP-75, pp.27–32, 2009.

[33] Y. Maeno, T. Nose, T. Kobayashi, Y. Ijima, H.

Nakajima, H. Mizuno, and O. Yoshioka, “HMM- based emphatic speech synthesis using unsupervised context labeling,” Proc. INTERSPEECH, pp.1849–

1852, 2011.

[34] 郡山知樹，能勢隆，小林隆夫，“HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張，”信学論（D），vol.J95-D, no.3, pp.597–607, March 2012.

[35] 田村正統，益子貴史，徳田恵一，小林隆夫，“HMMに基づく音声合成におけるピッチ・スペクトルの話者適応，”信学論（D），vol.J85-D, no.4, pp.545–553, April 2002.

[36] 橘誠，小林隆夫，“平均声モデルを用いる合成音声の話者性とスタイルの同時多様化の検討，”信学技報，SP2007-87, 2007.

[37] T. Nose, M. Tachibana, and T. Kobayashi, “HMM- based style control for expressive speech synthesis with arbitrary speaker’s voice using model adaptation,” IEICE Trans. Inf. & Syst., vol.E92-D, no.3, pp.489–497, March 2009.

[38] Y.J. Wu, Y. Nankaku, and K. Tokuda, “State map- ping based method for cross-lingual speaker adaptation in HMM-based speech synthesis,” Proc. INTER- SPEECH, pp.528–531, 2009.

[39] 宮永圭介，益子貴史，小林隆夫，“HMM音声合成における多様なスタイル実現のための制御法，” 信学技報，

SP2004-7, 2004.

[40] K. Shinoda, “Speaker adaptation techniques for automatic speech recognition,” Proc. APSIPA ASC 2011, pp.1–8, 2011.

[41] Y. Gong, “Speech recognition in noisy environments:

A survey,” Speech Commun., vol.16, no.3, pp.261–

291, 1995.

[42] C.J. Leggetter and P.C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models,” Comput.

Speech Lang., vol.9, no.2, pp.171–185, 1995.

[43] M. Gales, “Maximum likelihood linear transforma- tions for HMM-based speech recognition,” Comput.

Speech Lang., vol.12, pp.75–98, 1998.

[44] O. Siohan, C. Chesta, and C.-H. Lee, “Hidden Markov model adaptation using maximum a poste- riori linear regression,” Workshop on Robust Meth- ods for Speech Recognition in Adverse Conditions, pp.147–150, 1999.

統計モデルに基づく多様な音声の合成技術