統計モデルに基づく多様な音声の合成技術
能勢 隆
†Synthesis Techniques of Diverse Speech Based on Statistical Models Takashi NOSE†
あらまし HMM音声合成に代表される統計モデルに基づくテキスト音声合成は,モデルがコンパクトである にもかかわらず,従来の波形接続方式に比べて少ない音声データで音声に含まれる話者性や感情表現・発話様式
(スタイル)を合成音声に反映することができる手法として急速に利用が広まっている.本論文では,HMM音 声合成を中心とし,話者やスタイル,声質を多様化する手法についてそのアイデアや実験結果なども含めて解説 を行う.HMM音声合成ではスペクトルや韻律特徴量がモデル内の各状態の分布パラメータとして表現されるた め,モデルパラメータの操作,モデルの拡張が容易であり,様々な多様化手法が提案されている.代表的な話者 の多様化手法として話者適応,話者補間,話者強調について,またスタイルの多様化手法としてスタイルモデリ ング,スタイル適応,スタイル補間,スタイル制御,スタイル変換について基本的な枠組を説明する.更に声質 の制御法や話し言葉音声についても概説し,今後の課題や展望について述べる.
キーワード HMM音声合成,話者の多様化,スタイルの多様化,声質制御,話し言葉音声合成
1.
ま え が き映画や漫画の世界に登場する「人間と自然に対話す るロボット」を実現することは工学における我々の大 きな夢の一つである.このようなロボットを実現する には多種多様な技術が必要となるが,その中でも人間 の口の役割を果たすテキスト音声合成技術は,相手 に情報を伝える上で重要な役割を果たす.これまで,
コンピュータにおける情報伝達は主にディスプレイが 中心であったが,人間同士のような自然で手軽なイン タラクションを行うためには音声によるコミュニケー ションが重要となる.また,単に言語情報だけでなく,
音声に表れる話者性などの非言語情報,感情や意図な どのパラ言語情報を伝えることができれば,より気軽 にロボットに接することが可能となるであろう.
テキスト音声合成技術は,ロボットへの応用だけで なくカーナビ,電話自動応答,ナレーション作成,ゲー ムなど幅広い分野において実用化が進んでいる.更 に最近ではスマートフォンにおいて音声対話により情 報案内を行う
Apple
の「Siri
」,NTT
ドコモの「しゃ†東北大学,仙台市
Tohoku University, Sendai-shi, 980–8579 Japan DOI:10.14923/transinfj.2016JDS0001
べってコンシェル」や,自動翻訳サービスなどが登場 し,大きな注目を集めている.一方で,一部ではタレ ントやキャラクターによる会話調の合成音声を用いる 試みもされているが,一般的には未だプロのナレータ による読上げ調の音声が用いられることが多く,話者 や発話様式・感情表現などのスタイルを柔軟に変更す ることは容易ではない.人間同士に近い自然な音声対 話システムや映画,コマーシャルなどで利用可能な多 様で高品質な合成音声を生成するためには,様々な話 者やスタイルを限られた時間的,金銭的コストで実現 可能な音声合成の枠組みが必要となる.
このような要求のうち,特にその柔軟性とコストの 面において近年注目を集めているのが隠れマルコフモ デル
(hidden Markov model, HMM)
に基づく音声合 成(HMM
音声合成)[1]
を中心とした統計的音声合成 である.HMM
音声合成は同じくHMM
を利用する 音声認識からそのアイデアの多くを得ているが,一方 で音声認識において通常扱われない韻律情報(注1)が音 韻情報と並んで重要な役割を果たすこと,また個人性 やスタイルなどを十分に表現できる必要があることな(注1):ただし,感情認識などにおいては韻律情報が積極的に利用され る.
ど,相違点も多い.
本論文では,
HMM
音声合成における話者,感情 表現・発話様式(スタイル),声質,韻律の多様化手 法[2], [3]
に焦点を当て,著者が関わったものも含め,これまでに提案されてきた手法について,その基本的 な仕組みや性能について解説する.具体的には,話者 の多様化技術として,平均声モデルに基づく話者適応,
話者補間,話者強調について述べる.スタイルの多様 化は感情音声合成などと関係し,パラ言語情報の表現 のために特に重要な役割を果たすと考えられ,この実 現方法として,スタイル依存モデル,スタイル混合モ デル,スタイル補間,スタイル制御,スタイル変換に ついて述べる.これ以外にも声質制御や強調表現,話 し言葉音声合成についても概説する.最後に今後の課 題や展望について述べる.
2.
統計モデルに基づく音声合成合成音声の多様化の多くは統計モデルに基づく音声 合成により実現されている.ここではまず,その中でも 特に広く研究,利用されている
HMM
に基づく音声合 成の概略について説明し,同様にHMM
を利用する音 声認識との相違点について述べる.また,近年HMM
音声合成を上回る性能が得られることが示されている ディープニューラルネットワーク(DNN)
に基づく音声 合成,ガウス過程回帰(Gaussian process regression, GPR)
に基づく音声合成についても触れる.2. 1
隠れマルコフモデルに基づく音声合成 図1
にHMM
音声合成の概略を示す.HMM
音声合 成では通常音素単位で音声のモデル化を行う.この際,音声認識の場合と異なりスペクトル特徴量に加えて韻 律特徴量,すなわち基本周波数
(F0)
及び状態継続長 のモデル化が必須となる.F0
は有声部分では連続量,無声部分では値をもたず,通常の
HMM
では直接表現 することができない.このため,異なる次元をもつ観 測データを同時にモデル化できる多空間上の確率分布 に基づくHMM(MSD-HMM) [4]
などが用いられる.学習データに現れる各音素セグメントから抽出され たスペクトル・韻律特徴量は当該の音素の種類は当然 のことながら,前後の音素やアクセント,文長などの 要因によって変化する.そのためモデル化の際にはこ れらの変動要因をコンテクストとして考慮したコンテ クスト依存モデルを使用する.ただし,コンテクスト の組合せは膨大となるため,通常決定木クラスタリン グを用いてモデルパラメータ数の削減を行う
[1]
.合成図1 HMM音声合成の概略
Fig. 1 Overview of HMM-based speech synthesis.
時には学習時に得られた決定木に基づき未知のコンテ クストに対してモデルパラメータを推定する.そして,
入力文章から得られたコンテクストラベル列に従って 学習したコンテクスト依存
HMM
を連結することで文HMM
を生成し,これからゆう度最大化基準により音 声パラメータ列を生成する[5]
.この際動的特徴量を考 慮することにより,不連続感の少ない滑らかな音声パ ラメータ列を生成することができる[6]
.図
2
に自然音声と合成音声のランニングスペクトル(スペクトル包絡の時間変化)の例を示す.図
2(b)
は 文HMM
から動的特徴量を用いずに生成されたラン ニングスペクトルであり,これは入力ラベルに対応す るコンテクスト依存モデルの各状態の平均パラメータ を並べたものに対応しており,各状態内で一定,状態 間で不連続であることが確認できる.一方で,スペク トル包絡の主要なピークはある程度図2(a)
の自然音 声のものを再現できているといえる.これに対し,音 声パラメータ生成時に動的特徴量を考慮した場合が図2(c)
である.スペクトルピークの情報は保持しつつ,自然音声と同様にフレーム間で滑らかに変化するラン ニングスペクトルが得られている.しかし,自然音声 のスペクトル包絡と比べると,学習時の汎化処理によ り,スペクトルが全体的に平坦化してしまっており,
スペクトルピークが過度に平滑化されていることが確
図2 自然音声と合成音声のランニングスペクトルの比較 Fig. 2 Comparison of running spectra of natural and
synthetic speech.
認できる.このような現象は合成音声の知覚において 自然性と明瞭性の低下に繋がる.そこで通常は何らか の方法でスペクトルピークの強調処理を行う.最も一 般的に用いられているのは,メルケプストラムなどの スペクトル特徴量系列において,各次元において時間 方向に対し分散補償を行う方法である.代表的な手法 としては発話の系列内変動
(global variance, GV)
を 音声パラメータ生成時に制約として利用する手法であ る[7]
.これに対し,計算コストを抑え,主観的・客観 的にも優れたアフィン変換に基づく分散補償が提案さ れている[8]
.図2(d)
では図2(c)
の音声パラメータ系 列に対し,アフィン変換に基づく分散補償を行ってお り,スペクトルピークが図2(c)
よりはっきりし,自然 音声に近づいていることが確認できる.2. 2
音声認識との相違点統計的音声合成は,音声を音素セグメント単位でモ デル化して利用する点,動的特徴量を用いる点など,
基本的な枠組は音声認識と似ている部分も多い.一方 で,音声認識では通常用いられない基本周波数
(F0)
などの韻律情報が重要な役割を果たすなど,異なる点表1 音声認識と音声合成における代表的なコンテクスト Table 1 Representative contexts for speech recogni-
tion and speech synthesis.
音声認識
{先行・当該・後続}の音素 音声合成
{先行・当該・後続}の音素 当該アクセント句内でのモーラ位置
当該アクセント句のアクセント核からの相対モーラ位置 {先行・当該・後続}のアクセント句のモーラ数 {先行・当該・後続}のアクセント句のアクセント型 当該呼気段落内での当該アクセント句の位置 {先行・後続}アクセント句間のポーズの有無 文のモーラ数
もある.本節では両者の相違点について簡単に述べる.
まず,音響モデルをどのように用いるか,という点に おいて根本的な違いが存在する.音声認識では多様な 話者性や発話様式を含んだ音声から言語情報を抽出す ることを目的としており,音声の音響的な多様性に依 らず高い性能が得られることが望ましい.また,音声 認識はフレーム単位の連続的な入力データをセグメン ト単位の有限の言語パターンへとマッピングする問題 と考えられるため,音声に含まれる個々の表現を必ず しも精細にモデル化せずとも,言語情報が正解であれ ば良いといえる.これに対し,音声合成では学習デー タに含まれる多様な表現はそれぞれ再現すべき対象で あり,それらの再現度合により合成音声の総合的な品 質が決定される.
音声合成では音韻情報だけでなく韻律情報も適切に 再現する必要があるため,モデル化に必要なコンテク ストが音声認識に比べて多いという特徴がある.表
1
に音声認識と音声合成で用いられる典型的なコンテク ストを示す.なお,ここでは音声合成は日本語を対象 としている.日本語の音声ではF0
のモデル化にアクセ ント情報が非常に重要であることが分かっており[9]
, 学習用の音声データに対して正しいアクセントラベル を付与することが重要となる.最近では統計的音声合 成のためのアクセントラベルの自動推定も検討されて おり[10]
,手動で付与した場合に近い性能が得られる ことが報告されている[11]
.F0
自体は無音,無声音 では値をもたないため,値のない部分は前後の値を用 いて補間を行ったり,多空間上の確率分布に基づいたHMM [4]
を利用するなどの対応が必要である.また,音素や状態の継続長についても適切に取り扱うために,
状態継続長を明示的にモデル化した隠れセミマルコフ モデル
(hidden semi-Markov model, HSMM) [12]
を 用いたり[13]
,音素継続長を外部モデルとして組み合 わせる手法などが存在する[14]
.2. 3 HMM
以外を用いたアプローチHMM
音声合成では状態とその確率的遷移により音 声特徴量の時間方向の伸縮に対応し,各状態の分布 パラメータの予測モデルとしては回帰木を用いるこ とが多い.これに対し,近年画像認識や音声認識にお いて大きな性能向上が報告されているDNN
に基づ く手法[15]
や,声質変換などで有効性が示されてい る[16]GPR
に基づく手法[17]
などが提案されており,HMM
音声合成を上回る性能が示されている.DNN
音声合成やGPR
音声合成においても多様な音声の合 成については検討されており,本論文では詳しくは述 べないが,ここで幾つか概要を紹介しておく.DNN
音声合成では音素やアクセントなどの言語情 報をフレーム単位で数値化したものを入力特徴量とし,この言語ベクトルから音声パラメータへのマッピング を
DNN
により表現することで音声パラメータの予測 を行う.文献[18]
では,5. 4
で述べる合成音声のスタ イル制御手法と同様に,低次元のベクトルにより学習 データに含まれる感情表現などの変動を制御すること を目的とし,これをDNN
音声合成の枠組で試みてい る.具体的には学習用の発話文セットのうち,どの文 であるかを表すone-hot
ベクトルを別途用意したネッ トワークにより低次元のベクトルにマッピングし,こ れをDNN
の入力に加えて学習を行うことにより,文 間の音響的な変動をモデル化・制御することができる.文献
[19]
などによると感情音声を収録する際に文間 で感情の度合いが緩やかに変動することはある意味妥 当であり,このような場合は低次元ベクトルにより適 切な制御が行えると期待できる.この手法では重回帰HSMM
に基づくスタイル制御[20]
のようなスタイル の種類や度合いを直接表現したベクトル(スタイルベ クトル)は利用していないため,スタイルを直観的に 制御することは困難であるが,スタイルベクトルを入 力として使用することにより,文献[20]
と同様に直観 的な制御は可能であると考えられる.GPR
音声合成では同様にフレームごとに言語情報 に基づく入力特徴量から音声パラメータへのマッピン グを直接モデル化し,これにGPR
を用いる.DNN
がユニット数と層数の両方を用いて複雑なネットワー クを表現するのに対し,GPR
では学習データの音声パラメータを直接予測に利用する浅く密なネットワー クを用いるという特徴がある.
GPR
音声合成におい ても,スタイル音声合成についての検討が行われてい る[21], [22]
.文献[21]
ではHMM
音声合成の場合(5.
参照)と同様にスタイルごとに独立にモデル化を行う スタイル依存モデル,全スタイルを一つの
GPR
でモ デル化するスタイル混合モデルが提案され,自然音声 に近いスタイル再現性が得られることが示されている.また,文献
[22]
ではGRP
に基づく話者適応[23]
をス タイルに応用し,目標話者の十分な量の読み上げ調の 音声で学習したGPR
に対し,目標話者の少量の目標 スタイル音声を用いて学習データである読み上げ調の 音声特徴量に対しアフィン変換を施し,これを用いて 合成用の音声パラメータの予測を行う.これにより従 来のHMM
に基づくスタイル適応[24]
と同等あるい はそれ以上のスタイル再現性が得られることが示され ている.3.
多様化の実現に向けたアプローチ 音声合成において多様化と一言で言ってもその実現 方法は様々である.HMM
音声合成では音声はスペク トル・F0
・状態継続長などの音声パラメータとしてモ デル化されているため,例えば単純にF0
をシフトす るだけで声の高低を変化させることができ,また状態 継続長を定数倍することにより話速を制御できる.た だし,このようなごく単純な操作で得られる多様化は かなり限定的であるためここでは取り扱わない.本論 文で述べる多様化は実際の利用における以下のような 要求に応えるものとする.1.
様々な話者の声を低コスト,短時間で作り たい(4. 3
)2.
ある話者の声の特徴を強調したい(4. 5
)3.
感情表現や発話様式などの多様なスタイルを含んだ音声を合成したい(
5. 1
,5. 2
)4.
スタイルの度合を直観的に変化させたい(
5. 3
,5. 4
)5.
自分の好みの声質をもつ音声を作り出した い(6.
)6.
音声のある部分を自然に強調したい(7. 1
)7.
自然な話し言葉音声を合成したい(7. 2
)1.
については,HMM
音声合成では数十分程度の 学習データのみでも比較的自然で安定した合成音声を 生成することができるが,平均声モデル[25]
や固有声HMM [26]
といったあらかじめ用意した複数の話者のデータから得られるモデルを利用することで必要な学 習データ量を大幅に減らすことができる.
2.
について は,音声に現れる話者の特徴を平均的な音声からの差 分と捉え,これをモデル化することによって話者性を 強調することができる[27]
.3.
については,目標話者 の目標スタイル音声が用意できる場合にはスタイル依 存モデルやスタイル混合モデル[28]
を用いることで「楽しげ」や「ぞんざい」といった読上げ音声に比べて 韻律変動が激しいスタイルの音声についても原音声に 近い自然な合成音声を得ることができる.また,目標 話者の読上げ調の音響モデルをスタイル変換
[29]
によ り目標スタイルに変換することで目標話者の目標スタ イル音声が得られない場合でもスタイル音声を合成す ることができる.4.
については,スタイル補間[30]
や スタイル制御[20]
を用いることで「少し楽しげ」「非 常に悲しげ」といったスタイルの変化を容易に実現す ることができる.5.
については,あらかじめ用意した 複数の話者の音声に対して「かすれた—
澄んだ」「張 りのある—
ない」などの声質の特徴を定量化しておき,これを重回帰モデルで表現することにより,所望の声 質に近い合成音声を生成することができる
[31]
.6.
に ついては,学習時に強調部分をコンテクストとして考 慮することで合成音声に強調表現を再現することがで きるが[32]
,強調は通常音声の特定の語や句に対して 現れるため,これを効率的にラベリングする手法が必 要となる[33]
.7.
については,我々が普段使用するよ うな話し言葉音声ではこれまでコンテクストとして用 いられてきた東京方言を前提としたアクセント情報の みではF0
の変化を十分に表現することができないた め,句末境界音調などを考慮したより複雑なコンテク スト[34]
が必要となる.以降の節ではこれらの多様化のアプローチについて より具体的に紹介する.
4.
多様な話者性の実現人間の身体的特徴はそれぞれ多様に異なり,そのた め音声にも多様な話者性が含まれている.それらを適 切に表現することで,親近感のある合成音声であった り,付加価値の高い合成音声を提供することが可能と なる.本節ではまず目標話者の音声が十分に得られる 場合に起こり得る問題点について述べ,それを軽減す るための平均声モデルと話者適応に基づくアプローチ について説明する.また,新たな話者性を実現する手 法として話者補間や話者強調についても簡単に触れる.
4. 1
話者依存モデルにおける問題点統計的音声合成では,合成したい目標話者の学習 データが十分に得られる場合には話者依存モデルによ り自然性の高い音声を合成することができる.必要な データ量は話者や発話様式などにより異なるが,プロ のナレーターやアナウンサーの音声の場合,
30
分程度 のデータがあればその話者の特徴を再現し,かつ自然 な音声を合成することができる場合が多い.しかし,この程度の音声であっても実際の収録には数時間程度 は必要であり,収録文の準備やアクセントの付与など を考慮すると学習データの構築にかかるコストは低い とはいえない.例えばある高校の一クラスの学生全員 の音響モデルを
1
日で用意する,などは現実には非常 に困難である.そのため,より少量の音声データのみ で目標話者の話者性を反映させた音響モデルを学習す る枠組が求められる.これを実現するのが平均声モデ ル[25]
という概念である.4. 2
平均声モデル平均声モデルとは
HMM
音声合成において複数の 話者の音声データにより学習された音響モデルのこと であり,特定の話者の音声特徴に依存しないという点 で音声認識における不特定話者モデルと類似してい る.一方,スペクトル情報だけでなく韻律情報も保持 しており「声」としての性質が強いという点,また実 用において音声認識の場合のように数百人規模の音声 を必ずしも使用せず,数人程度の音声のみで学習した 平均声を用いて話者適応を行った場合でも話者依存モ デルに比べて品質の改善が見られる点[35]
などから両 者を区別して扱う.平均声モデルは4. 3
で述べる話者 適応における初期モデル(事前知識)として用いられ るだけでなく,話者とスタイルの同時適応[36]
や話者 強調[27]
,スタイル制御[37]
,スタイル変換[29]
,ク ロスリンガル音声合成[38]
などでも利用される重要な 概念である.なお,類似したモデルとして固有声モデ ル[26]
や重回帰モデル[39]
がある.これらのモデルは いずれも平均声モデルと同様に複数の話者やスタイル の音声により学習されるが,平均声モデルが平均的な 特徴をもつ単一話者の音響モデルを想定しそれ自体は 特定の話者性やスタイルをもたないのに対し,これら のモデルは話者やスタイルの空間を仮定し,固有ベク トルやスタイルベクトルを制御することで話者性やス タイルそのものを変化させる機能がある.4. 3
話 者 適 応話者適応
(speaker adaptation)
とは,元々音声認識において,不特定話者モデルを事前情報とし,それか ら線形回帰などを用いて少ない変換行列により不特定 話者モデルのパラメータを適応データに近づける枠組 を指す
[40]
.音声認識では話者だけでなく雑音環境な どへの適応も広く用いられる[41]
.HMM
音声合成に おいても,平均声モデルと最ゆう線形回帰(maximum likelihood linear regression, MLLR) [42]
などの話者 適応を組み合わせることで,目標話者の数文から数十 文程度の音声だけでもその話者に近い特徴をもつ合成 音声を生成することができることが報告されている.線形変換に基づく手法は
MLLR
以外にもその改良手法 が数多く提案されており,代表的なものとしては,モ デルパラメータを変換するMLLR
に対して入力特徴 量を変換する制約付きMLLR [43]
,回帰行列をMAP
推定する事後確率最大線形回帰(MAPLR) [44]
を応用 した構造的事後確率最大線形回帰(SMAPLR) [45]
な ど音声認識分野で提案されたものや,音声合成におい て独自に提案された制約付きSMAPLR [46]
などが検 討されている[47]
.話者適応を用いて実際に1500
名 を超える非常に多数の話者の合成音声を生成する試み も報告されており[48]
,平均声モデルと話者適応の組 合せの威力が示されている.4. 4
話 者 補 間平均声モデルを用いた話者適応を利用することで目 標話者の少量の音声のみでその話者の特徴を含んだ音 声を合成できる.一方で,これにより表現できるのは あくまで実際に存在する話者の特徴のみであり,学習 データとして用意できない話者の特徴を表現すること は不可能である.このような制約を緩和する手法とし て,
HMM
音声合成における話者補間[49]
がある.話 者補間では,あらかじめ十分なデータにより学習した 話者依存モデル間で(注2)HMM
のモデルパラメータの 補間を行うことで新たな音響モデルを作成し,それか ら音声パラメータを生成することで,それらの話者の 中間的な特徴をもつ音声を合成する手法である.この 手法は画像におけるモーフィングに相当し,時間的に 補間比率をある話者から相手の話者へ徐々に変化させ ることで同様の効果を得ることもできる.また,顔画 像のモーフィングではモーフィング前後の顔画像に対 し,あらかじめ特徴点の対応付けを手作業で行う必要 があるのに対し,音声合成の場合はメルケプストラム(注2):実際には平均声モデルと話者適応を用いて得られる話者適応モ デルでも良い
などを用いることで次元間の対応付けが自動的に行わ れるため,このような手作業が要らないという利点が ある.
4. 5
話 者 強 調音声において話者性・個人性とは何かと考えた場合,
平均的な音声に比べどのように異なっているかが重要 となる.平均声モデルと目標話者モデルが与えられた 場合,
4. 4
で述べた話者補間手法により両者の間の補 間比率を変えることで目標話者モデルと平均声モデル の中間的な特徴をもった音響モデルを生成することが できる.このようなモデルから生成した合成音声では 目標話者の話者性が弱まり,より平均的な(無個性な)音声となる.このように目標話者モデルと平均声モデ ル間の差分に着目し,これをモデル化し話者性を制御 することで話者性を強調することができる.
HMM
音 声合成ではモデル学習時の汎化処理によりスペクト ル・韻律パラメータが平滑化され話者性の低下の一因 となる.文献[27]
ではモデル化に5. 4
で述べる重回 帰隠れセミマルコフモデル(重回帰HSMM
)[20]
を用 いて話者強調を行う手法が提案されている(図3
).重回帰
HSMM
を用いた話者強調では,あらかじめ 目標話者の性別と一致した平均声モデルを学習してお図3 話者強調の流れ[27]
Fig. 3 Flow of speaker characteristics emphasis [27].
図4 話者強調の有無による合成音声の再現性の比較.参 照音声として原音声の分析合成音を使用[27]
Fig. 4 Comparison of speech reproducibility of syn- thetic speech with and without speaker char- acteristics emphasis. Vocoded speech of orig- inal speech was used as the reference [27].
き,それと目標話者のモデルから重回帰
HSMM
を求 める.この際,話者性を表現する制御ベクトルとして 一次元のベクトル空間を考え,0
を平均声,1
を目標 話者として学習を行う.こうすることで合成時に制御 ベクトルとして1
より大きな値を与えることで,平均 声を基準として目標話者の話者性を強調することがで きる.図4
に文献[27]
におけるプロのナレーターを目 標話者とした場合の主観評価実験の結果を示す.図か ら,ナレーター,一般話者のいずれにおいても話者強 調を行うことによって合成音声の再現性が向上するこ とが確認できる.これは通常の音響モデルの学習にお いては学習時の汎化作用により失われた話者性が補完 されたと見ることもできる.5.
多様な感情表現・発話様式による音声 合成4.
で述べた話者性の多様化と同様に感情表現・発話 様式についても多様化を行うことができる.以降では これらを単にスタイルと呼ぶ.話者性の多様化と異な る点として,感情表現や発話様式などは音声コミュン ケーションにおいてその種類のみならず表出度合も時 に重要な役割を果たすことが挙げられる.このため,スタイル音声合成においては単に学習データに現れる スタイルを再現するだけでなく,スタイルを柔軟かつ 直観的に制御できることが求められる.
5. 1
スタイル依存モデルによる表現話者性のモデル化における話者依存モデルの場合と 同様に,目標話者の目標スタイルの音声が十分に用意 できる場合には個々のスタイル別にモデルの学習を行 うスタイル依存モデルを用いて,スタイルの特徴が反
映された合成音声を生成することができる.経験的に プロのナレータであれば
30
分程度の音声があれば比 較的自然性の高いスタイル音声を合成できることが分 かっている.文献[28]
では,男女各1
名のプロのナ レーターの,平静,ぞんざい,楽しげ,悲嘆の四つのス タイルについて,それぞれ450
文の演技音声を用いて 音響モデルの学習を行い,被験者の主観によるスタイ ル識別実験を行っている.実験結果は,平静,ぞんざ い,楽しげ,悲嘆の識別率はそれぞれ98.3%, 82.3%, 94.9%, 94.9%
となっており,ぞんざいのスタイルにお いて若干それ以外のスタイルに比べ識別率が下ってい るものの,いずれも高い識別率を示している.5. 2
スタイル混合モデルの導入5. 1
で述べたように,スタイル依存モデルでは同 一の話者であっても各スタイルについて独立にモデル の学習が行われる.しかし,スタイル間でモデルパラ メータの共有を行うことができれば,より効率の良く モデルの学習が行えるのではないかと考えられる.こ れを実現する手法として,同一話者の複数スタイルの 音声を同時に単一のモデルで表現するスタイル混合モ デルが提案されている.スタイル混合モデルではスタ イルの違いも音韻やアクセントなどと同様に音響的な 変動要因とみなし,コンテクストとして学習用ラベル に含めることで各スタイルの違いを表現する.モデル の学習時には,決定木に基づくコンテクストクラスタ リングの際の質問にスタイルの情報も加えることで,スタイル間でもモデルパラメータの共有が行われ,ス タイル依存モデルに比べてより効率的なモデルの学習 が行われることが期待できる.
図
5
は文献[28]
の評価実験において構築されたス タイル混合モデルの決定木の例である.図より,決定 木の比較的上層のノードにおいてスタイルに関する 質問が使用されていることが分かる.なお,決定木の リーフノードにおいてスタイルを多分木により分割し た場合はスタイル依存モデルと同等となるため,スタ イル依存モデルはスタイル混合モデルの特殊な場合と 見ることもできる.5. 1
のスタイル依存モデルの場合 と同様の識別評価実験を行ったところ,スタイル混合 モデルを用いた場合の識別率は,平静,ぞんざい,楽 しげ,悲嘆に対し,それぞれ98.9%, 89.8%, 96.0%,
96.0%
となっており,スタイル依存モデルを用いた場合に比べてスタイルの再現性が向上していることが分 かる.これはスタイル間でもモデルパラメータの共有 が行われるため,パラメータ当りの学習データ数が増
図5 スタイル混合モデルにおいて構築された決定木の 例[28]
Fig. 5 Example of decision tree constructed in a style-mixed model [28].
加し,より頑健なモデルの学習が行われたためだと考 えられる.
5. 3
スタイル補間スタイル依存モデルやスタイル混合モデルを利用 することにより,学習データに含まれるスタイルを合 成音声に反映させることができることは分かった.し かし,人間は同一のスタイルであっても常に一定の度 合で発声するわけではなく,場合に応じて「少し悲し げ」などの中間的な表現を利用し,多様な音声コミュ ニケーションを実現している.スタイル依存モデルや スタイル混合モデルではこのような中間的な表現のモ デルを学習するには,所望の表現をもつ目標話者の音 声を新たに収録する必要がある.スタイルの表現の度 合ごとにこのような学習データを十分に用意すること はコストが高くしばしば現実的ではない.この問題を 解決するため,
4. 4
で述べた話者補間の考えをスタイ ルに導入したスタイル補間手法が提案されている[30]
.スタイル補間により「少し悲しげ」のスタイルを実 現したい場合,あらかじめ目標話者の読み上げ調の音 声と悲嘆スタイルの音声を用意しスタイル依存モデ ルを学習しておく.そして話者補間と同様の方法で二 つのモデルパラメータの補間を行う.一般的に二つの スタイルのモデルのパラメータ共有構造は異なるた め,文献
[30]
では合成時に入力テキストから得られ るコンテクスト依存ラベル列に対応する文HSMM
に 対してモデルパラメータの補間を行っている.これに 対し,平均声モデルにおけるパラメータ共有のために 提案されている共有決定木コンテクストクラスタリ ング(shared-decision-tree-based context clustering, STC) [50]
を用いることで,二つのスタイルのモデル図6 スタイル空間の例.空間内の各点は学習用の各スタ イル音声に対するスタイルベクトル[20]
Fig. 6 Example of style spaces and style vectors for training data [20].
学習を同時に行い,パラメータ共有構造を同じにして おくことで,補間音声の品質が改善することが分かっ ている
[20]
.これは別々にモデル化した場合には対応 するコンテクストラベルに対して割り当てられる学習 データ量に差が生じることが一因であると考えられる.STC
を用いることで,あらかじめ中間的な表現をも つ音響モデルを用意することができるため,生成時の 計算コストを抑えることができる.一方で,両方のス タイルのデータを用いて学習を行う必要があるため,任意のスタイルを新たに追加する場合には,合成時に 補間を行うほうが現実的である.
5. 4
スタイル制御スタイル補間の考えを発展させ,図
6
のような複数 のスタイル軸からなるスタイル空間を定義し,スタイ ルの種類や度合を直観的に変化させることを目的とし たのがスタイル制御[20], [39]
である.スタイル制御で は複数のスタイルに対し個々に音響モデルを学習する のではなく,重回帰HMM [39]
あるいは重回帰隠れセ ミマルコフモデル(重回帰HSMM
)[20]
により単一の モデルとして表現する.具体的には,重回帰HMM
の 場合にはモデルの第i
状態の出力分布の平均パラメー タμ
iがスタイル空間内のベクトルv
(スタイルベク トルと呼ぶ)の重回帰により次式のように表現される と仮定する.μ
i= H
iξ, ξ = [1, v
]
(1)
図
7
に重回帰HSMM
に基づくスタイル制御の学習 及び合成の流れを示す.モデル学習時は,まず目標話 者の複数のスタイルの音声を用意し,スタイルごと にスタイル依存モデルを学習する.この際,それぞれ のモデルのパラメータ共有構造が同じになるように 共有決定木コンテクストクラスタリングを行う.この ようにして得られたスタイル依存モデルから重回帰図7 重回帰HSMMに基づくスタイル制御の流れ[20]
Fig. 7 Flow of style control based on multiple- regression HSMMs [20].
HSMM
の初期値を求め,学習データとそれに対応す るスタイルベクトルが与えられた場合のゆう度を最大 化するようにモデルパラメータセットλ
∗を推定する.λ
∗= arg max
λ
K k=1P (O
(k)|λ, v
(k)) (2)
ここで
O
(k)及びv
(k)はk
番目の学習データ及び対応 するスタイルベクトルである.合成時には所望の度合に対応するスタイルベクトル を与え,式
(1)
から各状態の平均ベクトルを求め,文HMM
を生成し,これから通常のHMM
の場合と同 様に音声パラメータを生成する.スタイルベクトルを 変化させることで,合成音声に現れるスタイルの種類 と度合を直観的に制御することができる.なお,実際 にはスペクトルやF0
などのフレーム単位の特徴量だ けでなく,話速やリズムも適切に制御するため,状態 継続長分布を明示的にモデル化したHSMM [13]
に基 づく重回帰HSMM [51]
を用いる[20]
.合成音声に対図8 スタイルベクトルを変化させた場合に合成音声に対 し知覚されるスタイルの度合の変化の例.v1は楽し げスタイルの軸を表す[20]
Fig. 8 Example of the variation of perceived style ex- pressivity for the synthetic speech samples.v1
represents the joyful style axis [20].
しどの程度直観的にスタイルを制御できるかを評価し た結果
[20]
の一例を図8
に示す.図では男性ナレータMMI
の楽しげスタイルを制御しており,v
1= 1.0
が 標準的なスタイルの表出度合を表す.スコアは「1:
非 常に弱い」から「7:
非常に強い」までの7
段階である.スタイル制御においても学習データ量削減のために 話者適応手法が有効である.文献
[52]
では重回帰モデ ル自体を最ゆう線形回帰[42]
の枠組で変換する手法が,文献
[53]
では平均声モデルからの話者・スタイルの同 時適応がそれぞれ提案されている.話者適応を利用す ることで各スタイル数分程度の音声があればある程度 自然性を保持したまま,目標話者のスタイルを制御で きることが示されている[37]
.最近では,よりユーザ にとって直観的な制御を実現するため,主観評価スコ アの導入[54]
や系列内変動の利用[55]
が検討され,そ れぞれ有効性が示されている.スタイル制御は音声合成だけでなく,歌声合成にも 応用可能である.文献
[56]
では,大人っぽい歌声と子 供っぽい歌声の2
種類の異なる歌唱スタイルの歌声を 収録し,それらに対して歌唱スタイルの制御が可能で あることが示されている.また,音声以外にも動作生 成において歩幅や歩行速度などの少数の制御パラメー タを導入することで動作を重回帰HSMM
によりモデ ル化し,制御する手法も提案されている[51]
.近年で は,HMM
ではなくディープニューラルネットワーク(DNN)
を用いてオーディオブック音声においてスタイルの制御を行う試みも報告されている
[18]
.5. 5
スタイル適応スタイル依存モデルやスタイル混合モデルを用いて 自然な合成音声を生成するには通常数十分程度の学習 データが必要となる.しかし,任意の話者に対してス タイルごとにそのような十分な音声データを用意する ことは話者に対する負担の面から望ましくない.この ような問題を低減する手法としてスタイル適応
[24]
が 提案されている.スタイル適応ではあらかじめ十分用 意するのは目標話者の読上げ調の音声のみでよく,こ れにより学習したモデルと,別途用意した目標話者の 少量の目標スタイル音声を用いて話者適応の場合と同 様にMLLR
などのモデル適応アルゴリズムによりモ デルの学習を行う.また,平均声モデルからの話者と スタイルの同時適応[36]
を用いることで,読上げ調の 音声が不要となり,更に負担を軽減することができる.5. 6
スタイル変換これまで紹介したスタイルの多様化手法はいずれも 目標話者の目標スタイルのデータを必要とするもので あった.これに対し,感情音声合成の研究においては 古くから規則に基づいて読上げ調の音声の韻律特徴を 変化させることによって音声の表現を多様化する手法 が検討されてきた
[57]
.例えば,悲しげな音声は一般 的に感情を含まない音声に比べF0
の発話平均が低く,話速が遅い傾向があるため
[58]
このような変換を読上 げ調の合成音声に施すことにより意図したスタイルに 近い結果が得られる.しかし,このような発見的な規 則に基づくアプローチが適用可能なスタイルは限られ ており,またスタイル間の変換性能の違いも大きい.そこで,この変換規則を統計的に学習し
HMM
音声合 成の枠組で実現しようとするスタイル変換法が提案さ れている[59]
.スタイル変換では,あらかじめ複数の話者がそれぞ れ読上げ調と目標スタイルで発話した音声データを用 意しておく.次に読上げ調の音声により平均声モデル を学習し,これから目標スタイルの音声への線形変換 をスタイル適応の枠組みにより求める.このようにし て求めた変換行列は特定の話者に依存しない不特定話 者のスタイル変換を表現していると考えることがで きる.この変換行列を目標話者の読上げ調のモデルに 適用することによりスタイル変換を行う(図
9
).ま た,変換行列の推定に話者正規化学習[60]
の枠組みを 導入することで変換性能が向上することが示されてい る[61]
.スタイル変換を利用することで,目標話者に ついては読上げ調の音声を用意するだけで,その話者図9 平均声に基づくスタイル変換[59]
Fig. 9 Style conversion based on average voices [59].
の多様なスタイルによる音声を生成することが可能と なり,話者ごとのデータ収集コストを大幅に削減する ことができる.
6.
多様な声質を伴う音声の合成これまでの多様化のアプローチはいずれも目標とな る話者が存在し,その話者性やスタイルの再現を目的 としていた.これとは異なる方法として,平均声のよ うな仮想的な音声に対して,その声質をユーザが自分 の好みにより自由に変化させるような枠組が考えら れる.このような声質の柔軟な制御を目的として固有 声
[62]
に基づく手法[26]
や重回帰HSMM
に基づく手 法[31]
が提案されている.固有声に基づく手法では主 成分分析により話者性を表現する固有声ベクトルを求 め,それらの重みを変更することにより合成音声の声 質を変化させる.しかし,固有声空間の各軸は必ずし も声質に対応する物理的な意味をもたないため,直観 的に声質を制御することは難しい.これに対し,声質 評価スコアを導入し,スコアと固有声の重みの間で重 回帰分析を行うことによりこの問題を改善する手法が 提案されている[63]
.一方,重回帰HSMM
に基づく 手法では各軸がそれぞれ特定の声質を表すため,より 直観的な制御が可能であるという特徴をもつ.7.
韻律の多様化話者やスタイルの多様化においては,基本的にはス ペクトルと音源の特徴量は区別せず,同時にモデル化 し,補間や制御などを行ってきた.これに対し,強調
表現や話し言葉音声のモデル化においては,特に韻律 の果たす役割が重要となる.本節ではこのような韻律 に関する多様化について述べる.
7. 1
強調表現の再現これまで述べてきた話者やスタイルの多様化により,
学習用音声に現れるグローバルな特徴については精度 よく再現できることが示されているが,一方で,強調 などの音声発話中に局所的に現れる表現については そのままではモデル化することが難しい.このような 単語や句単位で現れる局所的な特徴をモデル化,再現 するために幾つかの手法が提案されている.局所的に 現れる特徴の代表例は強調表現である.これまでの研 究では収録時にあらかじめ強調箇所を指定し,それに 従って発話した音声を使用し,モデル化時に強調箇所 をコンテクストとして考慮することで,強調表現を再 現できることが示されている
[32]
.一方で,強調を意図的に表現しない読上げ調の音声 においては,単にコンテクストとして考慮するだけで は合成音声における強調表現が十分でないため,コン テクスト正規化学習によりこれを改善する手法が提案 されている
[64]
.これらの手法はいずれも強調箇所を あらかじめ知っておく必要があり,自然なスタイル表 現に現れる強調などに適用しようとした場合,人手に よるラベル付けが必要となる.この作業は時間的,金 銭的なコストがかかる上,ラベラー間で結果が同じに なるとは限らないという問題点がある.この問題を解 決するため,強調の自動ラベリング手法が提案されて いる[65]
.この手法では強調表現において最も重要なF0
に着目し,強調をコンテクストとして含まない従 来のラベルを使用してモデルの学習・パラメータの生 成を行った場合に,原音声に比べて生成されたF0
が 強調箇所において低くなる特性に着目し,この差分に 基づいて強調の自動ラベリングを行っている.図10
に,女性話者1
名の自然な商品宣伝口調による音声に おいて,自動ラベリングを用いた場合の生成F0
の例 を示す.7. 2
話し言葉音声合成話し言葉音声の合成は音声合成の中でも最も難しい 課題の一つであり,まだまだ限られた研究成果しか得 られていないのが現状である.これは,話し言葉音声 は読み上げ調の音声のように常に一定の調子で話さ れているわけではなく,滑舌が悪かったりアクセント が不正確になることも多いため,同じコンテクスト ラベルに対して観測特徴量系列の揺らぎが大きく,精
図10 自動ラベリングによる強調ラベルの有無による生 成F0パターンの例[65]
Fig. 10 Example of generated F0 contours with and without emphatic labels using the unsuper- vised labeling technique [65].
度良くモデル化できないことが一因となっている.文 献
[66]
ではスペクトル特徴量のモデル化にはHMM
を用い,F0
及び音素継続長のモデル化には数量化I
類 を用いて日本語話し言葉コーパスの講演音声の合成を 試みている.また,限られた話し言葉音声データにお いて問題となる音素カバー率を上げるため,HMM
に よるモデル化の際に読上げ調の音声を併用する手法が 提案されている[67]
.音声合成の究極の目標は人間と同じように音声に現 れる様々な感情や発話様式,発話意図などをその場の 状況に応じて適切に変化させながら自発性の高い音声 を生成可能な手法の実現である.しかし,講演や商品 宣伝などの独話や人間同士の対話において用いられる 話し言葉音声には,読上げ調の音声とは異なる様々な 特徴が存在する
[68]
.具体的には,従来のアクセント 型だけでは表現できないような句末における音調の変 化やフィラーや言い淀みの存在,母音の引き延ばしな どがある.このような韻律特徴を適切に考慮するため に,文献[34]
ではHMM
に基づく話し言葉音声合成 のためのコンテクストの拡張が検討されており,拡張 されたコンテクストを用いることで合成音声の自然性 が改善することが報告されている.8.
今後の課題これまでの節で述べてきたように,統計的音声合成 の登場によりプロのナレーターやアナウンサーが目標 話者であれば,読上げ調の音声だけでなく,感情表現・
発話様式を含んだ演技音声についても高い精度で再現 できることが示されてきた.一方で,発声訓練を受け
ていない一般の話者が対象となると,その自然性や再 現性はプロの話者に比べて劣るということも分かって きている.その上読上げ調ではなく,我々が普段の日 常生活において発声する自発性の高い話し言葉音声と なると,品質の劣化は更に激しいものとなる.これは,
一般の話者は音韻性やアクセントが必ずしも常に安定 しているわけではなく,曖昧な音韻をもつ音声や,ア クセント核がはっきりしない音声が頻繁に含まれるこ とが一因である.このような場合には従来の音韻・韻 律コンテクストだけでは音響的変動を十分に表現でき ないため,より詳細にそれらを記述できる
X-JToBI
などのラベリングスキームが必要となる.ただし,現 状ではこのようなラベルを自動で高精度に付与する技 術は未だ確立されていない.また,音声データベース の多くは個々の話者の発話時間は数分から数十分程度 と比較的短い.HMM
音声合成では話者適応を用いる などにより学習に必要なデータ量を減らすことができ るものの,話者適応では初期モデル(平均声)の影響 を受けるため,研究の初期段階としてはやはり目標話 者の十分なデータが利用できることが望ましい.話し 言葉音声では数十分程度では十分でない場合が多く,韻律ラベルを含めこのようなデータベースの整備は今 後の大きな課題である.
9.
む す び本論文では,統計的音声合成法のうち,最も合成音 声の多様化手法が確立されている
HMM
音声合成に焦 点を当て,筆者がこれまでに関わった研究成果を中心 に,話者やスタイルの多様化手法について解説した.音声認識のような多人数の非常に大規模なコーパスに よるパターン情報処理とはまた異なる「多様化」とい う側面が重要となる音声合成技術に著者は惹かれ研究 を続けている.今後人間と機械とのより自然でかつ魅 力的なインタラクションを実現するためには,音声の 多様化技術が果たす役割はますますその重要性が高く なるものと思われる.本論文により音声合成における 多様化の魅力が少しでも伝わり,研究の一助となれば 幸いある.
謝辞 本論文は東京工業大学大学院総合理工学研究 科小林隆夫教授並びに学生の方々との共同成果に基づ いており,ここに感謝いたします.
文 献
[1] 吉村貴克,徳田恵一,益子貴史,小林隆夫,北村 正,
“HMMに基づく音声合成におけるスペクトル・ピッチ・
継続長の同時モデル化,”信学論(D-II),vol.J83-D-II, no.11, pp.2099–2107, Nov. 2000.
[2] 小林隆夫,“多様な話者性および発話スタイル・感情表現 による音声合成,”音響秋季講論集,pp.283–286, 2005.
[3] T. Nose and T. Kobayashi, “Recent development of HMM-based expressive speech synthesis and its ap- plications,” Proc. APSIPA ASC, 2011, Available on- line at http://www.apsipa.org/proceedings 2011/.
[4] 徳田恵一,益子貴史,宮崎 昇,小林隆夫,“多空間上の確 率分布に基づいたHMM,”信学論(D-II),vol.J83-D-II, no.7, pp.1579–1589, July 2000.
[5] K. Tokuda, T. Masuko, T. Yamada, T. Kobayashi, and S. Imai, “An algorithm for speech parame- ter generation from continuous mixture HMMs with dynamic features,” Proc. Eurospeech, pp.757–760, 1995.
[6] 益子貴史,徳田恵一,小林隆夫,今井 聖,“動的特徴 量を用いたHMMに基づく音声合成,”信学論(D-II),
vol.J79-D-II, no.12, pp.2184–2190, Dec. 1996.
[7] T. Toda and K. Tokuda, “A speech parameter genera- tion algorithm considering global variance for HMM- based speech synthesis,” IEICE Trans. Inf. & Syst., vol.E90-D, no.5, pp.816–824, May 2007.
[8] T. Nose and A. Ito, “Analysis of spectral enhance- ment using global variance in HMM-based speech synthesis,” Proc. INTERSPEECH, pp.2917–2921, 2014.
[9] 横溝秀始,能勢 隆,小林隆夫,“HMM音声合成における 韻律コンテキストの評価,”音響春季講論集,pp.403–404, 2010.
[10] 鈴木啓史,郡山知樹,能勢 隆,篠崎隆宏,小林隆夫,“音 響モデルと言語モデルを利用したアクセント型・アクセ ント句境界の同時推定,”音響春季講論集,pp.441–442, 2014.
[11] 増 子 理 菜 ,郡 山 知 樹 ,小 林 隆 夫 ,“音 声 合 成 の た め の
CRF/HMMに基づく自動アクセント推定の評価,” 信
学技報,SP2015-85, 2016.
[12] S.E. Levinson, “Continuously variable duration hid- den Markov models for automatic speech recogni- tion,” Comput. Speech Lang., vol.1, no.1, pp.29–45, 1986.
[13] H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “A hidden semi-Markov model-based speech synthesis system,” IEICE Trans. Inf. & Syst., vol.E90-D, no.5, pp.825–834, May 2007.
[14] 能勢 隆,小林隆夫,“HMM音声合成のための動的特 徴量を用いた音素継続長モデリングの検討,”信学技報,
SP2011-100, 2011.
[15] Z.-H. Ling, S.-Y. Kang, H. Zen, A. Senior, M.
Schuster, X.-J. Qian, H.M. Meng, and L. Deng,
“Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends,” IEEE Signal Process.
Mag., vol.32, no.3, pp.35–52, 2015.
[16] N.C. Pilkington, H. Zen, M.J. Gales, et al., “Gaus-
sian process experts for voice conversion,” Proc. IN- TERSPEECH, pp.2772–2775, 2011.
[17] T. Koriyama, T. Nose, and T. Kobayashi, “Statistical parametric speech synthesis based on Gaussian pro- cess regression,” IEEE J. Sel. Top. Signal Process., vol.8, no.2, pp.173–183, 2013.
[18] O. Watts, Z. Wu, and S. King, “Sentence-level con- trol vectors for deep neural network speech synthe- sis,” Proc. INTERSPEECH, pp.2217–2221, 2015.
[19] T. Nose and T. Kobayashi, “A technique for esti- mating intensity of emotional expressions and speak- ing styles in speech based on multiple-regression HSMM,” IEICE Trans. Inf. & Syst., vol.E93-D, no.1, pp.116–124, Jan. 2010.
[20] T. Nose, J. Yamagishi, T. Masuko, and T. Kobayashi,
“A style control technique for HMM-based expres- sive speech synthesis,” IEICE Trans. Inf. & Syst., vol.E90-D, no.9, pp.1406–1413, Sept. 2007.
[21] 岡元伶洋,郡山知樹,小林隆夫,“多様なスタイルによる GPR音声合成の検討,”音響春季講論集,pp.361–362, March 2016.
[22] 前野雄也,郡山知樹,小林隆夫,“GPR音声合成におけ るスタイル適応の検討,”音響春季講論集,pp.233–234, March 2016.
[23] T. Koriyama, S. Oshio, and T. Kobayashi, “A speaker adaptation technique for gaussian process regression based speech synthesis using feature space trans- form,” Proc. ICASSP, pp.5610–5614, 2016.
[24] M. Tachibana, J. Yamagishi, T. Masuko, and T.
Kobayashi, “A style adaptation technique for speech synthesis using HSMM and suprasegmental features,”
IEICE Trans. Inf. & Syst., vol.E89-D, no.3, pp.1092–
1099, March 2006.
[25] M. Tamura, T. Masuko, K. Tokuda, and T.
Kobayashi, “Text-to-speech synthesis with arbitrary speaker’s voice from average voice,” Proc. Eu- rospeech, pp.345–348, 2001.
[26] 沢辺 敦,七里建吾,吉村貴克,徳田恵一,益子貴史,小 林隆夫,北村 正,“HMM音声合成におけるスペクトル・
ピッチへの固有声手法の適用,” 信学技報,SP2001-72, 2001.
[27] T. Nose, J. Asada, and T. Kobayashi, “HMM-based speaker characteristics emphasis using average voice model,” Proc. INTERSPEECH, pp.2631–2634, 2009.
[28] J. Yamagishi, K. Onishi, T. Masuko, and T.
Kobayashi, “Acoustic modeling of speaking styles and emotional expressions in HMM-based speech syn- thesis,” IEICE Trans. Inf. & Syst., vol.E88-D, no.3, pp.503–509, March 2005.
[29] 金川裕紀,能勢 隆,小林隆夫,“HMM音声合成における 不特定話者スタイル変換の検討,”信学技報,SP2011-99, 2011.
[30] M. Tachibana, J. Yamagishi, T. Masuko, and T.
Kobayashi, “Speech synthesis with various emotional expressions and speaking styles by style interpolation
and morphing,” IEICE Trans. Inf. & Syst., vol.E88- D, no.11, pp.2484–2491, Nov. 2005.
[31] M. Tachibana, T. Nose, J. Yamagishi, and T.
Kobayashi, “A technique for controlling voice qual- ity of synthetic speech using multiple regres- sion HSMM,” Proc. INTERSPEECH, pp.2438–2441, 2006.
[32] 森實久美子,中村圭吾,戸田智基,猿渡 洋,鹿野清宏,
“HMMに基づく音声合成における強調音声の生成,”情処 学研報,2009-SLP-75, pp.27–32, 2009.
[33] Y. Maeno, T. Nose, T. Kobayashi, Y. Ijima, H.
Nakajima, H. Mizuno, and O. Yoshioka, “HMM- based emphatic speech synthesis using unsupervised context labeling,” Proc. INTERSPEECH, pp.1849–
1852, 2011.
[34] 郡山知樹,能勢 隆,小林隆夫,“HMMに基づく対話音 声合成における多様な韻律生成のためのコンテクストの拡 張,”信学論(D),vol.J95-D, no.3, pp.597–607, March 2012.
[35] 田村正統,益子貴史,徳田恵一,小林隆夫,“HMMに基 づく音声合成におけるピッチ・スペクトルの話者適応,”信 学論(D),vol.J85-D, no.4, pp.545–553, April 2002.
[36] 橘 誠,小林隆夫,“平均声モデルを用いる合成音声の話者 性とスタイルの同時多様化の検討,”信学技報,SP2007-87, 2007.
[37] T. Nose, M. Tachibana, and T. Kobayashi, “HMM- based style control for expressive speech synthesis with arbitrary speaker’s voice using model adapta- tion,” IEICE Trans. Inf. & Syst., vol.E92-D, no.3, pp.489–497, March 2009.
[38] Y.J. Wu, Y. Nankaku, and K. Tokuda, “State map- ping based method for cross-lingual speaker adapta- tion in HMM-based speech synthesis,” Proc. INTER- SPEECH, pp.528–531, 2009.
[39] 宮永圭介,益子貴史,小林隆夫,“HMM音声合成にお ける多様なスタイル実現のための制御法,” 信学技報,
SP2004-7, 2004.
[40] K. Shinoda, “Speaker adaptation techniques for auto- matic speech recognition,” Proc. APSIPA ASC 2011, pp.1–8, 2011.
[41] Y. Gong, “Speech recognition in noisy environments:
A survey,” Speech Commun., vol.16, no.3, pp.261–
291, 1995.
[42] C.J. Leggetter and P.C. Woodland, “Maximum likeli- hood linear regression for speaker adaptation of con- tinuous density hidden Markov models,” Comput.
Speech Lang., vol.9, no.2, pp.171–185, 1995.
[43] M. Gales, “Maximum likelihood linear transforma- tions for HMM-based speech recognition,” Comput.
Speech Lang., vol.12, pp.75–98, 1998.
[44] O. Siohan, C. Chesta, and C.-H. Lee, “Hidden Markov model adaptation using maximum a poste- riori linear regression,” Workshop on Robust Meth- ods for Speech Recognition in Adverse Conditions, pp.147–150, 1999.