• 検索結果がありません。

博 士 ( 工 学 ) 青 木 直 史

N/A
N/A
Protected

Academic year: 2021

シェア "博 士 ( 工 学 ) 青 木 直 史"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 青 木 直 史

    

学 位 論 文 題 名

    A study of high quality speech synthesis based on the analysis of the randomnesslnSpeeChSignalS     

( 音 声 信 号 に お け る ラ ン ダ ム ネ ス の解 析 に基 づぃ た

    

高 品 質 音 声 合 成 に 関 す る 研 究 )

学 位 論 文 内 容 の 要 旨

  

近年、マン・ マシンインタフェ ースのマルチメデ ィア化が精力的に進められており、そのー翼を 担う音声合成技 術の分野では、よ り肉声らしく聞こ える高品質な合成音声を生成する手法の開発が 目下の課題とさ れている。本論文 は、ヒトの音声信 号に観察されるいくっかの種類のランダムネス について解析を 行い、その結果に 基づいて人工的に 生成したランダムネスを合成音声に付加するこ とで合成音声の 自然性が向上する ことを明らかにし た、音声合成および音声知覚に関する基礎的な 研究の結果をま とめたものである 。研究の対象としたランダムネスは、母音音声信号における(1 ) 振幅ゆらぎ、(

2

)ピッ チゆらぎ、(3 )波形ゆらぎ 、および(4 )綜形予測分析 より求めた音源信 号に 固 有の ラン ダ ムネ ス、 (

5

) 有 声子 音に 見 られ る高 周波成 分の非周期性の計

5

種類とし た。

  

本論文は、ま ず第二章で振幅ゆ らぎおよびピッチ ゆらぎの統計的性質および音声知覚に及ばす影 響について述べ ている。解析の結 果、振幅ゆらぎ、 ピッチゆらぎはその周波数特性がおおよそ1 //

特性となる雑音 性のゆらぎ系列で あることがわかっ た。また、それぞれのゆらぎを白色雑音として モデル化すると き合成音声は粗雑 な病的音声を思わ せる品質となり、その一方で1 // 雑音とすると き健常者の音声 音質に近づき自然 性が改善されることがわかった。結果として、(1 )振幅ゆらぎ、

ピッチゆらぎの 周波数特性は合成 音声の自然性に影響を及ばす主要因のーっであること、(2 )両者 をランダムフラ クタル(1 // 雑音 )としてモデル化 するとき自然性が改善されることがわかった。

  

第三章では波 形ゆらぎの統計的 性質および音声知 覚に及ぼす影響について述べている。解析の結 果、母音音声信 号から線形予測分 析により得られた 残差信号を二階積分した周期的信号におけるピ ッチ周期ごとの 波形変化は、その 周波数特性がおお よそ1 /f2 特性となる雑音性 の信号であること がわかった。ま た、こうした波形 ゆらぎを白色雑音 としてモデル化するとき合成音声は音声と背景 雑音に分離して 知覚され、その一 方で1 /f2 雑音とするとき健 常者の音声音質に 近づき自然性が改 善されることが わかった。結果と して、(1 )波形ゆらぎの周波数特性もまた振幅ゆらざおよびピッ チゆらぎと同様 、音声の自然性に 影響を及ぼす主要因のーっであること、(2 )波形ゆらぎをランダ ム フ ラ ク タ ル (

1

f2

雑 音 ) と して モ デル 化す る とき 自然 性 が改 善さ れ るこ とが わ かっ た。

  

第四章では音 源信号に固有のラ ンダムネスについ て述べている。線形予測分析により得られた残 差信号は白色特 性であることが仮 定されるため、こ れを一階積分することで得られる線形予測合成

‑ 665

(2)

フイル タの音 源信号 には

1

/f2 雑音の 性質が 現れる こと が予想 できる。本論文では、シヤウダー展 開を用 いて多 重解像 度解析を行い、この仮説の検証を試みた。その結果、(1 )健常者が発声した実 際の音 声から 逆フイ ルタ リング 処理に より求 めた音源信号は、人工的な音源信号として頻繁に使用 される インパ ルス列 音源とは異なり、波形の不連続性が顕著には見られないこと、(2 )音源信号を 観察す る解像 度が大 きく なるに っれ、

1

f2

雑音と して の性質 が顕著になることがわかった。これ らの知 見に基 づき、 健常 者の音 源信号 と同じ 統計的性質をインパルス列音源に反映させる方法を新 たに提 案し、 音響心 理実 験を通 して提 案法の 有効性を確認した。提案法は、インパルス列音源によ り生 成 さ れ た 合成 音 声 で 特 に 問題 と される ブザー 音質化 の改 善に効 果があ ること がわか った 。

  

第五章 では 有声子 音に見 られる 高周波 成分の非周期性の特徴および音声知覚に及ぼす影響につい て述べ ている 。有声 子音 では非 周期的 な無声 区間(子音区間)とそれに続く周期的な有声区間(母 音区間 )の境 界が判 然と しない ため、 有声区 間であっても特に高周波成分では非周期成分が顕著に 表れ る 傾 向 を 示す 。 こ の よ う な音 声 の 性 質 を利 用 し た 符 号化 方 式 に

MELP (Mixed Excitation Linear Prediction)

方式が あり、 近年 、新しい低ビットレート符号化方式の標準のーっとして利用 が進ん でいる 。本研 究で はウェ ーブレ ット変 換を 用いた

MELP

方式 の構成 方法を 提案し 、サブバン ド分解 後の各 帯域で の有 声・無 声(周 期性・ 非周期性)判定から有声子音の統計的性質にっいて解 析を試 みた。 また、 解析 結果に 基づき 、主と して高周波数域のサブバンドを非周期性成分の支配的 な帯域 として 合成し た有 声子音 では、 了解度 および自然性が向上することがわかった。第五章では さらに 、本研 究でこ れま でに明 らかに した特 徴をすべて取り入れた実時間動作可能な音声符号化合 成シス テムお よび規 則合 成シス テムを それぞ れDSP (Digital Signal Processor) 評価ボードおよび 汎用パ ーソナ ルコン ピュ ータ上 で実現 し、提 案手法の有効性を具体的に実証した結果についても言 及している。備築したそれぞれの音声合成システ.ムは、有声音および無声音の合成にそれぞれイン パルス 列と白 色雑音 を音 源信号 として 使用す る従来の音声合成システムよりも、より肉声らしく健 常者の 音声音 質を思 わせ る合成 音声を 生成す ることが可能であることがわかり、結果として、一連 の提案 手法は 合成音 声の 品質の 改善に 有効で ある ことが わかっ た。

  

結諭と して 、本論 文では、(1 )ヒトの音声信号に観察されるランダムネスを音声合成の際に適切 に再現 するこ とで、 合成音声の品質が向上すること、(2 )本研究により得られた知見に基づぃて開 発され た提案 手法は 、従 来の音 声合成 システ ムに簡単に組み込むことが可能であり、高品質音声合 成システムを実現するための具体的なノウハウとして実際に利用が可能であることを明らかにした。

本論文 ではさ らに、 (3 )研究対象としたいくっかのランダムネスの場合にはランダムフラクタルと しての 性質が 観察さ れ、 このよ うな音 声信号 のランダムフラクタル性がヒトの音声信号の特徴を定 量的に 調ぺる 上で、 一っ の有用 な観点 となり 得る可能性があることを明らかにするとともに、こう したラ ンダム フラク タル 性の再 現が合 成音声 の自然性改善に優れた効果があることを、音声合成技 術の分 野にお ける新 たな 知見と して明 らかに した 。

‑ 666

(3)

学位論文審査の要旨 主査   教授   伊福部   達 副 査

  

教 授

  

河 原 剛 一 副 査

  

教 授

  

清 水 孝 一

    

学位論文題名

    A study of high quality speech synthesis based on the analysis of the randomnesslnSpeeChSignalS     

(音声信号におけるランダムネスの解析に基づぃた

    

高品質音声合成に関する研究)

  近 年 、 マ ン ・ マ シ ン イ ン タ フ ェ ー ス の マ ル チ メ デ ィ ア 化 が 精 力 的 に 進 め ら れ て お り 、 そ の 一 翼を 担 う 音 声 合 成 技 術 の 分 野 で は 、 よ り 肉 声 ら し く 聞 こ え る 高 品 質 な 合 成 音 声 を 生 成 す る 手 法 の 開 発が 目 下 の 課 題 と さ れ て い る 。 本 論 文 は 、 ヒ ト の 音 声 信 号 に 観 察 さ れ る い く っ か の 種 類 の ラ ン ダ ム ネス に つ い て 解 析 を 行 い 、 そ の 結 果 に 基 づ ぃ て 人 工 的 に 生 成 し た ラ ン ダ ム ネ ス を 合 成 音 声 に 付 加 す るこ と で 合 成 音 声 の 自 然 性 が 向 上 す る こ と を 明 ら か に し た 、 音 声 合 成 お よ び 音 声 知 覚 に 関 す る 基 礎 的な 研 究 の 結 果 を ま と め た も の で あ る 。 研 究 の 対 象 と し た ラ ン ダ ム ネ ス は 、 持 続発 声母 音 にお け る(1) 振 幅 ゆ ら ぎ 、 (2) ピ ッ チ ゆ ら ぎ 、 (3) 波 形 ゆ ら ぎ 、 お よ び (4) 線 形 予 測 分 析 に よ っ て 求 め た 音 源 信 号 の ラ ン ダ ム フ ラ ク タ ル 性 、 (5) 有 声 子 音 に 見ら れる 高 周波 成 分の 非 周期 性の 計5種 類と し た。

  本 論 文 は 、 ま ず 第 二 章 で 振 幅 ゆ ら ぎ お よ び ピ ッ チ ゆ ら ぎ の 統 計 的 性 質 お よ び 音 声 知 覚 に 及 ば す影 響 に つ い て 述 べ て い る 。 結 果 と し て 、 こ れ ら の ゆ ら ぎ は 合 成 音 声 の 自 然 性 に 影 響 を 及 ぼ す 要 因 のー っ で あ る こ と 、 こ れ ら を ラ ン ダ ム フ ラ ク タ ル (1/雑 音 〕 と し て モ デ ル 化 す る と き 自 然 性 が 改 善さ れ る 可 能 性 が あ る こ と を 明 ら か に し た 。

  第 三 章 で は 波 形 ゆ ら ぎ の 統 計 的 性 質 お よ び 音 声 知 覚 に 及 ば す 影 響 に つ い て 述 べ て い る 。 結 果 とし て 、 波 形 ゆ ら ぎ も ま た 音 声 の 自 然 性 に 影 響 を 及 ば す 要 因 の ー っ で あ り | こ れ を ラ ン ダ ム フ ラ ク タル

1f2雑 音 ) と し て モ デ ル 化 す る と き 自 然 性 が 改 善 さ れ る 可 能 性 が あ る こ と を 明 ら か に し た 。   第 四 章 で は 線 形 予 測 分 析 に よ っ て 得 ら れ た 音 源 信 号 に 見 ら れ る ラ ン ダ ム フ ラ ク タ ル 性 に っ い て述 べ て い る 。 結 果 と し て 、 健 常 者 の 持 続 発 声 母 音 か ら 求 め た 音 源 信 号 は 、 人 工 的 な 音 源 信 号 と し て頻 繁 に 使 用 さ れ る イ ン パ ル ス 列 音 源 と は 異 な り 、 波 形 の 不 連 続 性 が 顕 著 で は な い こ と 、 音 源 信 号 を観 察 す る 解 像 度 が 大 き く な る に っ れ て1f2雑 音 と し て の 性 質 が 見 ら れ る よう に なる こと が わか っ た。

こ れ ら の 知 見 を 利 用 し て 、 本 章 で は イ ン パ ル ス 列 音 源 に よ り 生 成 さ れ た 合 成 音 声 で 特 に 問 題 と され る ブ ザ ー 音 質 化 を 改 善 す る 方 法 を 新 た に 提 案 し 、 そ の有 効 性を 音 響心 理 実験 に よっ て明 ら かに し た。

  第 五 章 で は 、 前 章 ま で に 得 ら れ た 知 見 に 基 づ ぃ て 設 計 さ れ た 実 時 間 動 作 可 能 な 音 声 符 号 化 合 成シ

667

(4)

ス テ ム お よ び 規 則 合 成 シ ス テ ム の 開 発 につ い て 述 べ て い る 。ま た 、 有 声 子 音 の自 然 性 を 改 善 す るこ と を 目 的 と し て、 ウ ェ ー ブ レ ッ ト 変換 を 用 い たMELP (Mixed Excitation Linear Prediction)方 式 の 構 成 方 法 を 新 た に 提 案 し た 。 構 築 し た それ ぞ れ の 音 声 合 成 シス テ ム は 、 有 声 音お よ び 無 声 音 の 合成 に そ れ ぞ れ イ ン パ ル ス 列 と 白 色 雑 音 を 音源 信 号 と し て 使 用 する 従 来 の 音 声 合 成シ ス テ ム よ り も 、よ り 肉 声 ら し く 健 常 者 の 音 声 音 質 を 思 わ せる 合 成 音 声 を 生 成 する こ と が 可 能 で あり 、 結 果 と し て 、本 論 文 で 提 案 し た 自 然 性 改 善 の た め の 一 連の 方 法 は 合 成 音 声 の自 然 性 の 改 善 に 効果 が あ る こ と が わか っ た 。

  結 論 と して 、 本 論 文 で は 、 (1) ヒト の 音 声 信 号 に 観 察さ れ る ラ ン ダ ム ネス を 音 声 合 成 の 際に 適 切 に 再 現 す る ニ とで 、 合 成 音 声 の 品 質が 向 上 す る こ と 、(2) 本論 文 で 提 案 し た 自然 性 改 善 の 方 法 は、

高 品 質 音 声 合 成 シ ス テ ム を 実 現 す る た めの 具 体 的 な ノ ウ ハ ウと し て 実 際 に 利 用が 可 能 で あ る こ とを 明 ら か に し た 。本 論 文 で は さ ら に 、(3)研 究 対 象 と し た ぃ くっ か の ラ ン ダ ム ネス の 場 合 に は ラ ンダ ム フ ラ ク タ ル と し て の 性 質 が 観 察 さ れ 、こ の よ う な 音 声 信 号の ラ ン ダ ム フ ラ クタ ル 性 が ヒ ト の 音声 信 号 の 特 徴 を 定 量 的 に 調 べ る 上 で 、 一 っの 有 用 な 観 点 と な り得 る 可 能 性 が あ るこ と を 明 ら か に する と と も に 、 こ う し た ラ ン ダ ム フ ラ ク タ ル性 の 再 現 が 合 成 音 声の 自 然 性 改 善 に 優れ た 効 果 が あ る こと を 、 音 声 合 成 技 術 の 分 野 に お け る 新 た な 知 見 と し て 明 ら か に し た 。

  こ れ を 要 す る に 、 著 者 は 、 ヒ ト の音 声 信 号 に 観 察 さ れる い く っ か の ラ ンダ ム ネ ス に つ い てそ の 諸 性 質 を 明 ら か に し 、 合 成 音 声 の 自 然 性 改善 に 関 す る 新 知 見 を得 た も の で あ り 、音 声 信 号 処 理 工 学の 分 野 に 対 し て 貢 献 す る と ニ ろ 大 な る も の が あ る 。

  よ っ て 著 者 は 、 北 海 道 大 学 博 士 ( 工 学 ) の 学 位 を 授 与 さ れ る 資 格 あ る も の と 認 め る 。

668

参照

関連したドキュメント

1  心理物理的方法  〔

   気相 反応 法に よっ て合成した AIN 粉末に Y203 をlvrt %添加 して、 1900 ℃C 、無加圧で焼 結すると、

(8 )垂直磁気記録の画像記録方式として,長手磁気記録のVTR

  

「開成標準」の宋版資料での字体の定着につい

最近 では、仮定4 、5 の代わりに、不完全 競争市場あるいは異なる個人の仮定を導入し、フリード

   第 4

5 .限られた予算額で資源の最適配分を含む最適設計を行う De Novo 計画問題として定式化