• 検索結果がありません。

音声波形の音響的特徴を用いた音声変換手法の

N/A
N/A
Protected

Academic year: 2021

シェア "音声波形の音響的特徴を用いた音声変換手法の"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 村 上 浩 司

学 位 論 文 題 名

音声波形の音響的特徴を用いた音声変換手法の      有効性に関する研究

学位論文内容の要旨

  本 論 文 で は, こ れ まで 提 案 され ている音 声変換 手法とは 大きく 異なる, 新しい パラダイ ムの 音声変換 手法の提 案を行 い,その 有効性 について 検討し た.

  音 声 や 言 語に お け る話 者 変 換や 翻 訳 など の 情 報変 換 の 条件 を,対 象となる2種 類の音声 ま たは 言 語 間 で, 同 じ 意味 を 持 っことで あると 仮定する .対象 が文字列 の場合, その文 字 列 を解 析 す る こと で 対 応関 係 を 取り出す ことは 可能であ る.そ こで,文 字列と同 じ言語 情 報 を保 持 す る 音声 か ら 得ら れ る 音響的特 徴を解 析するこ とでも ,同様に 対応関係 を抽出 す る こと が 可 能 であ る と 考え ら れ る.音響 的特徴 には,周 波数特 性の時間 変化を用 いるこ と とし た.

  本 手 法 は ,次 の よ うな 手 順 によ り 実 現さ れ る .発 話 内 容が 同一で ある2種類の 言語の音 声 発話 を 複 数 用意 し , それ ぞ れ の言 語 側 で独 立 し ,2っ の 発話 データを 比較し音 響的な 差 異・ 共通部分 に分離す る.こ のとき, 抽出さ れた差異 ・共通 部分の個 数が同じ場合にのみ,

そ れら の 対 応 関係 を ル ール と し て獲得す る.っ まりこの ルール は,両言 語の文中 におけ る 対 応す る 差 異 ・共 通 部 分の 位 置 情報を保 持して いる.こ うした ルールを 多数獲得 し,ル ー ル 辞書 に 登 録 する . ル ール 獲 得 により得 られた 辞書中の ルール を,入カ される未 知の入 カ に 適用 す る . そし て 部 分的 に 対 応するル ールを 候補とし て,そ れらを組 み合わせ ること で 入 力音 声 を 再 現す る . っま り , このとき 採用さ れたルー ルが保 持する, 部分的な 目的言 語 と な る 音 声 側 の 素 片 を 波 形 接 続 型 音 声 合 成 に よ り 合 成 し , 結 果 と し て 出 カ す る .   2言 語 音 声発 話 を 対象 と し た音 声 翻 訳手 法 は ,入 カ さ れた 原言 語の発話 を文字 列に変換 す る音 声 認 識 部, そ こ で得 ら れ た発話内 容の文 字列を目 的言語 の文字列 に変換す る機械 翻 訳 部, そ し て 翻訳 さ れ た目 的 言 語の 文 字 列を 音 声 に変 換 す る音声 合成部の3っの 処理部 か ら 構成 さ れ る .ま た , それ ぞ れ の処理部 もまた 複雑な構 造を持 つ.すな わち,そ れぞれ の 処 理の 精 度 の 低下 は 全 体の 精 度 の低下に 著しく 影響を与 えるた め,すべ ての処理 の精度 の 向 上の み が 全 体の 精 度 を向 上 さ せる手段 となる ,また, 形態素 解析や構 文解析は 言語の 種 類 に依 存 す る ため , 対 象と な る 言語 の 変 更に 伴 い ,こ れ ら の解 析 も 変 更す る 必 要あ る ,   そ こ で , 音声 の 音 響的 特 徴 を用 いた音声 変換手 法をこの 音声翻 訳に適用 して, 原言語か ら 目的 言 語 へ 音声 を 変 換す る こ とを試み た.本 手法は各 固有の 言語の種 類に依存 する処 理 を 持た な い た め, よ り 汎用 的 な 音声翻訳 の枠組 みとなる .また ,音声の 周波数特 徴の時 間 変 化に 着 目 し ,そ の 変 化に よ っ て音響的 差異・ 共通部分 を決定 するため ,単語, 音節, 音

77―

(2)

素などの正確な境界は必ずしも必要ではなく,比較する音声の音響的な差異・共通部分の 両方に着目してその関係を利用する.

  簡単な発話から構成されるデータセットを用いた評価では,数例cj訳結果が得られ,

語彙の限定された発話においての手法の有効性が示された.

  旅行発話データセットを用いた評価においても,同様に数例の翻訳結果が得られたこと から,音響的差異・共通部分のみに着目することで翻訳に的確に用いることのできるルー ルが獲得できることが示された.

  音声は人間にとって最も身近なコミュニケーション手段であるため,何らかの障害に よって音声の発話ができなくなると,他者とのコミュニケーションに重大な支障を生じる,

  一方,喉頭がんなどにより喉頭摘出手術を受けた結果,失声した人は日本国内で約20,000 人弱と推定され,年々増加傾向にある,こうした人々は食道発声法や電気式人工喉頭によ る発声法などにより,代用音声と呼ばれる音声を用いることで発話が可能となる.しかし ながら,代用音声による発話には,不自然さが聞き手だけでなく話し手にもストレスにな ることが少なくない.したがって,喉頭摘出者も健常者と同様に,聞き手にも話し手にも ストレスの少ない会話が可能なより自然な音声を用いたコミュニケーションツールが望ま れている,

  そこで,音声の音響的特徴を用いた音声変換手法をこうした喉頭摘出者の音声に適用 し,健常者の音声への変換を試みた.変換対象となる音声は喉頭摘出者音声,健常者音声 とも日本語であるため,音声翻訳に比べて音声波形の時間的類似度を用いることができる とぃう利点がある.対象とする喉頭摘出者音声は,代表的なものとして広く用いられてい る,電気式喉頭を用いて発声する電気発声音声,および食道発声音声である.ここでは共 通部分の始点探索にDPマッチングを適用した.喉頭摘出者音声は健常者音声とは違い,

大量の音声を収録することは話者への大きな負担となる,そのため,まず少数の音声デー タを用いて,音声変換手法が喉頭摘出者音声と健常者音声との変換に対して有効である可 能性を確認することとした.また,多くの音響的な差異・共通部分を抽出する必要がある ため,限定された単語のみで発話が構成される内容を検討した結果,重複のない3桁の数 字発話をデータとした.

  同内容の喉頭摘出者音声と健常者音声の発話データを複数用意し,音声の周波数スペク トルの時間変化を表すベクトルに変換する.そして喉頭摘出者音声と健常者音声のそれ ぞれでDPマッチングを独立して行い,音響的な差異・共通部分に分離する.このとき,

それぞれの音声側で分離された差異・共通部分は同じ意味を保持していると考えられるた め,こうした対応関係を変換ルールとして獲得し,変換ルール辞書に登録する.このよう な変換ルール獲得を全ての発話データに繰り返し行う.変換ルール獲得により得られた辞 書中の変換ルールを,入カされる未知の喉頭摘出者音声に適用する.そして部分的に対応 する変換ルールを変換候補として,それらを組み合わせることで入力音声を再現する.つ まり,この時点で採用された変換ルールが保持する,部分的な健常者音声素片を波形接続 型音声合成により適宜合成して,変換結果として出カする.

  手法の有効性を確認するために,食道発声音声と電気発声音声についてそれぞれ主観評 価実験を行った,実験は単語了解度試験,オピニオン評価,合成音声と食道発声音声もし くは 電気 発声 音声と の一 対比 較に よる プレ ファレンススコア算出の3種類を行った.

(3)

  食 道発 声 音 声に 対 し ては , 単 語 了解 度80.OVO( 食 道発 声音声 :98.46% ,健常 者音声:

100%), オ ピニ オ ン 評価3.27( 食 道 発声 音 声 :3.89, 健 常 者音 声 :4.98),プ レ ファレ ン ススコア50.000が得られた.

  電気発声音声に対しては,単語了解度95.2%(電気発声音声:99.5%,健常者音声:100%),

オ ピ ニ オン 評 価3.89(電 気 発 声 音声 :2.93, 健常 者 音声 :4.98),プレフ ァレン ススコア 72.3%が得られ,明らかな有効性を確認した.

  こ れら の 結 果よ り , 提案 した 音声変換 手法が 音声翻訳 及び口頭 摘出者 音声の健 常者音 声 への変換に有効であることが確認された.

(4)

学位論文審査の要旨

学 位 論 文 題 名

音声波形の音響的特徴を用いた音声変換手法の      有効性に関する研究

  著者は,これまで提案されている音声変換手法とは大きく異をる,新しいパラダイムの 音声変換手法の提案を行い,その有効性について検討した.

  音声 や言語に おける 話者変換や翻訳をどの情報変換の条件を,対象とをる2種類の音声 または言語問で,同じ意味を持つことと仮定する,対象カマ文字列の場合,その文字列を解 析することで対応関係の抽出は可能である.そこで,文字列と同じ言語情報を保持する音 声から得られる音響的特徴を解析する ことでも,同様に対応関係を抽出することが可能で あ る と考 え ら れる . 音 響的 特 徴 には , 周 波数 特 性 の 時間 変 化 を用 い ること とした .   提案 手法は, 次のよ うを手順により実現される.発話内容が同一である2種類の言語の 音声 発話を複 数用意 し,それぞれの言語側で独立して,2つの発話データを比較し音響的 を差異・共通部分に分離する.このとき,抽出された差異・共通部分の個数が同じ場合に のみ ,それら の対応 関係をル ールと して獲得 する.っまりこのルールは,両言語の文中 における対応する差異・共通部分の位置情報を保持している.こうしたルールを多数獲得 し,ルール辞書に登録する.ルール獲得により得られた辞書内のルールを,入カされる未 知の入カに適用する,そして部分的に対応するルールを候補として,それらを組み合わせ ることで入力音声を再現する,っまり,このとき採用されたルールが保持する,部分的を 目的言語とをる音声側の素片を波形接続型音声合成により合成し,結果として出カする,

  まず,音声の音響的特徴を用いた音声変換手法を日英音声翻訳に適用して,原言語から 目的 言語への 音声変 換を考える.2言語音声発話を対象とした従来の音声翻訳手法は,入 カされた原言語の発話を文字列に変換する音声認識部,そこで得られた発話内容の文字列 を目的言語の文字列に変換する機械翻訳部,そして翻訳された目的言語の文字列を音声に 変換 する音声 合成部 の3つの処理部から構成される.また,それぞれの処理部もまた複雑 を構造を持つ.すをわち,それぞれの処理の精度の低下は全体の精度の低下に著しく影響 を与えるため,すべての処理の精度の向上のみが全体の精度を向上させる手段と誼る,ま た,形態素解析や構文解析は言語の種類に依存するため,対象とをる言語の変更に伴い,

    ―80ー

冶 直

夫 彦

健 由

秀 敏

木 木

島 藤

荒 青

北 伊

授 授

授 授

   

   

教 教

教 助

査 査

査 査

主 副

副 副

(5)

これらの解析も変更する必要ある.本手法は言語の種類に依存する処理を持たをいため,

より汎用的を音声翻訳の枠組みとをる.また,音声の周波数特徴の時間変化に着目し,そ の変化によって音響的差異・共通部分を決定するため,単語や音節,音素をどの正確を境 界は必ずしも必要ではをく,比較する音声の音響的な差異・共通部分の両方に着目してそ の|蚶係を利川する,旅行術用英会話に出現する発話のデータセットを川いた評価尖験にお いて,数例の翻訳結果が得られたことから,音響的差異・共通部分のみに着目することで 翻 訳 に 的 確 に 用 い る こ と の で き る ル ー ル が 獲 得 で き る こ と が 示 さ れ た ,   次 に,音声 の音響 的特徴を 用いた 音声変換 手法を喉頭摘出者の音声に適用して,健常 者 の音声へ の変換 を行った .変換対 象とな る喉頭摘出者音声は,喉頭摘出手術を受けた 結果,失声した人が用いる代用音声であり,そのままでは発話は不自然で聞き手と話し手 の両方にストレスを与えることが少をくをい.そのため,喉頭摘出者も健常者と同様に,

聞き手にも話し手にもストレスの少をぃ会話が可能を,より自然な音声を用いたコミュニ ケーションツールが望まれている.喉頭摘出者音声,健常者音声とも日本語であるため,

音 声翻訳に 比べて 音声波形 の時間的 類似度 を用いることができるという利点がある.対 象とする喉頭摘出者音声は,代表的をものとして広く用いられている,電気式喉頭を用い て 発声する 電気発 声音声で ある,こ こでは 共通部分の始点探索にDPマッチングを適用し た,喉頭摘出者音声は健常者音声とは違い,大量の音声を収録することは話者への大きを 負担とをる.そのため,まず少数の音声データを用いて,音声変換手法が喉頭摘出者音声 と健常者音声との変換に対して有効である可能性を確認することとした.また,多くの音 響的教差異・共通部分を抽出する必要があるため,限定された単語のみで発話が構成され る 内 容 を 検 討 し た 結 果 , 重 複 の を い3桁 の 数 字 発 話 を デ ー タ と し た .   同内容の喉頭摘出者音声と健常者音声の発話データを複数用意し,音声の周波数スベク ト ルの時間 変化を 表すべク トルに変 換する .そして喉頭摘出者音声と健常者音声のそれ ぞ れでDPマッ チング を独立し て行い ,音響的 を差異・共通部分に分離する.このとき,

それぞれの音声側で分離された差異・共通部分は同じ意味を保持していると考えられるた め,こうした対応関係を変換ルールとして獲得し,変換ルール辞書に登録する.このよう を変換ルール獲得を全ての発話データに繰り返し行う.変換ルール獲得により得られた辞 書内の変換ルールを,入カされる未知の喉頭摘出者音声に適用する.そして部分的に対応 する変換ルールを変換候補として,それらを組み合わせることで入力音声を再現する.つ まり,この時点で採用された変換ルールが保持する,部分的を健常者音声素片を波形接続 型音声合成により適宜合成して,変換結果として出カする.

  手 法の有効 性を確 認するた めに, 電気発声 音声を対象に主観評価実験を行った.実験 は 単語了解 度試験 ,オピニ オン評価 ,合成 音声と電気発声音声との一対比較によるプレ ファレンススコア算出の3種類を行った.実験の結果,単語了解度95.2%(電気発声音声:

99.5'70,健常者音声:100%),オピニオン評価3.89(電気発声音声:2.93,健常者音声:

4.98), プ レ フ ァ レ ン ス ス コ ア72.3V0が 得 ら れ , 明 ら か 教 有 効 性 を 確 認 し た .   著 者は論文 全体を 通じて, 研究領 域の現状 の分析,新規提案内容の記述,有効性の主 張,研究領域における位置付けを正確に行ったと判定する.

  以上を要約すると,著者は音響的特徴のみを用いた音声変換手法を提案し,日英音声翻 訳と喉頭摘出者音声の健常者音声への変換に適用した結果,文字情報を用いずに,音響的

81 ‑

(6)

特徴のみを用いた音声変換の実現が 可能であることを示した.本研究を通じての,情報 メディア工学,音声処理工学,自然言語処理工学の発展に貢献するところ大をるものがあ る.よって,著者は北海道大学博士(工学)の学位を授与される資格あるものと認める.

82

参照

関連したドキュメント

 日本語教育現場における音声教育が困難な原因は、いつ、何を、どのように指

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC