• 検索結果がありません。

DSPを用いた音声合成スペクトル・エディタ: University of the Ryukyus Repository

N/A
N/A
Protected

Academic year: 2021

シェア "DSPを用いた音声合成スペクトル・エディタ: University of the Ryukyus Repository"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

Title

DSPを用いた音声合成スペクトル・エディタ

Author(s)

高良, 富夫; 山城, 辰也

Citation

琉球大学工学部紀要(46): 219-229

Issue Date

1993-09

URL

http://hdl.handle.net/20.500.12000/1462

Rights

(2)

DSPを用いた音声合成スペクトル・エディタ

高良富夫.山城辰也*

TheSpectrumEditorSystemWithDSPSpeechSynthesizer

TomioTAKARA、andTatsuyaYAMAsHIRo

* Abstract

lnordertoanalyzethephonemiccharacteristicsofspeechsounds,we

oftenneedtoperformalisteningtestusingspecialkindsofspeechdatawhich

aresyntbesizedbyacomputer、Genarally1ittakesaIongtimetoprepare

speechdatafOrthelisteningtestbecauseanewprogramisrequiredwhenwe

neednewspeechdata・

Inthispaper,wereportonanewspeechprocessingsystemwhichpro

videsaneasywaytosynthesizeartificialspeechsoundsusingapersonal

computer・InthissystemIthespeechsoundisfirstanalyzedintopitch,

powerIandspectrumstructure,thethreebasicfactorsofsound、Next,the

timepatternofthesethreefactorsarefreelyandeasilyeditedusinga

keyboardandamousejustaswhensentencesareeditedonawordprocessor・

Last,wesynthesizethespeechsoundfromthesethreeeditedfactors・Because

weprocessthethreebasicfactorsofsound,wecansynthesizeanykindof

speechsoundonthissystem.

KeyWords:Speechsyntbesis,Editor,Spectrum,Threebasicfactorof

sound,Userinterface 1.まえがき 実験の度に,必要なプログラムを香いて行われており, 大変手間のかかるものであった. そこで我々は,パーソナルコンピュータを用いて必 要な人工音声が簡単に合成できるシステムを櫛成し た.本システムでは,まず音声を音の三要素であるピッ チ,パワー,スペクトル構造に分解(分析)する.次 に音の三要素の時間変化パターンを,キーボードとマ ウスを用いて,あたかもワープロで文脅を編集するよ うに,自由自在に編集する.最後に,編集した音の三 要素を用いて音声を合成する.この方法では,音の三 要素を用いて音声を合成するので,聴感上,どのよう 言語音声は,人間に聴取されてはじめて意味を持つ. 従って,音声の音韻的特徴の物理的実体を明らかにす るためには,音声を音響的に分析するだけでは不十分 であり,しばしば極々の音声の聴取実験を行う必要が ある. 聴取実験用の音声としては,人間が発声できない特 殊なものが必要とされることも多く,この場合は,音 声資料はコンピュータを用いて作成される.コン ピュータによる音声の合成は,これまで一般に,聴取 受理:1993年5月10日 * 工学部電子・愉報工学科Dept、ofElectronicsandlnformationEng.,Fac・ofEng.

(3)

高良.山城:DSPを用いた音声合成スペクトル・エディタ 220 な音も作成することができる. これまで,パーソナルコンピュータ等で動作する音 声処理ソフトウエアはいくつか存在したが,これらの 大半は,単に音声波形を編集するものであり,任意の 音声を作成することはできない.また,音声の重要な パラメータであるスペクトル構造やホルマントを取り 扱えるものもあるが,その処理は分析にとどまってお り,本システムのように,合成までできるものはない ようである. 本システムでは,音声の特徴(音色)に最も関係し ているとされるスペクトル構造を自在に編集し,その 結果を音として確認できる.そこで,これを音声合成 スペクトル・エディタと名付け,以下にそのシステム 構成,機能を紹介する. DSP宅扣いだ■戸合成 スペクトル・エワイヲ S●OeCI AJD

、F二

■P7T08 人力 止防鯉口 分碕 スペクトル ピヲテ 柤象 パワー SgOUEL 合皿 回戸政殿 Bフレーム 出力 2.システムの概要 ソナケラム ピワテ 凹喧★画 本システムのハードウエア構成を図1に示す.本シ ステムは,パーソナルコンピュータPC-9801RA5,ディ ジタル信号処理プロセッサ(DSP)MSM6992および A/、変換器,D/A変換器を中心に櫛成されている. 入力装置としては,キーボード,マウス,マイク,カ セヅトデヅキ,出力装置としては,ディスプレー,プ リンタ,スピーカー,カセヅトデッキ,外部記憶装置 としては,ハードディスク(HDD),フロッピーディ スク〈FDD),光磁気ディスク(MO)が利用できる. マイクやカセットデヅキから入力された音声は, 4.8kHz低域通過フィルタを通過した後,A/、変換器 により12ビット精度で量子化される.パーソナルコン ピュータやDSPで処理された信号は,外部記憶装置 に出力きれるほか,D/A変換器,低域通過フィルタ を通過させ,音声として聴取することができる. 本システムのソフトウエア構成を図2に示す.本シ ステムは,入力,分析,編集,音声合成,出力,聴取 FDD パワー

了]|「螢:

Ug-ShCII BIT 図2システムのソフトウェア構成 実験の各サブシステムからなる.苔らに,入力,編集, 出力は,いくつかの下位サブシステムから構成されて いる.各サブシステムについては次章で説明する. 本システムのプログラムは,主としてLattice-Cで 記述されている.ただし,分析部はMS-FORTRANで, A/D変換,、/A変換のサブルーチンはMS-DOSのア センブラで,DSPのプログラムはDSP専用のアセン ブラで記述されている.Lattice-Cのメモリ構成の制 限から,本システムでは,音声データの最大サンプル 数を8000とした.これは,10kHzサンプリングの時は 0.8秒の音声長になる. 本システムは,主メモリの制約から,複数の実行プ ログラムに分割してあり,各プログラムをオーバーレ イ方式により実行している.そのため,各プログラム 間でデータの受渡しをするため,多くのテンポラリ ファイルを作成している.また編集部では,再編集や 編集破棄をしたときのために,編集前の状態を保持す 〕DIFIⅣ1【】

〈HL

ヰーホ。-ト・ 図lシステムのハードウェア構成

(4)

るテンポラリファイルを作成する.これらのテンポラ リファイルは,メインメニュー(図2参照)で終了を 選択するまで保持されるので,例えば,OS-ShelIで OSへ抜け,本システム以外のプログラムで処理でき るなど,有効に利用される. む.パラメータの初期値は以下のように設定されてい る. A/D変換の個数3000[個] サンプリング周期100[マイクpsec] 前読み個数500[個] トリガーレペル50O これらのパラメータの値は,システムが指定する範囲 で自由に変更することができる.オーバーフローまた はアンダーフローした入力データがある場合は,警告 が表示され,再入力が可能である.ここでは,入力し た音声データを、/A変換して聴取・確認することが できる. その他のコマンドでは,それぞれのファイルを外部 記憶装置から入力する.その場合,ファイル名の代わ

りに“?,,をキー入力すると,OS-SheIIを起動し,

MS-DOSのコマンドが使用可能になるので,ファイ ルの一覧を見たり,ファイルをコピーしたりすること ができる.スペクトル,ピッチ,パワーを独立に入力 することができるので,ピッチやパワーを入れ換えた 音声は簡単に合成できる. 3.システム各部 システムを起動すると,図3に示すメインメニュー

画面が現れる.画面の目盛りの入った四角の枠は,そ

れぞれ上から,ソナグラム,ピッチ,パワー,音声波 形の,時間変化パタンを表示する窓である.画面の最 下部にメインメニューがある.これらのいずれかをマ ウスで選択することによりそれぞれのサブシステムへ 移行する.各サブシステムを終了するとこの画面へ戻 り,各窓には処理結果が表示される. 3.1入力部

入力部では,A/D変換入力,音声ファイル入力,

全特徴量入力,スペクトル入力,ピッチ入力,パワー 入力の各コマンドが利用できる(図2参照).

A/D変換では,マイクまたはカセットデッキから,

-5~5Mのアナログ音声信号を入力し,これを

-2048~2047の整数値に変換して,主メモリに取り込 3.2分析部 分析部では,音の三要素である音の高さ,

音色にそれぞれ対応する,ピッチ,パワー,

大きさ, スペクト ◆〆 ̄ユー H◆ ldI 四K

亡Z二Zp---[二画二Z□、 ̄…□圖三Z。

図3メイン・メニュー画面  ̄ ‐。 4。 S 2 ユ‘ B S⑥B 色⑥B ユBG ⑧ ユ⑧ 庁I  ̄q ゥ、, 2色②垣 三⑧ 2 SE in F炉。■EKH差。 0.000[S] 。B

生 中 Tim分 一  ̄。でこFULFP-■ -EF-ニーーユ「L’G可 戸曰■■BUnHD丑------F、=■勺

雇萱雲==三三三三三雲三雲壽三菫三菫菫壼菫雪雲雲議

ド三菱三雲菫菫三雲菫雪壼雪臺菫菫雲菫菫雪

腱菱菫三三蓋鑿護遷菫壽蓋菫曇菫菫菫簔菱菫窒鑿:菫菫鑿菫ヨ

~~ ̄ ̄百戸百局=~「てアマ可 。■▽P■uDOO GBOしロロ、■■

(5)

商良.山城:DSPを用いた音声合成スペクトル゛エディタ 222 音声波形には,音声データとして使用するときには不 要となる部分が含まれている.音声波形編集では,音 声波形から必要な部分を切り出したり,その結果を聴 取して確認したりできる図4に,音声波形編集の画 面を示す.画面の下部に示きれている各コマンドの機 能を以下に示す. (1)横軸拡大:指定された音声区間を切り出す.残り の音声区間は削除される.切り出きれた部分は横 軸が最大に拡大されて編集後波形として表示され る.これは,時間軸を拡大して波形を詳しく見た いときにも使用することができる. (2)振幅拡大:指定された区間の音声波形の振幅を拡 大または縮小する.振幅値が±2000を超えたとき にはそれぞれ±2000に設定きれる.従って,振幅 を2000倍に拡大することにより,ゼロ交差波は簡 単に得ることができる. (3)削除:指定きれた区間の音声波形を削除する. (4)空白挿入:指定された音声区間の値をOにし,そ の区間を無音区間とする. (5)、/A:波形編集をした後の波形や編集する前の 波形をD/A変換し聴取・確認する.縄集後の波形 は繰り返し連続的に聴取することができる. (6)終了:編集を終了する.ただし,この時点で, “編集を継続する,',‘`もう一度編集し直す",“編 集結果を採用せず終了する",“編集結果を採用し て終了する"のいずれかを選択することができる. ル榊造を音声波形から抽出する.ここでは,ケプスト ラム法[1]に基づいて音声分析を行っており,抽出き れる特徴量は以下のとおりである. (1)スペクトル包絡の時間変化パタン (2)ピッチ周波数の時間変化パタンと有声/無声判別 結果 (3)パワーの時間変化パタン スペクトル包絡の抽出には,改良ケプストラム法[2] を用いており,ピッチ抽出妙,高ケフレンシー部のピー ク位置の抽出により,また有声/無声の判別は,スペ クトルの低周波数領域のパワーの大/小により行って いる[2]、パワーは,本システムでは,ゼロ次のケプ ストラム係数の値としている. 現在のところ分析部はFORTRANで記述されてお り,分析時間は数十秒を要する. 3.3編集部 編集部は,音声波形編集,1フレーム編集,ソナグ ラム編集,ピッチ編集,パワー編集の各サブシステム からなる.(図2参照)本システムでは,音声波形だ けでなく,上述の音声の特徴通を編集することができ る.特に,音韻性に最も寄与すると考えられるスペク トル包絡に対しては,1フレーム編集およびソナグラ ム編集の2種の方法を提供している. [音声波形編集] A/D変換により,またファイルから取り込まれた 図4音声波形編集画面 榴築→音声波形UB鍋 HO脚娼集役波形 +290 Idol、 一三DB HaX 十三s e 2 B BB -2②②  ̄ U B 阻銀前波形 ÷ T1m⑧ 242.00【mBec] 今 Tom⑨ 742.301,sec 】 C■DB可▽■ワ

rTr1illIlIllillIlIi五一丁~= ̄三

’. 『TT-■可 V}1

▼■ ̄q▼

■●ロロロ

| ̄

Uロ  ̄~。 1,A」11m‘.」wdMInL..AllUh.b-IdAJJAAj.u▲」IHlllMLl、IqII -℃ ̄ 111 'U’1GB

11

1U, U DB

Ⅱ’

7..I ロ、

[Ⅱ11

l ̄7万 09

ⅢⅡI

「「 ゴー司一王■西刀甜PUD丁卜式L、_ Ui軸拡大Ⅱ娠紹拡大'1削除 空白挿入’ lD/Al|橿築陦了

(6)

[1フレーム綱集] 聴覚の神経生理学的研究および種々の音響的刺激に 対する反応に関する実験心理学的研究によると,母音 の音韻的情報はスペクトル包絡全体に一様に分布して いるのではなく,声道の共振周波数であるホルマント 周波数によって特徴づけられている.lフレーム編集 では,フレーム単位でスペクトル包絡のピークや谷を

強調,作成,削除したりすることによって,スペクトル

包絡の形状と音韻性の関係を検討することができる 1フレーム編集に処理が渡るとソナグラムが表示さ れるので,まず,編集するフレームを指定する.フレー ムが指定されると,図5に示す1フレーム編集画面が 現れる.ただし,図5では簡単のため,指定したフレー ムのスペクトル包絡だけを示してある.1フレーム網 集画面には,指定されたフレームとその前後のフレー ムのスペクトル包絡が示される.この画面上で,マウ スを用いてスペクトル包絡曲線を描き変えることがで

きる.スペクトル包絡を描き終わると,後述のFFT(高

速フーリエ変換)によるスムージングが自動的に行わ れる.1フレーム編集におけるコマンドは以下のとお りである (1)前編集:指定したフレームの1フレーム前を編集 する. (2)後編集:指定したフレームの1フレーム後を編集 する. (3)再編集:編集したフレームをさらに編集する.

(4)後に複写:編集したスペクトル包絡をその後ろに

複数回複写する. (5)フレーム変更:編集するフレームを変更する. (6)編集終了:lフレーム編集を終了する. 〈FFTによるスムージング〉 マウスを用いて手作業で滑らかなスペクトル包絡を

描くことは容易でない.そこで1フレーム編集では,

FFTを用いて自動的にスペクトル包絡のスムージング を行う.図5の水平の破線で示したように,強調した い山や谷の部分に数点の値を与えておくと,これらの 点を滑らかに結ぶ補間曲線がえられる. この処理は次のように行われる.まずスペクトル包 絡をFFTにより逆フーリエ変換し,ケプストラム係 数を得る.次に,ケプストラム係数の低ケフレンシー 部(0~29次)をそのまま残し,高ケフレンシー部の 値をOにする.このケプストラム係数をFFTにより フーリエ変換し,スムージングされたスペクトル包絡 を得る. なお,本システムの合成部においては,ケプストラ ム法に基づく合成が行われるので,ここで作成された 滑らかなスペクトル包絡,すなわち0~29次のケプス トラムと同じ特性の合成音が作成される. 図51フレーム編集画面 =凸一匹ロ■〃■‘-J▲&■宅=Ⅱ ̄割面面で= ̄ ̄ ̄ ̄ 【。 B】 8 4 0 0 012345[KHz】

● /、 /画

・ドノ

、 ̄

 ̄へ ■●■●●●●白●●●

1Mj馬::!(;{1A:、

、_

D:瀞:=9(:鰻rペ

藷::、Nw篝:こニニ

穐空戸…ピンーー: ヌーユー形河ピロヲfUPT ̄手六L、▲ ←繭89類lト後狙銘Ⅱ再網錐11後に菰写1ルーム変更11栂鍋$子了1

(7)

高良・山城:DSPを用いた音声合成スペクトル・エディタ 224 [ソナグラム編集] 1フレーム編集は,特定の時間位置の音声信号のス ペクトル包絡特性の編集を行うものであった.しかし, 音声の特徴の時間変化を表すスペクトル包絡の推移, 変化について検討することは,子音や単語,連続音声 の音韻性を調べる上で重要である. 時間をパラメータとして取入れ,音声スペクトルの 時間変化を視覚的に分かりやすい形で表示したものは スベクトログラフと呼ばれ,その代表的なものに,ス ペクトル強度を画像の濃度で表したソナグラムがあ る. 本システムのソナグラム編集では,ソナグラム上で, 通常の文字エディタと同様にⅢ`削除,,,“複写'1,“移動0, を行えるほか,山や尾根を作成する“詳細編集,,,作 成した山や尾根を滑らかな包絡にするための時間軸方 向の“線形補間,',周波数軸方向の“FFTによるスムー ジング,,といった操作も行うことができる. 図6にソナグラム編集画面を示す.ソナグラム編集 は以下の6つの編集処理で構成されている. (1)削除:指定した2つのフレームの間のフレームを 削除する. (2)値挿入:指定した2フレーム間に一定の値を挿入 する. (3)複写:指定したフレーム間のデータを指定したフ レームの後ろに指定した回数だけ複写する.ただ し,システムの扱える最大フレーム数を超えると きには警告を発し,処理を行わない.ピッチ,有 声/無声判別結果,パワーも複写きれる. (4)移動:指定したフレーム間のデータを指定したフ レームの後ろに移動させる従って,編集前後で 全フレーム数は変化しない.なお,ピッチ,有声 /無声判別結果,パワーも移動する. (5)詳細編集:ソナグラム上の任意の位置に,選択し た値を設定する.設定値の与え方は,ソナグラム の右側に表示きれる階調バーによる方法と,キー ボードから任意の値を設定する手入力の2方法が ある.詳細編集によって,山や尾根を自由に作成 することができるので,疑似的なホルマントは容 易に作成することができる.しかし,手作業で作 成きれたスペクトル包絡は急激に変化しているの で,(6)のスムージングによって滑らかな包絡に しておくことが必要である. (6)SMOOTHING:全フレームについて1フレーム編 集で述べたFFTによるスムージングを行う. (7)線形補間:指定した区間を,その区間の始点と終 点の値で時間軸方向に線形補間した値で置き換え る. (8)編集終了:ソナグラム編集を終了する.ただし, ここで,“再編集”や‘`編集結果の破棄,,を選択 することができる. 図6ソナグラム編集画面 Ffb」$&】エソフプヨプム砥』臣 r  ̄q 41 S 2 1 ②. Fr・eq[kHエコ 今FU~SⅣ②[X1コ CIB 罰 淀 浬 舞 」: 。 ‐■ 召ユ 6勺 蕊驚母 。.しみロか辻・岱鈩‐が。 ■kFや■■G■歴這訂訣■証 領鰯典灘瀬鵡 0句訓孔別9.砧矼 ..、擁.・鱗.o雛奮 轤撚鑪蝿 ルニ: メニューをⅦ ]尺し ̄し「さ(、. iiU隙Ⅱ Ni価入 liH写Ⅱ移HhⅡ!¥麹担猛IISNOOTM1NcⅡ控腿益間Ⅱ2厘生獅〒

(8)

[ピッチ編集]

ピッチ編集では,ピッチおよび有声/無声判別結果

を編集することができる.ピッチ編集画面を図7に示

す.ピッチ編集におけるコマンドは以下のとおりである.

(1)ピッチ編集:ピッチ周波数の時間変化パタンを,

マウスで描き直すことにより編集する.

(2)有/無声:画面下方に有声区間が点で表示されて

いる.マウスを左クリックすると有声に,右クリッ クすると無声に変化する. (3)戻る:ピッチ編集を終了する. [パワー編集] パワー編集では,パワーの時間変化パタンをマウス

で描き変えることにより編集することができる.図8

にパワー編集画面を示す.そのコマンドは以下のとお りである.

(1)編集継続:編集結果を画面に残し,もう一度編集

する.

(2)再編集:編集前のパタンを画面に残し,もう一度

編集する.

(3)編集破棄:編築結果を破棄し,編集前の状態で終

了する.

(4)終了:編集結果を採用し,処理を終了する.

の合成を行う.本システムで採用している音声合成方

式を図9に示す.

本システムにおいて,分析ざれ編集されるものは,

スペクトル包絡の時間変化パタン,ピッチ周波数,有

声/無声の判別結果,およびパワーであった.合成部

では,まず,これらのパラメータのうち,スペクトル

包絡とパワーを合成用フィルタに適合する形式に変換

する.スペクトル包絡は逆FFTによりケプストラム係

数に変換される.このとき合成に使用されるのは,ケ

プストラムの低ケフレンシー成分(1~30次)である.

またパワーとしては,ケプストラムのゼロ次の係数を

用いている.従って,編集きれたパワーは,ケプスト

ラムのゼロ次の係数として使用される.

合成フィルタの音源には,ピッチ周期Piのインバ

ルス列およびM系列雑音が用意されており,有声区間

では前者が,無声区間では後者が選択されるフィル

タの入力における音源パワーを一定に保つために,イ

ンパルス列に対して常にV~アマが乗算される.またフィ

ルタの特性を与えるケプストラム係数は,無声区間で

は1フレーム毎に更新されるが,有声区間では,ピヅ

チパルスの発生する時点で,その前後のフレームのケ プストラム係数の線形補間によりその時点のケプスト ラム係数を求め,1ピッチ周期内は一定に保たれる.

合成フィルタとしては,対数振幅特性を2乗平均誤

差が最小となるように近似できる対数振幅近似フィル 3.4合成部

合成部では,分析,編集きれた特徴量を用いて音声

図7ピッチ編集画面 「U[CnLnZJ 300 250 200 150 100 50 0 -CSP■--f、Pロ、 ■ロ。●●●●●●■●●●●●●●SのOS●の●●●●●●CDの●■し白■■■■の。●●●●■p●●■●■●⑪●●●●●白■Deep、□●●■■●●●●■白●凸の●●●●●●●●■白●■■■●■■●● ●●●●●●● ̄● ̄ ̄白一●●■■。●。●●●●■の巾⑥●●●●●●●由●●●P●●●●●●●●●●●●●●。●●●●●●●●●●●●●●●●●●●●●●●●●●●●●の●●●●●●の●●。 ̄●●●●●●■----==刀●●■●●●● ■■■■■■●■●●●p●●●cCC● ̄の■勺中■●●●●●●■■ ̄●●●●●●●●●●●●●●●●。■⑪●●■●●●●●●●●●⑤⑤●⑤●●●●の●C●●●●●●●⑪●C●CGS●●■-。■。。●●●●●●●①⑪。■●ごニゴCO●, U■■ODpd●CCCDPDD■ F▼■'十巴■四ロローグー曙ロロ已二、

(9)

高良.山城:DSPを用いた音声合成スペクトル・エディタ 226 図8パワー編集画面 ケプストラム 係散c【』][l] 有声/纂声 *UIB1姑観 b【I] J7戸

-9)て』

ピッチ周期 pI CoDCOoCn,CDU・・・C閃 ○ 合成 波形 図9合成システムの構成 出力部は,音声波形出力と特徴通出力とからなる. (図2参照) [音声波形出力] 音声波形出力画面を図10に示す.ここで使用できる コマンドは以下のとおりである. (1)印刷:4つの波形をプリンタで印刷する. (2)拡大表示:4つの波形から任意のl波形を選択 し,その振幅を拡大して画面に出力する.拡大し た波形は,印刷,D/A変換することができる. (3)保存:4つの波形から任意のl波形を外部記憶装 置に保存するファイル名は,MS-DOS形式にし 夕[3]を用いた.これにより,スペクトル包絡に対す るフィルタの特性の誤差が,聴覚の特性にあった対数 目盛り上において一様に小さくなり,スペクトル包絡 の時間推移で決まる音声の音韻的特徴を精度よく表現 できる.またフィルタは,沖電気社製のディジタル信 号処理プロセッサMSM6992を用いて構成し,処理速 度の高速化を図った. 波形が合成されると,直ちにD/A変換を行い,合 成波形を表示する. 3.5出力部

_」

垣生企パn一也煙 [dロコ iB 5 r7TT=1N『藁~甲可 PoweT【28]85.131[。B】→4.700[。B] 2Bフレーム中28フレームの99桑です. →frame[X 1コ  ̄ ̄■■ ̄勺 ̄ ̄ ̄ ̄■■■■ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄---- ̄ ̄ ̄ ̄--■■ ̄●■■ ̄ ̄ ̄■■ ̄ ̄■'■、 ̄ ̄ ̄ ̄ ̄ ̄■■ ̄■■ ̄■■ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄■■■■■ ■■■■ ̄■ニー==--■■ ̄ ̄ ̄■■ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄■■■■ ̄ ̄ ̄ ̄ ̄ ̄■、■■■■'■■■■ ̄ ̄■■ ̄■■■■ ̄ ̄ ̄ ̄ ̄■■ ̄■ ̄ ̄ ̄ ̄-- ̄ ̄■' ̄ ̄ ̄ ̄● ■■ ̄d■二■ ̄■■ロ‐ご牢=~b ̄ ̄■■ ̄■■■ ̄ ̄ ̄- ̄ ̄■D■■ ̄■■■■■■ ̄ ̄ ̄ ̄。 ̄ ̄ ̄■、■■ ̄ ̄ ̄■■■■■ ̄ ̄ ̄■ ■ ̄ ̄■-,口■■■■■■■■ ̄ ̄ ̄ ̄ ̄ ̄■■■、 ̄ ̄ ̄ ̄ ̄ ̄ ̄■■ロ■■、■ ̄ ̄-- ̄ ̄■■ ̄ ̄ ̄■■■■■■■■■■ ̄ ̄ ̄ ̄ ̄■  ̄ ̄■=コー ̄■■ ̄- ̄ ̄ ̄■■ ̄- ̄--------■■ ̄ ̄ ̄----,----- ̄-戸■■■■■■ ̄ ̄ ̄ ̄--■  ̄=」 ̄ ̄● ̄ ̄■、■ ̄ ̄ ̄ ̄■-=⑪-■■■■■■■■.■■ ̄ ̄--■■ ̄■■---- ̄----- ̄■■ ̄ ̄ ̄-■■■■■■-- ̄6 =-■D■■------■■-----■0--■-■-----■■-----■■---.■■-■■------■■■--■■ ̄----■■--■■ ̄ ̄U D-_」■コーー■■●-.=■,■■--------■■------■■----■■■■■ロロ-----■■■■-■■■ロー■■■■-■■------ ̄ ̄■■ ̄ロ ニニーコ■-口■■■■■■----■■---- ̄■-■、-----■■■■-■■--■P-■■------------■■‐ ̄- ̄----Ⅱ■ ̄ ̄● ̄ ̄ ̄■■' J-司一か垂UhPI」T-F声L、ロ E里UBI2匹Z割U2、呂匹?」6H1唾刀珪伍句■生ⅡⅡ▲牙U、 M系ヮ11パル ス発生器

(10)

たがう. (4)④へ出力:①ACTIVE,②原音声,③合成音声の いずれかを④バッファーへコピーする. (5)④→①:④バッファーの波形を①ACTIVEへコ ピーする.

(6)、/A:4つの波形から任意のl波形を選択し,

D/A変換する. (7)戻る:音声波形州力を終了する. [特徴量出力] 特徴量出力画面を図11に示す.ここで使用できるコ マンドは以下のとおりである.

(1)保存:表示されている特徴屋を外部記憶装置に保

存する.ファイル名はMS-DOS形式にしたがう.

(2)印刷:表示されている特徴量をプリンタで印刷す

る.

(3)3D表示:スペクトル包絡の時間系列を立体表示

する.表示結果はプリンタで印刷することができ る. (4)メインへ:メインメニュー画面に戻る. す.ここで使用できるコマンドは以下のとおりである (1)印刷:4つの波形をプリンタで印刷する. (2)拡大表示:4つの波形から任意のl波形を選択 し,拡大して画面に出力する.拡大した波形は, 印刷,D/A変換することができる

(3)保存:4つの波形から任意のl波形を選択し,外

部記憶装置に保存する.ファイル名は,MS-DOS 形式にしたがう. (4)ACTIVEへ:バッファー①~③のいずれかの波形 をACTIVEへコピーする.

(5)BUFFERへ:ACTIVEの波形をバッファー①~③

のいずれかへコピーする.

(6)D/A:4つの波形から任意の1波形を選択し,

D/A変換する. (7)戻る:メインメニュー画面に戻る. 3.70S-SheIl OSへぬけ,MS-DOSのコマンドや実行ファイルを実 行することができる.これにより,MS-DOSのコマン ドラインから実行できるソフトウエアは,すべて本シ ステムのコマンドと見なすことができ,システムの汎 用性が大幅に増す.OS-ShelIから本システムに戻る ためには“exit,,と入力する. 3.6聴取実験システム 聴取実験システムでは,音声波形のバッファーを3 つ用意し,作成した音声を相互に聴取して比較できる ようになっている.聴取実験システム画面を図12仁示 LL印HガリヨHmE-霊~示IFFH可早ヨnm ̄六~田~ヲ71「U可~=で、 ̄1rB-フー瓦三コF罵一 図10音声波形出力画面 旨画Wh【、2:lrB刀 FIC,く つ2⑤eQ -2eS IUMn -ZBg lUIlFb 9 s a B 2 Na× +29□□ 曰 -2eSg Htn H ◆ 2 =三Seg Hiri

而一X5T77面-コ

血二両~喬-百可 画=~香~扇菩~雷I 画一7Tテヲーヲ1 0.800[s】 0.300[g] 0.280[g] 0.266[色1 TI TA Tl TI mC ◆ mC 今 m● の mC 中 _.■DDIⅡ」L」LhQI --l--_▲--__

I[Ⅲ Ⅲ|Ⅱ

、ワ ■ IMMInOOOIIp.....01 。▽UUCU。ワU ロロ、 OD9oV IUIIII1、ワ「IuouD■G△▲ OLj-」L1 _ロL-.1-,“qOu.」▲』.-.口、--IpP「でIF・P「「rPr「『「 0. 「,( IT 。「『1,.「 ̄「・rTTr、Owrアワ゛「 IDGロ 00 ■▲▲--L△LL .」. U UU lhIln■qnUIoBp.、.. p qU LL■▲■ OB。■■ _し_凹ローーー--.-口-._。」.■Db-h-■▲ロ.△△ ▼~■ ̄守マー_~司可已守■  ̄ 00ロロ■..

諄歳=、湿弓E-霊宗,戸硬可呈ヨ、一六-m‐評7T耐、=万,ヨ、-フー冠→F-

(11)

高良・山城:DSPを用いた音声合成スペクトル・エディタ 228 図11特徴量出力画面 図12聴取実験システム画面 咄プ可→q容蹴缶の」+(ラh Sa - -■ 凸。 3゜ 皀・ ユ。 ②。 ② 堂e② ユes ⑥ ユ巳 S: ② 戸「。.←cUEkH=. 。E

 ̄ FFam②[又エコー ■.1℃缶lq[HZ。 -Fトユ、、=[、。(1コ ~__--- ̄ ̄_ iノ1ノljIl  ̄CLDpLE2L宝」戸一■斤一「、rql

厘呈霊罵冒三重ZZ壺蚕EH室三重三三更蚕:重重扇冤=悪寒毒三三三三三三悪烹議壹議ヨ

悪--争匿二三労ニーーニーニ=一三写苧===生=含ゴー- 0。■njUb砂坤B0D0QC□▲●可0F●●Pq●●甲ロー■--■■■◆0■■■■■函●■曲■●■■■-■■■■■■b-Fq■ ̄■~■…-●ppc■P■。■q■。■●●■■●■● ■■L西。■0■●■■函■■■■■●■●■■■□■■■ ̄■ ̄■■ddp■▲■。■■凸凹0■cPP”bgP。b■■-。?●H-◆-●。●旬LO■q○qUq。◆ ̄●■、■■O●s凸■。②。~■●●■■0唖□0 00門fo『VDPDr0Dor●ロロザ・DpT◆ロ市■BWo■・沮肉僻VDP■PpDcPo■・守■配V・ロロャODDvUquV□n・守拍or行■・守□■■P・ロ・ャ・■・bP ■■ ̄■ ̄B●■ ̄■画■■●● ̄ ̄。●■■●。。 ■●●■■■■和■■ ̄■●b-凸、印画■■■●●。■ ■■■げ゛■■P■■■V●dcPⅥゆぜ。■らわPが トー ̄ ■B■■■■■■■ “■ ̄■ ●廿剪 ご泊 ~マーーーー司戸=----.---~~ ̄-- ̄===~~・------~----~~ ̄---百■■■■■ ̄■■■ ̄ ̄ ̄■ ̄=■■● ----■l■■■■■ ̄■■■--■■■■--- ̄-----,■■■ ■。■●■■ ̄■■■■■■●ODC■ ̄■ぬ■on ̄■■■ロー■■■。。●■知●●●● ̄□■●可宙一■■Ⅱ■ ̄■■■■■□q■■■。q宙。 ̄ ̄D■■“●■■●・ ■◆PP●■●知旬一■■ ̄ ̄-6-6●■■凸。●~dQ。。●■ ̄…■■■■■ ̄■■ ̄坤岸DbPc-● ̄●■#●缶いい■●●● ■●■ ̄●■“■ ̄■■●■■ ̄■●■ ̄■=■ ̄■■■■■■■・ ̄4●□■●●●叩印■●ロー角一戸山一■■■■■■■B■●q■ ̄--U ̄ ̄←qdq 印芭-■句廿●■■中●■■■■餌■◆--m ̄陣●●■■■■ ̄ ̄ ̄■■■■■■■ ̄■-勺閂PCし●■①pbbb■■■■=■b■■■…■。■■ メニュー老選択して 戸六い_ 保存11印刷 1月、実詞lゴィッヘI qHHHI癸罰氏 IvIax +2BB 一色⑨ □ ② S□ H8n Flユ× +二○巴。 B - ̄■■ ̄ -,ニヒメリリ PUIiIPU IdIax +ZBB -2eS Hin IvIax ◆且GB B B S -2Ce IUIih B 2 垣 ACTIVE バッファ①0.276[s] バッファ②0.166[s] バッファ③0.150[s〕 0.742[S] Tim②  ̄ Time → Time 手 Time - ■0●4 _夕 A-A-lu」・人,h上l`_'0甦|,.. B・■ DB□ DHL IQL ID』 FD 1. ごvvq、roIrvI1。.TvvVVI1NI1 ̄UV IlOhDロロ■ UDI ■■

MMLllKml`,l_Ⅲ

公h ■」

』△LLI1

凸01△‘ ,■凸一 UV『W0.WruiIlⅦIリWllU・VIIWYVUYWWUリリ1UIl-iWY ⅡODUロロロロ■ ■■■OUU■0U 」`_Lヘム八.BAA八■AAA▲ハユー ロ0 V

V YV`YYy.

■0C□00uU uAl」皿‘.」U4MHUL.。10」血.&」四J」」」・‐‘」.HUlIU」LljL,北! H1 '’'1lI

11

1「 P 00

ⅢI

Y・・u 、、

「11Ⅱ

IF・面 11

11「「11

l「 ズニユーモ選択して ・壱い・ 印刷Ⅱ拡大表示 I保存llACTIvEへ lBUFFEnへⅡD/All戻る1

(12)

5.評価・検討 文献 作成したシステムを3人が使用し,“対話型コン ピュータ・システムのユーザー評価シート',[4]を用 いて本システムの評価をした,評価シートは22項目の 質問事項からなり,各項目について11段階で評価する ものである.まず,最初に作成したシステム[5]につ いて評価を行い,この結果に基づき改良を加えたシス テムで再び評価を行った. 主な改良点は以下のとおりである. (1)改良前のメニュー選択の深さは,各サブシステム によってまちまちで,深き3以上のものもあり, サブシステム相互の移行が面倒であった.これを, 最も深いもので深さ2とするようにした. (2)大きなメニュー項目画面を使用したため最下層の メニューを選択するまでデータが見えなかった が,メニュー項目を画面の最下段に表示し,常に データが画面上に表示されるようにした (3)聴取実験システムおよびOS-Shellを追加した. (4)キー入力ミスに対してシステムが必ず警告を発す るようにした. (5)マウスのクリックにおけるチャタリングを極力抑 えるため,時定数を設定しなおした. これにより,評価シートの大半の項目について評価 値が高くなった.特に,“画面のレイアウトは常に作 業をしやすくしていますか,,と,“画面の表示順序は 明らかになっていますが,の2項目については,3人 とも評点が大幅に向上した.しかし,“動作速度", “作業と操作のイメージを近くする,,等の項目はまだ 評点が低い. [1]L・RRabiner&R,W、Shafer署鈴木久喜訳: “音声のディジタル信号処理(下),,,pp、135-140, コロナ社(昭58-04). [2]阿部,今井:“CV音節のケプストラムパラメー タからの音声合成,,,電子通信学会論文誌(DL J64-,,9,ppB61-868(昭56-09). [3]今井聖:“対数振幅近似(LMA)フィルタ'', 麺子通信学会論文誌(A),j63-A,12, pp886-893(昭55-12). [4]BShneiderman箸東基衛,井関治監訳: “ユーザー・インターフェースの設計,,,日経マ グロウヒル社(1987-12). [5]山城辰也:“DSPを用いた音声合成スペクトル・ エディタ,',琉球大学工学部電子・情報工学科卒 業研究中間発表会子稿集(B)(1989-11). 6.むすぴ 音声の音韻的特徴を調べるため,音の三要素である ピッチ,パワー,スペクトル構造の時間変化パタンを 編集し,聴取実験のための任意の音声が簡単に合成す ることのできる,音声合成スペクトル・エディタを作 成した.本システムでは,DSPを使用することにより 音声合成を高速化した.さらに,作成したシステムの 評価試験を行い,ユーザー・インターフェースについ ても考慮した.このシステムはこれまで,人工内耳シ ミュレーションのためのホルマント合成器として,ま た琉球方言の音声分析機として有効に利用きれてい る.

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

④日常生活の中で「かキ,久ケ,.」音 を含むことばの口声模倣や呼気模倣(息づかい

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom