• 検索結果がありません。

音声合成技術の現状とその応用

N/A
N/A
Protected

Academic year: 2021

シェア "音声合成技術の現状とその応用"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

U・D・C・〔534.782‥る81.323〕:[る54.922.8‥る5占.52.072.7:る21.87る]

音声合成技術の現状とその応用

一一エレベーター・エスカレーターへの応用-Speech

SYnthesizing

TechnologY

andlts

Application

-Application

to

Elevator

and

Escatator-音声合成装置は機械から人間への苧竿報,案1 ̄勺,指ホなどを出力し,人間と機械の インタフェースを容易かつ確実にするもので,通信,コンピュータ,産業機器など 広い用途をもっている。しかし,従来は音声合成技術が一般に普及していないこと, 回路規模が膨大で高価なことから,ごく限られた用途にしか実用化ができなかった。 この課題に対し,LSI技術によって1チップ化,低価格化を図り,性能的にも産業 用,コンピュータ用にも活用できる高件能をねらい,音声f㌢成の特長を生かした機 能も開発して用途の拡大を図った。 本稿では,音声合成方式の原理とシステム構成の概要について述べ,そのん日用分 野と代表的な実施例として,エレベーターへの応用について紹介する。 lI

言 音声イナ成装置は,機械から人間へのコミュニケーション,す なわち警報,案内,指示などを音声によって瞬時に確実かつ 安定して汁けJできるという特長をもっており,通fi三,コンピ ュータ,産業機械,自動卓,時計,教育機器,′家電品などの 機能向ヒに広い用途をもっている。Lかし,従来は音声ナナ成 技術が一般に普及していなかったこと,回路規模か膨大で高価 なことから,ごく限られた用途にしか実用化されていなかった。 F二J立製作所では,その将来性に音主目し,音声合成部の低価 格化,高惟能化及び応用の拡大をH的とLて音声知友LSIの 開発を計画し,昭和53年秋から研究を開始した(〕 音声でナ成法としては,日本電信電話公社で発明され,現冶三 世界の土i克となっているPARCOR(PartialAutocorrelation: 偏自己相関)法1)を採用し,日本電信電話公社の適切な指導に より,昭和54年9月に国内で初めて音声でナ成LSIの開発に成 功し,昭和55年2月から量産に入り,音声端末装置,エレベ ーターの音声案内,自動卓ヂ写幸艮装置,音声時計付ラジオ,珠 算の読上算練習器などに実用化し,更に現在広く産業用,通 信用,コンピュータ用からノ家庭電与ミ品用に至る圭で広い分野 で才采用されつつある。 以下,音声合成法,開発LたLSI及び応用の一例としてエ レベーターの自動放送装置につき紹介する。 凶 音声合成の方式 PCM(パルス符号変調)は,ディ ジタル通イ言の代表的な方 式である。しかL,1秒の音声を再生するのに64kビット程度 のデータ量を必要とするので,音声(ナ成にはあまり使われな い。そこで,データ量を圧縮するために音声信号の定常性な

どを考慮して,能率の良い符号化が行なわれる。音声サンプ

ル値と前のサンプル値との差を送ることにより,呈了イヒビッ ト数を減らしたDPCM(DifferentialPCM:差分PCM),振 幅の大きいところでは量子化幅を大きく して信号変化に追随 するようにし,振幅の′トきいところでは量了一化幅を′トさくし,

弓仲武雄*

三瓶

徹**

野宮紘靖***

中田和男**** 几んe()施mざれαたα T∂r㍑Sα肌pe言 〃froyα5祉ル)mg〟α 血ヱ〟0 脱兎α丘α 小さなイ言号変化を再現できるようにしたAPCM(Adaptive PCM:適応PCM)やADPCM(Adaptive DPCM:適応差分 PCM)などが一般的である。しかし,いずれの方式も符号化 に工夫はあるものの結局は波形を伝送したり,記憶再生をし ているにすぎない。 一方,音声信号の波形ではなく,原音声から音声を特徴づ ける幾つかのパラメータを抽出しておき,そのパラメータか ら音声を合成すると,大幅にデータ量を′トさくすることがで

きる。LPC2)(Linear Predictive Coding:線形予測符号

化),PARCOR,LSP3)(Line Spectrum Pairs:線スペクト

ル対)やCSM4)(Composite SinusoidalModeling:複合正弦 波)と呼ばれる方法がそれである。 更に,データ量を小さ〈する方法として規則合成が挙げら れる。先に挙げた方法が原音声を手本にLて晋を合成するの に対し,規則合成では手本なしに規則だけで音声を合成する ので自然な韻律を与えることが難しい。 図1は,各 ̄方式を必要データ量(ビット/秒)軸上に並べた ものである。音声合成の性能をさ央めているのは,音質とデー タ量である。PCMなどの波形符号化法はデータ量さえ増せば 音質は良くなる反面,データ圧縮が難しし、。PARCORなどの パラメータfナ成■法は,データ量を増しても音質には限界があ るものの,2.4kビット/秒というデータ伝送の情報量程度まで 圧縮しても,実片=二耐えられる音質が得られる。 日+土製作所では,合成音の品質が良いこと,分析合成が完 全な逆操作として定量的に対応でき計算処J翌が行ないやすい こと,昭和47年ごろから日本電信電話公社通信研究所の技術 指導を′受けたことなどの点から,音声合成法としてPARCOR 方式を採用した。 8

PARCOR音声合成システキ

PARCOR音声合成法で用いられるパラメータは,PARCOR 係数である。PARCOR係数は,数学的には音声波形の偏自己 * 日立製作所水戸工場 ** 日立製作所家電研究所 *** 日立製作所武蔵工場 **** 日立製作所中央研究所工学博士

(2)

波形符号化 パラメータ合成†・・・,・・・・・・,・・・・・・・,,,・・・・・・・・・・・・・・・--、●ト規則合成 100k lO良 P()M ABP()M (パルス符号変調) (適応DPOM) DPC;M (差分PCM) DM ADM (デルタ変卸 (適応D剛 PARCOR (偏自己相関) LSP ぐ線スペクトル対) eSM (複合正弦波) LP〔〉 (線形予測) 1..k... 19.q データ圭 ビット/砂 図l音声合成方法と必要データ量 波形符号化法とパラメータ合成法の境界は10kビット/秒である。規則合成で使用するパラメータもPARCORやLSP であることが多い。

相関係数であるが,物理的には声道(声帯からくちびるまでの

範囲)を多段の円筒管でモデル化したときの反射係数で,音声 合成の過程は実際の人間の発声機構によく似ている。 音声は図2に示す声帯,口こう,舌,くちびるなどの器官 によって作られる。まず声帯が持続的な振動を起こすと,呼 気流は脈動的に振動する。この脈動の周期は声の高さを決定 しておF),男声の場合100-150Hz,女声の場合が250∼300Hz で,この呼気i充が口こう,くちびるで固有の共鳴特性が与え られ,音声となって放射される。 図3はPARCOR音声合成法での声道モデルを導く過程を示 している。声帯の部分からくちびるに至る声道は,長さ15∼

)津

声道 声帯 呼気の腋動 図2 人間の発声機構 声帯で引き起こされた呼気の脈動は.声道の共 鳴特性を与えられ,口から音声として放射される。 17cmの太さの変化する円筒管としてモデル化できる。円筒管 の接続部では,インピーダンスの不整合があるので吾が反射 し,共鳴特性が与えられる。これを電気回路に置換したのが 同図(b)で,音波のi売れを進行波と後退波とに分け,それぞれ からだ∫なる反射係数で反対側の波に加えている。これらの演 算はすべてディジタル値の乗算,加ざ成算の組合せで行なわれ る。あらかじめコンピュータなどで分析して,メモリに収納

しておいたPARCOR係数(声道をモデル化したときの反射係

数),音量,音源の種類と声の高さの情報を合成器に加えて合 成する。声道は緩やかにしか変化しないので,PARCOR係 数は一定の間隔(フレーム)で与えればよく,一般に10∼30ms 反射波 恕廿 戸r市l 音源 進行波  ̄…後退波 進行波 伝)声道モデル + 尤.18

_.__事

+ 尺沌

錐還波 (b)PAR(∋OR音声合成フィノレタ

+ + 伝搬時間 図3 声道モデルとPARCOR音声合成フィルタ 口唇

出力 ∬1 〟 声道は,太さの変 化する円筒管としてモデル化できる。円筒管の接続部でのインピーダンスの不 整合により告が反射し,共鳴特性を与える。これを.電気的に(b)図のように乗 算器,加減算器で構成する。

(3)

音声合成技術の現状とその応用 407 音声合成LSl 声道フィルタ部 インタフ ェ ー ス 部 源 土日 パイプライン乗算器 加 減 算 器 P 道 損 失 遅 延 回 路 変換表 補間回路 マイクロコンピュータ メ モ リ 部 図4 音声合成システムブロック図 が用意されている。 ディジタルアナログ変換 出力 マイクロコンピュータは汎用の4ビット又は8ピットが,またメモリは大量生産用に専用マスクROM(128kビット) が選ばれる。1フレーム分のデータはPARCOR係数,音源 情報合わせて50∼100ビットで済むので,1秒間の音声は1k∼ 10kビットで合成でき,単純なPCMに比べ大幅にメモリを節 約できる。 日立製作所の音声合成システムの仕様とプロ、ソク岡,音声 合成LSIのチップ写真をそれぞれ表1,図4,5に示す。シ

ステムは,(1)あらかじめ原音声からコンピュータで分析抽出

したパラメータを記憶するメモリ部,(2)パラメータから音声

を合成する音声合成LSI,(3)システムの動作を制御するマイ

クロコンピュータから成る。以下,本システムの特長につい て述べる。 表l音声合成+S工仕様 声道損失演算の採用や,男性声音と女性声音 で声道フィルタの段数を切り換えることにより,特に女性声書の品質が改善さ れている。 項 目 イ士 様 合 成 方 法 PARCOR(偏自己相関) デ ー タ 量 (= 2.4kビット/秒 大容量向け (2)4.8kビット/秒 (3)9.6kピット/秒 高品質 発 声 速 度 -60∼十30%10ステップ可変 声道フィルタ =)男性声音10段,女性声音8段 (2)声道損失演算 (3)演算精度15ビット 出 力 部 =)ディジタルアナログ変換 精度±8ビット (2)ディジタル出力15ビット (3)スピーカ直接賢区動 書 こ原 部 川 有声音はパルス又はSinZ血)王波 (2)無声音は13ビットM系列 (3)外部信号で声の高さ制御可

(1)合成音の品質向上

十分な品質の介成音を得るために,音声合成LSIの演算精 度は15ビットに設定した。演算ビット数を増加すれば,fナ成 書の品質向上が図れるのは当然であるが,回路規模から制限 を′受ける。コンピュータシミュレーションの結果,合成音の 品質向上が痛打ちになるビット数は15ビットであることが分 かり,品質と経済作を考慮して決定した。 また,従来の音声介成技術は一般に女性の声の合成を苦手 としてきた。しかし,我が国の市場では民生用,産業用を問 わず音声による情報のサmビスには女性の声が重要視される。 そこで,本音声合成LSIでは,女性の声のうち音質悪化の原 駁∴ 払欒抑j 図5 音声合成LS工 15ピット×10ピットの乗算器,加減算器,ディジ タルアナログ変換器などから成り約5.000ゲート,チップサイズは約6mmX5・5mm, プロセスはPMOSである。

(4)

因である鼻音などの合成時に生ずる振幅異常に対し,声道演 算に損失項を加えることにより晋質悪化を防止している。ま た,声道フィルタの演算段数を男惟10段,一女性8段と切り換 えた。フィルタの段数は声道の長さと考えられ,女性は男性 に比べ短いので8段とし,その分だけ各フィルタに与えるパ ラメータのビット数を増やして,音質の向上を図っている。

(2)機能向上

産業用から民生用までの広い応用分野を考慮して,音声の データ量は2・4k,4.8k,9.6kビット/秒と自由に設定できる 構成とし,顧客の目的とする合成音の量,品質に対応できる

ように配慮している。また,特殊な機能として,音の高さを

変えずに発声速度だけを-60∼+30%の10ステップに変えら れる機能を付加した。これは,教育機器などには効果的な機 能である。 田

応用分野

音声合成は,通信用,コンピュータ用,産業機器用,自動 車用,教育機器用,時計用,家庭電気品用,玩具用と多くの 分野で利用が見込まれている。その中でもJ芯用が多いと思わ れるものを選んで,図6にホす。以下,詳細に述べるエレベ ーター・エスカレーター用への応用のほかに,自動車用の苧警 報器,コンピュータ端末などへの利用は効果も大きく,実卿ヒ は近いと考える。 切

エレベーター・エスカレーターへの応用例

上述した音声合成LSIによる音声合成装置の応用として, エレベーターへの実施例を中心に述べる。 不特定多数の乗客にサービスするエレベーターは,その作 能・機能は年々高まってきているが,マンマシン性の一段の 向上を図るため,自動放送装置が注目されていた。 主なねらいは,エレベーターの位置及び運転状態を検出し た上で行なう通常運転のサービス案内のほかに,地震,火災 0。。 5。。 抑 1。。5。 加 10 感 郎

器 諏日 学 チ ッ ・オ ウ 端末

伝ヨ

クロック 玩具 コンピュータ エレベーター

∈∋

駅放送 エスカレーター

璽三藍

∈∋自動販売器

∈⊇火災警報装置

0.5 1 2 1語の長さ(砂/語) 4 5 図6 応用分野と音声の規模 自動車用の警報鼠コンピュータ端末, エレベーターやエスカレーターなどは効果が大きい。 図7 音声合成自動放送装置を設けたエレベーター 都内のビルに 納入したもので,エレベーターの運転案内放送などにより利用者から好評を得 ている「 1階到着 満 員 地震発生 ドア開閉レベー ー 制 御 装 置 入力情報 入力インタフェース 入力情報 マイクロコンピュータ アドレス 制御信号 音声信号 増幅器 音声合成LS】 制御信号 アドレス 音声合成・プログラムメモリ 注:略語説明 ROM(ReadO叫Memory)

スピーカ 音声データ 音声合成用インタフェース アドレス データ 体メモ ROM) タ用 (ROM) (ROM) 音声データ (ROM) 図8 音声合成自動放送装置構成図 エレベーター用として実用化し た音声合成自動放送装置を示した(コマイクロコンピュータで音声合成LS工が制 御される。書声データは半導体メモリ(ROM)にすべて収録されている。

(5)

時などで適切なセンサとの連動を図り,管制運転へ自動移行 あるいはその案内,更に万一一一エレベータ【の故障の場fナにも インターホンの取扱いなど,適切な処置法を東客に音声により 指示・案内し,安全性,操作件などの向⊥二を付加するもので ある。 図7に,都内のビルに納入した自動放送装置を設置したエ レベーターをホす。 5.1装置の構成 音声合成自動放送装置は,図8に示すとおり音声fナ成LSI, マイクロコンピュータ,音声データ用半導体メモリ(ROM:

Read Only Memory),各種のインタフェースなどから構成さ れる。 あらかじめ,放送すべき音声(榎音)を分析し,細山した特 徴パラメータを,音声データとしてROMに記憶させておく。 放送時は,エレベーター制御装置から入力インタフェースを 介して,マイクロコンピュータに案内放送の種別と放送する タイ ミングに関するデータが送られ,そのデータに其づいて 選択された放送内容を,音声fナ成LSIはROMの音声データを もとに音声を合成し,増幅器,スピーカを適して案内放送を 行なう。 5.2 処理手順と放送内容 本装置は,前述したようにマイクロコンビュ【タによって 制寺卸される。その主な処]哩手順は,

(1)入力信号を読み込む。

(2)音声合成LSIに初期条件を設定する。

(3)音声合成LSIに発声指示を与える。

(4)音声合成LSIの動作斗犬態を監視する。

であり,その全体フローチャⅦ卜を区19にホす()以下,上記

(3)の発声指示を与える部分について更に説明する。

音声合成のための情報は音声データ用ROMに記憶される が,案内放送の語句(文節)の組合せ情報をROMから読み出す には語句の組介せ情報のアドレスを指定することで可能であ 始め 入力信号読み込み なし 入力信号あるか。 あり 約10ms後,入力信号再読み込み。 なし 入力信号あるか。 あり 音声合成LSlの初期条件設定 音声合成+Sl発声 発声終了か。 終了 未了 匡19 音声合成自動放送装置全体フローチャート 自動放送装置を 制御するマイクロコンピュータの処理手順を,マクロのフローチャートで示す。 音声合成技術の現状とその応用 409 る。 エレベーター絹案内放送に使用する放送史は,あらかじめ 幾つかの語句(文節)に区切り,それぞれにインデックスコー ドを与える。このコードからデータのアドレスを知るために, 各コⅦドの語句の組合せ情報がどこのアドレスから始まるか を,図10に示すように-「覧表の形で記憶させておく。 放送したい語句のコードが入力情報から判別したならば, 上述のアドレス表を参照し,その組合・せ情報のスタートアド レスを知り,これをもとに音声†ナ成LSIはROM内のデータを 解読して目的の放送内容を発声する。 表2に,エレベーター用自動放送装置の標準放送内容と, 各々の放送を行なうタイ ミングを示す。このほかに同表にホ していない到着階など,オプションとして全部で24種≡鮨(約53 秒)の放送が可能である。 5.3!特長と主な仕様 本装置は,音声データ収録も含めてすべて半導体で構成さ れているため,長期繰返しによる音質劣化のないことはもち ろん,槻木戒駆動部がないため,従来のエンドレステープなど を傾川した方式に比べて,大幅な長寿命,メンテナンスフり 【,′ト形・軽量化などを実現した。このほか,放送文の頭出 しを瞬時に行なう高速アクセスができる大きな特良をもって おり,多椎類の放送が単一の装置で可能である。 表3に本装置の主な仕様をホす。 5.4 エスカレーターへの応用 デパート,スーパーマーケットなどに設置されているエス カレⅥタ一には,正しい乗り方など安全に関する担三意放送が 広く行なわれている。従来この放送装置は,一-一般的にエンド レステープ方式が用いられておリ1日中放送が続けられてい ることなどから,その寿命,保全性に問題がないわけではな かった。 /卜回実用化した音声合成自動放送業置は,これらの問題を すべて解決できるもので,エスカレーターへの応用は,最適 ス ル

ADl椛…・…・…・=

仙 ワノ ADい】 AD.\,.2 デ ー タ (AD八) (AD.\・+1) (AD.\・+2) 「ウエへ+ 「シタヘ+ 「マイリマス+ アドレス表 音声合成データ 区ItO 音声データ用ROMの構成 音声データは幾つかの語句に分割し, インデックスコードを付けて,特定のアドレスに収重責する。

(6)

表2 音声合成自動放送装置標準放送内容 標準放送内容と,その時乱 目的及び放送するタイミングを示す。 仕様 No. 放送時間 方丈送タイング 標 準 仕 様 l 上へ参ります。 約2秒 ホール行先方向案内 かご到着開扉完了後,放送。 ホール呼びリオープン開扉後,放送。 2 下へ参ります。 3 地下2階でございます〔, 素勺3秒 かご内到着階案内 かご到着前に放送し.放送終了後 l”3秒で戸開きを開始する。 4 地下l階でごぎいます。 5 l階でごぎいます。 約2秒 6 2階でございます。 7 3階でございます。 8 4階でございます。 9 5階でごぎいます。 】D 6階でございます。 lI 7階でございます。 12 8階でございます。 13 9階でございます。 14 満員です。後からお乗りの方はお降りください。 素勺5秒 ホール乗込注意案内 l10%過負荷検出で,放送。 15 ドアが開いたらエレベーターから降りてください。 約5秒 かご内管制案内 火災,地震.自家発電管制運転始動後. 放送。 16 インターホンの呼びボタンを押Lてください。 約4秒 かご内異常案内 かごが,ドアゾーン1よ外で停止し, 戸が開かないとき放送。 17 ドアが閉まります。 約2秒 戸閉め注意放送 ドアタイムカウント後,放送終了Lて 戸閉めとする。 表3 主な仕様 音声合成自動放送装置の主な仕様を示す。入力信号とL て,無電圧接点又はトランジスタ(オープンコレクタ)でインタフェースできる ため,汎用性がある。 項 目 仕 音声合成+Sl HD38880 メ モ リ PROM HN462716 電 ;原

AC柑0V二去呂%

周囲温度・湿度 一柑∼+4〔)℃,90%RH以下 入 力 信 号 無電庄接点又はトランジスタ(オープンコレクタ)×24 出 力 信 号 8Q負荷 IW以上 放送文章 数 24種類 記憶文節容量 53秒以下(データ圧縮2.4kビット/秒の場合) 再 生 方 式 PARCOR(PartialAutoCorrelaい0∩:偏自己相関)方 式による音声合成 アナウ ンサー 女性 といえる。既に案内用,注意放送用として実用に入っている。 更に,音声合成放送装置のもつ高速アクセス機能を十分に生 かして,通常運転時の案内放送のほか,エスカレーターの運 転状況などを監視するセンサとの連動により,適切な安全指 示放送,注意放送などを行なう新しいエスカレーター用音声 案内システムを開発した。これは,従来のエンドレステープ 方式と比較して,内容的に大きく飛躍したマンマシン性に富

んだエスカレーターシステムを可能にしたもので,今後の需

要増大が期待できる。 l司

言 数年前まで音声合成技術は,民生,産業分野には無縁のも のと思われていたが,LSI技術と結び付いて実用化の気運が -一一気に高まってきた。日立製作所の二最初の応用製品としての, 珠算の読上算練習器に続いて,本稿で紹介したエレベーター, エスカレーターに対する自動放送装置を実用化した。 今後の応用としては,玩具,学習器,一家庭電気製品,自動 車用警報器などの開発が進んでいる。更に思い掛けない応用 が次々と出現し,生i舌に楽しみを与え,より便利なサービス を提供したり,また機器のマンマシン件の向上に大きく貢献 するものと考える。 音声認識技術との結合により,音声応答システムなど更に 新しいシステムの展開も期待できる。 終わりに,種々御助言と御指導をいただいた日本電信電話 公社横唄賀通信研究所,同武蔵野通信研究所の関係各位に対 して深謝申し上げる。 参考文献 1)板倉,外:偏自己相関係数による音声分析合成系,日本音響 学会講演論文,2-2-6(昭44-10)

2)B.S.Atal,S.L.Hanauer:Speechanalysis and synthesis bylinear predictiol10f speech wave,JASA,

50,637(1971)

3)板倉,外:LSP音声合成器の原理と構成,日本音響学会音

声研究会資料,S79-46(昭54-11)

4)嵯峨山,外:複合正弦波による簡易な普声合成法,日本音響 学会講演論文,3-2-3(昭54-10)

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

Pretazettine(45)(式11)はクリーン型ヒガンバナ科ア

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

5Gサービスを実現するRANの構成と,無 線アクセスネットワーク技術としてLTE-NR Dual Connectivity *7 ,Beam Management

音節の外側に解放されることがない】)。ところがこ

山砂、山砂利及び砕石等とするが、サイド ドレーン及びアンダードレーンを必要とす

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

 TV会議やハンズフリー電話においては、音声のスピーカからマイク