文節音声データベースの作成

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

文節音声データベースの作成

樺澤, 哲

松下電器産業株式会社中央研究所

原, 紀代

松下電器産業株式会社中央研究所

高木, 英行

松下電器産業株式会社中央研究所

坪香, 英一

松下電器産業株式会社中央研究所

http://hdl.handle.net/2324/4479716

出版情報：日本音響学会講演論文集, pp.19-20, 1986-10. 日本音響学会バージョン：

権利関係：

(2)

1‑3‑10

文細音声データベースの作成x

樺澤哲〇原紀代高木英行坪香英一（松下電器・中研）

1 まえがき

我々は、文節単位で区切って発声された音声（文節音声）を認識できる音声認識装置（連続音声認識装置）の開発をすすめている。今まで、単語音声データベースを用いて、アルゴリズムの開発および評価を行ない、アルゴリズムの有効性を確認してきた [1]。アルゴリズムを改良し、実際に文節音声で評価するために、文節音声データベースを作成したので報告する。

2 発声の仕方に関する指示と発声速度の関係

今までの経験から、「発声の際に与える『発声の仕方の指示』によって、同じ指示であっても、発声速度に個人差がある」ことが明かである。そこで、できるだけ

ゆっくりで、しかも発声速度の個人差がでにくい「指示」を検討した。

指示として次の3つを想定し、男／女各15名にそれぞれの指示を与えて、各指示毎に2種類（合計6種類）の文章を読ませて録音し、録音された音声の中から（時間短縮のため）特定の文章をデイジタイズして、計算機上で 1モーラあたりの時間長を測定した。なお、指示と文章の対応は、カウンターバランスしてある。

［指示の内容］

1 ... はっきりと発声してください。

2 ... ていねいに..発声してください。

3. 指示無し。

測定の結果、ていねいにが、..ゆっくりで個人差が比較的現われにくい指示であることが明かとなった。測定結果のまとめを表1に示す。但し、表1において、

ゆっくり／ふつう／はやいとは、各指示に対する各人の相対的な発声速度である。

表1 測定結果のまとめ

ゆっくりふつうはやい

指示なし

，

₁₄ ₇

（男4:女5) （男6:女8) （男5:女2)

はっきりと 7 8 1 5

（男3:女4) （男5:女3) （男7:女8)

ていねいに 14 8 8

（男8:女6) （男4:女4) （男3:女5)

"'A data base for continuous speech recognition,

by S. Kabasawa, N. Hara, H. Takagi, and E. Tsuboka. (Hatsush i ta Electric)

日本音栂学会J//1i貨論文品 ‑19‑ _{昭和}61年 10n

(3)

3 文節音声データベース用例文

文節音声データベース用例文としての条件を『日本語として存在しうる

"vc

V音節をすべて文節中に含んでいること』と設定した。まず、日本語として存在しうるV C V音節を明確にして、例文を作成した。

vcv

音節の調査は、カナ漢宇変換用辞摺に墓づいて行なったものであり、

vcv

音節の必要条件となっている。日本語として存在しないV C V音節の例を表 2に示す。例文作成にあっては、日本語文としてできるだけ自然な文'.l;tと成るよう配感し、含み得なかったV C V音節については、カナ漢字変換用自立語辞書から条件を満足する単語（自立語）を選択した。例文の概要を表3に示す。また、例文中で、特に高頻度のV C V音節 (VVも含む）の例を表 4に示す。表 4において、（）の中の値はアルゴリズム評価用例文（新間社説）の頻度である。

表2 存在しない

vcv

音節の例 IPE, EPE, EKYA, ETYU, APYA, APYU, APYO, OPYA, XPYA, XPYU

表3 例文の概要文節数： 300 単語数： 143

4 文節音声データペース

表4 高頻度V C V音節 (VVも含む）の例 0‑ : 4.14(6.34)

u ‑

^:¹^.^33 (¹^.⁷¹⁾

EX : 3. 84 (2. 52) URU : 1.26(0.70) AI : 3.40(5.53)

o x

^:¹^.²⁶⁽¹^.⁸¹⁾

AKU : 2.81(1. 11) ARA : 1.18(1.21) AX : 2.73(2.11) OTO : 1. 03 (1. 11) OU : 1.77(0.10) _I_O : 0.89(0.40)

u u

^:¹^.⁴⁸⁽⁰^.⁰⁰⁾^I^T^A^:⁰^.⁸¹⁽¹^.¹¹⁾

lX : 1.33(0.80)

u x

^:⁰^.⁸¹⁽⁰^.³⁰⁾

OKU: 1.33(3.72) E‑ : 0.81(3.92)

(X: 撥音単位：％）

3で述べた例文を用いて、文節音声データベースを作成した。データペースには、 3で述べたアルゴリズム開発用例文 (3回発声）とともに、アルゴリズム評価用として新問の社説 (31 8 文節， 1 回発声）および文献 [2] の数字 A•4 桁数字・ 6 母音

・連母音／長母音（それぞれ3回発声）を付加した。音声は、簡易スタジオで、 V T R テープにP C M録音し、録音に際しては「ていねいに発声してください」という指示のみ与えた。発声者は、一般の成人（標準語話者：男／女各10名・大阪方言話者：男／

女各 10名、但し、 2 0代： 4名， 3 0代：3名， 4 0代： 3名）と発声訓練を受けた成人（男／女各2名）の合計4 4名から成る。

5 あとがき

本稿では、連続音声認識装置の開発及び評価用のための文節音声データベースの作成について述ぺた。木稿を終えるにあたり、関係各位に感謝する。

参考文献

[l]S.Kabasawa, et al. ,Proc. of ICASSP, 42.20, pp2303‑0B, April. 1986. [2)"共通音声データテープの福要調査について（アン，，ート）", 60電子協—委OA第 10号

日本音l,"f学会講i貨論文品 ‑20‑ _{昭和 6}₁_年₁_0H

文節音声データベースの作成

九州大学学術情報リポジトリ

Kyushu University Institutional Repository