九州大学学術情報リポジトリ
Kyushu University Institutional Repository
文節音声データベースの作成
樺澤, 哲
松下電器産業株式会社中央研究所
原, 紀代
松下電器産業株式会社中央研究所
高木, 英行
松下電器産業株式会社中央研究所
坪香, 英一
松下電器産業株式会社中央研究所
http://hdl.handle.net/2324/4479716
出版情報:日本音響学会講演論文集, pp.19-20, 1986-10. 日本音響学会 バージョン:
権利関係:
1‑3‑10
文 細 音 声 デ ー タ ベ ー ス の 作 成x樺澤 哲 〇 原 紀 代 高木英行 坪香英一(松下電器・中研)
1 まえがき
我々は、文節単位で区切って発声された音声(文節音声)を認識できる音声認識 装置(連続音声認識装置)の開発をすすめている。今まで、単語音声データベースを用 いて、アルゴリズムの開発および評価を行ない、アルゴリズムの有効性を確認してきた [1]。 アルゴリズムを改良し、実際に文節音声で評価するために、文節音声データベー スを作成したので報告する。
2 発声の仕方に関する指示と発声速度の関係
今までの経験から、 「発声の際に与える 『発声の仕方の指示』によって、同じ 指示であっても、 発声速度に個人差がある」ことが明かである。 そこで、できるだけ
ゆっくり で、しかも発声速度の個人差がでにくい 「指示」を検討した。
指示として次の3つを想定し、男/女各15名にそれぞれの指示を与えて、各 指示毎に2種類(合計6種類)の文章を読ませて録音し、 録音された音声の中から(時 間短縮のため)特定の文章をデイジタイズして、 計算機上で 1モーラあたりの時間長を 測定した。なお、指示と文章の対応は、カウンターバランスしてある。
[指示の内容]
1 ... はっきりと 発声してください。
2 ... ていねいに..発声してください。
3. 指示無し。
測定の結果、 ていねいに が、..ゆっくり で個人差が比較的現われにくい 指示であることが明かとなった。測定結果のまとめを表1に示す。但し、表1において、
ゆっくり/ふつう/はやい とは、各指示に対する各人の相対的な発声速度である。
表1 測定結果のまとめ
ゆっくり ふつう はやい
指示なし
,
14 7(男4:女5) (男6:女8) (男5:女2)
はっきりと 7 8 1 5
(男3:女4) (男5:女3) (男7:女8)
ていねいに 14 8 8
(男8:女6) (男4:女4) (男3:女5)
"'A data base for continuous speech recognition,
by S. Kabasawa, N. Hara, H. Takagi, and E. Tsuboka. (Hatsush i ta Electric)
日 本 音 栂 学 会J//1i貨論文品 ‑19‑ 昭 和61年 10n
3 文節音声データベース用例文
文節音声データベース用例文としての条件を 『日本語として存在しうる
"vc
V音節 をすべて文節中に含んでいること』と設定した。まず、日本語として存在しう るV C V音節を明確にして、例文を作成した。
vcv
音節の調査は、カナ漢宇変換用辞 摺に墓づいて行なったものであり、vcv
音節の必要条件となっている。日本語として 存在しないV C V音節の例を表 2に示す。例文作成にあっては、日本語文としてできる だけ自然な文'.l;tと成るよう配感し、含み得なかったV C V音節については、カナ漢字変 換用自立語辞書から条件を満足する単語(自立語)を選択した。例文の概要を表3に示 す。また、例文中で、特に高頻度のV C V音節 (VVも含む)の例を表 4に示す。表 4に おいて、( )の中の値はアルゴリズム評価用例文(新間社説)の頻度である。表2 存在しない
vcv
音節の例 IPE, EPE, EKYA, ETYU, APYA, APYU, APYO, OPYA, XPYA, XPYU表3 例文の概要 文節数: 300 単語数: 143
4 文節音声データペース
表4 高頻度V C V音節 (VVも含む)の例 0‑ : 4.14(6.34)
u ‑
: 1. 33 (1. 71)EX : 3. 84 (2. 52) URU : 1.26(0.70) AI : 3.40(5.53)
o x
: 1.26(1.81)AKU : 2.81(1. 11) ARA : 1.18(1.21) AX : 2.73(2.11) OTO : 1. 03 (1. 11) OU : 1.77(0.10) IO : 0.89(0.40)
u u
: 1.48(0.00) ITA : 0.81(1.11)lX : 1.33(0.80)
u x
: 0.81(0.30)OKU: 1.33(3.72) E‑ : 0.81(3.92)
(X: 撥音単位:%)
3で述べた例文を用いて、文節音声データベースを作成した。データペースに は、 3で述べたアルゴリズム開発用例文 (3回発声)とともに、アルゴリズム評価用と して新問の社説 (31 8 文節, 1 回発声)および文献 [2] の数字 A•4 桁数字・ 6 母音
・連母音/長母音(それぞれ3回発声)を付加した。音声は、簡易スタジオで、 V T R テープにP C M録音し、録音に際しては「ていねいに発声してください」という指示の み与えた。発声者は、一般の成人(標準語話者:男/女各10名・大阪方言話者:男/
女各 10名、但し、 2 0代: 4名, 3 0代 :3名, 4 0代: 3名)と発声訓練を受けた 成人(男/女各2名)の合計4 4名から成る。
5 あとがき
本稿では、連続音声認識装置の開発及び評価用のための文節音声データベース の作成について述ぺた。木稿を終えるにあたり、関係各位に感謝する。
参考文献
[l]S.Kabasawa, et al. ,Proc. of ICASSP, 42.20, pp2303‑0B, April. 1986. [2)"共通音声データテープの福要調査について(アン,,ート)", 60電子協—委OA第 10号
日本音l,"f学 会 講i貨論文品 ‑20‑ 昭 和 61年10H