社団法人 電子情報通信学会 信学技報
THE INSTITUTE OF ELECTRONICS, TECHNICAL REPORT OF IEICE
INFORMATION AND COMMUNICATION ENGINEERS
ウェーブレット変換を用いた日本語音声の音素分析
唐澤 信司
†桜庭 弘
‡†‡宮城工業高等専門学校 〒981-1239 宮城県名取市愛島塩手字野田山 48
E-mail: †
[email protected]
, ‡
[email protected]
あらまし 特定話者の短音節を標本にして,0.2msec 毎にサンプリングした 1024 個のデータを単位に
Haar の離散ウェーブレット変換を行い,ウェーブレット係数(WLC)の絶対値をスケール別に加え合わせた量(SWLC)を成分とした時系 列のテンプレートのマッチングによって音節分析をした.音素が変わる連続的な発声の遷移領域では SWLC の比 SWLC(0.8msec 帯)/SWLC(1.6msec 帯)と SWLC(1.6msec 帯)/SWLC(3.2msec 帯)が節となる.ピッチ単位の有声音の波形分析では,ピーク値よりピ ッチ期間より短い 6.4msec(0.1msec 毎に 64 個)のデータの WLC で,低い解像度(0.8msec 以上)の WLC の成分を 15 個(8,4,2,1)につ いて標本母音と間の Hamming 距離を求めて母音が弁別できる.2通りの方法で同じ話者の発話に含まれる音素の分析ができた.
キーワード Haar の
ウェーブレット変換,
テンプレート・マッチング,短音節認識,音素遷移境界の検出,母音認識
Making Use of Wavelet Transform in Template Matching for Phoneme
Analyses of Japanese Voice
Shinji KARASAWA
†Hiroshi SAKURABA
‡†‡Miyagi National College of Technology 48, Nodayama, Medeshima, shiote, Natori, Miyagi, 981-1239 Japan
E-mail: †
[email protected]
, ‡
[email protected]
Abstract Speaker dependent voice recognition performance was achieved with template matching (TM). In order to give a
margin to TM, sums of absolute value of wavelet transform coefficients in each scale (SWLC’s) are used for vector
quantization. Japanese moras are recognized under the condition of 204.8msec (1024 pieces of data those are sampled every
0.2msec) as a unit of processing. As for a segmentation, the ratio of SWLC (the 0.8msec band)/SWLC (the 1.6msec band) and
SWLC (the 1.6msec band)/SWLC (the 3.2msec band) become a node in t he transition region of vowel [a,i,u,e,o]. Vowels
uttered the same speaker were recognized by TM with 15 piece of WLC’s in low resolution (scale is over 0.8msec) where the
segmentation of processing is shorter then the pitch in order to make adaptable to the valid speech sound. Here, the data were
sampled at each 0,1mces and 64 pieces of data were picked up from each peak of voice and the set of data are transferred to
Haar’s discrete wavelet coefficients (WLC’s).
Keyword Haar’s discrete wavelet transform, Template matching, Speaker dependent phoneme recognition, Japanese mora
1. は じ め に
ウ ェ ー ブ レ ッ ト 変 換 (WLT: Wavelet transform)は パ タ ー ン の デ ー タ を 解 像 度 別 に 変 換 す る の で JPEG2000, MPEG-4 な ど 画 像 デ ー タ の 情 報 圧 縮 に 応 用 さ れ て い る . 音 声 認 識 の 分 野 に お い て も ,WLT を 用 い 発 声 活 動 を 抽 出 す る こ と [1],会 話 音 声 の ブ ロ ッ ク の ク ラ ス 分 け を す る こ と [2],音 素 の 区 切 り を 検 出 す る こ と [3]な ど の 試 み が 報 告 さ れ て い る .WLT を 用 い て 音 素 ,ピ ッ チ ,フ ォ ル マ ン ト , お よ び 話 者 の ク ラ ス 分 け に 応 用 す る こ と が 試 み ら れ た [4]. ま た , B.T.TAN 等 [5]に よ っ て 離 散 ( Discrete)WLT ( DWLT)お よ び Sampled Continuous WLT( SCWT) を 用 い て 不 特 定 話 者 の HMM 音 素 認 識 の 特 徴 ベ ク ト ル を 検 出 し て 認 識 す る こ と も 試 み ら れ た . し か し , そ れ ら の 試 み の 結 果 は 従 来 の 見 地 か ら は 高 く 評 価 さ れ る こ と が な か っ た . 本 研 究 は 脳 神 経 回 路 網 に 類 似 し た 認 識 の 活 動 は 多 種 , 多 重 の 解 像 度 を 持 つ 非 常 に 鋭 い 選 択 性 を 持 つ フ ィ ル タ ー で あ る テ ン プ レ ー ト ・ マ ッ チ ン グ ( TPM) を 細 胞 と す る 回 路 組 織 に よ っ て 実 現 す る と 考 え た . 生 体 の 認 識 で は 感 覚 細 胞 が 活 動 を 起 こ し , 神 経 細 胞 が 活 動 し て , 筋 肉 細 胞 を 活 動 さ せ て い る . 活 動 の 意 味 は 外 界 や 各 細 胞 の 活 動 自 体 が 担 っ て い る . 音 声 は 周 波 数 成 分 が 時 間 変 化 す る 2 次 元 的 デ ー タ で あ り , 音 声 に 伴 う 複 数 の 成 分 の 活 動 が 神 経 回 路 網 を 転 送 さ れ る 時 に パ タ ー ン が 現 れ る . そ の イ ン パ ル ス 群 が , 配 線 接 続 を し た 時 の パ タ ー ン と 一 致 す る 時 に 神 経 細 胞 が 再 び イ ン パ ル ス を 発 生 す る . 認 識 は 活 動 で あ り , 認 識 は 活 動 単 位 に 量 子 化 さ れ る . 認 識 の 動 作 の 本 質 は TPM で あ る と す る と , TPM を 行 う 際 に , DWLT に よ り 得 ら れ る 解 像 度 別 に 配 列 し た デ ー タ を 用 い れ ば , 合 わ せ 余 裕 と 同 時 に 処 理 も 簡 単 化 さ れ る 可 能 性 が あ る . ま た , 多 様 な 音 声 に は 多 種 の テ ン プ レ ー ト を 持 つ こ と に よ り 対 応 で き る と 考 え た . 本 報 告 で 用 い た Haar (ハ ― ル )の DWLT は ,タ イ ム ス ロ ッ ト 以 外 は 0 と し 、 区 切 ら れ た 波 形 を 正 負 一 対 の 矩 形 を マ ザ ー ウ ェ ー ブ レ ッ ト 関 数 と し た も の で あ り , タイ ム ス リ ッ ト 内 の デ ー タ の 後 半 を 符 号 変 換 し て 加 え て 係 数 を 求 め る の で 短 時 間 に 処 理 を 遂 行 で き る . 音 声 の WLT で は 切 り 取 る 処 理 区 間 が 課 題 で あ る . 音 声 は ピ ッ チ と い う 声 帯 振 動 の 単 位 で 発 生 さ れ る の で ピ ッ チ 単 位 で 認 識 す れ ば 音 素 を 認 識 す る こ と が で き る . 音 声 の 波 形 切 り 出 し は ピ ー ク 値 を 起 点 に し て そ の 長 さ を ピ ッ チ 期 間 よ り 短 く し て ,6.4msec 単 位 の TPM に よ る 分 析 の デ ー タ 処 理 を 行 っ た . 音 素 の 波 形 切 片 と の TPM 類 似 性 の 評 価 を Hamming 距 離( 差 の 絶 対 値 の 和 )に よ り 求 め た .な お ,Hamming 距 離 は ユ ー ク リ ッ ド 距 離 よ り 計 算 時 間 が 短 い . 日 本 語 の 短 音 節( 拍 :mora)の 特 徴 は 発 声 動 作 に 依 存 し , 音 節 全 体 (200msec 程 度 )の 音 声 の 変 化 と な っ て 現 れ る . そ こ で , 音 節 全 体 (204.8msec)の 波 形 の ウ ェ ー ブ レ ッ ト 係 数 (WLC)の 絶 対 値 を ス ケ ー ル 別 に 加 算 し た 量 ( 周 期 帯 別 の 成 分 量 に 相 当 )で TPM に よ る 分 析 を 行 な っ た . そ の 際 に 短 音 節 単 位 の 標 本 は 早 口 で 発 声 し , 入 力 す る 音 声 を 頻 繁 に シ フ ト し (6.4msec),処 理 区 間 の 最 大 振 幅 を 1 と す る デ ー タ の 規 格 化 を し て TPM し た .以 下 に そ れ ら の 分 析 方 法 と 得 ら れ た 結 果 を 報 告 す る .
2. テンプレートマッチング(TPM)による認識
2.1. 脳 神 経 系 おける情 報 処 理 が量 子 化 する原 理
神 経 細 胞 は 神 経 回 路 網 の 中 で 発 火 条 件 を 満 た し た 時 に 生 化 学 反 応 に よ り イ ン パ ル ス を 発 生 す る . そ の 活 動 を 引 き 起 こ す 条 件 は 同 時 に 発 生 し た イ ン パ ル ス 活 動 単 位 群 の パ タ ー ン で あ る . こ の 神 経 細 胞 の 活 動 が 認 識 活 動 を 担 う の で 認 識 は 活 動 単 位 に 量 子 化 さ れ る [6]. 活 動 単 位 を 転 送 す る モ デ ル に よ っ て 入 力 す る 刺 激 の パ タ ー ン が 出 力 の 刺 激 の パ タ ー ン に 変 換 さ れ る . 従 来 は , 活 動 単 位 を 転 送 す る と い う モ デ ル で 神 経 回 路 網 の 動 作 を 理 解 す る こ と が な か っ た . む ろ ん , 変 化 し な い 神 経 回 路 に 活 動 の 前 の 状 態 と 活 動 の 後 の 状 態 は 記 憶 さ れ る . 情 報 の 世 界 と 実 世 界 は 常 に 相 違 す る . 情 報 は 変 化 せ ず , 現 実 は 変 化 を 続 け て や ま な い . 活 動 は 始 ま り か ら 盛 ん に な っ て 終 わ る の で ,イ ン パ ル ス 的 で あ る . そ こ で 活 動 を 再 演 す る 記 憶 は ル ー ル の 単 位 で 記 憶 さ れ , ル ー ル が 変 わ ら ず 適 応 性 が あ る の で 思 考 の 世 界 は 普 遍 的 で あ り , ア ナ ロ グ 的 で あ る と 考 え る . 神 経 細 胞 の 活 動 に は 5 msec 程 度 の 不 応 期 が あ っ て , 毎 秒 200 程 度 以 上 の 活 動 単 位 を 発 生 で き な い . そ の 神 経 細 胞 の 発 す る イ ン パ ル ス の パ タ ー ン を 纏 め て 上 位 の 活 動 単 位 と す る の で , 階 層 構 造 の 神 経 回 路 網 が 形 成 さ れ る . そ の 神 経 回 路 の 活 動 に 発 話 も 音 声 認 識 の 活 動 も 依 存 す る の で 活 動 は 量 子 化 さ れ て 回 路 は 階 層 構 造 に な る .2.2. 音 素 の分 析 処 理 のデータの切 り出 し方 法
話 し 言 葉 の 音 声 は 変 動 が 大 き い バ ラ ツ キ の あ る 音 波 で あ る が ,音 声 の 周 波 数 帯 の 範 囲 は 200Hz か ら 2kHz 程 度 で あ り , 発 声 器 官 の 動 き は 1 秒 間 に 多 く て も 数 個 の 変 化 で , そ の 遷 移 は 緩 や か で あ る . 音 声 の 音 素 の 遷 移 領 域 で は 音 素 の 周 波 数 成 分 が 節 の よ う に 集 ま る . そ の 節 と 節 の 中 間 の 腹 の 部 分 で 典 型 的 な 音 素 が 見 出 さ れ , 音 素 分 析 が で き る . 多 種 多 様 な 音 声 か ら 文 字 に 変 換 す る 情 報 を 抽 出 す る に は 音 声 の 特 性 を 考 慮 し た 解 析 が 必 要 で あ る .2.3. Haar の DWLT の TPM への応用
Haar の DWLC に よ っ て テ ン プ レ ー ト と の 一 致 度 を 求 め る 際 に , ス ケ ー ル 小 さ な 多 量 の デ ー タ を 省 略 す る こ と に よ り 合 わ せ 余 裕 を 持 つ TPM が で き る . 図 1 に は , WLC の デ ー タ を ス ケ ー ル [1-6]の 64 個 で 合 成 し た 波 形 と [3-6]の 15 個 で 合 成 し た 波 形 を 示 す . 図 1 解 像 度 を 下 げ て TPM の 合 わ せ 余 裕 を 得 る 方 法 Inverse WLT 0 0.2 0.4 0.6 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Time [0.2msec for a unit]Am pl it u de scale 1-6 scale 3-6
Fig.1Wavelet transformation that provides margin on template-matching
2.4. 本 研 究 に用 いた機 器 およびソフトウエア
本 研 究 で は , 音 声 を マ イ ク ロ フ ォ ン か ら ア ン プ を 通 し て , Interface 社 の A/D カ ー ド CSI-320312 を 経 由 し て ノ ー ト パ ソ コ ン に 入 力 し た .
デ ー タ は Excel の マ ク ロ 機 能 で あ る Microsoft の VBA(Visual Basic for Applications)の プ ロ グ ラ ム で 処 理 し た .A/D 変 換 カ ー ド の プ ロ グ ラ ム は 文 献 [7],ウ ェ ー ブ レ ッ ト 変 換 の プ ロ グ ラ ム は 文 献 [8]を 参 考 に し た .
3. 連続的な音声の音素遷移のセグメンテーション
3.1. 音 声 波 形 のデジタルデータの採 取 方 法
図 1 「 お は よ う 」 と い う 男 性 の 音 声 の 波 形 を 示 す 。 デ ー タ は サ ン プ リ ン グ 毎 秒 10000 個 あ る い は 5000 個 で 入 力 レ ン ジ ±5 V , 分 解 能 12bit で 採 取 し , 振 幅 の 規 格 化 は WLT 処 理 の 区 間 内 で 最 大 振 幅 を 1 と し た . 図 2 日 本 語 音 声 「 お は よ う 」 の 波 形Fig.2 Wave form of Japanese greeting [Ohayou]
Wave frm of continuous utteranse of Japanese [Ohayou]
-6 -4 -2 0 2 4 6 1 731 1461 2191 2921 3651 4381 5111 5841 6571 7301 Time [ 0.1 msec for a unit]
Am ] V pli tu de [
3.2. ウェーブレット係 数 (WLC)に現 れる音 声 の特 性
パ タ ー ン 状 の 音 声 の 波 形 デ ー タ を WLC に 変 換 し , そ れ を 逆 変 換 す れ ば 元 の 波 形 が 再 現 さ れ る . そ の 際 に 得 ら れ る WLC の 絶 対 値 の 和 は ス ケ ー ル 別 の 含 ま れ る ウ ェ ー ブ レ ッ ト の 量 ( 周 期 別 の 変 動 量 ) に 相 当 す る . 図 2「 お は よ う 」 と い う 音 声 の 波 形 を 示 す . 図 3 は サ ン プ リ ン グ を 毎 秒 10000 個 と し て ,256 個 (25.6msec) 毎 に WLT し て , 各 ス ケ ー ル 別 に タ イ ム ス リ ッ ト を シ フ ト シ フ ト し て 得 た WLC の 絶 対 値 の 和( SWLC)を 求 め た も の で あ る . ス ケ ー ル 1 の タ イ ム ス リ ッ ト は 0.2msec で Haar の マ ザ ー ウ ェ ー ブ レ ッ ト 関 数 ( + と - の 矩 形 波 ) が シ フ ト し て 繰 り 返 え さ れ る . 音 声 の レ ベ ル が 高 く て 時 間 進 行 と と も に 音 の レ ベ ル の 変 化 の 多 い 成 分 は [0.8msec:1.25kHz] , [1.6msec: 625Hz] , [3.2msec:313Hz] の 周 期 帯 で あ る . な お , [6.4msec:156Hz]の 成 分 は 声 帯 振 動 の 繰 り 返 し で あ る ピ ッ チ に 接 近 し て い る . 図3 Haar ウエーブレット変換による「おはよう」の周期成分特性 Fig.3 Components in wavelet scale in Japanese greeting [Ohayou] obtained by wavelet transformation3.3. SWLC の比 率 に現 れる音 素 遷 移
音 声 の 振 幅 レ ベ ル が 高 く , そ の 変 化 が 著 し い 周 波 数 帯 の 中 央 の [625Hz 帯 ]の 成 分 で 規 格 化 し た [1.25kHz 帯 ] と [313Hz 帯 ]の 比 の 対 数 を 求 め て 図 4 に 示 す .
図 4 「おはよう」の音声のスケール主要成分の比の特性 Fig.4 Ratio of principal c frequency components on [Ohayou]
図 4 に 示 す よ う に , 音 素 が 遷 移 す る 途 中 で 音 素 の 周 波 数 成 分 の 分 布 パ タ ー ン が 節 の よ う に 集 ま る . こ の 領 域 は 連 続 音 声 に お け る 音 素 の 遷 移 「 渡 り 」 (Transition) あ る い は 息 つ ぎ で あ る . 従 っ て , 図 4 に 示 す 比 が 音 素 の 区 切 り 検 出 す る デ ー タ に す る こ と が で き る .
4. ピッチ単位の TPM による音素分析
4.1. 音 素 成 分 の TPM 分 析 の方 法
音 素 の わ ず か な 違 い が テ ン プ レ ー ト と の 距 離 を 求 め る こ と に よ り 検 出 で き る .解 像 度 の TPM で は そ の 照 合 の 処 理 を 短 時 間 で 行 う こ と が で き る . 本 研 究 で は 次 の よ う な 理 由 で パ タ ー ン マ ッ チ ン グ す る 際 に , テ ン プ レ ー ト も 照 合 処 理 の デ ー タ の 切 り 出 し を 同 一 に , 音 声 の 波 形 切 り 出 し を ピ ー ク 値 起 点 に し て そ の 長 さ を ピ ッ チ 期 間 よ り 短 く し た . 1. 音 声 は 声 帯 運 動 に よ り 間 欠 的 に 発 生 す る 空 気 振 動 が 調 音 器 官 の 変 調 を 受 け る の で ,ピ ー ク 値 以 後 の 周 波 数 成 分 に は ピ ッ チ の 変 化 の 影 響 が 少 な い . 2. Haar の WLT で は 処 理 す る ポ イ ン ト 数 を 2 べ き 乗 に 固 定 し な い と 処 理 の プ ロ グ ラ ム が 非 常 に 煩 雑 に な る ( デ ー タ が 2 の 倍 数 単 位 で 区 切 ら れ る ). 3. デ ー タ の 切 り 出 し の 際 に 振 幅 の ピ ー ク 値 な ど に よ り 位 置 合 わ せ を 行 う . Hamming 距 離 の 差 の 絶 対 値 の 和 は ユ ー ク リ ッ ド 距 離 の 自 乗 平 均 の 平 方 根 よ り 計 算 時 間 が 短 い の で 照 合 に 用 い る 音 素 の 波 形 切 片 と の 類 似 性 の 認 識 を Hamming 距 離 に よ り 求 め た . こ の 距 離 の 値 は 連 続 的 に 類 似 性 を 評 価 で き る の で 音 声 の 変 化 を 連 続 的 に 評 価 で き る .4.2. 連続的に発声した母音「あいうえお]の音素分析
図 5 は 連 続 的 に 「 あ い う え お 」 と 発 声 し た と き の 音 声 を 示 す .「 あ 」と「 い 」発 声 の 間 に 若 干 発 声 が 弱 く な る が 発 声 に は こ の よ う な 発 声 の 途 切 れ が 混 入 す る . 図 6 は 図 5 の デ ー タ を HWLC に 変 換 し て ,HWLC を 使 っ て 周 波 数 依 存 性 を 求 め た も の で あ る . 音 素 に よ っ て 変 化 が 著 し い 周 波 数 領 域 は 前 節 と 同 様 に [1.25kHz], [625Hz],[313Hz], [157Hz]の 帯 域 で あ る . 図 4 と 同 様 な デ ー タ 処 理 で 周 波 数 成 分 の 比 を 求 め る と 図 7 が 得 ら れ , 音 素 が 遷 移 す る 領 域 で 周 波 数 成 分 が 節 の よ う に 集 ま る . 音 素 レ ベ ル の 認 識 を ピ ッ チ 以 内 の 波 形 で あ る テ ン プ レ ー ト と 同 様 に 区 切 っ た 入 力 の デ ー タ を HWLC に 変 換 し , 両 デ ー タ 間 の Hamming 距 離 を 図 8 に 示 す . TPM に よ る 認 識 で は 同 じ 音 声 で も 僅 か な 処 理 の ず れ も 見 出 す こ と が で き る . 図 8 で は 一 致 度 を 示 す 距 離 が 同 じ ポ イ ン ト で は 0 と な り , そ の 点 か ら 外 れ る 際 に Hamming 距 離 が 連 続 的 に 変 化 し て い る . Constituents of each scale of Haar's wavelets in Japanese[Ohayou]
0
1 4 7 10 13 16 19 22 25 28 31 34 Time [25.6msec for a unit]
Am o u n t o f 10 20 30 40 50 60 70 [0.2msec] [0.4msec] [0.8msec] c o n sti tu e n ts [1.6msec] [3.2msec] [6.4msec] [12.8msec] [25.6msec]
Data on frequency distributions available for segmentation on a continuous Japanese [Ohayou}
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Time [ 25.6msec for a unit]
Ra ti o [L o g] scale(0.8msec)/scale(1.6msec) scale(1.6msec)/scale(3.2msec)
Wave form of continuous utterance of Japanese vowels [a-i-u-e-o] -2 -1.5 -1 -0.5 0 0.5 1 1 891 1781 2671 3561 4451 5341 6231 7121
Time [0.1 msec for a unit]
Am
pli
tu
de
Phonemes in Japanese vowels [a-i-u-e-o]
0 2 4 6 8 10 12 14 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 Time [12.8msec for a unit]
H am m in g d ist an c e o n u pper 15 H a a r' s w ave le ts
[a] [i] [u] [e] [o]
図5連続的に「あいうえお」と発声した音声の波形(男性)
Fig.5 Wave forms of vowels [a-i-u-e-o] uttered by male 図8 連続発声母音[あ-い-う-え-お]の音素分析 (テンプレートを自身から切り取り,15 個の WL 係数 の差を取ってその絶対値の総和で TPM を評価) Fig.8 Phonemes in Japanese vowels [a-i-u-e-o] where the templates for recognition are picked up from itself Constituents of each scale of Haa's wavelets in Jananese
vowels [a-i-u-e-o] 0 2 4 6 8 10 12 14 16 18 1 4 7 10 13 16 19 22 25 28 31 34 37 40 Time [ 25.6msec for a unit]
Am o u n t o f co ns ti tu en ts
[0.2msec] [0.4msec] [0.8msec] [1.6msec] [3.2msec] [6.4msec] [12.8msec] [25.6msec]
4.3. 音 声 のピッチの変 化
音 声 の 高 音 , 低 音 の 変 化 に も 対 応 で き る テ ン プ レ ー ト の デ ー タ を 採 取 す る た め に ,「 う ー う 」「 え ー え 」 「 お ー お 」 と 母 音 の ト ー ン を 変 え て 発 声 し た 男 性 の 音 声 の ピ ッ チ の 時 間 を 求 め た デ ー タ を 図 4 に 示 す . 図 9 か ら , ピ ッ チ は 6.4msec 以 上 で あ り , 母 音 の 種 類 に よ っ て も ピ ッ チ が 相 違 し て い る . Pitch on [u-u,e-e,o-o] 0 20 40 60 80 100 120 140 160 0 50 100 Time(1unit :12.8msec) Pi tc h [scale of wavelet] 150 1uni t: 0. 1m s ec4.4. 共 通 のテンプレートを標 本 に用 いた音 素 分 析
4.4 節 で は , 母 音 の テ ン プ レ ー ト と し て 「 あ ~ あ 」 , 「 い ~ い 」, 「 う ~ う 」, 「 え ~ え 」, 「 お ~ お 」と 男 性 が 発 声 し た 母 音 で ピ ッ チ が 9.5msec の 波 形 を ピ ー ク 値 か ら 6.4msec の 波 形 を 切 り 出 し た . 図 10 に , 図 5 に 示 し た 音 声 波 形 に つ い て , 共 通 テ ン プ レ ー ト に よ る TPM 音 素 分 析 の 結 果 ,母 音 は ほ ぼ 識 別 で き る 結 果 を 得 た . こ こ で , Hamming 距 離 (値 が 小 さ い ほ ど 一 致 度 が 高 い )は マ ザ ー ウ ェ ー ブ レ ッ ト の ス ケ ー ル [0.8msec], [1.6msec], [3.2msec], [6.4msec]そ れ ぞ れ に 8 個 , 4 個 , 2 個 , 1 個 と し て 合 計 15 個 の ウ ェ ー ブ レ ッ ト 係 数 の 差 の 絶 対 値 の 和 と し て 求 め た . [ ] 図6連続して発声した母音「あ-い-う-え-お」について SWLC より求めた各スケール成分の時間変化]Fig.6 Sums of coefficients (SWLC) those are obtained from Haar’s wavelet transformation on vowel [a-i-u-e-o].
Data on frequency distributions for seqmentation on a continuous Japanese vowels [a-i-u-e-o]
-1 -0.5 0 0.5 1 1.5 1 4 7 10 13 16 19 22 25 28 31 34 37 40 Time [25.6msec for a unit]
Ra ti o [l o g] scale(0.8msec)/scale(1.6msec) scale(1.6msec)/scale(3.2msec) 図9「う~う,え~え,お~お」と発声した男性の音声のピッチの変化 Fig.9 Variations of pitch on [u-u, e-e, o-o] uttered by a male
図 7 音 素 の 遷 移 の 区 切 り 検 出 方 法 ( [1.25kHz] と [313Hz]の周波数成分に対する[625Hz] 成分の比の対数) Fig. 7 Data on frequency distribution available for segmentation on continuously uttered vowels [a-i-u-e-o]
図 11 に 示 す「 か ,き ,く ,け ,こ 」の 音 声 波 形 に つ い て , 母 音 の 共 通 の テ ン プ レ ー ト と 「 き 」 の 先 頭 部 を テ ン プ レ ー ト と し た 音 素 分 析 の 結 果 を 図 12 に 示 す . 図 13 に 示 す「 さ ,し す ,せ ,そ 」の 音 声 波 形 に つ い て ,母 音 の 共 通 の テ ン プ レ ー ト と 「 し 」 の 先 頭 部 を テ ン プ レ ー ト と し た 音 素 分 析 の 結 果 を 図 14 に 示 す .
5. Mora 単位の WLT による音声認識
5.1. 切り取り位置のスケール別成分量への影響
別 の 音 節 の 識 別 方 法 と し て 3.2 節 お よ び 4.2 節 に 示 し た ス ケ ー ル 別 の 成 分 量 SWLC の 特 徴 が 利 用 で き る . そ こ で , 音 声 が 途 切 れ る 期 間 中 に シ フ ト し て Moraの 全期間をカバーする 2048 個( 409.6msec)単 位 の SWLC で TPMす る こ と を 試 み た . 振 幅 1Vp-p以 下 の 部 分 を 除 外 し て 区 間 内 の 最 大 振 幅 を 1 と し て TPMを し た 結 果 , 図 15 に 示 す よ う に 同 じ 音 声 を 0.8msecず ら す と TPMに は 一 致 度 に 距 離 が 検 出 さ れ る . SWLCは 位 相 差 が 反 映 さ れ る 点 で 周 波 数 成 分 と 相 違 す る . 図 15 スケール成分量 TPM に及ぼす切り出し位置の影響 Fig.15 Effects of phase shift on template-matching of SWLC5.2. Mora 単位のスケール成分による TPM
特 定 話 者 が 話 す ス ピ ー ド を 変 え た 発 声 に つ い て 時 間 区 間 が 相 違 す る と 加 算 量 が 相 違 す る の で Mora 毎 に SWLC の 総 和 を 1 と す る 規 格 化 を SWLC に 行 い ,ス ケ ー ル 別 の 成 分 比 率 を TPM し た 結 果 を 図 16 に 示 す . こ の 方 法 で は ,「 あ 」の 発 声 で「 あ 」の 他 に「 な 」が 認 識 図 10 連 続 発 声 母 音 「 あ -い -う -え -お 」 の 母 音 分 析Fig.10 Vowels in [a-i-u-e-o] uttered continuously
図 11 日 本 語 音 節 「 か -き -く -け -こ 」 の 波 形 Fig.11 Wave form of Japanese mora [ka-ki-ku-ke-ko]
図 12 日本語音節「か-き-く-け-こ」の音素分析
Fig.12 TPM of phonemes in Japanese mora [ka-ki-ku-ke-ko]
図 13 日 本 語 音 節 「 さ -し -す -せ -そ 」 の 波 形 Fig.13 Wave form of Japanese mora [sa-shi-su-se-so]
図 14 日 本 語 音 節 「 さ -し -す -せ -そ 」 の 音 素 分 析 Fig.14 TPM of phonemes in Japanese mora [sa-shi-su-se-so] Wave form of Japanese moras [ka,ki,ku,ke,ko]
-4 -2 0 2
1 1261 2521 3781 5041 6301 7561 8821 10081
Time ( 6.4msec for a unit)
Amp
lit
u
de
(V)
Phonemes in Japanese mora [sa,shi,su,se,so]
0
Phoneme in Japanese vowels[a-i-u-e-o]
0 2 4 6 8 2 4 6 8 10 12 14 16 1 15 29 43 57 71 85 99 113 127 141 155 169 183 197 211 Time [6.4msec for a unit]
Di
st
an
c
e
[a] [i] [u] [e] [o] [S]
Wave form of Japanese mora [sa, shi, su, se, so]
-6
10 12 14
1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 Timw[6.4msec for a unit]
Ha m m ing d is ta nce [a] [i] -4 -2 0 2 4 1 1604 3207 4810 6413 8016 9619 11222 12825
Time [6.4msec for a unit]
Am pl it u de [V]
Phonemes in Japanese mora [ka,ki,ku,ke,ko]
0 5 10 15 20 1 15 29 43 57 71 85 99 113 127 141 155 169 183 197 211 225 Time ( 6.4msec for a unit)
Di
st
an
c
e
[a] [i] [u] [e] [o] [K]
Effect of shift (0.8msec) on template-matching calculated by SWLC's in scale 1-10 0 5 10 15 20 25 30 1 2 3 4 5
Time [409.6msec for unit]
Di
st
an
c
e
[a] [ka] [sa] [ta] [na]
さ れ ,「 た 」の 発 声 で「 た 」で は な く「 さ 」と「 な 」が 認 識 さ れ ,「 な 」 の 発 声 で 「 な 」 の 他 に 「 さ 」 と 「 た 」 が 認 識 さ れ る .Mora 全 体 の SWLC で TPM に よ る 弁 別 で は 音 節 の 特 徴 が 発 声 の バ ラ ツ キ に 隠 れ て し ま う .
図 17 異 な る 速 度 で発声した音声の Mora 単位の TPM Fig.17 Recognition of Japanese mora[a, ka, sa, ta, na]
5.3. 短音節単位フレームの頻繁なシフトによる音節分析
Mora を や や 早 口 で 発 声 し た 短 音 節 を 標 本 に し ,シ フ ト は 機 械 的 に 32 個 (6.4msec) 間 隔 で 頻 繁 に , 短 音 節 の と 同 じ 切 り 取 り 期 間( 204.8msec; 5000 個 /sec,1024 個 ) の SWLC の Hamming 距 離 を 求 め た 特 性 を 図 18 に 示 す . こ こ で , 規 格 化 は 処 理 区 間 内 の 最 大 振 幅 を 1 と し , ス ケールが 1 から 8 まで(2.5kHz, 1.25kHz, 625Hz, 313Hz, 156Hz. 78Hz, 39Hz, 20Hz)帯の SWLC を 照 合 の 成 分 に 使 っ た . 図 18 早 口 で 発 声 し た Mora の 音 節 に よ る 音 節 の 認 識 Fig.18 Recognition of Japanese mora[a, ka, sa, ta, na]図 18 は デ ー タ を 採 取 す る 範 囲 を 200msec 程 度 の 短 音 節 単 位 で 集 積 し た SWLC を ベ ク ト ル 成 分 に し た TPM に よ り 音 節 の 認 識 が で き る こ と を 示 し て い る .
6. ま と め
解 像 度 別 の デ ー タ に 変 換 す る DWLT を 駆 使 し て , シ ャ ー プ な 選 択 機 能 を 持 つ TPM の 処 理 に よ っ て 多 様 な 音 声 を 弁 別 で き る が ,DWLT を 用 い た TPM で は 照 合 す る デ ー タ の 範 囲( 切 り 出 し 区 間 )の 強 い 影 響 を 受 け る . 母 音 分 析 は ピ ー ク 値 を 基 準 に 6.4msec の 64 個 の デ ー タ を WLT し て 得 た WLC の 低 解 像 度 成 分 の 4 ス ケ ー ル 15 個 の TPM に よ っ て 単 母 音 の 識 別 が で き た . 他 方 . 日 本 語 の 「 あ , か , さ , た , な 」 の 各 Mora を 単 位 と す る 認 識 は , Mora の 発 声 単 位 (409.6msec) で SWLC を 求 め TPM の 距 離 を 求 め た . こ の TPM 方 法 で は , Mora 毎 に SWLC の 総 和 で 規 格 化 し 時 間 区 間 の 相 違 を 補 償 し た が ,音 節 単 位 内 の SWLC の 比 率 に は 発 声 の バ ラ ツ キ が 混 合 し て 音 節 を 正 し く 認 識 で き な い . そ こ で 音 素 の 遷 移 の 検 出 と 組 み 合 わ せ た 分 析 と し て , 標 本 の デ ー タ の 処 理 区 間 を 短 音 節 程 度 (204.8msec)と し , 区 間 の 最 大 振 幅 を 1 と す る 規 格 化 を 行 い , 細 か く シ フ ト し て SWLC の TPM に よ り 音 節 の 分 析 が で き た . こ の 音 声 の 音 素 と 単 音 節 を 別 々 に 認 識 す る 方 法 を 組 み 合 わ せ て 多 様 で 変 化 に 富 ん で い る 音 声 を 認 識 し , そ の デ ー タ か ら 脳 神 経 系 の 情 報 処 理 の 量 子 化 の 原 理 に よ り 階 層 的 に 言 語 活 動 を 展 開 す る 組 織 が 制 作 で き る . 本 報 告 の 多 重 解 像 度 の DWLT を 用 い た TPM は プ ロ グ ラ ム が 簡 単 で あ る の で 特 定 用 途 の 音 声 認 識 装 置 に 組 み 込 む よ う な 応 用 に 適 し て い る . 今 後 , Concatenative Synthesis( 連 結 的 音 声 合 成 )技 術 と 結 び つ け た 音 声 認 識 の 開 発 や 多 重 解 像 度 を 利 用 し た パ タ ー ン マ ッ チ ン グ 認 識 技 術 の 応 用 な ど の 分 野 の 展 開 に 期 待 が 持 て る . [謝 辞 ] 本 研 究 は , 宮 城 工 業 高 等 専 門 学 校 電 気 工 学 科 卒 業 生 菊 池 進 氏 の 励 ま し に よ り 促 進 さ れ ま し た . こ こ に , 謝 意 を 表 し ま す .文 献
Recognition of Japanese mora [a,ka,sa,ta,na] caliculated bySWLC's in scale 1-10 0 5 10 15 20 25 30 1 2 3 4 5
Time [409.6msec for unit]
Di
st
an
c
e
[a] [ka] [sa] [ta] [na]
Recognition of Japanese mora [a,ka,sa,ta,na] caliculated by SWLC's in scale 1-8 0 5 10 15 20
25 [1] Y. C. LEE, S. S. AHN, Statistical Model- Based VAD Algorithm with Wavelet Transform, Proc. IEICE Transaction on Fundamentals of Electronics, Communications and Computer Sciences, 1594-1600, E89-A(6) 2006
[2] J.O. Kim, et al. On the Extraction of the Valid Speech-Sound by the Merging Algorithm with the Discrete Wavelet Transform, Inter. Conference on Computational Science, 619-628, 2003.
[3] B.Thipakom, B. Kaewkamnerdpong, Thai Phoneme Segmentation using Discrete Wavelet Transform, International Journal of Smart Engineering System Design, 389-399, Vol 5, No.4 2003.
[4] C.J.Long, S.Datta, Wavelet Based Feature Extraction for Phoneme Recognition, International Conference on Spoken Language Processing, 1996.
[5] B.T.Tan, M.Fu, A.Spray, F.Dermody, The Use of Wavelet Transforms in Phoneme Recognition, International Conference on Spoken Language Processing, 1996.
[6] S.Karasawa, Attributes of Language Use Explained by Activities of Neuron, IEICE Technical Report, pp.31-36, TL2006-11, 2006 [7] 大 川 善 邦 ,“ 波 形 の 特 徴 抽 出 の た め の 数 学 的 処 理 ” pp.66-67, CQ 出 版 社 , 2005.
[8]
大 川 善 邦 “ Excel 実 験 デ ー タ 処 理 ” pp.181-183,工 学 社 , 2005. 30 1 27 53 79 105 131 157 183 209 235 261 287 313 339 365 Time [6.4msec for unit]Di
st
an
c
e