音声認識特論 ( 第 3 回目 )
2017 年 10 月 6 日 西宏之
音声認識の基礎の基礎
40 40ル 次元ベクト
スカラー
ベクトル
一個のデータが 複数個の値からな る
音声の性質をあらわすには?: 周波数特性
フィルターバンク:声の周波数特性を 表す
パワー:声の大きさを表す
スカラー量
d,...)
c,
b,
(a,
v
a
v
( ア )
拡大
有声音 声帯の振動数
( ア ) らし さ ケプストラ
ム
この間
くり返し周波数 男: 70~150Hz 女: 150~400Hz
ローパスフィ ルタで高周波成
分をカット
成分 2乗
40個程度の棒グラフ状のデータ
( 40 次元のフィルターバン ク)
音の工学の 基礎の基礎
電圧
一つ一つの大きさを で表す
t
f (t)xi
処理の流れ
① 学習:5つ ( あ,い,う,え,お ) の標 準パターンを作成 ( 各々の )
② 認識1:未知の音 と各標準パ ターンとの距離を計算する
③ 認識2:距離の最も小さかった標準パ ターンのカテゴリーを認識結果として出 力する.
x
iy
i距離値とは?
• 40 次元のベクトルを用いて距離計算を行 う.
40 1
)
2(
i
i
i
y
x
D
注意
• 距離値を計算する際,ケプストラムに比 べて,パワーは一般に大きすぎるので, 1 00 分の 1 程度に縮小してから距離を計算 する.
• 母音番号を仮に「 i 」として, i=1 ~ 5 で 回す形にしておくとよい.将来単語認識 の際に処理アルゴリズムが使えるからね
• 標準パターンは予めテキストファイル形 式で与えます.サンプルを見せます.
音声認識特論レポート 2 につ
いて
• 次のような、母音認識プログラムを作成 せよ
• 「ア」、「イ」、「ウ」、「エ」、
「オ」の5つの母音をあらかじめ録音 し、ケプストラムを求めた結果が下の5 つのテキストファイルに納めてある
– 1.txt : 「ア」 – 2.txt : 「イ」 – 3.txt : 「ウ」 – 4.txt : 「エ」 – 5.txt : 「オ」
• ファイルの形式はいずれもテキスト形式で、 40 個の実数データ (float) が入っている。データと データの間は半角スペースで区切られている。
• 認識したい未知の音声のケプストラムデータ は、 rec.txt に上記と同じ形式で書き込まれ ている。
• 1.txt ~ 5.txt と rec.txt の計6つのファイ ルを読み込み、 rec.txt が「ア」~「オ」のいず れの母音であるかを認識するプログラムを作成 せよ。
• レポート用紙の表面にソースリストを、裏面に 実行結果を印刷して提出せよ。
• なお、番号氏名は、ソースリスト中にコメント 文で記入せよ。
〆切: 10 月 27 日 ( 金 ) の 17 時ま
で
• 標準パターンが5つでなく、 100 個くら いあっても構わないようにせよ。
• つまり「数字 .txt 」というファイル名をプ ログラムで合成し,その名前でファイル を開いて読込むようにすればよい.
• 数値を文字列に変換するには関数「 itoa
() 」が使える.使い方は各自ネットか教科 書で調べること.