高分解フーリエ変換による音声分析

(1)

はじめに

音声の周波数分析は、単に音声を解析するだけでなく、音声の圧縮や、音声認識、音声合成などの基礎として非常に重要な技術として使用されている。周波数分析の手段としては，数１０年まえから使用されているバンドパスフィルターや、最近計算能力が上がった

CPU

を用いた

Fourier

変換、最大エントロピー法がある。

Fourier

変換は、計算量が多く実用化が遅れた

が、高速

Fourier

変換（Fast Fourier Transfor-

mation FFT

と略す）が考案され広く使われてき

た^１）。しかし、計算量の多さや、ハードウェアリソースを多く要求するために、データ個数を少量に制限して使われてきた。音声の標本化周波数は、４４．１

kHz

または、４８

kHz

であるから、データ個数を２５６ないし１０２４に制限すると、求めようとする、周波数の分解能は、１００

Hz

ないし２０

Hz

ということになり楽音を解析するには問題を生ずる。また波形の接続によるスプリアスの問題もある。この問題を避けるために、窓関数が考えられた^３）。窓関数とは、Fourier変換がもともと無限

大までの周波数を仮定することと波形がスムースにつながっていることを仮定していることを、擬似的に窓関数で近似する事である。しかし近似によって本来あるはずのない周波数が生じたり、周波数分解能が変化したりする^３）^６）。

これを避けるためにデータ量を増やし周波数分解能を高めることにより欠点を軽減できる。また、低域が可聴周波数以下になるようにすれば、

位相のミスマッチによる寄生周波数をフィルターできる。しかし、データを増やすことにより、必然的に計算量が増加して計算時間がかかる。また、周期を長くとることによる時間分解能が悪くなる欠点がある。計算量の増加は、最近の

CPU

の進歩により計算時間は飛躍的に短縮された。そのうえ

MIT

により開発された

FFT

ライブラリーによって、飛躍的に計算時間の短縮がおこなわれるようになった^２）。その結果、多量のデータの処理も、数秒で処理できるようになった。音楽

CD

は量子化数１６

bit

標本化周波数４４．１

KHz

で記録されており非圧縮の音源としては、簡単にファイルに読み込めるので、これを、例にとり音声周波数の分析を再検討してみた。今回は、時間分解能

高分解フーリエ変換による音声分析

白川利昭^＊

要約

音声分析にフーリエ変換を用いた。データ個数を２５６から１０４７５８６まで変化してフーリエ変換を行い音声周波数スペクトルの変化を検討した。フーリエ変換のデータ個数が少ないと、

音声データの周波数分解能を十分取れなくて、２５６から１０５７４８６に増加すると音声に含まれる微妙な変化が見つかった。

＊大妻女子大学社会情報学部

大妻女子大学紀要

―社会情報系― 社会情報学研究１７２００８１７５

(2)

は、考えないこととした。

方法

使用した音声ファイルは、CDに録音されたもので、これを

WAV

フォーマットにリッピングした。

WAV

フォーマットは、Microsoftと

IBM

が提唱した音声ファイルの形式で、Chunkと呼ばれるデータの識別のためのヘッダをもっている^４）。このフォーマットは、RIFF（Resource

Inter- change File Format）の音声フォーマットの一つ

である。WAVフォーマットのファイルは、非圧縮のバイナリーファイルなので、C言語で簡単に読むことができる。そこで、ファイルを読むプログラムを作成した。

また音声の分析のために、プログラムを数本作成した。使用言語は、C言語である。

このプログラムで呼び出す

FFT

ライブラリーは、以下の２つを選んだ。これらは、すべてオープンソースのライブラリーである^５）^６）。

１）奥村

FFT

２）

Matteo Frigo and Steven G. Johnson FFTW3

FFT１）は、標準的な、C

言語でかかれたよくで

きた、ソースである。

FFT２）は、公表された FFT

ライブラリーで最

速であるとドキュメントに書いてある。

これ等のライブラリーの使い方を以下に示す。

１）奥村

FFT

奥村

FFT

ライブラリーは、関数宣言と関数呼び出しだけで使用できる。

//宣言

extern int fft（int n,double[],double[]）；

x，y

を複素数のデータとする。

// FFT

関数呼び出し

fft（n,x,y）；

x，y

に、FFTされた実部と虚部が代入される。

２）FFTW3

このライブラリーは、いくつかの段階が必要である。

まず入力、出力配列を確保するために以下のコードを書く。

//配列の確保 double *in１；

fftw_complex *out1 ; fftw_plan p ;

in1=(double)fftw_malloc(sizeof(double)N) ; out1=(fftw_complex*)fftw_malloc(sizeof(fftw_

complex)*N) ;

次に

plan

を作成し、実行させる。

//データのコピーと実行終了 for（k＝０；k<N ; k＋＋）

｛

in１[k]=xL[k] ;

｝

p = fftw _ plan _ dft _ r 2 c _ 1 d ( N , in 1, out 1, FFTW_FORWARD) ;

fftw_execute(p) ; fftw_destroy_plan(p) ;

最後に、planを廃棄する。

配列

out1[0]に実部と out1[1]に虚部が代入さ

れる

コンパイラは、gcc４．２を使用した。

データの個数は、２の２０乗（１０４８５７６）を選んだ。周波数の分解能は、０．０２

Hz

となった。時間分解能は、２５秒となった。

グラフ描画ソフトは、１００万個のデータのプロットができる

gnuplot

を使用した。

使用した

PC

は、CPUが

Phenom

９９５０、メモリーが８GB、OSは、Fedora９６４

bit

バージョンである。メモリーが多量にあるため、すべてオンメモリーでプログラムを動かす事ができた。２分２３秒の音声ファイルをすべて変換するに費やした時間は、６．２秒であった。

使用した音楽データは、以下の２枚の

CD

である。

―社会情報系― 社会情報学研究１７２００８１７６

(3)

１）

Kenichiro Tokunaga AND GREAT MAKERS C346−2

２）

YO−YO−MA inspired by Bach SRCR 1955−6

結果と考察

図１、２にドミソの和音（２９３．６６４

Hz、３２９．

６３２

Hz、３７０．

０００

Hz）を人工的にサイン波から作り

データ個数を変化させてフーリエ変換したスペクトルをしめした。３個のスペクトルが所定の周波数に現れるはずであるが、２５６個のデータによる音声スペクトルには、ほとんどこの３個の周波数が現れていない。データの個数を６５５３６に変えると、スペクトルが明瞭にあらわれ３個の周波数が分離することが分かる。２５６個のデータのフーリエ変換では、音声の周波数分析が不可能であるこ

とが分かる。周波数分解能を求めるならば、ある程度以上の個数のデータが必要であることがわかった。そこで、個数を２の２０乗にとって解析を進めた。

図３に

Yo−yo−ma

の演奏した

Bach

の無伴奏チェロソナタ３番（BWV１００７）をフーリエ変換して周波数スペクトルにした図を示した。図３から、音声周波数スペクトルが音律以外に多数あることが分かる。このスペクトルを拡大して詳細部分を調べてみた。１００〜５００

Hz

を拡大したものを、図４に示した。表１には、音律から求めた、

音階とピークの周波数が示してある。表１から

Yo−yo−ma

は、調律を、約４分の１全音低くし

図１ド、ミ、ソ和音の周波数スペクトル

データ個数２５６

図２ド、ミ、ソ和音の周波数スペクトル

データ個数６５５３６

図３ Bach BWV1007 No.3 Yo-yo-ma 演奏の周波数スペクトル

表１ Yo-yo-ma の音階と周波数

音階平均率

Hz Yo−yo−ma Hz

音声強度

c

１３０．８２１２６．３４２８．７６

d

１３８．６０１４３．８１８５．２３

１５５．７０２４．６４

e

１６４．８２１５９．７１７７．０５

１６３．１４２９．４０

f

１７４．６２１６９．４３５０．１４

g

１９６．００１９２．２４５３．２９

c

^１２６１．６０２５３．６７３２．０９

d

^１２９３．６６２８６．１８７４．９８

f

^１２４９．２３３３６．９４４２．０６

g

^１３９２．００３８２．４９１０５．２８

a

^１４４０．００４３０．６９３１．０２

c

^２５２３．２６５０８．５１２４．９８

白川：高分解フーリエ変換による音声分析１７７

(4)

ていることがわかった（スコルダツーラと呼ばれている）。Bachの無伴奏チェロ曲では、低い音を強調し、響きをよくするために、過去には普通に行われていたことである。音律によるスペクトルが、音階周波数のみに集中せず、広がりを持っていることが分かる。広がりは、±３％ほどあることが分かる。１２平均律の音階の差は、約５％であるから、となりの音と重なっていることがわかる。この広がりを削った音を聴取してみると、音が痩せたように感じる（別途発表予定）。このことからスペクトルの広がりが音楽として重要であることが分かる。このスペクトルを詳しく見ると音階以外に近接したピークがある。たとえば、

１５９．７

Hz

と１６３．１

Hz

にある。これは、ビブラートであろう。

Yo−yo−ma

は、ビブラートを約３Hz

（１秒に約３回）の頻度で周波数を変化させていると言うことが分かった。

図５、６に、同じ曲を、Yo−yo−maと徳永兼一郎が演奏した周波数スペクトルを示した。この図から分かることは、同じ曲であるが、スペクトル的には、かなり相違があることである。その理由は、まず楽器の違いであろう。徳永の使っている楽器は、Stradivariusである。では、楽器を揃えてみよう。徳永は、この

CD

において、作者の違う４種類のチェロで同一曲を演奏している。

図７にチェロを

Montagnana

にかえて徳永が演奏した同じ曲を示した。Stradivariusの周波数スペクトルは、非常に細かい倍音が含まれている

ことが分かる。それに比して、Montagnanaは、

割合単純である。Yo−yo−maの演奏した

Bach

は、スペクトルが明らかに

Stradivarius

制作のチェロとことなっており、巷間に言われているよ図４ Yo-yo-ma BWV1007 No. 3 音声スペクトル

１００〜５００Hz

図５ Bach BWV1007 No. 3 演奏徳永兼一郎楽器 Stradivarius

図６ Bach BWV1007 No. 3 演奏 Yo-yo-ma

図７ Bach BWV1007 No. 3 演奏徳永兼一郎楽器 Montagnana

―社会情報系― 社会情報学研究１７２００８１７８

(5)

うに、Yo−yo−maは

Montagnana

制作のチェロを使用していると推測された。

結論

音声を

Fourier

変換する時に、使用するデータ

の個数が重要であることがわかった。音声の高分解

FFT

は、非常に細かい楽音のニュアンスまで分析することが出きることが分かった。音楽の３要素（音階、強度、音色）以外に、音声の豊かさが、基音のスペクトルの広がりに依存していることが分かった。楽音の圧縮ソフトのおおくはデータ個数が２５６ないし５１２でスペクトルを求めているが、音声の微妙な変化を反映させるためには、

データ個数を変化させて圧縮を試みる必要性があるものと思える。

references

１）Cooly, J. W and Tukey, J. W, 1965, “An al-

gorithm for the machine calculation of com- plex Fourier series, Mathematics of Com- putation, Vol. 19, No. 90, 297−301.

２）Matteo Frigo, Steven G. Johnson, “FFTW

Manual”, (c)2003 Massachusetts Institute of Technology. FFTW (version3.1, 16 Janu- ary2006).

３）河田聡編，２００２，科学計測のためのデータ処理入門，CQ出版社，P４９。

４）The Programmer’s File and Data Resource,

http : //www.wotsit.org/

５）奥村晴彦，１９９１，

C

言語によるアルゴリズム辞典，技術評論社，P３４６．

６）日野幹雄，１９７７，スペクトル解析，朝倉書店，P１９３．

白川：高分解フーリエ変換による音声分析１７９

(6)

High Resolution Fourier Transformation for Sound Analysis

T OSHIAKI S HIRAKAWA

Social Information processing, School of Social Information, Otsuma Women’s University.

Abstract

The Fourier transform was used for sound analysis. The sound data changed from256 to one million, with the Fourier transform, and it examined the sound frequency spectra.

If there was few data number of the Fourier transform, I cannot take the frequency re- solving power of sound data enough, and a delicate change in the sound was found when I increased from 256 to 1057486.

Key Words

（キーワード）

Fourier Transformation（フーリエ変換），Sound（音声），High Resolution（高分解），

YO−YO−MA， Frequency Spectra

（周波数スペクトル），FFTW，

Montagnana， Stradivar- ius.

―社会情報系― 社会情報学研究１７２００８１８０

高分解フーリエ変換による音声分析

CPU

Fourier

Fourier

Fourier

mation FFT

kHz

kHz

Hz

Hz

CPU

MIT

FFT

CD

bit

KHz

高分解フーリエ変換による音声分析

WAV

WAV

IBM

Inter- change File Format）の音声フォーマットの一つ

FFT

FFT

Matteo Frigo and Steven G. Johnson FFTW3

FFT１）は、標準的な、C

FFT２）は、公表された FFT

FFT

FFT

//宣言

extern int fft（int n,double[],double[]）；

x，y

// FFT

fft（n,x,y）；

x，y

//配列の確保 double *in１；

fftw_complex *out1 ; fftw_plan p ;

in1=(double*)fftw_malloc(sizeof(double)*N) ; out1=(fftw_complex*)fftw_malloc(sizeof(fftw_

complex)*N) ;

plan

//データのコピーと実行 終了 for（k＝０；k<N ; k＋＋）

in１[k]=xL[k] ;

p = fftw _ plan _ dft _ r 2 c _ 1 d ( N , in 1, out 1, FFTW_FORWARD) ;

fftw_execute(p) ; fftw_destroy_plan(p) ;

out1[0]に実部と out1[1]に虚部が代入 さ

Hz

gnuplot

PC

Phenom

bit

CD

Kenichiro Tokunaga AND GREAT MAKERS C346−2

YO−YO−MA inspired by Bach SRCR 1955−6

Hz、３２９．

Hz、３７０．

Hz）を人工的にサイン波から作り

Yo−yo−ma

Bach

Hz

Yo−yo−ma

Hz Yo−yo−ma Hz

c

d

e

f

g

c

d

f

g

a

c

Hz

Hz

Yo−yo−ma

CD

Montagnana

Bach

Stradivarius

Montagnana

Fourier

in1=(double)fftw_malloc(sizeof(double)N) ; out1=(fftw_complex*)fftw_malloc(sizeof(fftw_

//データのコピーと実行終了 for（k＝０；k<N ; k＋＋）

out1[0]に実部と out1[1]に虚部が代入さ