Acoustical Aooustioal Society Sooiety of Japan 11 本音響学会誌 65 巻 10 号 (2009 ),pp 解説 * 音声区間検出技術の最近の研究動向石塚健太郎, 藤本雅清, 中谷智広 ( 日本電信電話株式会社 NTT コミュ

(1)

11

本音響学会誌 65 巻号（）

，

pp

．

537 543

537

解

説

音

声区間

検

出技術

の

研

究動向

＊

　　　　　　　

石

塚健

太

郎

，

藤本雅清

，

中谷智広

（日本電信電話株式会社 NTT コミュニケ

ー

ション科学基礎研究所）＊＊ 43

．

60

．

Bf；43

．

72

，

Ar

1 ．

音

声区

間

検出技術

の

概要

1

ユ機能と応用分野

　

音声区間

検

出

（

Voice

Activity

Detection

_；

VAD1

）

技術とは

，音声

とそれ以

外

の

_信

号が

含

まれる観測信号の中から

，

音

声

信

号

の

含

まれる区間

（

音声

区

間

）

とそれ以外の区間（非音声区間）を判

定す

る

技術

である

（

図一

1

）

。

VAD

その _ものの _{機能} は極めて単純ではあるが_，様々な音

声

処理技術において重要な役割を果たす基盤

要素技

術である。

VAD

は，以下の技術分野を主な

応

用分野とし，これまで広く

研究

開発がなされてきた。音声符号化技術

　

音声信号を符号化して伝送する際，電話や電話

会議，

テレビ

会議

などで生じる

非音声区間

を

取

り除い _て_{音声区間}だけを伝送できれば，効率的な帯域

利用

が可

能

となる

_［

1 −

3i

。

また

，

音声区間と非音声区間で符号化のビットレ

ー

トを変更したり_，音

声

と

音

楽を区別して

異

なる

符号化器

を

利

用したり

_国

することで高品質な情報

伝

送が期待できる。雑音

抑

圧技術　観測信号から雑音を取り除いて音声信号を取り出すために用いる

雑

音抑圧技術

_團

は

_，

雑音の統

＊Advances

　in　voice 　activity 　detection

．

林

_Kentaro _Ishizuka

_，

_Masakiyo _Fhjimoto 　and 　Tomohiro

　 Nakatani （NTT 　Comm 皿 ication　

Science

　Laborato

−

　ries

_，

　NTT 　Corporation _，　 Kyoto _， 619

−

0237 ）e

−

mail ；　｛ishizuka

，

　masakiyo

，

　nak _｝◎cslab

．

kecl．

ntt

．

co

．

jp

1

同機能の技術

，

又は類似の技術には _{Specch （}activity _）

detection

，

　Speech　endpoint 　detection

，

Speech

　signai

detection

，　

Speech

　signal 　discrimination，　Speech ／Non

−

speech _detection

，

　 Utterance 　segment 　

detection

，

Speech　onset _／offset 　

detection

などの呼称があるが_，本

稿ではこれらを総称して VAD とする

。

この呼称の多様

性は

_，

様々な応用分野で別個に

VAD

が開発されてきたこ

とによる

。

また

，

Voice　activity 　detection は

，

　Voicing

detection

や

Voice

_／

Unvoice

　_{classification} のように音声信号のうち有声音部分だけを取り出す技術を指すことがあるが

，

ここでは無声音も含めたすべての音声信号を取　り出す技術をVAD と呼ぶ

。

計的性質の

推

定の正確さによって

性能

が左右される。

VAD

により

観測信号

に

含

まれる非音

声

区間を判定できれば，雑音の統計的性

質

をよりよく捉えるための _{手がかりとな}る

。

自

動

音

声認

識技

術

　

自動音声認識技術

_［

6 _］

は

多

くの場合

，

音

声

以外の

音

も

音声

として

誤

認

識

してしまう

。

VAD

により正しく音

声

区間が与えられればこの誤りを

抑

止できる。また

，

マイクのオン

・

オフが不

要

になる，非音

声

区間での認識処理を行わないことで

演算

量を

削

減できる，などの

利

点もある。メディア処理

　

VAD

により

，

収録

・

保存された音声メディア

・

マルチメディアデ

ー

タから

音声

区

間

を

取

り

出

し

，

後

の検

索

や要

約

処理を

行

うための最も基本的なメタデ

ー

タを

与

えることができる。これと上記の自動音声認識技術を併せて用いれば，動画デ

ー

_タ_を

自然言語

で

検索

することも可

能

となる

_［

7 _］

。また

，

近年，

AMI

や

CHIL

，

NIST

Rich

Transcription

Meeting

Recognition

などのプロジェクト

［

8 −

10 亅

で

_多

くの会議デ

ー

タが収録され，収

録

デ

ー

_タ中で

「誰

がいつ

_話

したか？

」

を

自動推定

する話者

決定

（

Speaker

diarization

）技術

_［

111

が盛んに研究されている

。

このうち「いつ

_」

に相当する部分を検出するには

VAD

が必須である2。

　

1 ．

2 構成要素

と設

計

要

件

　

一

般

に

VAD

は

_{，音響特徴抽出器}

と

_音声

_／

_非音声

識別器から

構

成される。音

響

特徴

抽

出器では

，観

測信号

を

10 〜

32ms

程

度

の時

間

長を持つフレ

ー

ムに

分割

して

分析

し

，音声信号

の

存在

を適切に

表

現できる音響特徴を抽出する。音声

／

非音声識別器 2_話

．

_{者決定}_の_{要素技術}_{とし}_{ての} _VAD _{技術}_については

，

従

来

Speech

Activity

　DetectiQn （SAD ）の用語が利用さ

れてい _る

。

これは笑い _声_や_{咳など}の

Voicing

　noise を除

いて

，

真に Speech である部分を取り出すことを目的とした語用と考えられるが

，

本稿では

VAD

の用語を用い

(2)

538 纛ニ

ニ

音声

区間

＿

厂

一

一一一

L ＿

図

一

1　音声区間検出技術の概要では

得

られた

音

響特

徴

に基づき

，

観測信号中の音声信号の _{有無を}フレ

ー

ム単位で決定する。

　

VAD

は低演

算

量で

_{動作}

することが

好

ましいとされ_，

後

段の音声処理技術と比べ

_多

_くの演算量を

割

くことが

_好

まれない 3。

特

に実時間処理が必要な場

合

は

，

処理遅延を

少

なく，かつアルゴリズム上での遅延もない

_（

_未

_来の

_情報

_を利用しない

_）

ことが求められる。しかし，

VAD

での誤りを後段の音声処理技術で回復することは困難であり

，

しばしば

VAD

の

性能

はシステム全体の性能を大きく左右する。従って

，

VAD

の開発では

，演算

量や遅延を

抑

えるために処理の

複

雑化を避けながらも

，

高精度な技術の_{実現}が求められる。

　

1 ．

3 　

’

t

_生

甫

E

言平価　

VAD

の性能評価は分析フレ

ー

ム単位での誤棄却

率（

FaIse

　rejection 　rate ；音

声

区間を

非音声

区間

として誤判定した

_{割合）}

と誤

受

理

率（

False

　accep

−

tance

　_rate _；

非

．

音声

_区

間

を

音声

_{区間と}_{して}

誤判定

_した割合）を用いて行うことが

多

い。

誤

棄却率の代わりに正

解率（

Hit

　_rate _；_音

声

_{区間}_{を正し}_く音

声

_{区間} として判

定

した割合）を用いることもある。誤棄却率と誤受理率はトレ

ー

ドオフの関

係

にある

。

VAD

技術は通

常，音声

_／

非

音声

識別器での識別基準を変化させることで

_，

所与の評価デ

ー

タに対する誤棄

却率

と誤

受

理

率

が変

化

する。その変

化

をプロットすることで

Receiver

Operating

Characteristics

（

ROC

）

カ

ー

ブ

_［

12 _］

を

描

くことができる。これを用いると異なる手法の性能比較が口_∫能になる。図

一2

に

ROC

カ

ー

ブの例を示す

。

　これらの評価尺度は

VAD

の汎用的な性能を評価するには有

効

だが

，

すべ _{ての}

_分析

フレ

ー

ムを

等

し

く評価す

るため，応用分野の最

終的

な

性能

へ _の影響を十分反映できない場合がある。例えば

，

音

声

符

号化

では誤棄却が生じた箇所によって

，

同じ誤棄却フレ

ー

ム数であっても聴取時の音声品質に与える

影

響が異なる

_［

13 _］

。このよ

う

な

影響

を

考慮

し

，

3_{実際に}_割_{り当}_て _{る演}_算_{量は}_シ _ス _テ_ム _全_体_の_{性能に与える} 影響を考慮して決定されるべ _{きも}のである。日本音響学会誌 65 巻 1 号（200g）

0．

5

0 ．

4

ee

O

．

3 纛

：

o ・

2

0．

1

0

0 ，

2

0 ．

4

0 ．

6

0 ．

8

1 ．

0

　　　誤受理率　図

一

2　ROC カ

ー

ブの例　　この場合

，

手法 2 の方の性能が良いと見なせる音声符

号

化のための

VAD

の _評

_価

に

客観

的

音質

評価に用いられている

ITU −

T

P

．

862

_{を利用し}た尺度を

導

入したり

_［

14 _］

，自動音

声認識のための

VAD

の評価に発

話

区間の開

始・

終

了

時

刻の推定の正確さを反映した発話区間検出精度を

導

入する

_［

15 _］

試みが

なされている。また

，

NIST

Rich

Transcription

での多人数会話のための

VAD

の _{評価}

_［

10 _］

には

，

話者

決

定

の評

価

で用いる

Diarization

Error

Rate

（

DER

；総発話時間に対する_，発

話

の

_誤受

理

・

誤棄

却

・

話者誤

りの

_時間

の総時間の

割合）

が

利用

されている4。

一

般的に発話区間検出精度や

DER

での評価を

行

う

場

合

，

正

解

デ

ー

タ _中と推

定結

果との発話の開始

・

終了時刻の時間ずれは

一

定のずれ（例えば

200

　_IIIs

）

ま_{では}許容す_ること_が

多

い

。

　

性能

評価を

行

うための評価デ

ー

タには，

雑

音が含まれる音声デ

ー

タを作成

・

収録して用いることが

多

い _。 _応用対

象

にもよるが

，

VAD

の汎用的な性能を評価

す

るならば_，

検

出対

象

となる発話が

一

つの

_音声資料

に複数

含

まれるよ

_う

な評

価

デ

ー

タを用いる方が，より

VAD

が必要とされる状況を反映した性能評価になる

。

また

_，

音声区間と非音声区間がそれぞれ十分な長さで

含

まれていないと

，

誤棄

却率

や

誤

受理

率

の正しい _{評価}_{がで} _{きな}い 5。

信号

対雑音

比

（

SN

比

）

を

統

制

す

る場

合

は

雑音

の

含

まれない音声デ

ー

タに雑音のデ

ー

タを付加して評価デ

ー

タを

作

成する

方

が

容

易であるが

，

人間の _発

_声

4VAD _の評価の際

，

話者誤りは考慮されない

。

5_逆_に音声資料の大部分が音声デ

ー

タのみで占められるならば

，

すでに

VAD

は済んでいると言える

。

そのようなデ

ー

タが入力となる応用対象で VAD を用いる意義は少ない

，

(3)

音声区間検出技術最近研究動向理簾

裡

e

楓

湘

　　　　　　　　　　　　　　　　　　　時

間図

一

3CENSREC

−

1

−

C ［15］に含まれる VAD の評価デ

ー

　タの例　〔上）観測信号の波形

，

（

F

）観測信号に含まれる音声の　区間様式は環境雑音の影響を

受

けるので，実際の雑音下で

発声

された

音声

デ

ー

タを評価に用いる方が実用上の性能をより反映できる。なお

，

正

解

の

音声

区間は人手で付与したものを用いる。　

VAD

の評価のために作成された代表的な共通評価デ

ー

タである

CENSREC

−1−

C

_［

15 _］

に

含

まれる音

声

資

料

の例を図

一3

に示す。

異

なる言語間で

VAD

の

性能

が

異

なる

結果

も

報告

されており

_［

16］

，

今後，言語普遍的な性能評価を行う場合は多言語の

_音声

デ

ー

タを

用

いる必要があるかもしれない

。

2 ．研究動向

　

本節では_，

VAD

の研究

動向

を概説する。　

VAD

が

対象

とする問題設定は

_，

最も初期には無雑音環境であったが_，その

後定

常的な雑音環境

，非

定常

雑

音のある環

境

と

，

より現実的な環境を扱えるよ

う

に発展してきた。

音響特徴抽

出に関しては

，音

声とその他の

．

音をよりよく区別できる特徴を捉えるための研究が進められた6

。

また

，

音声

_／

非音声の識別には古くは単純な閾値処理が用いられて

き

たが

，

近

年

では _閾

_値

を

_雑音環境

に応じて

_動

的に_更

新す

る方

法

や，

統

計的な

基準

で音

声

／

非

音

声

識別を行う方法が

多

く提案されている。　

2 ．

1

古典的方法　

VAD

に関する最も初期の論文で提案された方法は

，

観測信号のパワ

ー

と零

交差数

を用いる

方法

_［

171

である。この

論

文では，有

声音

を検出するために

信号

のパワ

ー

（

有声音

があればパワ

ー

は

大

きくなる），無声子音などを取り出すために零交差数を用い _（

_無声

_{子音}で

あ

れば零交差

数

は大きくなる

），事

巳音声の存在を決定的に特徴付ける音響特徴はいまだ_明らかではない。人間は雑音環境下であっても容易に音声の存在を検知することができるが

，

人間が用いている音響特徴についてもいまだ研究の途上にあり

，

十分に解明されていない

。

前に設定した

閾

値に基づい _てこれらを処理することで

VAD

を

行

っている

。

これらの音響特徴は少ない計算量で抽出できることから，近

年

でもよく利用されるが

，

雑

音

環

境

下では

有効

な音響特

徴

とならない。雑音環境下を対象とした

音声処

理研

究

の

高

まりを

受

け

，

耐

雑音

性の

_高

い

VAD

_{が研究さ} れるようになった

［

18 ｝

。

　

上

記

の零交差

数

は，

雑音環境

下での

VAD

においては初出の論

．

文と異なる解釈が与えられて利用されている。

雑

音は

多

くの場

合

高い

零交差数

を

示

し

，音声信号

の

_{有声音}

は

_低

い

_零交

差数を示す。そこで

雑

音環

境

下では零

交差数

が閾

値

を下回った

場

合に音声区間が検出され

_［

21

，無声

子

音の検出のためには_利用されない

。

2 ，

2

音声の性質の利用

　

耐雑音性の向上のために

_，

周波数領域における音

声

信号の _特

_性

を利用するアプロ

ー

チがある。まず

，

音

声

のパワ

ー

が

1〜2kHz

以下の周波数帯域により

集

中していることに

着

目し

，低周

波

数

帯域のパワ

ー

を利用する

VAD

が提

案

された

_［

2 ．19− 21

_］

。その後

，

より

詳

細な

情報

を

利

用するために周

波

数スベクトルに基づ _{く音響特徴が利用} されるようになり，

周波

数スペクトルの概形や

，

声帯の振

動

数に

対

応した基本

周波

数

（

Fe

）

とその

倍音

にあたる

周

波数

帯

域

（

調波成分

）

にパ _ワ

ー

_が_{集中す}_る_性

_質

（

調

波性

）を

利

用

す

るアプロ

ー

チが

提案

された。　周波数スペ _ク _トルの概

．

形を用いるアプロ

ー

_{チと} しては

，線

スペ _{クト}_ル_{周波}

_数

_の_{時間方}

_向

_の_変

_化

_量

_［

2 _］

や，自動音

声

認識で広く用いられているメル

周

波

数

ケプストラム

_{係数（}

MFCC

_）

_［

22 _］

_，

メルフィルタバンクの出力を用いる手法

_［

23 _］

などが提案されてきた

。特

に

MFCC

などを用いる

場

合は

_，事前

にガウス混合分布モデル（

GMM

）や隠れマルコフモデルなどの統

計

モデルを用いて

学習

しておき

，

そこから出力される尤度を音響特徴として利用することが

多

い。

　

調波性を利用した方法には，

Fo

そのものを特徴として利用するもの

_［

24 ，

25］

や

，

自己相関関数のピ

ー

ク値に基づ _く

_値

を用いるもの

_［

22

_，

26

_，

27 _亅

，

岡波数スベ _ク _トルの周

波

数方

向

の分

散

［

20 亅

やエントロピ

ー

_［

28 _］

を用いるものなどがある。更に，調波成分とそれ以外の成分を分離し

，

それらのパ _ワ

ー

比を

利

用して非

定常

雑音の

_影響

を

受

けにくい _音

_響

特徴を抽出する手法

_［

29 _］

が提案されている

。

(4)

540 　

また

，周

波数スペ _{クトルに}_現_{れる}_情

_報

_だ _け_で _なく

，自

動音

声

認識技術から得られる情報を

VAD

に用いる方法

_［

30］

もある

。

　

2 ．

3 雑音

の

情

報の利用

　音声

を

表

す

情報

だけでなく

，

観測信号に含まれる

雑音

の

情報

を推定し，その結果

得

られる

SN

比を音響特徴として

利

用する

方法

も

提

案されている

_［

20

，

31

，

32 ］

。

SN

比を用いる利点は，観測信号や雑音の大きさに依

存

しない

_閾値

の設

定

が可

能

となる

点

に

あ

る（理想的には閾値が

OdB

のときに誤受理

・

誤棄却が最小になる

）

。

雑音

を

推定

して

VAD

に

利

用することは，

非

音

声

区間が分からない

う

ちから雑音の統計的性

質

を利用するので奇異に

感

じられるかもしれない _。しかし

，多

くの場合は観測信弓

’

の冒頭

1 〜

数十フレ

ー

ムには音声信号は含まれないと仮

_定

し7

，雑

音を

推定す

るための初

期

値をそこ _{から求}める方

法

が

取

られる。また，推

定

された雑

音

を

利

用して

雑音抑

圧を

行

い，

雑音抑

圧

後

の信号に対して

VAD

を行うことで性能を改善する方法

_［

20

，

31〕

もある。

　

音声

と雑音の情報を共に用いる方法としては，音声と雑音をそれぞれ

統計

モデルでモデル化し

，

それらのモデルから得られる尤度比を

VAD

に利用する手法

_［

22

，

23

，

31

，

33

，

34 亅

もあり

，

近

年

広く

研究

されている。これまで

，

音

声

と雑音の周波数スペクトルを複

素

ガウス _分

_布

でモデル

_化

_する

手法

_［

31 _亅

や

，定常的

な

雑

音モデルと

GMM

による音

声

モデルを用いる方法

_［

34 _］

，

更に音声

GMM

と非定常雑

音

の

_推定

を

利

用する方

法

_［

23 _亅

などが提

案

されて

き

た。雑音環境が既知であれば，音声と雑音の両方のモデルに

GMM

を

利

用することもできる

_［

33］

。

　

2 ．

4 時

間

情報

の利用

　

アルゴリズム上での遅延が許されるのであれば

_，

複数フレ

ー

ムに渡る観測デ

ー

タを利用して

SN

比や尤度比を

_抽

出することで

VAD

の

_{性能}

は

_大

きく改善する

_［

35

_，

36］

。

　

更に_，音

声

固有の特徴の

一

つである，音声信

号

の振幅の時間変動が

4Hz

をピ

ー

クとして

32

Hz

以_下に偏っている性質

［

37 ］

を利用することもできる8。この変動特性は，

周波数

スペクトル上での

特徴

が似通っている音

声

と音楽を区別する音響特徴とし 7_こ_の仮定は多くの実際的な応用で有効に働くが

，

観測信号の_{冒頭}から音声が含まれる_{場合}にはもちろん_向かない。 84Hz _の_{振幅変動}_を_{捉え}_{るに}_は_{最低}_で _も_250m5 _の_{時間長} の情報が必要であり

，

遅延が避けられない問題点はある

．

日本音響学会誌 65 巻 10 号（2009 ）ても有効である

_［

38 _］

。同様に

時

間的

変動

の

情

報を反映した

_音響特徴

としてバイスペ _{クト}_{ラム} _を_用いる方法もある

_［

39 _］

。また，時

間方向

に

周波数

スベクトルをスム

ー

ジングするだけでも

性能

の

向

上に繋がる

_［

401

。

　

2 ．

5Hangover

処

理の利用

　

上記の時間情報の _{利用} と_{も関連す}るが

，多

くの

VAD

では

，

発話は開始されるとしばらく継続する_，という仮

_定

をおき_，音

_{声区間}

の

_断片化

を避

け

て

，検

出された

音声

区間をひとまとまりにする処理

（

Hangover

処理

）

を導入している

_［

20

_，

31 _］

。これにより，

例

えば

有声

音の

特

徴のみを捉えるよ

う

な音響特徴を利用した場合でも

，

有声音の前後に現れる

無声

子

音

を

捉

えることができる

_［

29 _］

。

　

2 ．

6 統

計的性質の利用

　音声信号

は

非

ガウス性の

_信号

であることから

，

観測信号の尖度や歪度などの高次統計量を音響特

徴

として用いる

方法

が

提案

されている

_［

41 −43

_亅

。また

，

上記の尤

度

比を用いた

VAD

の発展として，音声や

雑音

の振

幅

をラプラス分

布

などでモデル

_化

_する方

法

も

提案

されている

_［

44 _亅

。

　

更に

，

音声信号の持つ非線形な時間

_変動特

性を

非線

形

時系

列

解

析モデルを用いて捉

え

ることにより

VAD

を行う

手法

もある

_［

45 −47

_］

。

　

2 ．

7 複数

のマイクロホンの利用

　

複数のマイ_クロ _ホンを利用できる

場合

は

，

上記のよ

う

な

特徴

に

加

えて空間

的

な

情報

を利用できる利点がある

_［

48 _］

。空間情報を利用して

雑

音抑圧を

行う

ことで

VAD

の

性能

を

向

上させる方

法

_［

49 _］

や

，

雑音

抑

圧前

後

のパワ

ー

を比較することで

VAD

を

行う方法

_［

50］

がある。また

，

マイクロホン間でのコヒ

ー

レンス _や_{信号到来方向推定技術を利用し}て

VAD

を行う手法

_［

5

／

−

55 _亅

もある

。

　

2 ．

8

複数の音響特

徴

の

併

用

　複数

の

音響特徴

を併用することで

VAD

の

性能

を

向

上させることができる。最も単純には，性

質

の異なる複数の音響

特

徴から

得

られた

結果

の

AND

や

OR

を取る方法がある

_［

20 _亅

。また

，

複数の音響特徴を最小識別誤差などの基準に従って重み付けし

，雑音環境

に応じて

音響特徴

を選

択的

に用いる方法もある

_［

56 _］

。　

2 ．

9

話者決定における

VAD

　話者決定における

VAD

では

，

収録済みの会話デ

ー

タを処理するため _，

_処

理遅延や

演算

量の制

約

(5)

が少ない _。 _現

_在

主流の方法は

，

事前に

多

人数会話のデ

ー

タで学習した音

声

と非音

声

の

GMM

を用いて

VAD

を

行う手法

である

_［

57 _］

。この

方法

は

事

前に学習した環境と異なる環

境

では

性能

が

低

下するため

，処

理

対象

のデ

ー

タから

得

られるボトムアップの情報を利用する方法も提

案

されている

_［

58 _］

。

複数

のマイクロホンを用いることができる場合は

，

前述のように話者の空間

位

置に関わる情

報

を利用することもで

き

る

_［

59 _］

。

3 ．

今後

の

_課

_題

　

本解説では

_，

VAD

の概要を示し_，近年の研究動

向

について概説した。近

年

の

VAD

研究

は

雑音環

境下での音声処理技術の研究に伴って発展し

，

非定

常雑音

環

境

下でも高精度に

VAD

が行えるようになった9。今後，頑健な音響特徴の

導

入や音

声

／

非音声識別器の精度向上により雑音下における

VAD

の性能を引き続

き向

上すると共に

，

以下の課題にも取り組む必要があると考えられる。話者認識技術との融合

　VAD

はその定義ヒ

「

音

声

信号」を

検

出する技

術

で

_あ

るため

_，

目

的

とする

_音

声以

_外

の

_音

であっても音

声

であれば

検

出する。

従

って環

境雑音

に

音声

が

含

まれていると

性能

が低下する。

一

方

で，

VAD

が必要とされるよ

う

な応

用分

野

（

例えばカ

ー

ナビゲ

ー

ションシステム）では_，雑音を棄却するだけでなく

，

非目的音

声（

例えば助

手席

の

声）

の

棄却

も必要とされる。従って，話

者

認識技術を

VAD

と融合させて

，

問題の解決に当たる必要がある。音声

_／

音楽

識

別

技

術との

融合

　

音

楽

信

号

は音声信号と音響的な特徴が似通っており，従来の

VAD

で用いられている音響特徴で

区

別することが困

難

な場合がある。これまでも音

声

と音

楽

を識別する

技

術は

広

く研究されてきたが_，この技術と

VAD

を融合し

，

音声

_／

音楽

_／

雑音

_／

無音を識別する

技

術ができれば

，

環

境雑音

に

音楽

が

含

まれる場合の

VAD

の性

能

を

向

上できるだけでなく

，放送

コンテンッのメディア処理や

音声・音楽

符号化技術においても有用であろう。現在

ITU −T

SG16

においてもこのよ

_う

な汎用信号区

間検

出技術の標準化が進められている

_［

60 _亅

。 9_{例え}_ば，

SN

比が

OdB

前後の地下鉄騒音や高速道路の騒音下でも80％以上の発話区間検出精度を得ることができる。応用分野の

技

術との融

合

　

VAD

の応用分野である雑音抑圧技術や

自

動音声認識技術は_，

VAD

に有用な情報を

提供

することもできる

。

従来のように

VAD

とこれらの

技

術をカスケ

ー

ドに接続するだけでなく

，

相互の

情報

を

有効

に

利

用しシステム全

体

としての最適化を行うことで_，最終的な音

声

処理の性能

向

上が

期待

できる。実際の利用環境を考慮したコ

ー

パス

整備

　現在

の

音

声処理技術の

_開

_発や

評

価で用い _{られ}るコ

ー

パスの

多

くは，すでに音

声

区間が人

手

で

検

出された音

声資料

で

構

成されており

，

実際の

_利

用環境を必ずしも反映してい _ない _。 _そのため

，

VAD

の重

要性

を開発

段

階で

認

識しない _{まま}

_，

_{暗黙}のうちに

VAD

が正しく行われることを前提とした

技

術開発を進めてしまう要因にもなる。実際の利用環境に近いコ

ー

パスを用いた

技

術開

発

を

行う

ことで

，

VAD

も

_含

めた音声処理システム全体の頑健性を

高

めることができると

考

えられる。文献

［1 〕　KSrinivasan 　and 　

A ．

Gersho，“

Voice

　activity 　

de−

　tection　for　cellular 　networks

，

”

　Proc

．

　 JEEE Work

−

　shop _{Speech 　Codin9 ／}b71　Teleco7T｝munication

，

　_pp

、

85

−

　86 （1993 ）

．

［2 ］ ITU

−

T　Recommendation 　G 　729　Annex 　B （1996）

．

［3 ］　 ETSI 　TS　lO1707 （2000 ）

．

［41 　 ETSI 　TS　126290 _（2007 ）

．

［5 ］　P

．

Vary　and 　R

．

　Martin ，　Dtgital　

Speech

　Transmis

−

　sion ： Enhance πnen ちCoding　and 　Error　

Ooncealment

　（John　Wney ＆

Sons，

　West　Sussex

，

2006 _）

．

［6 ］　 X

．

Huang

，

　A

，

　Acero　and 　H

．

　Hon _，　Spoken　Lan

−

　guage　Processing’AGuide 孟OTheory

，

　Atgorith凧

　and 　

System

　DevelopTnent （Prentice

−

Hall

，

　New 　Jersey

，

　2001 ）

，

［7 ］　 Google　audio 　Indexing： http：〃 1abs

．

google

．

con1 ／

　gau （li

［81AMI 　and 　AMIDA 　Project：　http：／_／www

．

amiprQject

．

org ／

［91 　 CHIL 　Project：http：／_／chil

．

server

．

de1

［101　NIST 　Rich　Transcription：http；〃nist

．

gov ／speech ！

　tests／rt_／

［11_］

S．

E

．

　Tranter　and 　D

．

A

．

　Reynolds ， “An

　overview 　of

　autQ 皿atic 　speaker 　

diarization

　systems ，

” _∫EEE _野

απ5

．

　Audio　Speech　1ンα7Lg

．

　Pγマ）cess

．

_，14_，1557

−

1565_（2006_）

．

［12｝　 J

．

P

．

　Egan ，　Signal 五）etection 　Tんeo 卿　and 　ROC 　

．

4nalysis

（

Academic，

　New 　York

，

1975 ）

，

［13｝　 L

．

Ding

，

A ．

　Radwan

，

　M

，

S

、

　E1

−

Hennawey 　and 　R

．

A ，

Goubran

，

∈‘

Measurement

　of　the　effects 　of　temporal

　clipPing 　oll　speech 　_quality

，

，， ∬五7EE ヱ短 γL5

，

　Jnstrurn

，

　Meas

．

，

55，1197

−

1203　（2006）

．

［14］　 rTU

−

T　TD35 _（WP3116 _）

，

27　January

−

6　Febmar _｝

・

　（2009 ）

．

［151N

，

　Kitaoka

，

　K

，

　Yamamoto

、

　T

，

　Kusamizu _，　 S

．

　Nakagawa ，　T

．

　Yamada ，　S

．

　Tsuge ，　

C ．

　Miyajima ，　T

．

Nishiura，

M ．

Nakayama ，

　Y

．

Denda

(6)

542

Takiguchi, S.Tleimura,S.Kuroiwa, K. Takeda and S.

Nakamura, `CDevelopment

of VAD evaluation frame-work CENSREC-1-C and

investigation

of relation-ship between VAD and speech recognition

perfor-mance," Proc.ASR U,_pp.607-612

(2007).

[16]

ITU-T AC-0809-Q08-05, 25

Septernber-3

Octo-ber

_(2008).

[17]

L.R,

Rabiner

and M,R. Sambur, "An

algorithm

fordetermining the endpoints of isolatedutterances,i'

BetlSyst.71ech.

J.,

54,297-315

(1975),

[181

L.F. Lamcl, L.R.

Rabiner,

A.E.

Rosenberg

and

J.G.Wilpon, "An _impreved

endpeiiit

detector

for

iso-lated

word recognition,'] JEEE Ti'ans.Acoust. SPeech

Signat

Process., ASSP-29, 777-785

(1981).

[19]

B. Mak,

J.-C,

Junqua and B, Reaves, "A

robust speech/non-speech detection algorithm using time and frequency-based

features,T'

Proc.

JCt4SSP,

Vbl.

_1,

pp.269-272

(l992),

[20]

ETSI ES 202 212

_(2003).

[21]

M. Marzinzik

and B. Kollmeier, "Speech

pause detection

for

noise spectrum estimation by tracking

power envelope

dynamics,"

IEEE 7hans.

Speech

dioProcess.,10, 109-118

(2002).

[22]

T. Kristjansson,S. Deligne and P.

Olsen,

"Voic-ing featuresforrobust speech detectien,'iProc, terspeech,pp.369-372

(2005).

[231

M. Fujimoto

and K,Ishizuka,`[Noise

robust voice activity detectionbased on switching Kalman filter,"

IEJCE 7b"ans.Inf/

Syst.,

E91-D, 467-477

(2008),

[24]

M. Hamada, Y, Takizawa and T. Norimatsu, "A

noise robust speech recognitien system,i' Proc,

SLP, 893 896

(1990).

[25]

R. 1[1icker,"Vbice

activity detectionusing a

peri-odicity measure," IEE Proc.,I 139,377-380

(1992).

[26]

B. Kingsbury, G. Saon, L. Mangu, M.

Padmanabhan and

R.

Sarikaya, `[RDbust

speech recognition in noisy environments:

The

2001

IBM

SPINE evaluation system," Proc. ICASSP, _Vbl.1,

pp.53-56

(2002),

[27]

S.Basu, L`A _linked-HMM

model forrobust voic-ing and speech detection," Proc. JCASSP, Vbl.1,

pp.816-819

(2003).

[28]

B.-F. Wu and K.-C. VLiang, L`RDbust

endpoint

detection algorithm

based

on the adaptive

band-partitioning spectral entropy in adverse

environ-ments," IEEE 7bzzns.Speech Audio l]rocess.,13,

762-775

_(2005),

[29]

K. Ishizuka,T, Nakatani, M. Fujimoto and N,

Miyazalci, `"Noise robust voice activity

detectien

based on _periodic _to aperiodic component ratio,':

Speech

Comrnun.

_(in

pre$s).

[30]

S. Kuroiwa, M. Naito, S. Yamamoto and N.

Higuchi, tCRobust

speech detection method fbr tele-phone speech recognition system," Speech Commun.,

27, 135--148

(1999).

[31]

J. Sohn,

N.-S.

Kim

and

W. Sung,

[LA

statistica] rnodel-based voice activity detection,'7iEEE Signat

Process.Lett.,6,1-3

_(1999).

[32]

L. Karray

and

A.

Martin, "Towards _improving

speech detectionrobustness forspeech recognition in

adverse conditions,"

Speech

Commun.,

40, 261-276

(2eo3).

[33]

A. Lee, K. Nakamura, R. Ni$himura, H.

Saru-wataTi and K. Shikano, `"Noise

robust real world spoken dialogue system using GMM based

tionofunintended inputs,i'Prvc. interspeech,Vbl.1,

H

dyg#"kas

6s

g

lo

e

(2oog)

pp.173-176

(2004).

[341

A,

de

la [IbTre,J. Ramirez, C. Benitez, J.C. Segura, L.

Garcfa

and A.J. Rublo, [`Noise

rebust model-based voice activity

detection,"

Proc.

inter-speech, _pp.1954-1957

(2006).

[35]

J. Ramirez,

J.C.

Segura,

C.

Benitez,

A.

de la

[[brre and

A. Rubio,

`[EMcient voice activity

detcc-tion algoTithms using

long-term

speech information,i'

Speech

Commun., 42,271-287

_(2004).

[36]

J,Ramfrez, J.C. Segura, C. Benitez, L.

Garcia

and

A.

Rubie, "Statistical

voice activity detection using a multiple observation likelihoodratio test,"

LEEE

Signal

Process,

Lett.,

12,689-692

(2005).

[37]

T. Arai and S.

Greenberg,

[`The temporal

prop-erties of spoken

Japanese

are similar to those of

English," Proc. Eurospeech, Vbl,2, pp.1011-IO14

(1997).

[38]

N. Mesgarani,

S. Shamma

and M. SIaney,"Speech

discrimination based on multiscale spectr}temporal rnodulations,"

Proc.

ICASSP,

Vbl.1, pp.601-604

(2004).

[39]

J.M. G6rriz,J.Rarnirez,C,G. Puntonet and

J,C.

Segura, `EGeneralized _[J}UI]-based

voice activity

detec-tor,"IEEE SignatProcess.Lett.,13,636-639

_(2006).

[40]

Y.D.

Cho

and

A.

Kondoz, [LAnalysis

and

improve-ment ofa statistical model-based voice activity

detec-tor;i IEEE Signal Process. Lett.,8,276

-278

_(2001).

[41]

E.Nemer, R.Goubran and S.Mahmoud, :`Robust

voice activity deteetion using higher-order statistics

in the LPC residual domain," IEEE 7iuns. Speech

Audio

Process,,9,217-231

_(2001).

[42]

K. Ll, M.N.S.

Swamy

and M.O. Ahmad, "An improved voice activity detection using higher order statistics," IEEE Jlrztns.

Speech

Audio Process.,13,

965-974

(2005).

[43]

D, Cournapeau, T. KawahaTa, K. Mase and T.

[[briyama, [`Vbice

act･ivity detector based on

en-hanced cumulant of LPC residual and on-line EM

algorithrn,"

Proc.

interspeech,pp.1201-1204

(2006).

[44]

J.-H.

Chang,

N.S.

Kim

and

S.K.

Mitra,

"Voice

ac-tivity detectionbased on multiple statistical models,"

fEEE 7Vuns. Stgnal Process.,

54,

1965-1976

(2006).

[45]

R. Tahmasbi and S.Razaei, "A

soft voice activity

detection using

GARCH

fiIter

and variance Gamrna

distribution,"

IEEE

7b-ans.

Audio

Speech

Lang.

Pro-cess., 15,1129-1134

(2007).

[46]

H. Kato Solvang, K. Ishizuka and

M.

Fujimoto,

LCVbice

activity detection based on adjustable linear

prediction and GARCH models," SPeech Com7nun.,

50,

476-486

(2008).

[47]

K. Ishizukaand H. Kato, "A

feature

forvoice

ac-tivity detectionderived from speech analysis with the

exponential autoregressive model,'i P7oc. J(]ASSP,

Vbl.1,pp.789-792

(2006).

[48]

Y. Hioka and N. Hamada, "Voice

activity

detec-tionwith array signal _processinginthe Wayelet

do-main,]'

IEICE

7}izns.

IJlttndarn.,

E86-A,

2802-2811

(2003).

[491

A,

Alvarez,

P.

_G6mez,

_V.

_Nleto,

_R.

_Martinez and

V. Rodellar, "Application _of _a _first-order differen-tial microphone for eMcient voice activity

detection

ina car _platform," Proc. Interspeech,_pp.2669-2672

(2006).

[so]

sm

#,"L71gu7tu7v-emvi]t]xgF"e

(7)

[51]

I.Potamitis and E.Fishlcr,`[Speech activity

tection and enhancernent of a moving speaker

based

on the wideband generalizedlikelihoodratio and mi-crephonc arrays,"

J.

Acoust. Soc. Am., 116,

2415

(2e04).

[52]

M. Omologo and P. Svaizer, :`Use

of the crosspower-spectrum _phase in acoustic event loca

tion," fEEE 7}'ans,SPeech Audio Process.,5,

292

(1997).

[53]

R.

Le Beuquin-Jeannes, A.A. Azirani and G.

Faucon,

`[Enhancement of speech degraded by

coheT-ent and incoherent noise uslng a cross-spectral esti-mator,"

IEEE

7)'ans.

Speech

Audio Process.,

5,

487

(1997).

[54]

Y. Denda, T. Nlshiura and Y, Yamashita, bust talker

direction

estimation based on weighted

CSP analysis and maxlmum likelihoodestirnation,'i

IEICE

Ihans.

Iof

Syst.,

E89-D,

1050-1057

C2006).

[55]

J.E. Rubio, K. Ishizuka,H.Sawada,

S.

Araki, T.

Nakatani and M. Fujimoto, "Two-microphone veice

activity detection based en the hornogeneity of the

directionof arrival estimates,]' Proc. ICASSP, Vbl.4,

pp.385-388

(2007).

[56]

Y. Kida and T, Kawahara, :`Evaluation of

voice activity detection by combining multiple

fea-tures with weight adaptatlon,i' Proc. interspeech,

pp. 1966--1969

(2006).

i57]

J.Huang, E.Marcheret, K. Visweswariah and

G,

Potainianos, [`The _IBM

RT07

evaluation systems for

speaker diarizationon lecturemeetings,T' in

modal Tlechnologies

for

Percept･ion

of

ffumans,

R. Stiefelhagen,

R.

Bowers and J.Fiscus,Eds., LNCS

4625

(Springer-Verlag,

Berlin,2008),pp.497-508,

[58]

C."boters and rv{.Huijbregts,"The _ICSI _RJi07s

speaker diarizationsystem,i' Multimodal

gies

for

Perception

of

"umans, R. Stiefelhagen,R.

Bowers and J. Fiscus,Eds., LNCS 4625

VeTlag, Berlin,2008), _pp.509-519,

[5g]

K. Ishizuka,

S. Araki

and

T.

Kawahara, "Speech activity detectionfor multi-party conversatien anal-yses

based

en

likelihood

ratio teston spatial

magni-tude," IEEE 7}'ans.Audio

_Speech

Lang. Process.

(in

press),

[60]

ITU-T TD37Rl

(WP3116),

27January

Acoustical Aooustioal Society Sooiety of Japan 11 本音響学会誌 65 巻 10 号 (2009 ),pp 解説 * 音声区間検出技術の最近の研究動向 石塚健太郎, 藤本雅清, 中谷智広 ( 日本電信電話株式会社 NTT コミュ

11

，

．

537

解

説

音

声 区 間

検

出技術

の

最近

の

研

究動向

石

塚健

太

郎

藤 本 雅 清

中 谷 智 広

ー

．

．

．

，

Ar

1

．

音

声 区

間

検 出技術

概 要

1

検

（

Voice

Activity

Detection

VAD1

）

，音声

外

信

含

，

声

号

含

（

区

）

定 す

技術

（

図一

1

。

VAD

声

要素技

VAD

応

研 究

会議，

会議

非音声 区間

取

利用

能

［

1

−

3i

。

，

ー

声

Acoustical Aooustioal Society Sooiety of Japan 11 本音響学会誌 65 巻 10 号 (2009 ),pp 解説 * 音声区間検出技術の最近の研究動向石塚健太郎, 藤本雅清, 中谷智広 ( 日本電信電話株式会社 NTT コミュ

声区間

藤本雅清

中谷智広

声区

検出技術

概要

_信

定す

研究

非音声区間

_［

_国

_團

_，

_，

_，

_，

性能

_［

_］