11
本音響 学会誌 65 巻 号 ( ),
pp.
537 543537
解
説
音
声 区 間
検
出技術
の
最近
の
研
究動向
*石
塚健
太
郎
,藤 本 雅 清
,中 谷 智 広
(日本 電 信 電話株式会 社 NTT コ ミュ ニケー
ショ ン科学基礎研究所) ** 43.
60.
Bf;43.
72,
Ar
1
.
音
声 区
間
検 出技術
の概 要
1
ユ 機 能 と 応 用 分 野音 声 区 間
検
出(
Voice
Activity
Detection
;VAD1
)
技 術と は,音声
と そ れ以外
の信
号が含
ま れ る観 測 信 号の中か ら,
音声
信号
の含
まれ る区 間(
音 声区
間)
とそれ 以 外の 区 間 (非 音 声 区 間 ) を 判定 す
る技術
である(
図一
1
)。
VAD
その ものの 機 能 は極 めて単 純で はある が, 様々 な 音声
処 理 技 術 に お い て重 要 な役 割 を果た す基 盤要素技
術 である。VAD
は, 以下の技 術 分 野を 主 な応
用 分 野 とし, こ れ まで広 く研 究
開 発が な されて き た。 音 声 符 号 化 技 術音 声 信 号 を符 号 化 して伝 送 する際, 電 話や電 話
会議,
テ レ ビ会議
な どで生 じ る非音声 区間
を取
り 除い て音 声 区 間だけ を伝 送で きれ ば, 効 率 的 な 帯 域利用
が 可能
と なる[
1
−
3i
。
ま た,
音 声 区 間 と非 音 声 区 間で符 号 化の ビッ トレー
トを変 更 した り, 音声
と音
楽を区 別 し て異
な る符号化器
を利
用 し たり国
するこ とで高 品 質な情 報伝
送が期 待で きる。 雑 音抑
圧 技 術 観 測 信 号か ら雑 音を取 り除い て音 声 信 号 を取 り 出 す た めに用い る雑
音 抑 圧 技 術團
は,
雑 音の統*Advances
in voice activity detection.
林
Kentaro Ishizuka,
Masakiyo Fhjimoto and TomohiroNakatani (NTT Comm 皿 ication
Science
Laborato−
ries
,
NTT Corporation , Kyoto , 619−
0237 )e−
mail ; {ishizuka,
masakiyo,
nak }◎cslab.
kecl.
ntt.
co.
jp
1
同 機 能の技 術
,
又 は類 似の技 術には Specch (activity )detection
,
Speech endpoint detection,
Speech
signaidetection
,Speech
signal discrimination, Speech /Non−
speech detection
,
Utterance segmentdetection
,
Speech onset /offset
detection
な どの呼 称が ある が, 本稿ではこれ ら を総 称して VAD とする
。
こ の呼 称の多様性は
,
様々な応用 分 野で別 個にVAD
が開発され て きた ことに よ る
。
ま た,
Voice activity detection は,
Voicingdetection
やVoice
/Unvoice
classification の ように音 声 信 号の うち有 声 音 部 分だ け を取り 出 す技 術を指すこ と が ある が,
こ こ で は無 声 音 も含め たすべ ての音 声信 号を取 り出す 技 術をVAD と呼ぶ。
計 的 性 質の推
定の正確 さ に よっ て性 能
が左 右 さ れ る。VAD
に よ り観測信号
に含
ま れる非 音声
区 間 を判 定で きれ ば, 雑 音の統 計 的 性質
を よりよ く捉 えるた めの 手 が か り と なる。
自
動音
声 認識技
術自 動 音 声 認 識 技 術
[
6
]
は多
くの場 合,
音声
以外 の音
も音声
とし て誤
認識
し て しま う。
VAD
に よ り正 し く音声
区 間 が 与 え られればこ の 誤 りを抑
止 で きる。 ま た,
マ イ クの オ ン・
オフ が不要
に なる, 非 音声
区 間での認 識 処 理 を行わ ない こ とで演算
量 を削
減で きる, な どの利
点 も ある。 メディ ア処 理VAD
に より,
収 録・
保 存 され た音 声 メデ ィ ア・
マ ル チ メ デ ィ ア デー
タ か ら音声
区間
を取
り出
し,
後
の検索
や要約
処 理 を行
うため の 最 も基 本 的なメ タ デー
タを与
える ことが で きる。 これ と 上 記の 自 動 音 声 認 識 技 術 を併せ て用い れ ば, 動 画デー
タを自然言語
で検索
する こ と も 可能
と なる[
7
]
。 ま た,
近 年,
AMI
やCHIL
,
NIST
Rich
Transcription
Meeting
Recognition
な どのプロ ジェ ク ト[
8
−
10
亅
で多
くの 会 議デー
タ が収 録 さ れ, 収録
デー
タ 中で「誰
が い つ話
し た か ?」
を自動推 定
す る話 者決 定
(Speaker
diarization
) 技 術[
111
が盛 ん に研 究 さ れて い る。
この う ち 「い つ」
に相 当 する部 分 を検 出 する にはVAD
が必 須である2。1
.
2
構 成要素
と設計
要件
一
般
にVAD
は,音 響特徴抽 出器
と音声
/
非音声
識 別 器か ら構
成さ れ る。 音響
特 徴抽
出器で は,観
測信号
を10
〜
32ms
程度
の時間
長 を 持つ フ レー
ム に分割
して分析
し,音 声信号
の存在
を 適 切に表
現 で きる音 響 特 徴 を 抽 出 する。 音 声/
非 音 声 識 別 器 2話.
者 決 定の要 素 技 術と して の VAD 技 術につ い て は,
従来
Speech
Activity
DetectiQn (SAD )の用 語 が 利 用 されてい る
。
これは 笑い 声や咳 な どのVoicing
noise を 除い て
,
真に Speech で あ る部分 を取 り 出 すこ と を 目 的 と した 語 用 と考えら れ る が,
本 稿で はVAD
の用 語 を用い538
纛 ニ
ニ
音声
区 間_
厂一
一
一 一一
L _
図一
1 音声区 間検出 技 術 の概 要 で は得
ら れ た音
響 特徴
に 基づ き,
観 測 信 号 中の音 声 信 号の 有 無 をフ レー
ム単 位で決 定 する。VAD
は低 演算
量 で動 作
するこ と が好
ましい と さ れ,後
段の音 声 処 理 技 術 と比べ多
くの演 算 量 を割
くこ とが好
まれ ない 3。特
に実 時 間 処理 が必 要な 場合
は,
処理遅 延 を少
な く, かつ ア ル ゴ リ ズム上 で の遅 延 も ない(
未
来の情報
を利用 し ない)
こ と が求め ら れ る。 しか し,VAD
で の誤 りを後 段の 音 声 処 理 技 術で回 復 するこ と は困 難で あ り,
しばし ばVAD
の性能
は シ ス テ ム 全 体の性 能を大 き く左 右 する。 従っ て,
VAD
の 開発で は,演算
量 や遅 延 を抑
える た め に処 理の複
雑 化 を避 けな が らも,
高 精 度 な 技 術の実 現が 求め ら れ る。1
.
3
’
t
生甫
E
言平 価VAD
の性 能 評 価は分 析フ レー
ム単 位で の誤 棄 却率 (
FaIse
rejection rate ;音声
区 間 を非音声
区 間と して誤 判 定し た
割 合)
と誤受
理率 (
False
accep−
tance
rate ;非
.
音声
区間
を音声
区 間 とし て誤判定
し た割 合 )を用い て行 うこ とが多
い 。誤
棄 却 率の代 わ り に 正解率 (
Hit
rate ;音声
区 間を 正 しく音声
区 間 と して判定
し た割 合 )を用い るこ と もある。 誤 棄 却 率 と誤 受 理 率 はト レー
ド オフ の 関係
にある。
VAD
技 術は通常,音声
/
非音声
識 別 器で の 識別基準を変 化 させ ることで,
所 与の評 価デー
タ に対 する誤 棄却率
と誤受
理率
が変化
する。 その 変化
を プロ ッ ト する こ とでReceiver
Operating
Characteristics
(
ROC
)
カー
ブ[
12
]
を描
くこ と が で きる。 これ を用 い る と異な る手 法の性 能 比 較 が口∫能になる。 図一2
にROC
カー
ブの 例 を 示 す。
こ れ らの 評 価 尺 度はVAD
の汎 用 的な性 能を評 価 する に は有効
だが,
すべ て の分析
フ レー
ム を等
しく評価 す
る た め, 応 用分 野の 最終 的
な性 能
へ の 影 響 を十 分 反 映で き ない 場 合 が ある。 例 えば,
音声
符号化
で は誤 棄 却が 生 じ た箇 所に よっ て,
同 じ誤 棄 却 フ レー
ム数で あっ て も聴 取 時の 音 声 品 質に与 える影
響が異な る[
13
]
。 この よう
な影響
を考慮
し,
3実 際 に割り 当て る 演算量 はシ ス テム 全体の性 能 に 与 え る 影 響を考 慮 して決 定されるべ き もの である。 日本 音 響学会誌 65 巻 1 号 (200g)0.
5
0 .
4
ee
O
.
3
纛
:o ・
2
0.
1
0
0
,
2
0
.
4
0
.
6
0
.
8
1
.
0
誤 受 理 率 図一
2 ROC カー
ブ の例 こ の場合,
手 法 2 の 方の性能が良い と見な せ る 音 声 符号
化の ため のVAD
の 評価
に客観
的音質
評 価に用い られて い るITU −
T
P
.
862
を利 用 した尺 度 を導
入 した り[
14
]
,自動音
声 認 識の た めのVAD
の 評 価に発話
区 間の開始 ・
終
了時
刻の推 定の正確 さ を 反 映 した発 話 区 間 検 出 精 度 を導
入する[
15
]
試み がな さ れて い る。 ま た
,
NIST
Rich
Transcription
で の 多 人 数 会 話の た めの
VAD
の 評 価[
10
]
に は,
話者
決定
の評価
で用い るDiarization
Error
Rate
(
DER
;総 発 話 時 間に対 する, 発話
の誤受
理・
誤棄
却
・
話者誤
りの時間
の総 時 間の割合)
が利用
さ れ て いる4。一
般 的に発 話 区 間 検 出 精 度やDER
で の 評 価 を行
う場
合,
正解
デー
タ 中と推定結
果 との 発 話の開 始・
終 了 時 刻の 時 間 ずれ は一
定のずれ (例 え ば200
IIIs)
まで は許 容 する こ とが多
い。
性能
評 価 を行
うた めの評 価デー
タに は,雑
音が 含 ま れる音 声デー
タ を作 成・
収 録 して用い るこ と が多
い 。 応用対象
にもよ る が,
VAD
の汎 用 的な性 能を評 価す
る な ら ば,検
出 対象
となる発 話が一
つ の音声資料
に複 数含
まれ る よう
な評価
デー
タを用 い る方が, よ りVAD
が必 要 とされ る状 況 を反 映 した 性 能 評 価に なる。
また,
音 声 区間 と非 音 声 区 間が そ れ ぞ れ十 分な長さ で含
ま れて い ない と,
誤 棄却率
や誤
受 理率
の正 しい 評 価が で き ない 5。信 号
対雑音
比(
SN
比)
を統
制す
る場合
は雑音
の含
ま れない 音 声デー
タに雑 音のデー
タを付 加 して評 価 デー
タを作
成 する方
が容
易で ある が,
人 間の 発声
4VAD の 評 価の際,
話 者 誤 りは考 慮されない。
5逆に 音 声資 料の 大 部 分 が 音声デー
タ の み で占め ら れ る な らば,
すで にVAD
は済んで い ると言える。
その よう な デー
タ が 入 力 と な る 応 用 対 象で VAD を 用い る 意 義 は 少 ない,
,
音 声 区 間 検出技 術 最近 研 究 動 向 理 簾
裡
e
楓湘
時
間 図一
3CENSREC−
1−
C [15]に含ま れ る VAD の 評 価 デー
タの例 〔上 )観 測 信 号の波 形,
(F
) 観 測 信 号に含ま れ る音声の 区 間 様 式は環 境 雑 音の 影 響を受
けるの で , 実 際の雑 音 下 で発声
さ れ た音 声
デー
タを 評 価 に用い る方 が 実 用上 の性 能を より反 映で きる。 な お,
正解
の音声
区 間は人 手で付 与 した もの を用い る。VAD
の評 価のため に作 成 され た代 表 的 な 共 通 評 価デー
タであるCENSREC
−1−
C
[
15
]
に含
まれ る音声
資料
の例 を図一3
に示 す。異
なる言 語 間でVAD
の性 能
が異
な る結果
も報 告
さ れて お り[
16]
,
今 後, 言 語 普 遍 的 な性 能 評 価を行 う場 合は多 言 語 の音声
デー
タを用
い る 必 要 が あるか も しれ ない。
2
. 研 究 動 向
本 節で は,
VAD
の研 究動向
を 概 説 する。VAD
が対象
とする問 題 設 定は,
最 も初 期に は無 雑 音 環 境であっ た が, その後 定
常 的な雑 音 環 境,非
定 常雑
音の ある環境
と,
よ り現 実 的 な 環 境 を 扱 える よう
に発 展 して きた。音 響特 徴抽
出 に関 して は,音
声 とその他の.
音 をよ り よ く区 別で きる特 徴 を捉 え るための 研 究が進め ら れ た6。
ま た,
音 声/
非 音 声 の識 別 には古 くは単 純 な 閾 値 処 理が用い られ てき
たが,
近年
で は 閾値
を雑音環境
に応 じて動
的に更新す
る方法
や,統
計 的な基準
で音声
/
非
音声
識 別 を 行 う方 法が多
く提 案 されてい る。2
.
1
古 典 的 方 法VAD
に関 する最 も初 期の論 文で提 案 され た方 法 は,
観 測 信 号の パ ワー
と零交差 数
を 用い る方法
[
171
で ある。 こ の論
文で は, 有声音
を検 出 する た め に信 号
の パ ワー
(
有声音
が あ れ ばパ ワー
は大
き く な る), 無 声 子 音 などを取 り出 すた め に零 交 差 数 を 用 い (無声
子 音であ
れば 零 交 差数
は大 き くな る),事
巳 音 声の存 在を決 定 的に特 徴 付ける音 響 特 徴はい ま だ明ら かで は ない。 人 間は雑 音 環 境下で あっ て も容 易に音声の 存 在 を検 知する こ とがで きる が,
人 間が 用い てい る音響 特 徴につ い て もい ま だ研 究の途上 に あ り,
十 分に解 明さ れていない。
前に設 定 した閾
値 に基づ い て これ らを処 理 する こ と でVAD
を行
っ てい る。
これ らの 音 響 特 徴 は少 ない 計 算 量で抽 出で きるこ と か ら, 近年
で もよ く 利 用 さ れ る が,
雑音
環境
下 で は有効
な 音 響 特徴
と な ら ない 。 雑 音 環 境下 を対 象 とした音声 処
理研究
の高
まりを受
け,
耐雑音
性の高
いVAD
が 研 究 さ れる ようになっ た[
18
}
。上
記
の零 交 差数
は,雑音環境
下で のVAD
にお い ては初 出の論.
文と異 なる解 釈 が 与 えら れて利 用 され ている。雑
音は多
くの場合
高い零交差数
を示
し,音声信 号
の有声 音
は低
い零交
差 数 を 示 す。 そ こ で雑
音 環境
下で は零交差数
が閾値
を下回っ た場
合に音 声 区 間が検 出され[
21
, 無 声子
音の検 出のた め には利用 さ れ ない。
2
,
2
音 声の性 質の利 用耐 雑 音 性の向 上の ため に
,
周 波 数 領 域にお ける 音声
信 号の 特性
を利 用 するアプ ロー
チが あ る。 ま ず,
音声
の パ ワー
が1〜2kHz
以 下の周 波 数 帯 域に よ り集
中し てい るこ とに着
目し,低 周
波数
帯 域の パ ワー
を利 用 するVAD
が提案
され た[
2 .19− 21
]
。 その 後,
より詳
細 な情報
を利
用 するため に周波
数 スベ ク トル に基づ く音 響 特 徴 が 利 用 さ れ る ように な り,周波
数ス ペ ク トル の 概 形や,
声 帯の 振動
数 に対
応 し た基 本周波
数(
Fe
)
とその倍音
にあた る周
波 数帯
域(
調 波 成 分)
にパ ワー
が集 中 する性質
(
調波性
) を利
用す
るア プロー
チ が提案
さ れた。 周 波 数ス ペ ク トル の 概.
形 を 用い るア プロー
チ と して は,線
スペ ク トル周 波数
の時 間 方向
の変化
量[
2
]
や, 自動 音声
認 識で 広 く用い ら れて い る メ ル周
波数
ケプス ト ラム係 数 (
MFCC
)
[
22
]
,
メ ル フ ィル タ バ ン クの 出 力 を 用い る手 法[
23
]
など が提 案 さ れて き た。特
にMFCC
な ど を用い る場
合は,事前
に ガウ ス混 合 分 布モ デ ル (GMM
)や隠れマ ル コ フ モ デルな どの統計
モデ ル を 用い て学習
し て お き,
そ こか ら 出力さ れ る尤 度を音 響 特 徴 と して利 用す る こ とが多
い 。調 波 性を利 用 した方 法 に は,
Fo
その もの を特 徴 として利 用 する もの[
24
,
25]
や,
自 己 相 関 関 数の ピー
ク値 に 基づ く値
を用い る もの[
22
,26
,27
亅
,
岡 波 数スベ ク トル の周波
数 方向
の分散
[
20
亅
やエ ン ト ロ ピー
[
28
]
を 用い るもの な ど がある。 更に, 調 波 成 分 とそ れ以外の成 分 を 分 離 し,
それ らの パ ワー
比 を利
用 し て非定常
雑 音の影響
を受
けに くい 音響
特 徴 を 抽 出 する手 法[
29
]
が 提 案 されて い る。
540
ま た
,周
波 数ス ペ ク トル に現れ る情報
だ けで な く, 自
動 音声
認 識 技 術 か ら 得 ら れる情 報 をVAD
に用い る方法[
30]
も ある。
2
.
3
雑音
の情
報の 利 用音声
を表
す情 報
だけで な く,
観 測 信 号に含ま れ る雑音
の情報
を 推 定 し, その結 果得
られ るSN
比 を 音 響 特 徴 と して利
用 する方 法
も提
案 さ れ てい る[
20
,31
,32
]
。SN
比を用い る利 点は, 観 測 信 号や 雑 音の大 き さに依存
し ない閾値
の 設定
が 可能
とな る点
にあ
る (理 想 的に は閾 値がOdB
の ときに誤 受 理・
誤 棄 却 が 最 小になる)
。雑音
を推定
し てVAD
に利
用 する ことは,非
音声
区 間が分か ら ないう
ち か ら雑 音の統 計 的 性質
を 利 用 す るので奇 異に感
じ ら れ る か もし れ ない 。 し か し,多
くの場 合は観 測 信 弓’
の 冒 頭1 〜
数 十 フ レー
ム に は音 声 信 号は含 ま れ ない と仮定
し7,雑
音を推定 す
る た めの初期
値を そこ か ら 求め る方法
が取
ら れる。 ま た, 推定
され た 雑音
を利
用 して雑音抑
圧 を行
い ,雑 音抑
圧後
の 信 号に対 してVAD
を行 うこ とで 性 能 を 改 善 する 方 法[
20
,31〕
も ある。音声
と雑 音の情 報を共に用い る方 法と して は,音 声 と雑 音 を そ れぞ れ統計
モ デルでモデル化 し,
そ れ らの モ デル か ら得 ら れる尤 度 比 をVAD
に利 用 する手 法[
22
,23
,31
,33
,34
亅
もあ り,
近年
広 く研究
され てい る。 こ れまで,
音声
と雑 音の周 波 数ス ペ ク トル を複素
ガ ウス 分布
で モ デル化
する手 法
[
31
亅
や,定常 的
な雑
音モデル とGMM
に よ る音声
モ デ ルを用い る方 法[
34
]
,
更に音 声GMM
と非 定 常 雑音
の推定
を利
用 する方法
[
23
亅
な ど が提案
さ れてき
た。 雑 音 環 境が既 知で あれ ば, 音 声 と雑 音の 両 方 の モ デル にGMM
を利
用 するこ と もで きる[
33]
。2
.
4 時
間情報
の利 用ア ル ゴ リズム上で の遅 延 が 許 さ れるの で あ れば
,
複 数フ レー
ム に渡る観 測デー
タ を利 用 してSN
比 や尤 度 比を抽
出 するこ とでVAD
の性 能
は大
き く 改 善 する[
35
,36]
。更に, 音
声
固 有の特 徴の一
つ である, 音 声 信号
の 振 幅の 時 間 変 動が4Hz
をピー
クとし て32
Hz
以下 に偏っ てい る性 質[
37
]
を利 用 するこ ともで きる8。 こ の変 動 特 性は,周波 数
ス ペ ク トル上 で の特徴
が 似 通 っ て い る音声
と音 楽を区 別 する音 響 特 徴と し 7この 仮 定は多くの実 際 的な 応用で有 効に働 くが,
観 測 信 号の冒 頭か ら音声が含ま れる場 合にはも ちろ ん向か ない 。 84Hz の振 幅 変 動を捉 える には最 低で も250m5 の時 間 長 の情報が 必要で あ り,
遅延 が避けられ ない 問 題点はある.
日 本音 響 学 会 誌 65 巻 10 号 (2009 ) て も有 効で ある[
38
]
。 同 様に時
間 的変動
の情
報 を 反 映 した音響特徴
とし てバ イスペ ク トラ ム を用い る方 法 も ある[
39
]
。 ま た, 時間方向
に周波数
ス ベ ク トル をス ムー
ジン グするだ けで も性 能
の向
上 に 繋 が る[
401
。2
.
5Hangover
処
理の利 用上 記の時 間 情 報の 利 用 とも関 連 する が
,多
くのVAD
で は,
発 話は開 始さ れ る と し ば ら く継 続 す る, とい う 仮定
を お き, 音声 区間
の断片化
を 避け
て,検
出さ れ た音声
区間 をひ とまと まりにする処 理(
Hangover
処 理)
を導 入 してい る[
20
,31
]
。 こ れ に より,例
え ば有声
音の特
徴の み を捉え る よう
な 音 響 特 徴 を利 用 した場 合で も,
有 声 音の 前 後に 現れ る無声
子音
を捉
えるこ とが で きる[
29
]
。2
.
6
統
計 的 性 質の利 用音声信 号
は非
ガ ウス性の信号
で あるこ と か ら,
観 測 信 号の尖 度や歪 度 などの高 次 統 計 量 を音 響 特徴
として用 い る方法
が提案
さ れ てい る[
41
−43
亅
。 ま た,
上記の 尤度
比を用い たVAD
の発 展 と して, 音 声や雑音
の振幅
をラプラス分布
な どでモ デル化
す る方法
も提案
さ れて い る[
44
亅
。更に
,
音 声 信 号の持つ 非 線 形 な 時 間変動特
性 を非線
形時系
列解
析モ デル を 用い て捉え
る こ と に よ りVAD
を行 う手法
も ある[
45 −47
]
。2
.
7
複数
の マ イ クロ ホ ン の利 用複 数の マ イク ロ ホ ン を利 用で きる
場合
は,
上 記 の よう
な特徴
に加
えて空 間的
な情報
を利 用で きる 利 点 が ある[
48
]
。 空 間 情 報 を 利 用 して雑
音 抑 圧 を行 う
こ と でVAD
の性能
を向
上 さ せ る方法
[
49
]
や,
雑 音抑
圧 前後
のパ ワー
を比 較 する こ とでVAD
を行 う方法
[
50]
がある。 ま た,
マ イクロ ホ ン間で の コ ヒー
レ ン ス や信 号 到 来 方 向 推 定 技 術 を利 用 してVAD
を行 う 手 法[
5
/−
55
亅
も ある。
2
.
8
複 数の音 響 特徴
の併
用複数
の音響特徴
を併 用 する ことでVAD
の性 能
を向
上 さ せ るこ と がで きる。 最 も単 純には, 性質
の 異 なる複 数の音 響特
徴 か ら得
られ た結 果
のAND
やOR
を取 る方 法が あ る[
20
亅
。 ま た,
複 数の音 響 特 徴 を 最 小 識 別 誤 差な どの基 準に従っ て 重 み 付 け し,雑 音環境
に応 じ て音 響特徴
を選択 的
に用い る 方 法 も ある[
56
]
。2
.
9
話 者 決 定に お け るVAD
話 者 決 定にお けるVAD
で は,
収 録 済 みの会 話 デー
タ を処 理する た め ,処
理遅 延や演算
量 の制約
が少ない 。 現
在
主流の 方 法 は,
事 前に多
人 数 会 話 の デー
タ で 学 習 した音声
と非 音声
のGMM
を用い てVAD
を行 う手法
である[
57
]
。 こ の方法
は事
前 に学 習 した環 境 と異なる環境
で は性 能
が低
下する た め,処
理対 象
の デー
タか ら得
ら れ る ボ トム ア ッ プの 情 報 を 利 用 する方 法 も提案
さ れ てい る[
58
]
。複数
の マ イクロ ホ ン を用い るこ とがで き る場 合 は,
前 述の ように話 者の空 間位
置に関わ る情報
を利 用 する こ と もでき
る[
59
]
。3
.
今後
の課
題
本 解 説では
,
VAD
の概 要を示し, 近 年の研 究 動向
につ い て概 説し た。 近年
のVAD
研 究
は雑 音環
境 下で の 音 声 処 理 技 術の研 究に伴っ て発 展 し,
非 定常雑音
環境
下 で も高 精 度にVAD
が行 える よ うに なっ た9。 今 後, 頑 健 な 音 響 特 徴の導
入 や 音声
/
非 音 声 識 別 器の 精 度 向 上に より雑 音下 にお けるVAD
の 性 能 を引 き 続き向
上する と共に,
以 下の課 題に も取 り組む必 要がある と考 えら れ る。 話 者 認 識 技 術 と の融 合VAD
はその定 義 ヒ「
音声
信 号 」を検
出 する技術
であ
る ため,
目的
とする音
声以外
の音
で あっ て も音声
であれば検
出 する。従
っ て環境雑音
に音 声
が含
まれ てい る と性能
が 低下する。一
方
で,VAD
が必 要 とさ れ る よう
な 応用分
野(
例 え ばカー
ナ ビ ゲー
シ ョ ン シ ス テム)では, 雑 音 を 棄 却 するだ け で な く,
非 目的 音声 (
例 え ば助手席
の声)
の棄却
も 必 要と さ れ る。 従っ て, 話者
認 識 技 術をVAD
と 融 合させて,
問題の解 決に当 たる必 要がある。 音 声/
音 楽識
別技
術と の融合
音
楽
信号
は 音 声 信 号 と音 響 的 な 特 徴 が 似 通っ て お り, 従 来のVAD
で用い ら れ てい る音 響 特 徴で区
別 する こ とが困難
な 場 合 が ある。 これ まで も音声
と音楽
を識 別 する技
術は広
く研 究 さ れて きた が, こ の技 術 とVAD
を 融 合 し,
音 声/
音 楽/
雑 音/
無 音 を識 別 する技
術が で きれ ば,
環境 雑音
に音楽
が含
ま れ る場 合のVAD
の性能
を向
上 で きる だけで な く,放送
コ ンテ ン ッ の メ デ ィア処 理や音声 ・音楽
符 号 化 技 術におい て も有 用で あろ う。 現 在ITU −T
SG16
におい て もこ の よう
な 汎 用 信 号 区間検
出 技 術の標 準 化が進め ら れ てい る[
60
亅
。 9例 えば ,SN
比 がOdB
前後の地下鉄 騒 音や高 速 道 路の騒 音 下で も80% 以 上の 発 話 区 間 検 出 精 度 を 得 るこ とが で き る。 応 用 分 野の技
術と の融合
VAD
の応 用 分 野である雑 音 抑 圧 技 術 や自
動 音 声 認 識 技 術 は,VAD
に有 用 な 情 報 を提供
する こ と もで きる。
従 来の よ うにVAD
と これ らの技
術 をカス ケー
ドに接 続 する だけで な く,
相互 の情 報
を有効
に利
用 しシス テム 全体
と して の最 適 化を行 うこ とで, 最 終 的な音声
処 理の性 能向
上 が期待
で きる。 実 際の利 用 環 境 を 考 慮 したコー
パ ス整備
現在
の音
声 処理技 術の開
発や評
価で用い ら れる コー
パ ス の多
くは , すで に音声
区 間が人手
で検
出 さ れ た音声資料
で構
成さ れ て お り,
実 際の利
用 環 境を必 ずしも反 映してい ない 。 その た め,
VAD
の 重要性
を 開発段
階で認
識 しない ま ま,
暗 黙の う ち にVAD
が 正 し く行わ れるこ とを 前 提 とした技
術 開 発 を 進めて し ま う 要 因に も なる。 実 際の 利 用 環 境 に近い コー
パ ス を用い た技
術 開発
を行 う
こ とで,
VAD
も含
めた音 声 処 理 シ ス テム 全 体の頑 健 性 を高
め る こ とが できる と考
えら れ る。 文 献[1 〕 KSrinivasan and
A .
Gersho,“
Voice
activityde−
tection for cellular networks
,
”
Proc.
JEEE Work−
shop Speech Codin9 /b71 Teleco7T}munication
,
pp、
85−
86 (1993 )
.
[2 ] ITU
−
T Recommendation G 729 Annex B (1996).
[3 ] ETSI TS lO1707 (2000 )
.
[41 ETSI TS 126290 (2007 )
.
[5 ] P
.
Vary and R.
Martin , DtgitalSpeech
Transmis−
sion : Enhance πnen ちCoding and Error
Ooncealment
(John Wney &
Sons,
West Sussex,
2006 ).
[6 ] X
.
Huang,
A,
Acero and H.
Hon , Spoken Lan−
guage Processing’ A Guide 孟O Theory
,
Atgorith凧and
System
DevelopTnent (Prentice−
Hall,
New Jersey,
2001 )
,
[7 ] Google audio Indexing: http:〃 1abs
.
google.
con1 /gau (li
[81AMI and AMIDA Project: http://www
.
amiprQject.
org /[91 CHIL Project:http://chil
.
server.
de1[101 NIST Rich Transcription:http;〃nist
.
gov /speech !tests/rt/
[11]
S.
E.
Tranter and D.
A.
Reynolds , “Anoverview of
autQ 皿atic speaker
diarization
systems ,” ∫EEE 野
απ5
.
Audio Speech 1ンα7Lg
.
Pγマ)cess.
,14,1557−
1565 (2006).
[12} J
.
P.
Egan , Signal 五)etection Tんeo 卿 and ROC.
4nalysis
(Academic,
New York,
1975 ),
[13} L
.
Ding,
A .
Radwan,
M,
S、
E1−
Hennawey and R.
A ,
Goubran
,∈‘
Measurement
of the effects of temporal
clipPing oll speech quality
,
,, ∬五7EE ヱ短 γL5,
Jnstrurn,
Meas
.
,
55,1197−
1203 (2006).
[14] rTU
−
T TD35 (WP3116 ),
27 January−
6 Febmar }・
(2009 )
.
[151N
,
Kitaoka,
K,
Yamamoto、
T,
Kusamizu , S.
Nakagawa , T
.
Yamada , S.
Tsuge ,C .
Miyajima , T.
Nishiura,
M .
Nakayama ,
Y.
Denda
542
Takiguchi, S.Tleimura,S.Kuroiwa, K. Takeda and S.
Nakamura, `CDevelopment
of VAD evaluation frame-work CENSREC-1-C and
investigation
of relation-ship between VAD and speech recognitionperfor-mance," Proc.ASR U,pp.607-612
(2007).
[16]
ITU-T AC-0809-Q08-05, 25Septernber-3
Octo-ber
(2008).
[17]
L.R,
Rabiner
and M,R. Sambur, "Analgorithm
fordetermining the endpoints of isolatedutterances,i'
BetlSyst.71ech.
J.,
54,297-315(1975),
[181
L.F. Lamcl, L.R.Rabiner,
A.E.Rosenberg
andJ.G.Wilpon, "An impreved
endpeiiit
detector
for
iso-lated
word recognition,'] JEEE Ti'ans.Acoust. SPeechSignat
Process., ASSP-29, 777-785(1981).
[19]
B.
Mak,
J.-C,
Junqua and B, Reaves, "Arobust speech/non-speech detection algorithm using time and frequency-based
features,T'
Proc.
JCt4SSP,
Vbl.
1,pp.269-272
(l992),
[20]
ETSI ES 202 212(2003).
[21]
M.
Marzinzik
and B. Kollmeier, "Speechpause detection
for
noise spectrum estimation by trackingpower envelope
dynamics,"
IEEE 7hans.Speech
dioProcess.,10, 109-118
(2002).
[22]
T. Kristjansson,S. Deligne and P.Olsen,
"Voic-ing featuresforrobust speech detectien,'iProc, terspeech,pp.369-372
(2005).
[231
M.
Fujimoto
and K,Ishizuka,`[Noiserobust voice activity detectionbased on switching Kalman filter,"
IEJCE 7b"ans.Inf/
Syst.,
E91-D, 467-477(2008),
[24]
M. Hamada, Y, Takizawa and T. Norimatsu, "Anoise robust speech recognitien system,i' Proc,
SLP, 893 896
(1990).
[25]
R. 1[1icker,"Vbiceactivity detectionusing a
peri-odicity measure," IEE Proc.,I 139,377-380
(1992).
[26]
B. Kingsbury, G. Saon, L. Mangu, M.Padmanabhan and
R.
Sarikaya, `[RDbustspeech recognition in noisy environments:
The
2001IBM
SPINE evaluation system," Proc. ICASSP, Vbl.1,
pp.53-56
(2002),
[27]
S.Basu, L`A linked-HMMmodel forrobust voic-ing and speech detection," Proc. JCASSP, Vbl.1,
pp.816-819
(2003).
[28]
B.-F. Wu and K.-C. VLiang, L`RDbustendpoint
detection algorithm
based
on the adaptiveband-partitioning spectral entropy in adverse
environ-ments," IEEE 7bzzns.Speech Audio l]rocess.,13,
762-775
(2005),
[29]
K. Ishizuka,T, Nakatani, M. Fujimoto and N,Miyazalci, `"Noise robust voice activity
detectien
based on periodic to aperiodic component ratio,':
Speech
Comrnun.(in
pre$s).[30]
S. Kuroiwa, M. Naito, S. Yamamoto and N.Higuchi, tCRobust
speech detection method fbr tele-phone speech recognition system," Speech Commun.,
27, 135--148
(1999).
[31]
J.
Sohn,
N.-S.
Kim
andW.
Sung,
[LAstatistica] rnodel-based voice activity detection,'7iEEE Signat
Process.Lett.,6,1-3
(1999).
[32]
L.
Karray
andA.
Martin, "Towards improvingspeech detectionrobustness forspeech recognition in
adverse conditions,"
Speech
Commun.,
40, 261-276(2eo3).
[33]
A. Lee, K. Nakamura, R. Ni$himura, H.Saru-wataTi and K. Shikano, `"Noise
robust real world spoken dialogue system using GMM based
tionofunintended inputs,i'Prvc. interspeech,Vbl.1,
H
dyg#"kas
6s
g
loe
(2oog)
pp.173-176
(2004).
[341
A,
de
la [IbTre,J. Ramirez, C. Benitez, J.C. Segura, L.Garcfa
and A.J. Rublo, [`Noiserebust model-based voice activity
detection,"
Proc.
inter-speech, pp.1954-1957
(2006).
[35]
J.
Ramirez,
J.C.
Segura,
C.
Benitez,A.
de la[[brre and
A.
Rubio,
`[EMcient voice activitydetcc-tion algoTithms using
long-term
speech information,i'Speech
Commun., 42,271-287(2004).
[36]
J,Ramfrez, J.C. Segura, C. Benitez, L.Garcia
and
A.
Rubie, "Statisticalvoice activity detection using a multiple observation likelihoodratio test,"
LEEE
Signal
Process,
Lett.,
12,689-692(2005).
[37]
T. Arai and S.Greenberg,
[`The temporalprop-erties of spoken
Japanese
are similar to those ofEnglish," Proc. Eurospeech, Vbl,2, pp.1011-IO14
(1997).
[38]
N.
Mesgarani,
S.
Shamma
and M. SIaney,"Speechdiscrimination based on multiscale spectr}temporal rnodulations,"
Proc.
ICASSP,
Vbl.1, pp.601-604(2004).
[39]
J.M. G6rriz,J.Rarnirez,C,G. Puntonet andJ,C.
Segura, `EGeneralized [J}UI]-based
voice activity
detec-tor,"IEEE SignatProcess.Lett.,13,636-639
(2006).
[40]
Y.D.
Cho
andA.
Kondoz, [LAnalysisand
improve-ment ofa statistical model-based voice activity
detec-tor;i IEEE Signal Process. Lett.,8,276
-278
(2001).
[41]
E.Nemer, R.Goubran and S.Mahmoud, :`Robustvoice activity deteetion using higher-order statistics
in the LPC residual domain," IEEE 7iuns. Speech
Audio
Process,,9,217-231(2001).
[42]
K. Ll, M.N.S.Swamy
and M.O. Ahmad, "An improved voice activity detection using higher order statistics," IEEE Jlrztns.Speech
Audio Process.,13,965-974
(2005).
[43]
D, Cournapeau, T. KawahaTa, K. Mase and T.[[briyama, [`Vbice
act・ivity detector based on
en-hanced cumulant of LPC residual and on-line EM
algorithrn,"
Proc.
interspeech,pp.1201-1204(2006).
[44]
J.-H.Chang,
N.S.Kim
andS.K.
Mitra,
"Voiceac-tivity detectionbased on multiple statistical models,"
fEEE 7Vuns. Stgnal Process.,
54,
1965-1976(2006).
[45]
R. Tahmasbi and S.Razaei, "Asoft voice activity
detection using
GARCH
fiIter
and variance Gamrnadistribution,"
IEEE7b-ans.
Audio
Speech
Lang.
Pro-cess., 15,1129-1134
(2007).
[46]
H. Kato Solvang, K. Ishizuka andM.
Fujimoto,LCVbice
activity detection based on adjustable linear
prediction and GARCH models," SPeech Com7nun.,
50,
476-486
(2008).
[47]
K. Ishizukaand H. Kato, "Afeature
forvoiceac-tivity detectionderived from speech analysis with the
exponential autoregressive model,'i P7oc. J(]ASSP,
Vbl.1,pp.789-792
(2006).
[48]
Y. Hioka and N. Hamada, "Voiceactivity
detec-tionwith array signal processinginthe Wayelet
do-main,]'
IEICE
7}izns.
IJlttndarn.,E86-A,
2802-2811(2003).
[491
A,
Alvarez,
P.G6mez,
V.
Nleto,
R.
Martinez andV. Rodellar, "Application of a first-order differen-tial microphone for eMcient voice activity
detection
ina car platform," Proc. Interspeech,pp.2669-2672
(2006).
[so]
sm
#,"L71gu7tu7v-emvi]t]xgF"e
[51]
I.Potamitis and E.Fishlcr,`[Speech activitytection and enhancernent of a moving speaker
based
on the wideband generalizedlikelihoodratio and mi-crephonc arrays,"
J.
Acoust. Soc. Am., 116,2415
(2e04).
[52]
M. Omologo and P. Svaizer, :`Useof the crosspower-spectrum phase in acoustic event loca
tion," fEEE 7}'ans,SPeech Audio Process.,5,
292
(1997).
[53]
R.
Le Beuquin-Jeannes, A.A. Azirani and G.
Faucon,
`[Enhancement of speech degraded bycoheT-ent and incoherent noise uslng a cross-spectral esti-mator,"
IEEE
7)'ans.
Speech
Audio Process.,5,
487
(1997).
[54]
Y. Denda, T. Nlshiura and Y, Yamashita, bust talkerdirection
estimation based on weightedCSP analysis and maxlmum likelihoodestirnation,'i
IEICE
Ihans.Iof
Syst.,
E89-D,
1050-1057C2006).
[55]
J.E. Rubio, K. Ishizuka,H.Sawada,S.
Araki, T.Nakatani and M. Fujimoto, "Two-microphone veice
activity detection based en the hornogeneity of the
directionof arrival estimates,]' Proc. ICASSP, Vbl.4,
pp.385-388
(2007).
[56]
Y. Kida and T, Kawahara, :`Evaluation ofvoice activity detection by combining multiple
fea-tures with weight adaptatlon,i' Proc. interspeech,
pp. 1966--1969
(2006).
i57]
J.Huang, E.Marcheret, K. Visweswariah andG,
Potainianos, [`The IBM
RT07
evaluation systems for
speaker diarizationon lecturemeetings,T' in
modal Tlechnologies
for
Percept・ionof
ffumans,R.
Stiefelhagen,
R.
Bowers and J.Fiscus,Eds., LNCS4625
(Springer-Verlag,
Berlin,2008),pp.497-508,[58]
C."boters and rv{.Huijbregts,"The ICSI RJi07sspeaker diarizationsystem,i' Multimodal
gies
for
Perceptionof
"umans, R. Stiefelhagen,R.Bowers and J. Fiscus,Eds., LNCS 4625
VeTlag, Berlin,2008), pp.509-519,
[5g]
K.
Ishizuka,
S.
Araki
andT.
Kawahara, "Speech activity detectionfor multi-party conversatien anal-ysesbased
enlikelihood
ratio teston spatialmagni-tude," IEEE 7}'ans.Audio
Speech
Lang. Process.(in
press),