• 検索結果がありません。

Acoustical Aooustioal Society Sooiety of Japan 11 本音響学会誌 65 巻 10 号 (2009 ),pp 解説 * 音声区間検出技術の最近の研究動向 石塚健太郎, 藤本雅清, 中谷智広 ( 日本電信電話株式会社 NTT コミュ

N/A
N/A
Protected

Academic year: 2021

シェア "Acoustical Aooustioal Society Sooiety of Japan 11 本音響学会誌 65 巻 10 号 (2009 ),pp 解説 * 音声区間検出技術の最近の研究動向 石塚健太郎, 藤本雅清, 中谷智広 ( 日本電信電話株式会社 NTT コミュ"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

11

本音響 学会誌 65 巻 号 ( )

pp

537 543

537

声 区 間

出技術

最近

究動向

       

塚健

藤 本 雅 清

中 谷 智 広

(日本 電 信 電話株式会 社 NTT コ ミュ ニケ

ショ ン科学基礎研究所) ** 43

60

Bf;43

72

Ar

1

声 区

検 出技術

概 要

 

1

ユ 機 能 と 応 用 分 野

 

音 声 区 間

Voice

 

Activity

 

Detection

VAD1

技 術と は

,音声

と そ れ以

号が

ま れ る観 測 信 号の中か ら

まれ る区 間

音 声

とそれ 以 外の 区 間 (非 音 声 区 間 ) を 判

定 す

技術

である

図一

1

VAD

その のの 機 能 は極 めて単 純で はある が 様々 な 音

処 理 技 術 に お い て重 要 な役 割 を果た す基 盤

要素技

術 である。

VAD

は, 以下の技 術 分 野を 主 な

用 分 野 とし, こ れ まで広 く

研 究

開 発が な されて き た。 音 声 符 号 化 技 術

 

音 声 信 号 を符 号 化 して伝 送 する際, 電 話や電 話

会議,

テ レ ビ

会議

な どで生 じ る

非音声 区間

り 除い 音 声 区 間だけ を伝 送で きれ ば, 効 率 的 な 帯 域

利用

が 可

と なる

1

3i

ま た

音 声 区 間 と非 音 声 区 間で符 号 化の ビッ トレ

トを変 更 した り

楽を区 別 し て

な る

符号化器

用 し たり

するこ とで高 品 質な情 報

送が期 待で きる。 雑 音

圧 技 術   観 測 信 号か ら雑 音を取 り除い て音 声 信 号 を取 り 出 す た めに用い る

音 抑 圧 技 術

雑 音の統

*Advances

 in voice  activity  detection

Kentaro  Ishizuka

 Masakiyo  Fhjimoto  and  Tomohiro

  Nakatani (NTT  Comm 皿 ication 

Science

 Laborato

 ries

 NTT  Corporation   Kyoto 619

0237 )e

mail ;   {ishizuka

 masakiyo

 nak ◎cslab

kecl.

ntt

co

jp

1

同 機 能の技 術

又 は類 似の技 術には Specch (activity

detection

 Speech endpoint  detection

 

Speech

 signai

detection

, 

Speech

 signal  discrimination, Speech /Non

speech   detection

  Utterance  segment  

detection

Speech onset offset  

detection

な どの呼 称が ある が

稿ではこれ ら を総 称して VAD とする

こ の呼 称の多様

性は

様々な応用 分 野で別 個に

VAD

が開発され て きた こ

とに よ る

ま た

Voice activity  detection は

 Voicing

detection

Voice

Unvoice

 classification の ように音 声 信 号の うち有 声 音 部 分だ け を取り 出 す技 術を指すこ と が ある が

こ こ で は無 声 音 も含め たすべ ての音 声信 号を取   り出す 技 術をVAD と呼ぶ

計 的 性 質の

定の正確 さ に よっ て

性 能

が左 右 さ れ る。

VAD

に よ り

観測信号

ま れる非 音

区 間 を判 定で きれ ば, 雑 音の統 計 的 性

を よりよ く捉 えるた めの 手 が か り と な

声 認

識技

 

自 動 音 声 認 識 技 術

6

くの場 合

以外 の

音声

とし て

し て しま う

VAD

に よ り正 し く音

区 間 が 与 え られればこ の 誤 りを

止 で きる。 ま た

マ イ クの オ ン

オフ が不

に なる, 非 音

区 間での認 識 処 理 を行わ ない こ とで

演算

量 を

減で きる, な どの

点 も ある。 メディ ア処 理

 

VAD

に より

収 録

保 存 され た音 声 メデ ィ ア

マ ル チ メ デ ィ ア デ

タ か ら

音声

の検

や要

処 理 を

うため の 最 も基 本 的なメ タ デ

タを

える ことが で きる。 これ と 上 記の 自 動 音 声 認 識 技 術 を併せ て用い れ ば, 動 画デ

自然言語

検索

する こ と も 可

と なる

7

。 ま た

近 年,

AMI

CHIL

 

NIST

 

Rich

 

Transcription

Meeting

 

Recognition

な どのプロ ジェ ク ト

8

10

くの 会 議デ

タ が収 録 さ れ, 収

中で

「誰

が い つ

し た か ?

自動推 定

す る話 者

決 定

Speaker

 

diarization

) 技 術

111

が盛 ん に研 究 さ れて い る

この う ち 「い つ

に相 当 する部 分 を検 出 する には

VAD

が必 須である2。

 

1

2

構 成要素

と設

 

VAD

,音 響特徴抽 出器

音声

非音声

識 別 器か ら

成さ れ る。 音

特 徴

出器で は

,観

測信号

10

32ms

の時

長 を 持つ フ レ

ム に

分割

して

分析

,音 声信号

存在

を 適 切に

現 で きる音 響 特 徴 を 抽 出 する。 音 声

非 音 声 識 別 器 2

者 決 定要 素 技 術と して の VAD 技 術つ い て は

Speech

 

Activity

 DetectiQn (SAD )の用 語 が 利 用 さ

れてい

これは 笑い 咳 な ど

Voicing

 noise を 除

い て

真に Speech で あ る部分 を取 り 出 すこ と を 目 的 と した 語 用 と考えら れ る が

本 稿で は

VAD

の用 語 を用い

(2)

538

纛 ニ

音声

区 間

_

一 一一

L _

1 音声区 間検出 技 術 の概 要 で は

ら れ た

響 特

に 基づ き

観 測 信 号 中の音 声 信 号の 有 無 をフ レ

ム単 位で決 定 する。

 

VAD

は低 演

量 で

動 作

するこ と が

ましい と さ れ

段の音 声 処 理 技 術 と比べ

の演 算 量 を

くこ とが

まれ ない 3。

に実 時 間 処理 が必 要な 場

処理遅 延 を

な く, かつ ア ル ゴ リ ズム上 で の遅 延 も ない

情報

を利用 し ない

こ と が求め ら れ る。 しか し,

VAD

で の誤 りを後 段の 音 声 処 理 技 術で回 復 するこ と は困 難で あ り

しばし ば

VAD

性能

は シ ス テ ム 全 体の性 能を大 き く左 右 する。 従っ て

VAD

の 開発で は

,演算

量 や遅 延 を

える た め に処 理の

雑 化 を避 けな が らも

高 精 度 な 技 術の実 現が 求め ら れ る。

 

1

3

 

t

E

言平 価  

VAD

の性 能 評 価は分 析フ レ

ム単 位で の誤 棄 却

率 (

FaIse

 rejection  rate ;音

区 間 を

非音声

区 間

と して誤 判 定し た

割 合)

と誤

率 (

False

 accep

tance

 rate

音声

音声

区 間 とし て

誤判定

た割 合 )を用い て行 うこ とが

い 。

棄 却 率の代 わ り に 正

解率 (

Hit

 rate

区 間を 正 しく音

区 間 と して判

し た割 合 )を用い るこ と もある。 誤 棄 却 率 と誤 受 理 率 はト レ

ド オフ の 関

にある

VAD

技 術は通

常,音声

音声

識 別 器で の 識別基準を変 化 させ ることで

所 与の評 価デ

タ に対 する誤 棄

却率

と誤

が変

する。 その 変

を プロ ッ ト する こ とで

Receiver

 

Operating

 

Characteristics

ROC

12

くこ と が で きる。 これ を用 い る と異な る手 法の性 能 比 較 が口∫能になる。 図

一2

ROC

ブの 例 を 示 す

 こ れ らの 評 価 尺 度は

VAD

の汎 用 的な性 能を評 価 する に は有

だが

すべ て の

分析

フ レ

ム を

く評価 す

る た め, 応 用分 野の 最

終 的

性 能

影 響 を十 分 反 映で き ない 場 合 が ある。 例 えば

号化

で は誤 棄 却が 生 じ た箇 所に よっ て

同 じ誤 棄 却 フ レ

ム数で あっ て も聴 取 時の 音 声 品 質に与 える

響が異な る

13

。 この よ

影響

考慮

3実 際 にり 当 る 演量 は 性 能 に 与 え る 影 響を考 慮 して決 定されるべ き もの である。 日本 音 響学会誌 65 巻 1 号 (200g)

0.

5

 

0 .

4

           

ee

 

O

3

o ・

2

 

0.

1

   

0

       

0

2

   

0

4

   

0

6

   

0

8

   

1

0

      誤 受 理 率   図

2 ROC カ

ブ の例     こ の場合

手 法 2 の 方の性能が良い と見な せ る 音 声 符

化の ため の

VAD

客観

音質

評 価に用い られて い る

ITU −

T

 

P

862

を利 用 した尺 度 を

入 した り

14

,自動音

声 認 識の た めの

VAD

の 評 価に発

区 間の開

始 ・

刻の推 定の正確 さ を 反 映 した発 話 区 間 検 出 精 度 を

入する

15

試み が

な さ れて い る。 ま た

NIST

 

Rich

 

Transcription

で の 多 人 数 会 話の た めの

VAD

評 価

10

に は

話者

の評

で用い る

Diarization

 

Error

 

Rate

DER

;総 発 話 時 間に対 する

誤受

誤棄

話者誤

りの

時間

の総 時 間の

割合)

利用

さ れ て いる4。

般 的に発 話 区 間 検 出 精 度や

DER

で の 評 価 を

と推

定結

果 との 発 話の開 始

終 了 時 刻の 時 間 ずれ は

定のずれ (例 え ば

200

 IIIs

で は許 容 す こ と

 

性能

評 価 を

うた めの評 価デ

タに は,

音が 含 ま れる音 声デ

タ を作 成

収 録 して用い るこ と が

用対

にもよ る が

VAD

の汎 用 的な性 能を評 価

る な ら ば

出 対

となる発 話が

つ の

音声資料

に複 数

まれ る よ

な評

タを用 い る方が, よ り

VAD

が必 要 とされ る状 況 を反 映 した 性 能 評 価に なる

また

音 声 区間 と非 音 声 区 間が そ れ ぞ れ十 分な長さ で

ま れて い ない と

誤 棄

却率

受 理

の正 しい 評 価が で き ない 5。

信 号

対雑音

SN

る場

雑音

ま れない 音 声デ

タに雑 音のデ

タを付 加 して評 価 デ

タを

成 する

易で ある が

人 間の

4VAD 評 価の際

話 者 誤 りは考 慮されない

5 音 声資 料の 大 部 分 が 音声デ

タ の み で占め ら れ る な らば

すで に

VAD

は済んで い ると言える

その よう な デ

タ が 入 力 と な る 応 用 対 象で VAD を 用い る 意 義 は 少 ない

(3)

音 声 区 間 検出技 術 最近 研 究 動 向 理 簾

e

                       時

間 図

3CENSREC

1

C [15]に含ま れ る VAD の 評 価 デ

  タの例  〔上 )観 測 信 号の波 形

F

) 観 測 信 号に含ま れ る音声の   区 間 様 式は環 境 雑 音の 影 響を

けるの で , 実 際の雑 音 下 で

発声

さ れ た

音 声

タを 評 価 に用い る方 が 実 用上 の性 能を より反 映で きる。 な お

音声

区 間は人 手で付 与 した もの を用い る。  

VAD

の評 価のため に作 成 され た代 表 的 な 共 通 評 価デ

タである

CENSREC

−1−

C

15

まれ る音

の例 を図

一3

に示 す。

なる言 語 間で

VAD

性 能

な る

結果

報 告

さ れて お り

16]

今 後, 言 語 普 遍 的 な性 能 評 価を行 う場 合は多 言 語 の

音声

タを

い る 必 要 が あるか も しれ ない

2

. 研 究 動 向

 

本 節で は

VAD

の研 究

動向

を 概 説 する。 

VAD

対象

とする問 題 設 定は

最 も初 期に は無 雑 音 環 境であっ た が その

後 定

常 的な雑 音 環 境

,非

定 常

音の ある環

よ り現 実 的 な 環 境 を 扱 える よ

に発 展 して きた。

音 響特 徴抽

出 に関 して は

,音

声 とその他の

音 をよ り よ く区 別で きる特 徴 を捉 え るための 研 究が進め ら れ た6

ま た

音 声

非 音 声 の識 別 には古 くは単 純 な 閾 値 処 理が用い られ て

たが

で は

雑音環境

に応 じて

的に

新す

る方

や,

計 的な

基準

で音

識 別 を 行 う方 法が

く提 案 されてい る。  

2

1

古 典 的 方 法  

VAD

に関 する最 も初 期の論 文で提 案 され た方 法 は

観 測 信 号の パ ワ

と零

交差 数

を 用い る

方法

171

で ある。 こ の

文で は, 有

声音

を検 出 する た め に

信 号

の パ ワ

有声音

が あ れ ばパ ワ

き く な る), 無 声 子 音 などを取 り出 すた め に零 交 差 数 を 用 い

無声

子 音

れば 零 交 差

は大 き くな る

),事

巳 音 声の存 在を決 定 的に特 徴 付ける音 響 特 徴はい ま だら かで は ない。 人 間は雑 音 環 境下で あっ て も容 易に音声の 存 在 を検 知する こ とがで きる が

人 間が 用い てい る音響 特 徴につ い て もい ま だ研 究の途上 に あ り

十 分に解 明さ れていない

前に設 定 した

値 に基づ い これ らを処 理 する こ と で

VAD

っ てい る

これ らの 音 響 特 徴 は少 ない 計 算 量で抽 出で きるこ と か ら, 近

で もよ く 利 用 さ れ る が

下 で は

有効

な 音 響 特

と な ら ない 。 雑 音 環 境下 を対 象 とした

音声 処

理研

まりを

雑音

性の

VAD

が 研 究 さ れる ようになっ た

18

 

の零 交 差

は,

雑音環境

下で の

VAD

にお い ては初 出の論

文と異 なる解 釈 が 与 えら れて利 用 され ている。

音は

くの場

高い

零交差数

,音声信 号

有声 音

零交

差 数 を 示 す。 そ こ で

音 環

下で は零

交差数

が閾

を下回っ た

合に音 声 区 間が検 出され

21

, 無 声

音の検 出のた め には用 さ れ ない

 

2

2

音 声の性 質の利 用

 

耐 雑 音 性の向 上の ため に

周 波 数 領 域にお ける 音

信 号の

を利 用 するアプ ロ

チが あ る。 ま ず

の パ ワ

1〜2kHz

以 下の周 波 数 帯 域に よ り

中し てい るこ とに

目し

,低 周

帯 域の パ ワ

を利 用 する

VAD

が提

され た

2 .19− 21

。 その 後

より

細 な

情報

用 するため に周

数 スベ ク トル に基づ く音 響 特 徴 が 利 用 さ れ る ように な り,

周波

数ス ペ ク トル の 概 形や

声 帯の 振

数 に

応 し た基 本

周波

Fe

とその

倍音

にあた る

波 数

調 波 成 分

にパ

集 中 す

調

波性

) を

るア プロ

チ が

提案

さ れた。   周 波 数ス ペ ル の 概

形 を 用い るア プロ

チ と して は

,線

スペ ク ト周 波

時 間 方

2

や, 自動 音

認 識で 広 く用い ら れて い る メ ル

ケプス ト ラム

係 数 (

MFCC

22

メ ル フ ィル タ バ ン クの 出 力 を 用い る手 法

23

など が提 案 さ れて き た

。特

MFCC

な ど を用い る

合は

,事前

に ガウ ス混 合 分 布モ デ ル (

GMM

)や隠れマ ル コ フ モ デルな どの統

モデ ル を 用い て

学習

し て お き

そ こか ら 出力さ れ る尤 度を音 響 特 徴 と して利 用す る こ とが

い 。

 

調 波 性を利 用 した方 法 に は,

Fo

その もの を特 徴 として利 用 する もの

24

25]

自 己 相 関 関 数の ピ

ク値 に 基づ

を用い る もの

22

26

27

岡 波 数スベ ル の周

数 方

の分

20

やエ ン ト ロ ピ

28

を 用い るもの な ど がある。 更に, 調 波 成 分 とそ れ以外の成 分 を 分 離 し

それ らの パ

比 を

用 し て非

定常

雑 音の

影響

けに くい

特 徴 を 抽 出 する手 法

29

が 提 案 されて い る

(4)

540

 

ま た

,周

波 数ス ペ ク トル にれ る

, 自

動 音

認 識 技 術 か ら 得 ら れる情 報 を

VAD

に用い る方法

30]

も ある

 

2

3

雑音

報の 利 用

 音声

情 報

だけで な く

観 測 信 号に含ま れ る

雑音

情報

を 推 定 し, その結 果

られ る

SN

比 を 音 響 特 徴 と して

用 する

方 法

案 さ れ てい る

20

31

32

SN

比を用い る利 点は, 観 測 信 号や 雑 音の大 き さに依

し ない

閾値

の 設

が 可

とな る

る (理 想 的に は閾 値が

OdB

の ときに誤 受 理

誤 棄 却 が 最 小になる

雑音

推定

し て

VAD

用 する ことは,

区 間が分か ら ない

ち か ら雑 音の統 計 的 性

を 利 用 す るので奇 異に

じ ら れ る か もし れ ない し か し

,多

くの場 合は観 測 信 弓

の 冒 頭

1 〜

数 十 フ レ

ム に は音 声 信 号は含 ま れ ない と仮

し7

,雑

音を

推定 す

る た めの初

値を そこ か ら 求め る方

ら れる。 ま た, 推

され た 雑

用 して

雑音抑

圧 を

い ,

雑 音抑

の 信 号に対 して

VAD

を行 うこ とで 性 能 を 改 善 する 方 法

20

31〕

も ある。

 

音声

と雑 音の情 報を共に用い る方 法と して は,音 声 と雑 音 を そ れぞ れ

統計

モ デルでモデル化 し

そ れ らの モ デル か ら得 ら れる尤 度 比 を

VAD

に利 用 する手 法

22

23

31

33

34

もあ り

広 く

研究

され てい る。 こ れまで

と雑 音の周 波 数ス ペ ク トル を複

ガ ウス

で モ デル

手 法

31

,定常 的

音モデル と

GMM

に よ る音

モ デ ルを用い る方 法

34

更に音 声

GMM

と非 定 常 雑

推定

用 する方

23

な ど が提

さ れて

た。 雑 音 環 境が既 知で あれ ば, 音 声 と雑 音の 両 方 の モ デル に

GMM

用 するこ と もで きる

33]

 

2

4 時

情報

の利 用

 

ア ル ゴ リズム上で の遅 延 が 許 さ れるの で あ れば

複 数フ レ

ム に渡る観 測デ

タ を利 用 して

SN

比 や尤 度 比を

出 するこ とで

VAD

性 能

き く 改 善 する

35

36]

 

更に

固 有の特 徴の

つ である, 音 声 信

の 振 幅の 時 間 変 動が

4Hz

をピ

クとし て

32

 

Hz

に偏っ てい る性 質

37

を利 用 するこ ともで きる8。 こ の変 動 特 性は,

周波 数

ス ペ ク トル上 で の

特徴

が 似 通 っ て い る音

と音 楽を区 別 する音 響 特 徴と し 7 仮 定は多くの実 際 的な 応用で有 効に働 くが

観 測 信 号の冒 頭か ら音声が含ま れる場 合にはも ちろ んか ない 。 84Hz 振 幅 変 動捉 える に最 低 250m5 時 間 長 の情報が 必要で あ り

遅延 が避けられ ない 問 題点はある

日 本音 響 学 会 誌 65 巻 10 号 (2009 ) て も有 効で ある

38

。 同 様に

間 的

変動

報 を 反 映 した

音響特徴

とし てバ イスペ ク トラ ム い る方 法 も ある

39

。 ま た, 時

間方向

周波数

ス ベ ク トル をス ム

ジン グするだ けで も

性 能

上 に 繋 が る

401

 

2

5Hangover

理の利 用

 

上 記の時 間 情 報の 利 用も関 連 する が

,多

くの

VAD

で は

発 話は開 始さ れ る と し ば ら く継 続 す る とい う 仮

を お き

声 区間

断片化

を 避

,検

出さ れ た

音声

区間 をひ とまと まりにする処 理

Hangover

処 理

を導 入 してい る

20

31

。 こ れ に より,

え ば

有声

音の

徴の み を捉え る よ

な 音 響 特 徴 を利 用 した場 合で も

有 声 音の 前 後に 現れ る

無声

えるこ とが で きる

29

 

2

6

計 的 性 質の利 用

  音声信 号

ガ ウス性の

信号

で あるこ と か ら

観 測 信 号の尖 度や歪 度 などの高 次 統 計 量 を音 響 特

として用 い る

方法

提案

さ れ てい る

41

−43

。 ま た

上記の 尤

比を用い た

VAD

の発 展 と して, 音 声や

雑音

の振

をラプラス分

な どでモ デル

る方

提案

さ れて い る

44

 

更に

音 声 信 号の持つ 非 線 形 な 時 間

変動特

性 を

非線

時系

析モ デル を 用い て捉

る こ と に よ り

VAD

を行 う

手法

も ある

45 −47

 

2

7

複数

の マ イ クロ ホ ン の利 用

 

複 数の マ イ ン を利 用で きる

場合

上 記 の よ

特徴

えて空 間

情報

を利 用で きる 利 点 が ある

48

。 空 間 情 報 を 利 用 して

音 抑 圧 を

行 う

こ と で

VAD

性能

上 さ せ る方

49

雑 音

圧 前

のパ ワ

を比 較 する こ とで

VAD

行 う方法

50]

がある。 ま た

マ イクロ ホ ン間で の コ ヒ

レ ン ス 信 号 到 来 方 向 推 定 技 術 を利 用 し

VAD

を行 う 手 法

5

55

も ある

 

2

8

複 数の音 響 特

  複数

音響特徴

を併 用 する ことで

VAD

性 能

上 さ せ るこ と がで きる。 最 も単 純には, 性

の 異 なる複 数の音 響

徴 か ら

られ た

結 果

AND

OR

を取 る方 法が あ る

20

。 ま た

複 数の音 響 特 徴 を 最 小 識 別 誤 差な どの基 準に従っ て 重 み 付 け し

,雑 音環境

に応 じ て

音 響特徴

を選

択 的

に用い る 方 法 も ある

56

。  

2

9

話 者 決 定に お け る

VAD

  話 者 決 定にお ける

VAD

で は

収 録 済 みの会 話 デ

タ を処 理する た め

理遅 延や

演算

量 の制

(5)

が少ない

主流の 方 法 は

事 前に

人 数 会 話 の デ

タ で 学 習 した音

と非 音

GMM

を用い て

VAD

行 う手法

である

57

。 こ の

方法

前 に学 習 した環 境 と異なる環

で は

性 能

下する た め

,処

対 象

の デ

タか ら

ら れ る ボ トム ア ッ プの 情 報 を 利 用 する方 法 も提

さ れ てい る

58

複数

の マ イクロ ホ ン を用い るこ とがで き る場 合 は

前 述の ように話 者の空 間

置に関わ る情

を利 用 する こ と もで

59

3

今後

 

本 解 説では

VAD

の概 要を示し 近 年の研 究 動

につ い て概 説し た。 近

VAD

研 究

雑 音環

境 下で の 音 声 処 理 技 術の研 究に伴っ て発 展 し

非 定

常雑音

下 で も高 精 度に

VAD

が行 える よ うに なっ た9。 今 後, 頑 健 な 音 響 特 徴の

入 や 音

非 音 声 識 別 器の 精 度 向 上に より雑 音下 にお ける

VAD

の 性 能 を引 き 続

き向

上する と共に

以 下の課 題に も取 り組む必 要がある と考 えら れ る。 話 者 認 識 技 術 と の融 合

 VAD

はその定 義 ヒ

信 号 」を

出 する技

る ため

とする

声以

で あっ て も音

であれば

出 する。

っ て環

境雑音

音 声

まれ てい る と

性能

が 低下する。

で,

VAD

が必 要 とさ れ る よ

な 応

用分

例 え ばカ

ナ ビ ゲ

シ ョ ン シ ス テム)では 雑 音 を 棄 却 するだ け で な く

非 目的 音

声 (

例 え ば助

手席

声)

棄却

も 必 要と さ れ る。 従っ て, 話

認 識 技 術を

VAD

と 融 合させて

問題の解 決に当 たる必 要がある。 音 声

音 楽

術と の

融合

 

は 音 声 信 号 と音 響 的 な 特 徴 が 似 通っ て お り, 従 来の

VAD

で用い ら れ てい る音 響 特 徴で

別 する こ とが困

な 場 合 が ある。 これ まで も音

と音

を識 別 する

術は

く研 究 さ れて きた が こ の技 術 と

VAD

を 融 合 し

音 声

音 楽

雑 音

無 音 を識 別 する

術が で きれ ば

境 雑音

音楽

ま れ る場 合の

VAD

の性

上 で きる だけで な く

,放送

コ ンテ ン ッ の メ デ ィア処 理や

音声 ・音楽

符 号 化 技 術におい て も有 用で あろ う。 現 在

ITU −T

SG16

におい て もこ の よ

な 汎 用 信 号 区

間検

出 技 術の標 準 化が進め ら れ てい る

60

。 9例 え

SN

比 が

OdB

前後の地下鉄 騒 音や高 速 道 路の騒 音 下で も80% 以 上の 発 話 区 間 検 出 精 度 を 得 るこ とが で き る。 応 用 分 野の

術と の融

 

VAD

の応 用 分 野である雑 音 抑 圧 技 術 や

動 音 声 認 識 技 術 は

VAD

に有 用 な 情 報 を

提供

する こ と もで きる

従 来の よ うに

VAD

と これ らの

術 をカス ケ

ドに接 続 する だけで な く

相互 の

情 報

有効

用 しシス テム 全

と して の最 適 化を行 うこ とで 最 終 的な音

処 理の性 能

上 が

期待

で きる。 実 際の利 用 環 境 を 考 慮 したコ

パ ス

整備

  現在

声 処理技 術の

価で用い ら れる コ

パ ス の

くは , すで に音

区 間が人

出 さ れ た音

声資料

成さ れ て お り

実 際の

用 環 境を必 ずしも反 映してい の た め

VAD

の 重

要性

を 開発

階で

識 しない ま ま

暗 黙の う ち に

VAD

が 正 し く行わ れるこ とを 前 提 とした

術 開 発 を 進めて し ま う 要 因に も なる。 実 際の 利 用 環 境 に近い コ

パ ス を用い た

術 開

行 う

こ とで

VAD

めた音 声 処 理 シ ス テム 全 体の頑 健 性 を

め る こ とが できる と

えら れ る。 文 献

[1 〕 KSrinivasan  and  

A .

 

Gersho,“

Voice

 activity  

de−

 tection for cellular  networks

 Proc

  JEEE  Work

 shop  Speech  Codin9 /b71 Teleco7T}munication

 pp

85

 86 (1993 )

[2 ] ITU

T Recommendation  G  729 Annex  B (1996)

[3 ]  ETSI  TS lO1707 (2000 )

[41   ETSI  TS 126290 2007 )

[5 ] P

Vary and  R

 Martin , Dtgital 

Speech

 Transmis

 sion : Enhance πnen ちCoding and  Error 

Ooncealment

 (John Wney &

Sons,

 West Sussex

2006

[6 ]  X

Huang

 A

 Acero and  H

 Hon  Spoken Lan

 guage Processing’ A Guide 孟O Theory

 Atgorith凧

 and  

System

 DevelopTnent (Prentice

Hall

 New  Jersey

 2001 )

[7 ]  Google audio  Indexing: http:〃 1abs

google

con1 /

 gau (li

[81AMI  and  AMIDA  Project:  http:/www

amiprQject

org /

[91   CHIL  Project:http:/chil

server

de1

[101 NIST  Rich Transcription:http;〃nist

gov /speech !

 tests/rt

[11 

S.

E

 Tranter and  D

A

 Reynolds , “An

 overview  of

 autQ 皿atic  speaker  

diarization

 systems ,

EEE

απ5

 Audio Speech 1ンα7Lg

 Pγマ)cess

141557

1565 2006

[12}  J

P

 Egan , Signal 五)etection  Tんeo 卿 and  ROC  

4nalysis

Academic,

 New  York

1975 )

[13}  L

Ding

 

A .

 Radwan

 M

S

 E1

Hennawey  and  R

A ,

 

Goubran

∈‘

Measurement

 of the effects  of temporal

 clipPing  oll speech  quality

,, ∬五7EE  ヱ短 γL5

 Jnstrurn

 Meas

55,1197

1203 (2006)

[14]  rTU

T TD35 WP3116

27 January

6 Febmar

 (2009 )

[151N

 Kitaoka

 K

 Yamamoto

 T

 Kusamizu   S

 Nakagawa , T

 Yamada , S

 Tsuge , 

C .

 Miyajima , T

 

Nishiura,

 

M .

 

Nakayama ,

 Y

 

Denda

(6)

542

Takiguchi, S.Tleimura,S.Kuroiwa, K. Takeda and S.

Nakamura, `CDevelopment

of VAD evaluation frame-work CENSREC-1-C and

investigation

of relation-ship between VAD and speech recognition

perfor-mance," Proc.ASR U,pp.607-612

(2007).

[16]

ITU-T AC-0809-Q08-05, 25

Septernber-3

Octo-ber

(2008).

[17]

L.R,

Rabiner

and M,R. Sambur, "An

algorithm

fordetermining the endpoints of isolatedutterances,i'

BetlSyst.71ech.

J.,

54,297-315

(1975),

[181

L.F. Lamcl, L.R.

Rabiner,

A.E.

Rosenberg

and

J.G.Wilpon, "An impreved

endpeiiit

detector

for

iso-lated

word recognition,'] JEEE Ti'ans.Acoust. SPeech

Signat

Process., ASSP-29, 777-785

(1981).

[19]

B.

Mak,

J.-C,

Junqua and B, Reaves, "A

robust speech/non-speech detection algorithm using time and frequency-based

features,T'

Proc.

JCt4SSP,

Vbl.

1,

pp.269-272

(l992),

[20]

ETSI ES 202 212

(2003).

[21]

M.

Marzinzik

and B. Kollmeier, "Speech

pause detection

for

noise spectrum estimation by tracking

power envelope

dynamics,"

IEEE 7hans.

Speech

dioProcess.,10, 109-118

(2002).

[22]

T. Kristjansson,S. Deligne and P.

Olsen,

"Voic-ing featuresforrobust speech detectien,'iProc, terspeech,pp.369-372

(2005).

[231

M.

Fujimoto

and K,Ishizuka,`[Noise

robust voice activity detectionbased on switching Kalman filter,"

IEJCE 7b"ans.Inf/

Syst.,

E91-D, 467-477

(2008),

[24]

M. Hamada, Y, Takizawa and T. Norimatsu, "A

noise robust speech recognitien system,i' Proc,

SLP, 893 896

(1990).

[25]

R. 1[1icker,"Vbice

activity detectionusing a

peri-odicity measure," IEE Proc.,I 139,377-380

(1992).

[26]

B. Kingsbury, G. Saon, L. Mangu, M.

Padmanabhan and

R.

Sarikaya, `[RDbust

speech recognition in noisy environments:

The

2001

IBM

SPINE evaluation system," Proc. ICASSP, Vbl.1,

pp.53-56

(2002),

[27]

S.Basu, L`A linked-HMM

model forrobust voic-ing and speech detection," Proc. JCASSP, Vbl.1,

pp.816-819

(2003).

[28]

B.-F. Wu and K.-C. VLiang, L`RDbust

endpoint

detection algorithm

based

on the adaptive

band-partitioning spectral entropy in adverse

environ-ments," IEEE 7bzzns.Speech Audio l]rocess.,13,

762-775

(2005),

[29]

K. Ishizuka,T, Nakatani, M. Fujimoto and N,

Miyazalci, `"Noise robust voice activity

detectien

based on periodic to aperiodic component ratio,':

Speech

Comrnun.

(in

pre$s).

[30]

S. Kuroiwa, M. Naito, S. Yamamoto and N.

Higuchi, tCRobust

speech detection method fbr tele-phone speech recognition system," Speech Commun.,

27, 135--148

(1999).

[31]

J.

Sohn,

N.-S.

Kim

and

W.

Sung,

[LA

statistica] rnodel-based voice activity detection,'7iEEE Signat

Process.Lett.,6,1-3

(1999).

[32]

L.

Karray

and

A.

Martin, "Towards improving

speech detectionrobustness forspeech recognition in

adverse conditions,"

Speech

Commun.,

40, 261-276

(2eo3).

[33]

A. Lee, K. Nakamura, R. Ni$himura, H.

Saru-wataTi and K. Shikano, `"Noise

robust real world spoken dialogue system using GMM based

tionofunintended inputs,i'Prvc. interspeech,Vbl.1,

H

dyg#"kas

6s

g

lo

e

(2oog)

pp.173-176

(2004).

[341

A,

de

la [IbTre,J. Ramirez, C. Benitez, J.C. Segura, L.

Garcfa

and A.J. Rublo, [`Noise

rebust model-based voice activity

detection,"

Proc.

inter-speech, pp.1954-1957

(2006).

[35]

J.

Ramirez,

J.C.

Segura,

C.

Benitez,

A.

de la

[[brre and

A.

Rubio,

`[EMcient voice activity

detcc-tion algoTithms using

long-term

speech information,i'

Speech

Commun., 42,271-287

(2004).

[36]

J,Ramfrez, J.C. Segura, C. Benitez, L.

Garcia

and

A.

Rubie, "Statistical

voice activity detection using a multiple observation likelihoodratio test,"

LEEE

Signal

Process,

Lett.,

12,689-692

(2005).

[37]

T. Arai and S.

Greenberg,

[`The temporal

prop-erties of spoken

Japanese

are similar to those of

English," Proc. Eurospeech, Vbl,2, pp.1011-IO14

(1997).

[38]

N.

Mesgarani,

S.

Shamma

and M. SIaney,"Speech

discrimination based on multiscale spectr}temporal rnodulations,"

Proc.

ICASSP,

Vbl.1, pp.601-604

(2004).

[39]

J.M. G6rriz,J.Rarnirez,C,G. Puntonet and

J,C.

Segura, `EGeneralized [J}UI]-based

voice activity

detec-tor,"IEEE SignatProcess.Lett.,13,636-639

(2006).

[40]

Y.D.

Cho

and

A.

Kondoz, [LAnalysis

and

improve-ment ofa statistical model-based voice activity

detec-tor;i IEEE Signal Process. Lett.,8,276

-278

(2001).

[41]

E.Nemer, R.Goubran and S.Mahmoud, :`Robust

voice activity deteetion using higher-order statistics

in the LPC residual domain," IEEE 7iuns. Speech

Audio

Process,,9,217-231

(2001).

[42]

K. Ll, M.N.S.

Swamy

and M.O. Ahmad, "An improved voice activity detection using higher order statistics," IEEE Jlrztns.

Speech

Audio Process.,13,

965-974

(2005).

[43]

D, Cournapeau, T. KawahaTa, K. Mase and T.

[[briyama, [`Vbice

act・ivity detector based on

en-hanced cumulant of LPC residual and on-line EM

algorithrn,"

Proc.

interspeech,pp.1201-1204

(2006).

[44]

J.-H.

Chang,

N.S.

Kim

and

S.K.

Mitra,

"Voice

ac-tivity detectionbased on multiple statistical models,"

fEEE 7Vuns. Stgnal Process.,

54,

1965-1976

(2006).

[45]

R. Tahmasbi and S.Razaei, "A

soft voice activity

detection using

GARCH

fiIter

and variance Gamrna

distribution,"

IEEE

7b-ans.

Audio

Speech

Lang.

Pro-cess., 15,1129-1134

(2007).

[46]

H. Kato Solvang, K. Ishizuka and

M.

Fujimoto,

LCVbice

activity detection based on adjustable linear

prediction and GARCH models," SPeech Com7nun.,

50,

476-486

(2008).

[47]

K. Ishizukaand H. Kato, "A

feature

forvoice

ac-tivity detectionderived from speech analysis with the

exponential autoregressive model,'i P7oc. J(]ASSP,

Vbl.1,pp.789-792

(2006).

[48]

Y. Hioka and N. Hamada, "Voice

activity

detec-tionwith array signal processinginthe Wayelet

do-main,]'

IEICE

7}izns.

IJlttndarn.,

E86-A,

2802-2811

(2003).

[491

A,

Alvarez,

P.

G6mez,

V.

Nleto,

R.

Martinez and

V. Rodellar, "Application of a first-order differen-tial microphone for eMcient voice activity

detection

ina car platform," Proc. Interspeech,pp.2669-2672

(2006).

[so]

sm

#,"L71gu7tu7v-emvi]t]xgF"e

(7)

[51]

I.Potamitis and E.Fishlcr,`[Speech activity

tection and enhancernent of a moving speaker

based

on the wideband generalizedlikelihoodratio and mi-crephonc arrays,"

J.

Acoust. Soc. Am., 116,

2415

(2e04).

[52]

M. Omologo and P. Svaizer, :`Use

of the crosspower-spectrum phase in acoustic event loca

tion," fEEE 7}'ans,SPeech Audio Process.,5,

292

(1997).

[53]

R.

Le Beuquin-Jeannes, A.A. Azirani and G.

Faucon,

`[Enhancement of speech degraded by

coheT-ent and incoherent noise uslng a cross-spectral esti-mator,"

IEEE

7)'ans.

Speech

Audio Process.,

5,

487

(1997).

[54]

Y. Denda, T. Nlshiura and Y, Yamashita, bust talker

direction

estimation based on weighted

CSP analysis and maxlmum likelihoodestirnation,'i

IEICE

Ihans.

Iof

Syst.,

E89-D,

1050-1057

C2006).

[55]

J.E. Rubio, K. Ishizuka,H.Sawada,

S.

Araki, T.

Nakatani and M. Fujimoto, "Two-microphone veice

activity detection based en the hornogeneity of the

directionof arrival estimates,]' Proc. ICASSP, Vbl.4,

pp.385-388

(2007).

[56]

Y. Kida and T, Kawahara, :`Evaluation of

voice activity detection by combining multiple

fea-tures with weight adaptatlon,i' Proc. interspeech,

pp. 1966--1969

(2006).

i57]

J.Huang, E.Marcheret, K. Visweswariah and

G,

Potainianos, [`The IBM

RT07

evaluation systems for

speaker diarizationon lecturemeetings,T' in

modal Tlechnologies

for

Percept・ion

of

ffumans,

R.

Stiefelhagen,

R.

Bowers and J.Fiscus,Eds., LNCS

4625

(Springer-Verlag,

Berlin,2008),pp.497-508,

[58]

C."boters and rv{.Huijbregts,"The ICSI RJi07s

speaker diarizationsystem,i' Multimodal

gies

for

Perception

of

"umans, R. Stiefelhagen,R.

Bowers and J. Fiscus,Eds., LNCS 4625

VeTlag, Berlin,2008), pp.509-519,

[5g]

K.

Ishizuka,

S.

Araki

and

T.

Kawahara, "Speech activity detectionfor multi-party conversatien anal-yses

based

en

likelihood

ratio teston spatial

magni-tude," IEEE 7}'ans.Audio

Speech

Lang. Process.

(in

press),

[60]

ITU-T TD37Rl

(WP3116),

27January

-6

参照

関連したドキュメント

本手順書は、三菱電機インフォメーションネットワーク株式会社(以下、当社)の DIACERT-PLUS(ダイヤ サート

 我が国における肝硬変の原因としては,C型 やB型といった肝炎ウイルスによるものが最も 多い(図

いメタボリックシンドロームや 2 型糖尿病への 有用性も期待される.ペマフィブラートは他の

(1860-1939)。 「線の魔術」ともいえる繊細で華やかな作品

三洋電機株式会社 住友電気工業株式会社 ソニー株式会社 株式会社東芝 日本電気株式会社 パナソニック株式会社 株式会社日立製作所

 This study was designed to identify concept of “Individualized nursing care” by analyzing literature of Japanese nursing care in accordance with Rodgers’ concept analysis

2022.7.1 東京電力ホールディングス株式会社 東京電力ホールディングス株式会社 渡辺 沖

東京電力パワーグリッド株式会社 東京都千代田区 東電タウンプランニング株式会社 東京都港区 東京電設サービス株式会社