• 検索結果がありません。

⾳声の破損により失った⽂字情報を 復元する⾳声認識

N/A
N/A
Protected

Academic year: 2021

シェア "⾳声の破損により失った⽂字情報を 復元する⾳声認識"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

⾳声の破損により失った⽂字情報を 復元する⾳声認識

2020/10/23

(2)

目次

1. 研究背景及びその目的

2. 提案手法 (1) :BERT による後処理

3. 提案手法 (2) :VQ-VAE による前処理 4. 結論

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

2

(3)

音声認識とは

n 音声認識

音声信号を文字情報に変換する技術

l 応用事例 : スマートスピーカー、文字起こし

n 音声認識のモデル

l 隠れマルコフモデル (HMM) ベース

l ニューラルネットワーク (DNN) ベース

l 性能はモデルの構成やデータセットに依存

(4)

騒音環境下での音声認識の課題

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室 4

n データセットに存在しない雑音により性能が劣化

l データセットに雑音の情報が含まれていれば、性能が改善する可能性がある l 実環境における雑音の種類は事前に予測不能

性能の劣化

n 多くの研究ではノイズ削減にフォーカス

l 雑音が非常に大きい場合、 元の音声がかき消され復元不能に

ノイズ削減技術の限界

(5)

関連研究

n Looking Enhances Listening: Recovering Missing Speech Using Images [Srinivasan et al. (2020)]

画像を用いてマスクされた音声に対応する文 字情報を復元

l 画像データが追加で必要

l マスクする箇所は名詞に限定

(6)

研究の目的

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室 6

• 追加データ ( 画像等 )

• 破損した位置

以下の情報を使用せず破損した音声の復元を目指す

破損した音声

音声認識 +

復元モデル

今日 は 暑い です

今日 X 暑い です

復元した文字情報

(7)

目次

1. 研究背景及びその目的

2. 提案手法 (1) :BERT による後処理

3. 提案手法 (2) :VQ-VAE による前処理

4. 結論

(8)

アーキテクチャ

• 音声認識: Attention 機構付きの Encoder-Decoder モデル

• 破損位置の推定、 [MASK] への置換

• BERT :マスク箇所の復元

提案手法 (1): BERT による後処理

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室 8

BERT を用いて音声認識の誤りを訂正

破損した音声

今日 X 暑い です

音声

認識

今日 とても 暑い です

今日 [MASK] 暑い です

BERT

今日 暑い です

(9)

破損位置の推定

n 手法 A : Attention matrix を使用 (Attention based)

ノイズの位置に対応する単語を Attention matrix から推定

n 手法 B :正解テキストを参照 (Reference based)

認識誤りの箇所を正解テキストの単語数分 [MASK] に置換

Ø BERT による音声認識誤りの復元能力のみを検証するため

例 : ASR output: 今日 は とても 暑い です

Reference: 今日 は 晴れ です

Masked result: 今日 は [MASK] です

入力音声 Attention matrix

今日 [MASK]

晴れ です

<eos>

(10)

BERT (Bidirectional Encoder Representations from T ransformers)

モデルの概略 (Masked Language Model として ):

n 埋め込み層

( マスクされた ) 文字情報 -> Hidden vector

n Transformer による層

Hidden vector -> Hidden vector -> ... -> Hidden vector

n マスクされた単語の予測

Hidden vector -> 出力テキスト

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

10

今日 は [MASK] です 今日 は 晴れ です

[Devlin et al.]

(11)

実験設定 (1)

n データセット: LJSpeech

l 総収録時間 : 23:55:17 l 総データ数 : 13100 l 話者数 : 1

※破損させる比率 : 1 音声の 5% ( ホワイトノイズ に置換 )

n 音声認識: Attention 機構付き Encoder-Decoder モデル

l 語彙数 : 30k (BERT の語彙数と同一 )

l 認識単位 : Wordpiece (BERT で使用されているサブワード単位 )

n 破損位置の推定

l 手法 A : Attention based l 手法 B : Reference based

n BERT

(12)

実験結果 (1)

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

12

後処理 入力 出力例 WER(%)

(Answer) even so severe a critic as mister wakefield states that a stranger to the scene

Clean even so severe a critic as mister wakefield states that its stranger to

the scene . 16.798

Missing even so ##rre ##ls as mister wakefield ' s states that its stranger to

the scene . 29.412

マスク

(Attention based) Missing even so [MASK] [MASK] as mister wakefield ' s states that its strange

r to the scene . 30.288

マスク +BERT

(Attention based) Missing even so far strange as mister wakefield ' s states that its stranger to t

he scene . 27.722

マスク

(Reference based) Missing even so [MASK] [MASK] [MASK] as mister wakefield states that [MAS

K] stranger to the scene 22.455

マスク +BERT

(Reference based) Missing even so far a , as mister wakefield states that a stranger to the scene 16.932

※Clean:元のデータセットの音声 Missing:一部をホワイトノイズに置き換えた音声

(13)

実験結果 (1)

n Attention based により認識精度が僅かに向上

l マスクしたテキストの WER は破損した音声による WER と同程度 Ø 認識誤り箇所からの誤り単語の推定はうまく機能している Ø 推定箇所は置換誤りにのみ対応

l ホワイトノイズ の位置情報が必要

n Reference based では WER が大きく減少

l 3 種類の認識誤りに対処しているため ( 挿入 / 削除 / 置換 )

l BERT による単語の復元は主に高頻度のトークン (a 、 the 、コンマ、ピリオド等 ) に限定

(14)

目次

1. 研究背景及びその目的

2. 提案手法 (1) :BERT による後処理

3. 提案手法 (2) :VQ-VAE による前処理 4. 結論

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

14

(15)

アーキテクチャ

• 音声認識: Attention 機構付きの Encoder-Decoder モデル

• VQ-VAE :破損した音声の再構成

提案手法 (2): VQ-VAE による前処理

VQ-VAE を用いて音声を復元

破損した音声

今日 X 暑い です

VQ-VAE ASR

今日 暑い です

再構成した音声

(16)

Conditional VQ-VAE (V ector Quantized V ariational Autoencoders) モデルの概略 :

n エンコーダ

入力音声 -> Hidden vector

n デコーダ

コードブック ID + Hidden vector ( 話者情報 ) -> 再構成音声

n コードブック

Hidden vector (Encoder) -> コードブック ID

n Speaker embedding

Speaker ID -> Hidden Vector

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

16

[Andros et al.]

(17)

実験設定 (2)

n データセット : LJSpeech ( 提案手法 (1) と同一 )

n 音声認識: Attention 機構付き Encoder-Decoder モデル ( 提案手法 (1) と同一 ) n Conditional VQ-VAE

設定 1 (Clean -> Clean):

l 入力音声: Clean

l 出力の正解データ: Clean

設定 2 (Clean+Missing -> clean):

l 入力音声: Clean + Missing ×5

l 出力音声: Clean

(18)

実験結果 (2)

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室 18

学習データ 入力 出力例 WER

(Answer) even so severe a critic as mister wakefield states that a stranger to the scene

Clean

Clean even so severe a critic as mister wakefield states that its stranger to the

scene . 16.798

Missing even so ##rre ##ls as mister wakefield ' s states that its stranger to the

scene . 29.412

Reconstructed Speech

(clean -> clean) even so severe a critic as a rec ##al field states that its stranger to the

scene , 22.844

Reconstructed Speech

(missing -> clean) even so powerless para ##ed as mis ##ess lin field states , that a

stranger to the scene , 33.731

Clean +

Reconstructed Speech

(clean -> clean)

Clean even so severe a credit as mister wakefield states , that a stranger to the

scene . 13.697

Missing even so short credit as mister wakefield states , that a stranger to the

scene . 30.933

Reconstructed Speech

(clean -> clean) even so severe credit as mister wakefield states that a stranger to the

scene . 16.216

Reconstructed Speech

(missing -> clean) even so severe a printed as mister wakefield states , that of a stranger to

the scene . 24.070

(19)

実験結果 (2)

n 再構成した音声 (Clean+Missing -> Clean) の WER は Missing の WER より改善

l VQ-VAE によるノイズの削減がうまく機能している

l 音声認識の学習データが Clean のみの場合、 WER は悪化

Ø 再構成した音声の歪みがモデルによって未知の信号として処理された可能性

n 音声認識の学習データに再構成した音声 (Clean -> Clean) を追加すると、

Clean の WER が改善

l 学習の設定がマルチコンディション学習に類似

l このような学習設定が音声認識の頑健性の向上に寄与した可能性

(20)

目次

1. 研究背景及びその目的

2. 提案手法 (1) :BERT による後処理

3. 提案手法 (2) :VQ-VAE による前処理 4. 結論

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室

20

(21)

結論

n 研究の目的:追加の情報を使用せず音声認識の精度を改善 n 提案手法 1 : BERT による後処理

l BERT では主にどのデータセットにおいても高頻度で出現するトークンが復元できた

l Attention based による誤り箇所の推定は、置換誤りのみに対応

l 今後の課題: 3 種類の認識誤り位置の推定、言語情報以外のデータを BERT による推定に利用

n 提案手法 2 : VQ-VAE による前処理

l VQ-VAE により入力音声から欠落した情報を復元できた

l VQ-VAE による再構成音声を音声認識の学習データに加えることで、頑健性が向上

n 今後の課題

l ノイズの箇所、割合、パワーの変化による誤認識の変化を十分に検証していない

Ø ノイズの条件 ( 種類、位置、割合、パワー ) の変化による誤認識の傾向の変化等について検証

(22)

付録

(23)

Attention 機構付き Encoder-Decoder モデル

モデルの概略 :

n エンコーダ (RNN)

入力特徴 (melspectrogram) -> Hidden states

n デコーダ (RNN)

Hidden states ( エンコーダ ) + Attention -> Hidden states ( デコーダ ) -> 文字情報

n Attention

エンコーダ、デコーダの各状態との対応関係

Attention matrix

[Andros et al.]

(24)

実験結果 (2) :音声波形の画像化

東 佑樹、Sakriani Sakti、中村 哲@NAIST, 知能コミュニケーション研究室 24

元の音声 再構成した音声 (0% noise)

破損した音声 再構成した音声 (5% noise)

参照

関連したドキュメント

For the multiparameter regular variation associated with the convergence of the Gaussian high risk scenarios we need the full symmetry group G , which includes the rotations around

It follows then as a corollary that the bicategory ( K (Alg fd 2 )) SO(2) consisting of homotopy xed points of the trivial SO(2) -action on the core of fully-dualizable objects of Alg

It should be noted that all these graphs are planar, even though it is more convenient to draw them in such a way that the (curved) extra arcs cross the other (straight) edges...

We show that a discrete fixed point theorem of Eilenberg is equivalent to the restriction of the contraction principle to the class of non-Archimedean bounded metric spaces.. We

We have formulated and discussed our main results for scalar equations where the solutions remain of a single sign. This restriction has enabled us to achieve sharp results on

The control objective is to design feedback controllers so that the controlled spacecraft accomplishes a given planar maneuver, that is a change in the translational velocity vector

In [24] he used this, together with Hendriks’ theorem, so show that if the fundamental group of a PD 3 complex splits as a free product, there is a corresponding split of the complex

Each Hamiltonian generates a bosonic (even) symmetry flow and due to the fact that supersymmetry is just a symmetry, it is natural to expect the presence of conserved supercharges