資料pdf 最近の更新履歴 Ryo Masumura: Web

(1)

人工知能を支え音声認識技術

NTT _ン _{ン研究所} 増村亮

(2)

音声認識技術と

 音声変換技術 (Speech-to-Text)

 ンタし利用

 音声機械操作 (_例) _音声検索

 ン

(_{例) 音声} _{議事録作成}

 ッタ分析利用

 音声検索

(_{例)大学講義}

 音声マン

(_{例) ンタ} _ンタ _{客様声分析}

(3)

音声認識周辺技術

 音声認識利用し応用技術

 音声翻訳

 音声外国語翻訳

 音声対話

 音声ンタし機械対話

 音声含以外情報抽出技術

 音声言語識別

 外国語話しい特定技術

 話者識別

 誰話しい特定技術

 音声区間検出

 音声非音声雑音環境音識別技術

(4)

音声認識必要知識

 音声認識様々技術複合し技術あ、

様々知識必要

 タ信号処理

 変換、

 音声学

 音声生成仕組、

 タン認識機械学習

 深層学習含数理ン、

 自然言語処理

 形態素解析、

(5)

内容

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

(6)

波形とペロ

波形、各周波数 sin波

重合わ表現

分析、

各周波数 sin波い含い分析

 波形

 時間方向対音大対系列(2次元)



 時間方向対

各周波数帯域� 音大 �_� い系列(3次元)

= �_� sin �

�

(7)

周波数ペ



 時間軸あ点、輪切し

 短時間(0.02秒 ⁾ 波形区間

変換得

輪切

周波数

ワ

各周波数波い、

含い分

(8)

音声ペと音声生成過程

 音声大成分足し合わ

 包絡構造

 緩変化成分音声音色与え

 声道伝達特性

包絡構造

 微細構造

 音声基本周期与え成分

 声帯音源信号

声帯音源信号声道伝達特性

(9)

ペ包絡構造とフォマン

音素 /a/ 音素 /i/

振幅

第マン

包絡構造

0 2 4 (kHz)

-20 0 20 (dB)

振幅

第マン

0 2 4 (kHz)

-20 0 20 (dB)

 マン？

 包絡構造い突出しい部分

 発話時声道形状変わ

 母音、マン現位置異

(10)

音声含まパターンと

第1 マン周波数 [kHz]

第2マン周波数 [kHz]

1.0 0.2

0.5 2.7

あい

う

え

うマン形状示母音 “あ”

いう作

 マン母音認識

 日本語母音、第一マン第二マン値

見、分類

 タン落化呼ぶ

(11)

内容

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

(12)

音声認識実現手段

 ン方式

 人手タン見識別 ⁽ ⁾ 構築

 前述マン用い、

孤立母音識別作程度あ簡単

第2マン周波数 [kHz]

1.0 0.2

0.5 2.7

あい

う

え

 様々可能性考え、簡単発見い問題、ン音声認識構築非現実的

点線識別境界人手決定

第1 マン周波数 [kHz]

(13)

機械学習利用

天気雨ン

 機械学習

 大量タ識別予測 ⁽ ⁾ 自動構築

 入力出力対応あ大量タ必要

 機械学習用い音声認識

 波形識別 ⁽ ⁾

大量タ学習

(14)

機械学習おけ確率

P(天気晴 )=0.7 P(_{天際晴 )=0.2} P(_{天気例)=0.1}

� = arg max

_�

� � �

入力：�

変換

� 与え際、単語列� 確率

 確率？

 決定的変換定、

変換確率的定

 確率最大選ぶ、決定的変換行う

(15)

音響と言語を用いた音声認識

� = argmax

� ^{� � �}

= argmax

� � � � � �

 � � � 直接学習困難

 音知識言葉知識分化、独立学習

 音響言語用い音声認識

 音知識：音響

 言葉断片(単語音素) 音対応確率計算

 言葉知識：言語

 言葉自然性確率計算

定理用い式変換

(16)

音声認識具体的ー

天気

点際例晴

天気晴点際晴

天気例

音知識音響

天気晴

天気晴点際晴

天気例

あ表現あい表現

あい表現

言葉知識言語音声あ程度区間単位、

音知識照し合わ、系列候補い作成

言葉知識使、

各系列候補

自然う判断基準加え

 音知識言葉知識使

(17)

音を覚えため

 い細い単位、音波形覚え？

 文単位

 非効率、可能性無限あ非現実的

 単語単位

 新語現び、音覚え大変

 音素単位

 覚え数少、汎用性あ

 、十分？

 う音波形覚え、う識別？

 波ン一覚え、見比

 一個一個覚え非効率、見比大変

 音時間方向可変あ、様々要因変化

(18)

調音結合とフォン使用

前後音素影響受、

当該音素変化

k y o w a h a r e d e s u

k+y k-y+o y-o+w o-w+a w-a+h

a-h+a h-a+r a-r+e r-e+d e-d+e d-e+s e-s+u s-u

音素

ン

 調音結合

 ン調音結合考慮

 前後音素異考え ^{音素 43個}_{ン数 43^3個}^、

 連続発話い、

前後音素影響受変化

(19)

複数状態導入

 音素、前半中盤後半形状異

前半中盤後半

音素( ン含 )

単一状態表難しい

前半中盤後半分覚えう

 複数状態(通常 3状態) 導入

 隠マ ^(HMM) いう構造実現

第1 第2 _第3

(20)

3 _状態 _{フォン音響}

 一般的音響い

 固定区間入力し、

各ン各状態対確率出力構造

P(k-y+o 第1状態)=0.04

音響

P(k-y+o _{第2状態)=0.2} P(k-y+o _{第3状態)=0.1}

P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001

P(y-o+t 第3状態)=0.001

出力、

(音素数:43)^3 × (状態数:3)個確率値

ィ※ 実際、状態タン、状態共有行わ ⁾

入力、約20ms

区間特徴

(21)

ガウ混合分布音響

 各ン各状態、

う入力多い確率分布し覚え

P(k-y+o 第1状態)=0.04

音響

P(k-y+o _{第2状態)=0.2} P(k-y+o _{第3状態)=0.1}

P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001 k-y+o _第2状態

y-o+t _第1状態

y-o+t _第2状態 y-o+t _第1状態

GMM_音響

入力分布位置

、確率算出

 確率分布し混合分布(GMM) 使う、複雑分布形状覚え

(22)

言葉とし自然性

今日天気晴

今日天気ン

 音し合いいう観点加え、

言葉し自然あ必要あ

言葉し自然

今日点際晴 ^{言葉し不自然}

言葉し不自然

 言葉し自然う観点加え必要、統計的言語

(23)

統計的言語

 ^N-gram

 あ単語出現確率、過去 N-1単語依存考え、依存単語履歴無視し化

� � = P ^今日 ^天気 ^晴れ

= P ^今日 P ^今日 P ^天気 ^今日, P ,^天気 P ^晴れ|^天気,

“今日” う考えい

 大量タ(新聞、Web タ、音声書起し) 中統計量 ^N-gram確率学習

P _� _�− , _�− = ^�_� ^�− ^, ^�− ^, ^�

�− ^, �−

“天気 ” 1000回、

“天気晴 ” 400回、 P(_{晴 |天気 )}

=400/1000=0.4

(24)

知い単語列対すーン

 ^N-gram 単純統計量使う

 統計量求タ出現しい確率

しう

P _� _�− , _�− = ^�_� ^�− ^, ^�− ^, ^�

�− ^, �−

“天気 ” 1000回、

“天気晴 ” 400回、

“天気曇 ” 300回、

“天気雨” 300回、

“天気雪” ？

 ン

知い単語列部分対確率少し減し、知い単語確率割当

晴曇

雨

ン前

晴曇雨

ン後 1.0

部分 ”雪” 割当

(25)

探索( ーン )

 音響言語和

一番高い単語列探索

� = argmax

� ^{� � �}

= argmax

� � � � � �

= argmax

� [log � � � + log � � ]

 ⁵万語彙音声認識

¹⁰個単語文 ^{50000^10}通可能性あ、可能性考慮不可能

掛算、値

起ししう足し算、 Log _足し算

(26)

効率的探索ネッワー

 重付有限状態ン ^(WFST) 方式

 音響、言語、発音辞書ッワ合成し

、無駄構造省、高速探索実現

a

k

a _赤

u _悪

s 朝

u _明日

a ^天気

赤朝 0.02

0.07

→

→ a

i u

１つの最適なネッワークを構築

音響モル ^発音辞書 ^{言語モル}

(27)

効率的探索

 チ

 あ時点以降計算続候補、制限入

 個数：良い順ソし、あ個数超え枝刈

 ：あ超えしう枝刈

t=0 t=1 t=2 t=3 t=4

個数幅＝し場合探索

(28)

内容

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

(29)

深層学習と？

 機械学習識別予測化手法一

 Deep Neural Network _{中心し} _{ッワ}

基化行う手法全般深層学習呼多い

P( _ン)=0.96 P( )=0.02

P( )=0.018 P(_犬)=0.002

P(_い)=0.96 P(_あ)=0.02 P(_う)=0.018 P(_え)=0.002 P( )=0.002

画像認識

音声認識

(30)

Neural Network (NN)

 人間脳神経回路仕組模し数理

 第二次AI ⁽¹⁹⁹⁰年代) 広注目

�

入力重総和閾値

ン発火仕組数理化出力

中間層一化

通常ッワ

(31)

Deep Neural Network (DNN)

 Neural Network 中間層多層化し数理

 現在第3次AI 火付役

 多層化ッ定着、計算機発展 (GPU 導入) 伴い、機械学習有望手法

(32)

そ他主流化

 Convolutional Neural Network (CNN)

 タ畳込ン処理各層実施、入力情報効率的捉えッワ

 画像認識い主流化

 Recurrent Neural Network (RNN)

 時系列タい、

過去有効情報再帰的捉えッワ

 自然言語処理い主流化

(33)

深層学習基く音声認識

 音響、言語、深層学習進化

 音響

 ^GMM音響 ⇒ DNN音響

 音響

 ^GMM音響 ⇒ DNN音響

 言語

 ^N-gram言語 ⇒ RNN言語

(34)

深層学習基く音響

P(k-y+o 第1状態)=0.04 P(k-y+o _{第2状態)=0.2} P(k-y+o _{第3状態)=0.1} P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001

 ^DNN 音響

～８層程度用い

ッ各層2048 当該加え、

前後5 入力

 各ン各状態い識別確率 DNN 化

(35)

深層学習基く言語

 ^RNN 言語

今日天気

P(_{曇 )=0.18} P(_{晴 )=0.20} P(_雨)=0.16 P(_雪)=0.08 P(_良い)=0.08 P(_悪い)=0.03

 長距離文脈情報利用言語

中間層中、文脈情報埋込

現在中間層出力

“今日天気 ” 埋込

1 _{前中間層出力}

“今日天気” 埋込い

入力直前単語あ “ ”

(36)

DNN _音響 _ンパ

10 15 20 25

GMM DNN

単語誤率 (%)

 Switchboard _タ評価 [Seide+ 2011]

 同一タッ学習し

GMM_音響 DNN_音響 _比較

23.6

17.1

手法、誤 20%程度削減

(37)

本日内容

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

(38)

音声認識未解決問題

 人人自然会話音声認識

 例え、笑い話声話声、

途中話し言い直し、方言変わ声入タあ音声認識難しい

 マ離場所音声認識

 人間遠声認識、

機械マ離、大性能劣化ししう

 単一マン高雑音下音声認識

 マン使理想的条件作出

、高雑音下音声認識、

一般環境( マン ⁾ 実現難しい

(39)

音声認識未解決問題

 タ非依存音声認識

 音声認識決し万能い

 特定向学習タ集、

特化(チン ) 、高精度仕組提供、

チンし性能保証い

 成長音声認識

 赤成長しい異、

話し話し

自然音声認識ういい

(40)

本日内容

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

(41)

資料pdf 最近の更新履歴 Ryo Masumura: Web

人工知能を支え 音声認識技術

音声認識技術と

 音声 変換 技術 (Speech-to-Text)

音声認識 周辺技術

 音声認識 利用し 応用技術

 音声 含 以外 情報 抽出 技術

音声認識 必要 知識

 音声認識 様々 技術 複合し 技術 あ 、

様々 知識 必要

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

波形と ペ ロ

 波形



周波数 ペ



音声 ペ と音声 生成過程

 音声 大 成分 足し合わ

ペ 包絡構造とフォ マン

 マン ？

音声 含ま パターンと

 マン 母音認識

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

音声認識 実現手段

 ン 方式

機械学習 利用

 機械学習

 機械学習 用い 音声認識

機械学習 おけ 確率

� = arg max

� � �

変換

 確率 ？

音響 と言語 を用いた音声認識

 � � � 直接学習 困難

 音響 言語 用い 音声認識

音声認識 具体的 ー

 音 知識 言葉 知識 使

音を覚え ため

 い細 い単位 、音 波形 覚え ？

 う 音 波形 覚え 、 う 識別 ？

調音結合と フォン 使用

 調音結合

 ン 調音結合 考慮

複数状態 導入

 音素 、前半 中盤 後半 形状 異

3 状態 フォン 音響

 一般的 音響 い

ガウ 混合分布 音響

 各 ン 各状態 、

う 入力 多い 確率分布 し 覚え

言葉とし 自然性

 音 し 合 い いう観点 加え 、

言葉 し 自然 あ 必要 あ

統計的言語

 N-gram

知 い単語列 対す ー ン

 N-gram 単純 統計量 使う

探索( ー ン )

 音響 言語 和

一番高い単語列 探索

効率的 探索ネッ ワー

 重 付 有限状態 ン (WFST) 方式

効率的 探索

 チ

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

深層学習と ？

 機械学習 識別 予測 化手法 一

人工知能を支え音声認識技術

 音声変換技術 (Speech-to-Text)

音声認識周辺技術

 音声認識利用し応用技術

 音声含以外情報抽出技術

音声認識必要知識

 音声認識様々技術複合し技術あ、

様々知識必要

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

波形とペロ

周波数ペ

音声ペと音声生成過程

 音声大成分足し合わ

ペ包絡構造とフォマン

 マン？

音声含まパターンと

 マン母音認識

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

音声認識実現手段

 ン方式

機械学習利用

 機械学習用い音声認識

機械学習おけ確率

 確率？

音響と言語を用いた音声認識

 � � � 直接学習困難

 音響言語用い音声認識

音声認識具体的ー

 音知識言葉知識使

音を覚えため

 い細い単位、音波形覚え？

 う音波形覚え、う識別？

調音結合とフォン使用

 ン調音結合考慮

複数状態導入

 音素、前半中盤後半形状異

3 _状態 _{フォン音響}

 一般的音響い

ガウ混合分布音響

 各ン各状態、

う入力多い確率分布し覚え

言葉とし自然性

 音し合いいう観点加え、

言葉し自然あ必要あ

 ^N-gram

知い単語列対すーン

 ^N-gram 単純統計量使う

探索( ーン )

 音響言語和

一番高い単語列探索

効率的探索ネッワー

 重付有限状態ン ^(WFST) 方式

効率的探索

音声基礎知識

音声認識原理

深層学習音声認識

音声認識未解決問題

深層学習と？

 機械学習識別予測化手法一

 人間脳神経回路仕組模し数理

 Neural Network 中間層多層化し数理

そ他主流化

深層学習基く音声認識

 音響、言語、深層学習進化

深層学習基く音響

 ^DNN 音響

深層学習基く言語

 ^RNN 言語

DNN _音響 _ンパ

 Switchboard _タ評価 [Seide+ 2011]

本日内容

音声基礎知識

音声認識原理

深層学習音声認識