人工知能を支え 音声認識技術
NTT ン ン 研究所 増村 亮
音声認識技術と
音声 変換 技術 (Speech-to-Text)
ンタ し 利用
音声 機械 操作 (例) 音声検索
ン
(例) 音声 議事録作成
ッ タ分析 利用
音声 検索
(例)大学講義
音声マ ン
(例) ンタ ンタ 客様 声 分析
音声認識 周辺技術
音声認識 利用し 応用技術
音声翻訳
音声 外国語 翻訳
音声対話
音声 ンタ し 機械 対話
音声 含 以外 情報 抽出 技術
音声言語識別
外国語 話し い 特定 技術
話者識別
誰 話し い 特定 技術
音声区間検出
音声 非音声 雑音 環境音 識別 技術
音声認識 必要 知識
音声認識 様々 技術 複合し 技術 あ 、
様々 知識 必要
タ 信号処理
変換、
音声学
音声生成 仕組 、
タ ン認識 機械学習
深層学習 含 数理 ン 、
自然言語処理
形態素解析、
内容
音声 基礎知識
音声認識 原理
深層学習 音声認識
音声認識 未解決問題
波形と ペ ロ
波形 、 各周波数 sin波
重 合わ 表現
分析 、
各周波数 sin波 い 含 い 分析
波形
時間方向 対 音 大 対 系列(2次元)
時間方向 対
各周波数帯域� 音 大 �� い 系列(3次元)
= �� sin �
�
周波数 ペ
時間軸 あ 点 、 輪切 し
短時間(0.02秒 ) 波形区間
変換 得
輪切
周波数
ワ
各周波数 波 い 、
含 い 分
音声 ペ と音声 生成過程
音声 大 成分 足し合わ
包絡構造
緩 変化 成分 音声 音色 与え
声道 伝達特性
包絡構造
微細構造
音声 基本周期 与え 成分
声帯 音源信号
声帯 音源信号 声道 伝達特性
ペ 包絡構造とフォ マン
音素 /a/ 音素 /i/
振 幅
第 マン
第 マン
包絡 構造
0 2 4 (kHz)
-20 0 20 (dB)
振 幅
第 マン
第 マン
0 2 4 (kHz)
-20 0 20 (dB)
マン ?
包絡構造 い 突出し い 部分
発話時 声道形状 変わ
母音 、 マン 現 位置 異
音声 含ま パターンと
第1 マン 周波数 [kHz]
第2マン周波数 [kHz]
1.0 0.2
0.5 2.7
あ い
う
え
う マン 形状 示 母音 “あ”
いう 作
マン 母音認識
日本語 母音 、第一 マン 第二 マン 値
見 、 分類
タ ン 落 化 呼ぶ
内容
音声 基礎知識
音声認識 原理
深層学習 音声認識
音声認識 未解決問題
音声認識 実現手段
ン 方式
人手 タ ン 見 識別 ( ) 構築
前述 マン 用い 、
孤立母音 識別 作 程度 あ 簡単
第2マン周波数 [kHz]
1.0 0.2
0.5 2.7
あ い
う
え
様々 可能性 考え 、簡単 発見 い問題 、 ン 音声認識 構築 非現実的
点線 識別境界 人手 決定
第1 マン 周波数 [kHz]
機械学習 利用
天気 雨 ン
機械学習
大量 タ 識別 予測 ( ) 自動構築
入力 出力 対応 あ 大量 タ 必要
機械学習 用い 音声認識
波形 識別 ( )
大量 タ 学習
機械学習 おけ 確率
P(天気 晴 )=0.7 P(天際晴 )=0.2 P(天気 例)=0.1
� = arg max
�� � �
入力:�
変換
� 与え 際 、 単語列� 確率
確率 ?
決定的 変換 定 、
変換 確率的 定
確率最大 選ぶ 、決定的 変換 行う
音響 と言語 を用いた音声認識
� = argmax
� � � �
= argmax
� � � � � �
� � � 直接学習 困難
音 知識 言葉 知識 分 化 、 独立 学習
音響 言語 用い 音声認識
音 知識:音響
言葉 断片(単語 音素) 音 対応確率 計算
言葉 知識:言語
言葉 自然性 確率 計算
定理 用い 式変換
音声認識 具体的 ー
天気
点 際 例 晴
天気 晴 点 際 晴
天気 例
音 知識 音響
天気 晴
天気 晴 点 際 晴
天気 例
あ 表現 あ い表現
あ い表現
言葉 知識 言語 音声 あ 程度 区間単位 、
音 知識 照 し合わ 、 系列 候補 い 作成
言葉 知識 使 、
各 系列 候補
自然 う 判断基準 加え
音 知識 言葉 知識 使
音を覚え ため
い細 い単位 、音 波形 覚え ?
文単位
非効率 、可能性 無限 あ 非現実的
単語単位
新語 現 び 、音 覚え 大変
音素単位
覚え 数 少 、汎用性 あ
、 十分?
う 音 波形 覚え 、 う 識別 ?
波 ン 一 覚え 、見比
一個一個覚え 非効率 、見比 大変
音 時間方向 可変 あ 、様々 要因 変化
調音結合と フォン 使用
前後 音素 影響 受 、
当該音素 変化
k y o w a h a r e d e s u
k+y k-y+o y-o+w o-w+a w-a+h
a-h+a h-a+r a-r+e r-e+d e-d+e d-e+s e-s+u s-u
音素
ン
調音結合
ン 調音結合 考慮
前後 音素 異 考え 音素 43個ン 数 43^3個 、
連続発話 い 、
前後 音素 影響 受 変化
複数状態 導入
音素 、前半 中盤 後半 形状 異
前半 中盤 後半
音素( ン含 )
単一 状態 表 難しい
前半 中盤 後半 分 覚え う
複数状態(通常 3状態) 導入
隠 マ (HMM) いう 構造 実現
第1 第2 第3
3 状態 フォン 音響
一般的 音響 い
固定区間 入力し 、
各 ン 各状態 対 確率 出力 構造
P(k-y+o 第1状態)=0.04
音響
P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1
P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001
P(y-o+t 第3状態)=0.001
出力 、
(音素 数:43)^3 × (状態 数:3)個 確率値
ィ※ 実際 、状態 タ ン 、状態共有 行わ )
入力 、約20ms
区間 特徴
ガウ 混合分布 音響
各 ン 各状態 、
う 入力 多い 確率分布 し 覚え
P(k-y+o 第1状態)=0.04
音響
P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1
P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001 k-y+o 第2状態
y-o+t 第1状態
y-o+t 第2状態 y-o+t 第1状態
GMM音響
入力 分布 位置
、確率 算出
確率分布 し 混合分布(GMM) 使う 、 複雑 分布形状 覚え
言葉とし 自然性
今日 天気 晴
今日 天気 ン
音 し 合 い いう観点 加え 、
言葉 し 自然 あ 必要 あ
言葉 し 自然
今日 点際晴 言葉 し 不自然
言葉 し 不自然
言葉 し 自然 う 観点 加え 必要 、 統計的言語
統計的言語
N-gram
あ 単語 出現確率 、過去 N-1単語 依存 考え 、 依存 単語履歴 無視し 化
� � = P 今日 天気 晴れ
= P 今日 P 今日 P 天気 今日, P ,天気 P 晴れ|天気,
“今日” う考え い
大量 タ(新聞、Web タ、音声書 起 し) 中 統計量 N-gram確率 学習
P � �− , �− = �� �− , �− , �
�− , �−
“天気 ” 1000回、
“天気 晴 ” 400回、 P(晴 |天気 )
=400/1000=0.4
知 い単語列 対す ー ン
N-gram 単純 統計量 使う
統計量 求 タ 出現し い 確率
し う
P � �− , �− = �� �− , �− , �
�− , �−
“天気 ” 1000回、
“天気 晴 ” 400回、
“天気 曇 ” 300回、
“天気 雨” 300回、
“天気 雪” ?
ン
知 い 単語列 部分 対 確率 少し減 し 、 知 い単語 確率 割 当
晴 曇
雨
ン 前
晴 曇 雨
ン 後 1.0
部分 ”雪” 割 当
探索( ー ン )
音響 言語 和
一番高い単語列 探索
� = argmax
� � � �
= argmax
� � � � � �
= argmax
� [log � � � + log � � ]
5万語彙 音声認識
10個 単語 文 50000^10通 可能性 あ 、 可能性 考慮 不可能
掛 算 、値
起 し し う 足し算、 Log 足し算
効率的 探索ネッ ワー
重 付 有限状態 ン (WFST) 方式
音響 、言語 、発音辞書 ッ ワ 合成し
、無駄 構造 省 、高速 探索 実現
a
k
a 赤
u 悪
s 朝
u 明日
a 天気
赤 朝 0.02
0.07
→
→
→ a
i u
1つの最適なネッ ワークを構築
音響モ ル 発音辞書 言語モ ル
効率的 探索
チ
あ 時点以降 計算 続 候補 、制限 入
個数 : 良い順 ソ し 、あ 個数 超え 枝刈
:あ 超え し う 枝刈
t=0 t=1 t=2 t=3 t=4
個数 幅= し 場合 探索
内容
音声 基礎知識
音声認識 原理
深層学習 音声認識
音声認識 未解決問題
深層学習と ?
機械学習 識別 予測 化手法 一
Deep Neural Network 中心 し ッ ワ
基 化 行う手法全般 深層学習 呼 多い
P( ン)=0.96 P( )=0.02
P( )=0.018 P(犬)=0.002
P(い)=0.96 P(あ)=0.02 P(う)=0.018 P(え)=0.002 P( )=0.002
画像認識
音声認識
Neural Network (NN)
人間 脳 神経回路 仕組 模し 数理
第二次AI (1990年代) 広 注目
�
入力 重 総和 閾値
ン 発火 仕組 数理 化 出力
中間層 一 化
通常 ッ ワ
Deep Neural Network (DNN)
Neural Network 中間層 多層化し 数理
現在 第3次AI 火付 役
多層化 ッ 定着 、計算機 発展 (GPU 導入) 伴い、機械学習 有望 手法
そ 他 主流 化
Convolutional Neural Network (CNN)
タ 畳 込 ン 処理 各層 実施 、 入力 情報 効率的 捉え ッ ワ
画像認識 い 主流 化
Recurrent Neural Network (RNN)
時系列 タ い 、
過去 有効 情報 再帰的 捉え ッ ワ
自然言語処理 い 主流 化
深層学習 基 く音声認識
音響 、言語 、深層学習 進化
音響
GMM音響 ⇒ DNN音響
音響
GMM音響 ⇒ DNN音響
言語
N-gram言語 ⇒ RNN言語
深層学習 基 く音響
P(k-y+o 第1状態)=0.04 P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1 P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001
DNN 音響
~8層程度用い
ッ 各層2048 当該 加え 、
前後5 入力
各 ン 各状態 い 識別確率 DNN 化
深層学習 基 く言語
RNN 言語
今日 天気
P(曇 )=0.18 P(晴 )=0.20 P(雨)=0.16 P(雪)=0.08 P(良い)=0.08 P(悪い)=0.03
長距離 文脈情報 利用 言語
中間層 中 、 文脈情報 埋 込
現在 中間層 出力
“今日 天気 ” 埋 込
1 前 中間層 出力
“今日 天気” 埋 込 い
入力 直前 単語 あ “ ”
DNN 音響 ンパ
10 15 20 25
GMM DNN
単語誤率 (%)
Switchboard タ 評価 [Seide+ 2011]
同一 タ ッ 学習し
GMM音響 DNN音響 比較
23.6
17.1
手法 、 誤 20%程度削減
本日 内容
音声 基礎知識
音声認識 原理
深層学習 音声認識
音声認識 未解決問題
音声認識 未解決問題
人 人 自然会話 音声認識
例え 、笑い 話 声 話 声、
途中 話し 言い直し 、方言 変わ 声 入 タ あ 音声認識 難しい
マ 離 場所 音声認識
人間 遠 声 認識 、
機械 マ 離 、大 性能 劣化し し う
単一マ ン 高雑音下音声認識
マ ン 使 理想的 条件 作 出
、高雑音下 音声認識 、
一般 環境( マ ン ) 実現 難しい
音声認識 未解決問題
タ 非依存 音声認識
音声認識 決し 万能 い
特定 向 学習 タ 集 、
特化(チ ン ) 、 高精度 仕組 提供 、
チ ン し 性能保証 い
成長 音声認識
赤 成長し い 異 、
話し 話し
自然 音声認識 う い い
本日 内容
音声 基礎知識
音声認識 原理
深層学習 音声認識
音声認識 未解決問題
まとめ
音声認識技術 い 基礎的 部分
最新 枠組 概説
音声 い
音声認識
音声認識 深層学習 使い
到達点 確認