• 検索結果がありません。

資料pdf 最近の更新履歴 Ryo Masumura: Web

N/A
N/A
Protected

Academic year: 2018

シェア "資料pdf 最近の更新履歴 Ryo Masumura: Web"

Copied!
41
0
0

読み込み中.... (全文を見る)

全文

(1)

人工知能を支え 音声認識技術

NTT ン 研究所 増村 亮

(2)

音声認識技術と

 音声 変換 技術 (Speech-to-Text)

 ンタ し 利用

音声 機械 操作 (例) 音声検索

(例) 音声 議事録作成

 ッ タ分析 利用

音声 検索

(例)大学講義

音声マ

(例) ンタ ンタ 客様 声 分析

(3)

音声認識 周辺技術

 音声認識 利用し 応用技術

 音声翻訳

音声 外国語 翻訳

 音声対話

音声 ンタ し 機械 対話

 音声 含 以外 情報 抽出 技術

 音声言語識別

外国語 話し い 特定 技術

 話者識別

誰 話し い 特定 技術

 音声区間検出

音声 非音声 雑音 環境音 識別 技術

(4)

音声認識 必要 知識

 音声認識 様々 技術 複合し 技術 あ 、

様々 知識 必要

 タ 信号処理

変換、

 音声学

音声生成 仕組 、

 タ ン認識 機械学習

深層学習 含 数理 ン 、

 自然言語処理

形態素解析、

(5)

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

(6)

波形と ペ

波形 各周波数 sin波

重 合わ 表現

分析

各周波数 sin波 分析

 波形

 時間方向 対 音 大 対 系列(2次元)

 時間方向 対

各周波数帯域� 音 大 � い 系列(3次元)

= � sin �

(7)

周波数 ペ

 時間軸 あ 点 、 輪切 し

短時間(0.02秒 ) 波形区間

変換

輪切

周波数

各周波数 波

(8)

音声 ペ と音声 生成過程

 音声 大 成分 足し合わ

 包絡構造

変化 成分 音声 音色 与え

声道 伝達特性

包絡構造

 微細構造

音声 基本周期 与え 成分

声帯 音源信号

声帯 音源信号 声道 伝達特性

(9)

包絡構造とフォ マン

音素 /a/ 音素 /i/

マン

マン

包絡 構造

0 2 4 (kHz)

-20 0 20 (dB)

マン

マン

0 2 4 (kHz)

-20 0 20 (dB)

 マン ?

 包絡構造 い 突出し い 部分

 発話時 声道形状 変わ

母音 マン 位置 異

(10)

音声 含ま パターンと

第1 マン 周波数 [kHz]

2波数 [kHz]

1.0 0.2

0.5 2.7

あ い

マン 形状 示 母音 “あ”

いう

 マン 母音認識

 日本語 母音 、第一 マン 第二 マン 値

見 、 分類

タ ン 化 呼ぶ

(11)

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

(12)

音声認識 実現手段

 ン 方式

 人手 タ ン 見 識別 ( ) 構築

前述 マン 用い 、

孤立母音 識別 作 程度 あ 簡単

2波数 [kHz]

1.0 0.2

0.5 2.7

様々 可能性 考え 、簡単 発見 い問題 音声認識 構築 非現実的

点線 識別境界 人手 決定

第1 マン 周波数 [kHz]

(13)

機械学習 利用

天気 雨 ン

 機械学習

 大量 タ 識別 予測 ( ) 自動構築

 入力 出力 対応 あ 大量 タ 必要

 機械学習 用い 音声認識

 波形 識別 ( )

大量 タ 学習

(14)

機械学習 おけ 確率

P(天気 晴 )=0.7 P(天際晴 )=0.2 P(天気 例)=0.1

� = arg max

� � �

入力:�

変換

� 与え 際 、 単語列� 確率

 確率 ?

 決定的 変換 定 、

変換 確率的 定

確率最大 選ぶ 、決定的 変換 行う

(15)

音響 と言語 を用いた音声認識

� = argmax

� � �

= argmax

� � � � �

 � � � 直接学習 困難

 音 知識 言葉 知識 分 化 、 独立 学習

 音響 言語 用い 音声認識

 音 知識:音響

言葉 断片(単語 音素) 音 対応確率 計算

 言葉 知識:言語

言葉 自然性 確率 計算

定理 用い 式変換

(16)

音声認識 具体的

天気

天気 晴 点 際 晴

天気 例

音 知識 音響

天気 晴

天気 晴 点 際 晴

天気 例

あ 表現 い表現

い表現

言葉 知識 言語 音声 あ 程度 区間単位 、

音 知識 照 し合わ 系列 候補 い 作成

言葉 知識 使 、

系列 候補

自然 う 判断基準 加え

 音 知識 言葉 知識 使

(17)

音を覚え ため

 い細 い単位 、音 波形 覚え ?

 文単位

非効率 、可能性 無限 あ 非現実的

 単語単位

新語 現 び 、音 覚え 大変

 音素単位

覚え 数 少 、汎用性 あ

十分?

 う 音 波形 覚え 、 う 識別 ?

 波 ン 一 覚え 、見比

一個一個覚え 非効率 、見比 大変

音 時間方向 可変 あ 、様々 要因 変化

(18)

調音結合と フォン 使用

前後 音素 影響 受 、

当該音素 変化

k y o w a h a r e d e s u

k+y k-y+o y-o+w o-w+a w-a+h

a-h+a h-a+r a-r+e r-e+d e-d+e d-e+s e-s+u s-u

音素

 調音結合

 ン 調音結合 考慮

 前後 音素 異 考え 音素 43個ン 数 43^3個

 連続発話 い 、

前後 音素 影響 受 変化

(19)

複数状態 導入

 音素 、前半 中盤 後半 形状 異

前半 中盤 後半

音素( ン含 )

単一 状態 表 難しい

前半 中盤 後半 覚え

 複数状態(通常 3状態) 導入

 隠 マ (HMM) いう 構造 実現

第1 第2 第3

(20)

3 状態 フォン 音響

 一般的 音響 い

 固定区間 入力し 、

各 ン 各状態 対 確率 出力 構造

P(k-y+o 第1状態)=0.04

音響

P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1

P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001

P(y-o+t 第3状態)=0.001

出力 、

(音素 数:43)^3 × (状態 数:3)個 確率値

ィ※ 実際 、状態 タ ン 、状態共有 行わ )

入力 、約20ms

区間 特徴

(21)

ガウ 混合分布 音響

 各 ン 各状態 、

う 入力 多い 確率分布 し 覚え

P(k-y+o 第1状態)=0.04

音響

P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1

P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001 k-y+o 第2状態

y-o+t 第1状態

y-o+t 第2状態 y-o+t 第1状態

GMM音響

入力 分布 位置

、確率 算出

 確率分布 し 混合分布(GMM) 使う 、 複雑 分布形状 覚え

(22)

言葉とし 自然性

今日 天気 晴

今日 天気 ン

 音 し 合 い いう観点 加え 、

言葉 し 自然 あ 必要 あ

言葉 し 自然

今日 点際晴 言葉 し 不自然

言葉 し 不自然

 言葉 し 自然 う 観点 加え 必要 、 統計的言語

(23)

統計的言語

N-gram

 あ 単語 出現確率 、過去 N-1単語 依存 考え 、 依存 単語履歴 無視し 化

� � = P 今日 天気 晴れ

= P 今日 P 今日 P 天気 今日, P ,天気 P 晴れ|天気,

“今日” う考え い

 大量 タ(新聞、Web タ、音声書 起 し) 中 統計量 N-gram確率 学習

P �− , �− = �− , �− ,

�− , �−

“天気 ” 1000回、

“天気 晴 ” 400回、 P(晴 |天気 )

=400/1000=0.4

(24)

い単語列 対す ー ン

N-gram 単純 統計量 使う

 統計量 求 タ 出現し い 確率

し う

P �− , �− = �− , �− ,

�− , �−

“天気 ” 1000回、

“天気 晴 ” 400回、

“天気 曇 ” 300回、

“天気 雨” 300回、

“天気 雪” ?

 ン

知 い 単語列 部分 対 確率 少し減 し 、 知 い単語 確率 割 当

ン 前

ン 後 1.0

部分 ”雪” 割 当

(25)

探索( ン )

 音響 言語 和

一番高い単語列 探索

� = argmax

� � �

= argmax

� � � � �

= argmax

[log � � � + log � � ]

5万語彙 音声認識

10個 単語 文 50000^10通 可能性 あ 、 可能性 考慮 不可能

掛 算 、値

起 し し う 足し算、 Log 足し算

(26)

効率的 探索ネッ ワー

 重 付 有限状態 ン (WFST) 方式

 音響 、言語 、発音辞書 ッ ワ 合成し

、無駄 構造 省 、高速 探索 実現

a

k

a

u

s

u 明日

a 天気

0.02

0.07

a

i u

1つの最適なネッ ワークを構築

音響モ ル 発音辞書 言語モ ル

(27)

効率的 探索

 チ

 あ 時点以降 計算 続 候補 、制限 入

個数 良い順 ソ し 、あ 個数 超え 枝刈

:あ 超え し う 枝刈

t=0 t=1 t=2 t=3 t=4

個数 幅= し 場合 探索

(28)

内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

(29)

深層学習と ?

 機械学習 識別 予測 化手法 一

 Deep Neural Network 中心 し ッ ワ

基 化 行う手法全般 深層学習 呼 多い

P( ン)=0.96 P( )=0.02

P( )=0.018 P(犬)=0.002

P(い)=0.96 P(あ)=0.02 P(う)=0.018 P(え)=0.002 P( )=0.002

画像認識

音声認識

(30)

Neural Network (NN)

 人間 脳 神経回路 仕組 模し 数理

 第二次AI (1990年代) 広 注目

入力 重 総和 閾値

ン 発火 仕組 数理 出力

中間層 一

通常 ッ ワ

(31)

Deep Neural Network (DNN)

 Neural Network 中間層 多層化し 数理

 現在 第3次AI 火付 役

 多層化 ッ 定着 、計算機 発展 (GPU 導入) 伴い、機械学習 有望 手法

(32)

そ 他 主流

 Convolutional Neural Network (CNN)

 タ 畳 込 ン 処理 各層 実施 、 入力 情報 効率的 捉え ッ ワ

 画像認識 い 主流 化

 Recurrent Neural Network (RNN)

 時系列 タ い 、

過去 有効 情報 再帰的 捉え ッ ワ

 自然言語処理 い 主流 化

(33)

深層学習 基 く音声認識

 音響 、言語 、深層学習 進化

 音響

GMM音響 ⇒ DNN音響

 音響

GMM音響 ⇒ DNN音響

 言語

N-gram言語 ⇒ RNN言語

(34)

深層学習 基 く音響

P(k-y+o 第1状態)=0.04 P(k-y+o 第2状態)=0.2 P(k-y+o 第3状態)=0.1 P(y-o+t 第1状態)=0.001 P(y-o+t 第2状態)=0.001 P(y-o+t 第3状態)=0.001

DNN 音響

~8層程度用い

各層2048 当該 加え 、

前後5 入力

 各 ン 各状態 い 識別確率 DNN 化

(35)

深層学習 基 く言語

RNN 言語

今日 天気

P(曇 )=0.18 P(晴 )=0.20 P(雨)=0.16 P(雪)=0.08 P(良い)=0.08 P(悪い)=0.03

 長距離 文脈情報 利用 言語

中間層 中 、 文脈情報 埋 込

現在 中間層 出力

“今日 天気 ” 埋 込

1 前 中間層 出力

“今日 天気” 埋 込

入力 直前 単語 あ “ ”

(36)

DNN 音響 ンパ

10 15 20 25

GMM DNN

単語誤 (%)

 Switchboard 評価 [Seide+ 2011]

 同一 タ ッ 学習し

GMM音響 DNN音響 比較

23.6

17.1

手法 誤 20%程度削減

(37)

本日 内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

(38)

音声認識 未解決問題

 人 人 自然会話 音声認識

 例え 、笑い 話 声 話 声、

途中 話し 言い直し 、方言 変わ 声 入 タ あ 音声認識 難しい

 マ 離 場所 音声認識

 人間 遠 声 認識 、

機械 マ 離 、大 性能 劣化し し う

 単一マ ン 高雑音下音声認識

 マ ン 使 理想的 条件 作 出

、高雑音下 音声認識 、

一般 環境( マ ン ) 実現 難しい

(39)

音声認識 未解決問題

 タ 非依存 音声認識

 音声認識 決し 万能 い

 特定 向 学習 タ 集 、

特化(チ ン ) 、 高精度 仕組 提供 、

チ ン し 性能保証 い

 成長 音声認識

 赤 成長し い 異 、

話し 話し

自然 音声認識 う い い

(40)

本日 内容

音声 基礎知識

音声認識 原理

深層学習 音声認識

音声認識 未解決問題

(41)

まとめ

 音声認識技術 い 基礎的 部分

最新 枠組 概説

 音声 い

 音声認識

 音声認識 深層学習 使い

 到達点 確認

参照

関連したドキュメント

特に 2021 年から 2022 年前半については、2020 年にパンデミック受けての世界全体としてのガス需要減少があり、その反動

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

を占めている。そのうち 75 歳以上の後期高齢者は 1,872 万人(14.9%)、80 歳以上は 1,125 万

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

[r]

本稿 は昭和56年度文部省科学研究費 ・奨励

This paper presents a case of material and classroom guideline design to motivate autonomous learning of kanji and vocabulary in advanced Japanese language classes. The main goal