音情報処理論
中村
哲
高道愼之介
Sakriani Sakti
音声って何
人のコミュニケーションで意図を伝える最も重
要な手段
– 音声を圧縮する
– 音声を作る
– 音声を聞き取る
– さらに、音響信号の処理
シリコンオーディオ
音声、音
楽を圧
Apple Siri
音声で問
い合わ
VoiceTra+
音声をそ
の場で翻
何が難しいのか
音声合成
– 録音して再生する?
– テキストから音声を合成?
– どんな声でも?
– 怒ったり、泣いたりできる?
音声認識
– 一人の人の声を認識するとは?
– 違う人、男女、子供だと?
– アクセント、方言、外来語は?
– 感情的な音声は?
– 音響的な外乱は?
音声対話
– 人間のように対話するとは???
本講義の狙い
音声とは何か
音声情報を使ったヒューマンインタフェース
– 音声認識
– 音声合成
– 音声対話
– 音声翻訳
– さらに音響信号処理
これらの技術の中身はどうなっているのか?
講義の構成
第1回 10/5 中村
音情報基礎(音声、音響情報処理の導入、基礎):
Introduction to speech and acoustic signal processing
第2回 10/12 高道
音声の特徴抽出(DFT,LPC,ケプストラム分析):
Speech signal processing (DFT, LPC analysis)
第3回 11/19 高道
音声合成理論と音声合成システム:
Speech synthesis theory and system
第4回 10/26 中村
音声符号化基礎:
Fundamentals of Speech Coding
第5回 11/2 高道
音響信号処理基礎:
Fundamentals of acoustic signal processing
第6回 11/9 Sakti
音声認識理論と音声認識システム:
Speech recognition theory and system
第6回
11/16 吉野
音声対話システム理論と音声対話システム:
採点基準
各回に課題を出します。
• 1週間以内の提出
最終回に最終試験を行います。
この2つの合計点を元に採点します。
おおよそ、
(出席+演習)の合計%x0.3+最終試験%x0.7
が目安です。
参考書
森北出版
音声工学
板橋秀一
編著
今日は、この本を参考にしています。
他に、
昭晃堂
鹿野、中村、伊勢
「音声・音情報のディジタル信号処理」
コロナ社
鹿野、武田ら
「音声認識システム」
近代科学社
古井、「新音響・音声工学」
音声に関する研究
人間の発声器官、発声メカニズム
音の伝搬、音響工学、音響信号処理
人間の聴覚器官、聴取メカニズム
⇒
生理学、心理学
言葉の理解、生成
⇒
言語学
コンピュータによる実現
⇒
コンピュータサイエンス、情報工学
母音の分類
母音の性質
ホルマント、ホルマント周波数、ホルマント帯
域幅
母音のホルマント
子音
半母音
/j/ /w/
IPA
異音(allophone)
有声音、無声音
調音結合
/aoi/青いの/a/は
/aida/間
の/a/と調音点
が異なる。
– /aoi/ の/a/は、後続の/o/に近い奥舌音
– /aida/の/a/は、後続の/i/に近い前よりの調音
これらを「調音結合」(Co-articulation)
あるいは、「同化」(assimilation)と呼ぶ
– 鼻音化:/namae/名前 /a/が鼻音化
– 無声化:/akita/, /yakusho/ 無声子音に挟まれた
/i//u/ が無声化する
アクセント・イントネーション
高さアクセント
強さアクセント
文節要素(Segmental Phoneme)
話し言葉
文が短い
主語などの省略が多い
短縮形を多用
ね、さ、よ、等の終助詞がつく
同じ言葉の繰り返しが多い
複雑な構文を避ける
時間的要素(忘却)が関与する
えー、あー、うーなどのいいよどみがある
言い誤り、言い直しが多い
継時マスキング
何が難しいのか
音声合成
– 録音して再生
• 変形したい
– スペクトル構造と音源を分けて制御したい
– 文字から音声を合成
• イントネーションがない
• 調音結合の影響で不自然
– 変形が必要
音声認識
– 同じ人でも話すたびに違う
• 時間構造、スペクトル構造
– 違う人、男女、子供で音声が違う
– アクセント、方言の問題、外来語
– 雑音、残響
音声対話
– 人間のように対話するとは?
最近の音声認識の進歩
これまでの経緯
– テンプレートマッチング、動的計画法 [Sakoe 71]
– 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]
– ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]
– Weighted Finite State Transducer [Mohri 2006]
– 大量のデータの収集、試行サービスによるデータ収集
深層学習による最近の進化
– DNN-HMM [Hinton 2012]
• DNN により状態の事後確率を直接推定する
– Connectionist Temporal Classification [Graves 2013]
• フレーム毎に音素ラベルを出力する
– Listen, Attend, and Spell [Chan 2016]
• CTCにAttentionメカニズムを加え高精度化
深層学習による音声認識
ハイブリッド
HMM-DNN:
最新の方法: CLDNN により入力特徴量系列から音素列を直接推定
注意機構付きEncoder-Decoderによる
End-to-end ASR
CNNs :特徴抽出
LSTM:系列モデリング
DNN: 高精度な識別
[Sainath et. al 2015]
TIMIT音素認識結果
Results on Google data
CTC: Connectionist Temporal Classification
問題
: RNNの音素認識器を学習するためにはフレーム毎のラベルが必要。これ
までは、HMMが使われていた。
Connectionist Temporal Classification (CTC)
[A. Graves et al 2006]
動的計画法を用いてラベルを割り当て学習する。
学習時、正解ラベル系列
𝒍を
入力系列
𝒙を割り当てる。
:
𝑃 𝑙 𝑥 =
𝜋𝑃 𝑙 𝜋 𝑃 𝜋 𝑥
Classical framewise RNN vs RNN-CTC
Model
WER
Classical RNN
14.0%
RNN+CTC
12.9%
2000時間の英語のVoice
Searchの結果。
[H. Sak et al 2015]
音声認識性能の向上
Saon, et al. “English Conversational Telephone Speech Recognition by
Humans and Machines”, INTERSPEECH 2017
[1] R. P. Lippmann, “Speech recognition by machines and humans,” Speech communication, vol. 22, no. 1, pp. 1–15, 1997.
最近の音声合成の進歩
フォルマント合成、素片合成
確率モデルベース音声合成:HTS
– HMMフレームワークによる音声合成
– Tokuda, et al., “Speech parameter generation algorithms for
HMM-based speech synthesis”, ICASSP 2000
Wavenet
– 時系列信号に対し、畳み込みを行うNNにより波形生成
– van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW
AUDIO”, arXiv:1609.03499v2 [cs.SD] 19 Sep 2016
Tacotron
– 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成
– Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH
SYNTHESIS”, arXiv:1703.10135v2 [cs.CL] 6 Apr 2017
Architecture on Wavenet
Architecture on Tacotron
機械翻訳の進歩
ルールベース:
言語学者、言語学の知識のある作業者がルールを注意して作成
コーパスベース:
– 用例ベース (Example-Based)ルールを自動的にコーパスから抽出
[M.Nagao84, Sato et.al.,89, Sumita et. al., 91 ]
– 統計ベース翻訳 (Statistical Machine Translation) さらに、ルールが頻
出するかの確率を学習。Noisy Channel Model [P.F.Brown, et.al. 93]
– Phrase-base SMT
単語レベルでなくフレーズという単位を導入。
Tree-to-string
– 構文構造の関係を学習する統計的機械翻訳
Neural Machine Translation
– LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する
Attention NMT
– 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでア
ライメントをImplicitに学習する
フレーズベースSMT
ate
a meal
with
a friend
友達 と ご飯 を 食べ た
友達 a friend
と
with ご飯 をa meal 食べ たate
友達 a friend と with ご飯 を a meal 食べ た ate Phrase Aligment Re-ordering Translation
ate
a meal
with
a friend
食べ た
SUF
5VP
4-5x1 with x0
x1 x0
a friend
a meal
ate
x1
x0
Apply rules
友達
ご飯
を
VP
0-5PP
0-1VP
2-5PP
2-3N
2P
3V
4N
0P
1x1 x0
友達 と ご飯 を 食べ た
Parser
訳出
と
構文木の利用:Tree-to-string
構文構造の利用
43
Statistical Translation Frameworks
Symbolic Models
Phrase-based MT [Koehn+ 03]
he has a cold 彼 は 風邪 を 引いている he 彼 は has 引いている a cold 風邪 を he 彼 は has 引いている a cold 風邪 をTree-to-String MT [Liu+ 06]
彼 は 風邪 he has a cold PRP VBZ DET NN VP NP S 引いている をContinuous-space (Neural) Models
Encoder-Decoder [Sutskever+ 14]
he has a cold <s> 彼 彼 は は 風邪 風邪 を 引いて いる を <s> 引いて いるAttentional [Bahdanau+ 15]
he has a cold g1,...,g4 a1 a2 a3 a4 hi-1 hi ri-1P(ei|F,e1,...,ei-1)
Neural Machine Translation
Neural MT
NMT Re-ranking
Tomodachi to Gohan wo tabeta
Vector Representation History of MT results
I ate
Predict next word0.5 a
0.3 rice
0.1 the
…
Tree-to-string MTTomodachi to Gohan wo tabeta
I ate a meal with my friend
I ate rice with my friend
I ate rice and my friend
NMT probability
NMT
T2S
0.3 I ate a meal with my friend
0.5 I ate rice with my friend
0.1 I ate rice and my friend
Take best
hypothesis
I ate rice with my friend
Good example by NMT:
Original: demo Kensa ha kanari itai desuka?
before: But quite sore test?
after: But the test hurts a lot?
音声翻訳システム
多言語
音声認識
機械翻訳
話し言葉
多言語
音声合成
日本語
英語
I go to school
「私は学校に行く: Watashi wa Gakko he iku」
Watashi wa
我が国の音声翻訳プロジェクトの流れ
47
読み上げ文を
音声翻訳
• 文法的な表現 • 明瞭な発声 国際会議申込み」日常の話し言葉
を音声翻訳
• 標準的な表現 • 明瞭な発声 • 限定された話題 「ホテル予約」広い話題に適応
• 広い話題での表現 (日常旅行会話) • 雑音を含む音声 • 日英+日中1986
1992
2000
2006
要素技術
ルールベース
人手作業
大規模コーパス
+ 機械学習
2008
A-STAR
内閣府社会
還元加速PJ
• 8アジア言語 •ネットワーク型音声翻訳2010
C-STAR
• 音声翻訳国際共同研究コンソーシアムIWSLT
• 音声翻訳性能評価ワークショップ2011
VoiceTra
NAIST
2014
U-STAR
NICT
GC PJ
NICT
ATR
・2007年 11月開始iPhone アプリ:VoiceTra, TexTra
•
新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7
月29日リリース
• 21
言語対応、音声入出力は
6
言語(日、英、中、インドネシア、ベトナム、マレー語)
•
これまでに、
約80万
ダウロード、
1千万
アクセス
48
* Text-translation application, TexTra is released at the same time.