音情報処理論
中村
哲
高道愼之介
戸田智基
Sakriani Sakti
吉野幸一郎
Satoshi Nakamura @ NAIST 2016
1
音声って何
人のコミュニケーションで意図を伝える最も重
要な手段
– 音声を圧縮する
– 音声を作る
– 音声を聞き取る
– さらに、音響信号の処理
シリコンオーディオ
Satoshi Nakamura @ NAIST 2016
3
音声、音
楽を圧
縮!
Apple Siri
音声で問
い合わ
VoiceTra+
Satoshi Nakamura @ NAIST 2016
5
音声をそ
の場で翻
訳!
何が難しいのか
音声合成
– 録音して再生する?
– テキストから音声を合成?
– どんな声でも?
– 怒ったり、泣いたりできる?
音声認識
– 一人の人の声を認識するとは?
– 違う人、男女、子供だと?
– アクセント、方言、外来語は?
– 感情的な音声は?
– 音響的な外乱は?
音声対話
– 人間のように対話するとは???
本講義の狙い
音声とは何か
音声情報を使ったヒューマンインタフェース
– 音声認識
– 音声合成
– 音声対話
– 音声翻訳
– さらに音響信号処理
これらの技術の中身はどうなっているのか?
Satoshi Nakamura @ NAIST 2016
7
参考書
森北出版
音声工学
板橋秀一
編著
今日は、この本を参考にします。
他に、
昭晃堂
鹿野、中村、伊勢
「音声・音情報のディジタル信号処理」
コロナ社
鹿野、武田ら
「音声認識システム」
近代科学社
古井、「新音響・音声工学」
講義の構成
第1回 10/4 中村
音情報基礎(音声、音響情報処理の導入、基礎):
Introduction to speech and acoustic signal processing
第2回 10/18 高道
音声の特徴抽出(DFT,LPC,ケプストラム分析):
Speech signal processing (DFT, LPC analysis)
第3回 10/25 戸田
音声符号化基礎:
Fundamentals of Speech Coding
第4回 11/1 戸田
音声合成理論と音声合成システム:
Speech synthesis theory and system
第5回 11/8 Sakti
音声認識理論と音声認識システム:
Speech recognition theory and system
第6回
11/15 吉野
音声対話システム理論と音声対話システム:
Spoken dialog system theory and system
第7回 11/22 高道
音響信号処理基礎:
Fundamentals of acoustic signal processing
11/26 第8回 試験
Satoshi Nakamura @ NAIST 2016
9
採点基準
各回に課題を出します。
• 1週間以内の提出
最終回に最終試験を行います。
この2つの合計点を元に採点します。
おおよそ、
(出席+演習)の合計%x0.4+最終試験%x0.6
が目安です。
音声と情報
音声
– 言語情報
– 非言語情報
– 個人性情報
音声認識、話者認識
– 音響音声信号⇒(分析) ⇒
特徴パラメータ
– 特徴パラメータ
⇒
音声認識、話者認識
音声合成
– 言語情報 ⇒ 音声合成
音声符号化、圧縮
– 音声信号 ⇒ (圧縮) ⇒ 音声信号
Satoshi Nakamura @ NAIST 2016
11
音声に関する研究
人間の発声器官、発声メカニズム
音の伝搬、音響工学、音響信号処理
人間の聴覚器官、聴取メカニズム
⇒
生理学、心理学
言葉の理解、生成
⇒
言語学
コンピュータによる実現
⇒
コンピュータサイエンス、情報工学
音声の生成
Satoshi Nakamura @ NAIST 2016
13
調音機構
調音:喉頭、口腔、鼻腔:
管腔全体
⇒
声道
声道長
– 成人男性:17.5cm
– 成人女性:15.2cm
– 子供(8歳):12.2cm
口唇
舌
音声器官
Satoshi Nakamura @ NAIST 2016
15
発声機構
音源と調音
音源
– 有声
声帯振動
– 無声
乱流
• 喉頭や声道途中の狭めによる乱流
• 舌先などの声道の閉鎖と開放による破裂性音源 破裂性
• 乱流音源のうち喉頭の狭めによるもの 摩擦性
声帯振動
Satoshi Nakamura @ NAIST 2016
17
音声波
音声の長時間スペクトル
Satoshi Nakamura @ NAIST 2016
19
音声の基本的性質
音声・音節・音素
音声
– /わたしはとうきょうへいく/
音節
– /wa/ /ta/ /shi/ /wa/ /to/ /u/ /kyo/ /e/ /i/ /ku/
音素
– 母音、半母音、子音 ⇒ 音素記号
– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /u/ /ky/…
国際音声記号(国際音素記号):
IPA
異音(allophone)
有声音、無声音
閉鎖音、破裂音、鼻音、破擦音
Satoshi Nakamura @ NAIST 2016
21
母音の分類
調音結合
/aoi/青いの/a/は
/aida/間
の/a/と調音点
が異なる。
– /aoi/ の/a/は、後続の/o/に近い奥舌音
– /aida/の/a/は、後続の/i/に近い前よりの調音
これらを「調音結合」(Co-articulation)
あるいは、「同化」(assimilation)と呼ぶ
– 鼻音化:/namae/名前 /a/が鼻音化
– 無声化:/akita/, /yakusho/ 無声子音に挟まれた
/i//u/ が無声化する
Satoshi Nakamura @ NAIST 2016
23
アクセント・イントネーション
高さアクセント
強さアクセント
文節要素(Segmental Phoneme)
話し言葉
文が短い
主語などの省略が多い
短縮形を多用
ね、さ、よ、等の終助詞がつく
同じ言葉の繰り返しが多い
複雑な構文を避ける
時間的要素(忘却)が関与する
えー、あー、うーなどのいいよどみがある
言い誤り、言い直しが多い
Satoshi Nakamura @ NAIST 2016
25
母音の性質
ホルマント、ホルマント周波数、ホルマント帯
域幅
ホルマント周波数
Satoshi Nakamura @ NAIST 2016
27
図2.11 日本語短母音のホルマント周波数
母音のホルマント
子音
半母音
/j/ /w/
破裂音
/p,t,k/ /b,d,g/
Satoshi Nakamura @ NAIST 2016
29
図2.13 無声破裂音と有声破裂音
有声破裂音
基本周波数
Satoshi Nakamura @ NAIST 2016
31
図2.18 基本周波数分布
文章発話の基本周波数
聴覚器官
Satoshi Nakamura @ NAIST 2016
33
蝸牛断面
Satoshi Nakamura @ NAIST 2016
35
聴覚神経系
Satoshi Nakamura @ NAIST 2016
37
音の高さ知覚
Satoshi Nakamura @ NAIST 2016
39
同時マスキング
Satoshi Nakamura @ NAIST 2016
41
継時マスキング
臨界帯域幅
Satoshi Nakamura @ NAIST 2016
43
音声の知覚
明瞭度と了解度
知覚単位と文脈
カテゴリー知覚
カテゴリー知覚
Satoshi Nakamura @ NAIST 2016
45
何が難しいのか
音声合成
– 録音して再生
• 変形したい
– スペクトル構造と音源を分けて制御したい
– 文字から音声を合成
• イントネーションがない
• 調音結合の影響で不自然
– 変形が必要
音声認識
– 同じ人でも話すたびに違う
• 時間構造、スペクトル構造
– 違う人、男女、子供で音声が違う
– アクセント、方言の問題、外来語
– 雑音、残響
音声対話
– 人間のように対話するとは?
音声翻訳システム
10/08/201647
多言語
音声認識
機械翻訳
話し言葉
多言語
音声合成
日本語
英語
I go to school
「私は学校に行く: Watashi wa Gakko he iku」
Watashi wa
Gakko he iku
I go to school
我が国の音声翻訳プロジェクトの流れ
48
読み上げ文を
音声翻訳
• 文法的な表現 • 明瞭な発声 国際会議申込み」日常の話し言葉
を音声翻訳
• 標準的な表現 • 明瞭な発声 • 限定された話題 「ホテル予約」広い話題に適応
• 広い話題での表現 (日常旅行会話) • 雑音を含む音声 • 日英+日中1986
1992
2000
2006
要素技術
ルールベース
人手作業
大規模コーパス
+ 機械学習
2008
A-STAR
内閣府社会
還元加速PJ
• 8アジア言語 •ネットワーク型音声翻訳2010
C-STAR
• 音声翻訳国際共同研究コンソーシアムIWSLT
• 音声翻訳性能評価ワークショップ2011
VoiceTra
NAIST
2014
U-STAR
NICT
GC PJ
NICT
ATR
・2007年 11月開始大規模コーパス
多言語
音声認識
多数話者の
大量の
音声データ
日本語と英語
の大量の対訳文
長時間英語
音声データ
話し言葉
翻訳
多言語
音声合成
日本語
英語
I go to school
「私は学校に行く」
w a t a sh i w a g a xtu k o o n i….. 私は学校に 行く日本語の大量
の文章
I to school go
和英辞書により日本語 の単語列を英語に変換 「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go” 日本語の辞書と 文法により かな漢字列に変換 日本語の 発音列に変換 “a”,”I”,”u”,… テキストに合った 音声波形を データベースから 探し出す 英語の文法に合わせて 語順を変更 “I” “I” “to school” “go” “go” “to school”I go to school
コーパス
英語の大量
の文章
音声翻訳のメカニズム
Satoshi Nakamura @ NAIST 2016
49
統計的機械翻訳
50
• 統計モデル、言語モデル、デコーダーから構成される。
原言語と目的言語
のパラレルテキスト
コーパス
目的言語のテキス
トコーパス
統計解析
統計解析
翻訳モデル
言語モデル
スコアを考慮して翻訳処理
入力文(原言語)
翻訳文(目的言語)
並び替えモデル
フレーズの置換
置換フレーズの
文法整合性判定
デコーダ
パラレルコーパス
Japanese:
“窓をあけてもいいですか”
Satoshi Nakamura @ NAIST 2016
51
English:
1.
may i open the window
2.
ok if i open the window
3.
can i open the window
4.
could we crack the window
5.
is it okay if i open the window
6.
would you mind if i opened the
window
7.
is it okay to open the window
8.
do you mind if i open the window
9.
would it be all right to open the
window
10.
i’d like to open the window
Japanese
English
Chinese
Korean
New lang.
同時通訳への挑戦 (InterSpeech 2013)
o 課題:従来法は文末を待つため遅い
o 提案法:文末を待たず、フレーズ毎に翻訳
52
発話
音声認識
翻訳
音声合成
時間
発話
音声認識
翻訳
音声合成
翻訳
音声合成
翻訳
音声合成
時間
結果
Satoshi Nakamura @ NAIST 2016
53
38 40 42 44 46 48 50 0 1 2 3 4 5 6 R IBE S Dealy (Sec) LM+Tu A rank B rank
A ランク:4 年経験
B ランク:1 年経験
Fast
Accu
ra
te
フレーズ終了時翻訳
発話終了時翻訳
B ランク(経験 1 年)
A ランク(経験 4 年)
≒
経験年数1年のB ランク通訳者と同等
2016/10/4iPhone アプリ:VoiceTra, TexTra
•
新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7
月29日リリース
• 21
言語対応、音声入出力は
6
言語(日、英、中、インドネシア、ベトナム、マレー語)
•
これまでに、
約80万
ダウロード、
1千万
アクセス
54
54
* Text-translation application, TexTra is released at the same time.
Japanese
,
English
,
Mandarin
, Taiwanese
Mandarin, German, French, Dutch, Danish,
Italian, Spanish, Portuguese, Brazilian
Portuguese, Russian, Arabic, Hindi,
Indonesian,
Malay, Thai, Tagalog,
Vietnamese
, Korean
※ Language in red can be input/output in voices.
※There is no text input support for Hindi or Vietnamese.
おわり
この回も試験に出ます。
各自、よく読んでおいてください。
Satoshi Nakamura @ NAIST 2016