• 検索結果がありません。

音声情報処理

N/A
N/A
Protected

Academic year: 2021

シェア "音声情報処理"

Copied!
55
0
0

読み込み中.... (全文を見る)

全文

(1)

音情報処理論

中村

高道愼之介

戸田智基

Sakriani Sakti

吉野幸一郎

Satoshi Nakamura @ NAIST 2016

1

(2)

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

(3)

シリコンオーディオ

Satoshi Nakamura @ NAIST 2016

3

音声、音

楽を圧

縮!

(4)

Apple Siri

音声で問

い合わ

(5)

VoiceTra+

Satoshi Nakamura @ NAIST 2016

5

音声をそ

の場で翻

訳!

(6)

何が難しいのか

音声合成

– 録音して再生する?

– テキストから音声を合成?

– どんな声でも?

– 怒ったり、泣いたりできる?

音声認識

– 一人の人の声を認識するとは?

– 違う人、男女、子供だと?

– アクセント、方言、外来語は?

– 感情的な音声は?

– 音響的な外乱は?

音声対話

– 人間のように対話するとは???

(7)

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか?

Satoshi Nakamura @ NAIST 2016

7

(8)

参考書

森北出版

音声工学

板橋秀一

編著

今日は、この本を参考にします。

他に、

昭晃堂

鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社

鹿野、武田ら

「音声認識システム」

近代科学社

古井、「新音響・音声工学」

(9)

講義の構成

第1回 10/4 中村

音情報基礎(音声、音響情報処理の導入、基礎):

Introduction to speech and acoustic signal processing

第2回 10/18 高道

音声の特徴抽出(DFT,LPC,ケプストラム分析):

Speech signal processing (DFT, LPC analysis)

第3回 10/25 戸田

音声符号化基礎:

Fundamentals of Speech Coding

第4回 11/1 戸田

音声合成理論と音声合成システム:

Speech synthesis theory and system

第5回 11/8 Sakti

音声認識理論と音声認識システム:

Speech recognition theory and system

第6回

11/15 吉野

音声対話システム理論と音声対話システム:

Spoken dialog system theory and system

第7回 11/22 高道

音響信号処理基礎:

Fundamentals of acoustic signal processing

11/26 第8回 試験

Satoshi Nakamura @ NAIST 2016

9

(10)

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

この2つの合計点を元に採点します。

おおよそ、

(出席+演習)の合計%x0.4+最終試験%x0.6

が目安です。

(11)

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒(分析) ⇒

特徴パラメータ

– 特徴パラメータ

音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ (圧縮) ⇒ 音声信号

Satoshi Nakamura @ NAIST 2016

11

(12)

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

生理学、心理学

言葉の理解、生成

言語学

コンピュータによる実現

コンピュータサイエンス、情報工学

(13)

音声の生成

Satoshi Nakamura @ NAIST 2016

13

(14)

調音機構

調音:喉頭、口腔、鼻腔:

管腔全体

声道

声道長

– 成人男性:17.5cm

– 成人女性:15.2cm

– 子供(8歳):12.2cm

口唇

(15)

音声器官

Satoshi Nakamura @ NAIST 2016

15

(16)

発声機構

音源と調音

音源

– 有声

声帯振動

– 無声

乱流

• 喉頭や声道途中の狭めによる乱流

• 舌先などの声道の閉鎖と開放による破裂性音源 破裂性

• 乱流音源のうち喉頭の狭めによるもの 摩擦性

(17)

声帯振動

Satoshi Nakamura @ NAIST 2016

17

(18)

音声波

(19)

音声の長時間スペクトル

Satoshi Nakamura @ NAIST 2016

19

(20)

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節

– /wa/ /ta/ /shi/ /wa/ /to/ /u/ /kyo/ /e/ /i/ /ku/

音素

– 母音、半母音、子音 ⇒ 音素記号

– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /u/ /ky/…

国際音声記号(国際音素記号):

(21)

IPA

異音(allophone)

有声音、無声音

閉鎖音、破裂音、鼻音、破擦音

Satoshi Nakamura @ NAIST 2016

21

(22)

母音の分類

(23)

調音結合

/aoi/青いの/a/は

/aida/間

の/a/と調音点

が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「調音結合」(Co-articulation)

あるいは、「同化」(assimilation)と呼ぶ

– 鼻音化:/namae/名前 /a/が鼻音化

– 無声化:/akita/, /yakusho/ 無声子音に挟まれた

/i//u/ が無声化する

Satoshi Nakamura @ NAIST 2016

23

(24)

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素(Segmental Phoneme)

(25)

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素(忘却)が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

Satoshi Nakamura @ NAIST 2016

25

(26)

母音の性質

ホルマント、ホルマント周波数、ホルマント帯

域幅

(27)

ホルマント周波数

Satoshi Nakamura @ NAIST 2016

27

図2.11 日本語短母音のホルマント周波数

(28)

母音のホルマント

(29)

子音

半母音

/j/ /w/

破裂音

/p,t,k/ /b,d,g/

Satoshi Nakamura @ NAIST 2016

29

図2.13 無声破裂音と有声破裂音

(30)

有声破裂音

(31)

基本周波数

Satoshi Nakamura @ NAIST 2016

31

図2.18 基本周波数分布

(32)

文章発話の基本周波数

(33)

聴覚器官

Satoshi Nakamura @ NAIST 2016

33

(34)
(35)

蝸牛断面

Satoshi Nakamura @ NAIST 2016

35

(36)
(37)

聴覚神経系

Satoshi Nakamura @ NAIST 2016

37

(38)
(39)

音の高さ知覚

Satoshi Nakamura @ NAIST 2016

39

(40)
(41)

同時マスキング

Satoshi Nakamura @ NAIST 2016

41

(42)

継時マスキング

(43)

臨界帯域幅

Satoshi Nakamura @ NAIST 2016

43

(44)

音声の知覚

明瞭度と了解度

知覚単位と文脈

カテゴリー知覚

(45)

カテゴリー知覚

Satoshi Nakamura @ NAIST 2016

45

(46)

何が難しいのか

音声合成

– 録音して再生

• 変形したい

– スペクトル構造と音源を分けて制御したい

– 文字から音声を合成

• イントネーションがない

• 調音結合の影響で不自然

– 変形が必要

音声認識

– 同じ人でも話すたびに違う

• 時間構造、スペクトル構造

– 違う人、男女、子供で音声が違う

– アクセント、方言の問題、外来語

– 雑音、残響

音声対話

– 人間のように対話するとは?

(47)

音声翻訳システム

10/08/2016

47

多言語

音声認識

機械翻訳

話し言葉

多言語

音声合成

日本語

英語

I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa

Gakko he iku

I go to school

(48)

我が国の音声翻訳プロジェクトの流れ

48

読み上げ文を

音声翻訳

• 文法的な表現 • 明瞭な発声 国際会議申込み」

日常の話し言葉

を音声翻訳

• 標準的な表現 • 明瞭な発声 • 限定された話題 「ホテル予約」

広い話題に適応

• 広い話題での表現 (日常旅行会話) • 雑音を含む音声 • 日英+日中

1986

1992

2000

2006

要素技術

ルールベース

人手作業

大規模コーパス

+ 機械学習

2008

A-STAR

内閣府社会

還元加速PJ

• 8アジア言語 •ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011

VoiceTra

NAIST

2014

U-STAR

NICT

GC PJ

NICT

ATR

・2007年 11月開始

(49)

大規模コーパス

多言語

音声認識

多数話者の

大量の

音声データ

日本語と英語

の大量の対訳文

長時間英語

音声データ

話し言葉

翻訳

多言語

音声合成

日本語

英語

I go to school

「私は学校に行く」

w a t a sh i w a g a xtu k o o n i….. 私は学校に 行く

日本語の大量

の文章

I to school go

和英辞書により日本語 の単語列を英語に変換 「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go” 日本語の辞書と 文法により かな漢字列に変換 日本語の 発音列に変換 “a”,”I”,”u”,… テキストに合った 音声波形を データベースから 探し出す 英語の文法に合わせて 語順を変更 “I” “I” “to school” “go” “go” “to school”

I go to school

コーパス

英語の大量

の文章

音声翻訳のメカニズム

Satoshi Nakamura @ NAIST 2016

49

(50)

統計的機械翻訳

50

• 統計モデル、言語モデル、デコーダーから構成される。

原言語と目的言語

のパラレルテキスト

コーパス

目的言語のテキス

トコーパス

統計解析

統計解析

翻訳モデル

言語モデル

スコアを考慮して翻訳処理

入力文(原言語)

翻訳文(目的言語)

並び替えモデル

フレーズの置換

置換フレーズの

文法整合性判定

デコーダ

(51)

パラレルコーパス

Japanese:

“窓をあけてもいいですか”

Satoshi Nakamura @ NAIST 2016

51

English:

1.

may i open the window

2.

ok if i open the window

3.

can i open the window

4.

could we crack the window

5.

is it okay if i open the window

6.

would you mind if i opened the

window

7.

is it okay to open the window

8.

do you mind if i open the window

9.

would it be all right to open the

window

10.

i’d like to open the window

Japanese

English

Chinese

Korean

New lang.

(52)

同時通訳への挑戦 (InterSpeech 2013)

o 課題:従来法は文末を待つため遅い

o 提案法:文末を待たず、フレーズ毎に翻訳

52

発話

音声認識

翻訳

音声合成

時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

(53)

結果

Satoshi Nakamura @ NAIST 2016

53

38 40 42 44 46 48 50 0 1 2 3 4 5 6 R IBE S Dealy (Sec) LM+Tu A rank B rank

A ランク:4 年経験

B ランク:1 年経験

Fast

Accu

ra

te

フレーズ終了時翻訳

発話終了時翻訳

B ランク(経験 1 年)

A ランク(経験 4 年)

経験年数1年のB ランク通訳者と同等

2016/10/4

(54)

iPhone アプリ:VoiceTra, TexTra

新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7

月29日リリース

• 21

言語対応、音声入出力は

6

言語(日、英、中、インドネシア、ベトナム、マレー語)

これまでに、

約80万

ダウロード、

1千万

アクセス

54

54

* Text-translation application, TexTra is released at the same time.

Japanese

,

English

,

Mandarin

, Taiwanese

Mandarin, German, French, Dutch, Danish,

Italian, Spanish, Portuguese, Brazilian

Portuguese, Russian, Arabic, Hindi,

Indonesian,

Malay, Thai, Tagalog,

Vietnamese

, Korean

※ Language in red can be input/output in voices.

※There is no text input support for Hindi or Vietnamese.

(55)

おわり

この回も試験に出ます。

各自、よく読んでおいてください。

Satoshi Nakamura @ NAIST 2016

55

参照

関連したドキュメント

本稿 は昭和56年度文部省科学研究費 ・奨励

Relaxation of the muscles are highly relevant in the initiation of pitch fall and rise: a quick fall from the high pitch range is initiated by suppressing

音節の外側に解放されることがない】)。ところがこ

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

語基の種類、標準語語幹 a語幹 o語幹 u語幹 si語幹 独立語基(基本形,推量形1) ex ・1 ▼▲ ・1 ▽△

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

Guasti, Maria Teresa, and Luigi Rizzi (1996) "Null aux and the acquisition of residual V2," In Proceedings of the 20th annual Boston University Conference on Language

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察