• 検索結果がありません。

Advertisement of a CALL system for kids Non-native kids pron. is compared to native kids pron.

N/A
N/A
Protected

Academic year: 2021

シェア "Advertisement of a CALL system for kids Non-native kids pron. is compared to native kids pron."

Copied!
55
0
0

読み込み中.... (全文を見る)

全文

(1)

Acoustic modeling of L2 pronunciation and

its application to automatic assessment

Nobuaki Minematsu

Grad. School of Info. Sci. and Tech.

The University of Tokyo

(2)

Advertisement of a CALL system for kids

(3)

Today’s menu

Target of imitation in pronunciation training

Acoustic imitation and non-acoustic imitation

Vocal imitation found in the first language acquisition

What in teachers’ pron. should be modeled for CALL system?

Speaker-independent modeling of pronunciation

How to remove speaker identity from his/her speech acoustics? Natural solution and our mathematical (technical) solution

Pronunciation structure and its use for pronunciation modeling

Structure-based pronunciation assessment

A prototype system of vowel training for everybody

Native-sounding or intelligible-enough pronunciation? Individual Englishes and a possible future direction

(4)

Pronunciation training vs. impersonation

(5)

Both differences are timbre differences acoustically.

Formant frequencies (peak frequencies) of vowels

Diff. in vowels and diff. in speakers

1st formant frequency [kHz]

2nd formant frequenc

y [kHz]

Resonance frequency formant frequency

(6)

Linguistic and non-ling. aspects of speech

/a/ of a boy and /i/ of the same boy

/a/ of the boy and /a/ of his girl friend

Both are attributed to difference in timbre.

Timbre modification change speaker identity and phoneme identity.

Explanation of this fact in view of articulatory phonetics

Difference between the two speakers

Difference in the default shape (length) between their vocal tubes Difference between /a/ and /i/ of a speaker

Difference in the shape of his/her vocal tube between /a/ and /i/ 170cm

150cm

(7)

It’s an easy question!!

(8)

VI = children’s active imitation of parents’ utterances

Language acquisition is based on vocal imitation [Jusczyk’00].

VI is very rare in animals. No other primate does VI [Gruhn’06].

Only small birds, whales, and dolphins do VI [Okanoya’08].

A’s VI = acoustic imitation but H’s VI = acoustic imitation

Acoustic imitation performed by myna birds [Miyamoto’95]

They imitate the sounds of cars, doors, dogs, cats as well as human voices. Hearing a very good myna bird say something, one can guess its owner.

Beyond-scale imitation of utterances performed by human children No one can guess a parent by hearing the voices of his/her child.

Very weird imitation from a viewpoint of animal science [Okanoya’08].

Language acquisition through

v

ocal

i

mitation

(9)

Language acquisition through vocal imitation

Utterance symbol sequence production of each sym.

Phonemic awareness is too poor to decompose an utterance.

Several answers from developmental psychology

Holistic/related sound patterns embedded in utterances

Holistic wordform [Kato’03]

Word Gestalt [Hayakawa’06]

Related spectrum pattern [Lieberman’80]

The patterns have to include no speaker information in themselves.

If they do it, children have to try to impersonate their fathers.

What is the speaker-invariant and holistic pattern in an utterance?

/h e l ou/

(10)

Impersonation vs. non-impersonation

A very talented impersonator of Seiko Matsuda

Seiko’s daughter Seiko’s impersonator

Seiko Matsuda

(11)

Large acoustic variability in speech

Various factors change speech acoustics easily.

(12)

Factors causing

pitch

bias in speech

Length and mass of the vocal cords

Factors causing

timbre

bias in speech

Size and shape of the vocal tract

?

Large acoustic variability in speech

236cm-tall

(13)

Receptors receive very physically-variable stimuli.

Variability in appearance

A dog with different angles A dog with different distances

Variability in color

Flowers at sunrise and those at sunset Flowers seen through colored glasses

Variability in pitch

Humming of a male and that of a female Key change (transposition) of a melody

Variability in timbre

A male’s “hello” and a female’s An adult’s “hello” and a child’s

But we can perceive

the equivalence

very easily.

Physical variability and cognitive constancy

A scale in LilyPond ! " " " " " # " " " # $ % & " " # " " '

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond !

! !

" & ! ! $ ! ! $ ! ! ! ! ! $% #

(14)

Rubik’s cube seen through colored glasses

[Lotto’99]

We perceive that the two cubes are identical.

Different / identical colors are claimed to be identical / different.

Not only wavelength (absolute property) of each patch, but also it matters what contrast each patch has to its surrounding patches.

Invariant

color

perception against its bias

(15)

Invariant

pitch

perception against its bias

Key change (transposition) of a melody

[Higashikawa’05]

Absolute (perfect) pitch (Do, Re, Mi... = pitch names)

1 = So, Mi, So, Do, La, Do, Do, So. 2 = Re, Ti, Re, So, Mi, So, So, Re.

Relative pitch with transcription ability (Do, Re... = syllable names)

1 = So, Mi, So, Do, La, Do, Do, So. 2 = So, Mi, So, Do, La, Do, Do, So.

Relative pitch without transcription ability

1 = La, La, La, La, La, La, La, La. 2 = La, La, La, La, La, La, La, La

Different / identical tones are claimed to be identical / different.

Not fundamental frequency (absolute property) of each tone, but it only matters what contrast each tone has to its surrounding tones.

1

2

(音名)

(16)

Key change (transposition) of a melody

[Higashikawa’05]

Not fundamental frequency (absolute property) of each tone, but it only matters what contrast each tone has to its surrounding tones.

Invariant

pitch

perception against its bias

1

2

log(F0) log(2F0) w w s w w w s Do Re Mi Fa So La Ti Do w=wholetone s=semitone 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2

(17)

How old is the invariant perception in evolution?

[Briscoe’01]

(18)

The nature’s solution to stimulus variability?

How old is the invariant perception in evolution?

[Hauser’03]

1

2

(19)

Invariant and constant perception wrt.

color and pitch

Contrast-based information processing is important.

Holistic & relational processing enables element identification.

Invariant

timbre

perception against its bias

A scale in LilyPond

! " " " " " # " " " #

$ % & " # " " " '

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond !

! !

" & ! ! $ ! ! $ ! ! ! ! ! $% #

Music engraving by LilyPond 2.10.20—www.lilypond.org

Invariant and constant perception wrt.

timbre

Contrast-based information processing is important.

(20)

Relative pitch vs. relative timbre

0.0 0.1 0.3 0.6 0.2 0.4 0.5 0.7 time [sec] 300 400 500 600700 F1 [Hz] F2 [Hz] 2200 2000 1800 1600 1400 1200 1000 800 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 time [sec] dummy log(F0) [Hz] 493.9 261.6 440.0 392.0 349.2 329.6 293.7 CDEFG /aiueo/ log(F0) F2 F1

key change speaker change

(21)

Relative pitch vs. relative timbre

0.0 0.1 0.3 0.6 0.2 0.4 0.5 0.7 time [sec] 300 400 500 600700 F1 [Hz] F2 [Hz] 2200 2000 1800 1600 1400 1200 1000 800 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 time [sec] dummy log(F0) [Hz] 493.9 261.6 440.0 392.0 349.2 329.6 293.7 CDEFG /aiueo/ log(F0) F2 F1

key change speaker change

pitch modulation male avg. timbre modulation

(22)

Key-invariant arrangement of tones and its variants

Spk-invariant arrangement of vowels and its variants

Western = 5 whole + 2 semi D to I = classical church music Arabic = with non-semi intervals

Western music in Arabic scale

Relative pitch vs. relative timbre

Major→ Minor→

Arabic scale

Williamsport, PA Chicago, IL Ann Arbor, MI Rochester, NY

ç

A

Q

E

I

(23)

People with RP who can transcribe a melody

cannot

label a single tone using a pitch name or a syllable name.

Who cannot label a single speech sound (vowel sound)?

Identification of vowels produced by giants and fairies

Difficult to label isolated vowel sounds [Aoki’04]

Possible to transcribe a meaningless sequence of morae [Hayashi’07]

What’s hard to do only with relative timbre?

90

90

90

60

90

20

real men→ real women→ real children→

(24)

Separately brought-up identical twins

The parents get divorced immediately after the birth.

The twins were brought up separately by the parents.

What kind of pron. will the twins have acquired 5 years later?

?

?

Williamsport, PA Q A ç E I √ Rochester, NY Q I E A ç √

Birds imitate sounds acoustically.

Infants imitate sounds systemically.

Diff. of VTL = Diff. of timbre

(25)

Relative pitch vs. relative timbre

0.0 0.1 0.3 0.6 0.2 0.4 0.5 0.7 time [sec] 300 400 500 600700 F1 [Hz] F2 [Hz] 2200 2000 1800 1600 1400 1200 1000 800 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 time [sec] dummy log(F0) [Hz] 493.9 261.6 440.0 392.0 349.2 329.6 293.7 CDEFG /aiueo/ log(F0) F2 F1

key change speaker change

pitch modulation male avg. timbre modulation

(26)

Speaker variability = acoustic space deformation

Speaker-invariance = deformation (transform)-invariance

Are there any features that are invariant against any deformation?

Complete transform-invariance measure : f-divergence [Qiao’08]

Every event has to be represented as distribution, not as point.

sufficiency

If is invariant, necessity

Speech contrasts (edges) calculated as f-div. are invariant.

(x, y) (u, v)

Voice morphing

x y u v A B p1(x, y) p2(x, y) P1(u, v) P2(u, v) fdiv fdiv fdiv(p1, p2) ≡ fdiv(P1, P2) ! M (p1(x), p2(x))dx fdiv(p1, p2) = ! p2(x)g " p1(x) p2(x) # dx g : (0,∞) → R and g(1) = 0 M = p2(x)g ! p1(x) p2(x) "

(27)

Utterance to structure conversion using f-div.

[Minematsu’06]

An event (distribution) has to be much smaller than a phoneme.

c1 c3 c2 c1 c3 c2 c4 cD c4 cD Bhattacharyya distance

BD-based distance matrix

Invariant speech structure

Sequence of spectrum slices

Sequence of cepstrum vectors

Sequence of distributions

Structuralization by interrelating temporally-distant events

Sequence of spectrum slices

Sequence of cepstrum vectors

Sequence of distributions

Structuralization by interrelating temporally-distant events

Sequence of spectrum slices

Sequence of cepstrum vectors

Sequence of distributions

Structuralization by interrelating temporally-distant events Sequence of spectrum slices

Sequence of cepstrum vectors

Sequence of distributions

Structuralization by interrelating temporally-distant events

spectrogram (spectrum slice sequence)

cepstrum vector sequence

(28)

Pronunciation structure

Vowel structure estimated from multiple word utterances

b

ea

t

b

i

t

b

e

t

b

a

t

b

u

t

p

u

t

p

o

t

b

oo

t

b

ough

t

b

ir

d

a

bout

Evaluation is done not based on whether each vowel sound has

adequate acoustic property independently of others but based on

whether a good vowel system underlies a learner’s pronunciation.

(29)

A very important and requisite function for CALL systems

The system has to be able to ignore speaker differences.

Age and gender (the size and length of the vocal tube)

But no current system can ignore speaker differences well enough.

Requirement of “acoustic match” bet. HMMs and learners

Collection of children’s speech or speaker adaptation of adult HMMs

Q : Learning to pronounce is learning to impersonate?

Speech model for another separation Separation between source and filter

Separation between ling. and extra-ling.

A big problem in CALL development

-

=

?

Mismatch problem

?

=

(30)

To which does Minematsu’s normal English sound closer ?

A big solution for CALL development

speaker USA/F12 Minematsu Minematsu

gender female male male

age ? 37 37

mic Sennheiser cheap mic cheap mic

room recording room livingroom livingroom

AD SONY DAT PowerBook PowerBook

proficiency perfect good Japanized

(31)

Proficiency estimation based on

P(o|M)

A big solution for CALL development

USA/F12 Minematsu(Japanized)

USA/M08 Minematsu(Japanized)

(32)

Proficiency estimation based on

P(M|o) = GOP

A big solution for CALL development

USA/F12 Minematsu(Japanized)

USA/M08 Minematsu(Japanized)

(33)

Proficiency estimation based on

structural distance

A big solution for CALL development

USA/F12 Minematsu(Japanized)

USA/M08 Minematsu(Japanized)

(34)

Learning not of

individual vowels

but of

a vowel system

A vowel training system

for

everybody

!!

c 1 c 3 c 2 c 1 c 3 c 2 c 4 c D c 4 c D

b

ea

t

b

i

t

b

e

t

b

a

t

b

u

t

p

u

t

p

o

t

b

oo

t

b

ough

t

b

ir

d

a

bout

(35)

A vowel training system

for

everybody

!!

Four functions already realized using structures

Logging of vowel system development of individual learners Clustering of learners purely based on pronunciation variation Generation of instructions on which vowels to correct at first Very motivating user-interfaces for CALL

49M 62M 77F 45F 49F 22F 84M 22F 32F 23F 66M 16M 64F 22M 65M24M17F23F24F25M39F 24F16M34F 42F16F36F 35F39M 22M 28M24F25M16M 24M56M19M58M51M19F24M26M18M30M36F35F26M49F06M23M38M20M50M32M 17M19F56F48M 17M42M38M29M26M54M22M 57M 17F62M 17M16F 25M68F16M24F27F 47M17M45M23M50M26M24M38F21F51F50F25M 16F31F16F 16F 45M23M16M32M28M24M26M21M50F61M25M 23M10F58F15M 17M23M16M 56M44M 21M30F39M 14F17M16M17M 48M11M 57M17M17M44M09F30M52M 23M15F 57F 16M 08F 17F 16M48F 57F25M70M 71M57M17M 27F 38M36M17M17F28M25F41F51M43M31M44M63F21M32M25M51F38M60M43M24M28M26M22M30M24M46M67M28M25F42F49F52M21F23M20M27F46F41F38M 33F30M32M28F55F21F45M36M50F24M 54F61M69M26M29F57F27M23M76M 49F30M14F29M80M21M23M35F09M18F55F26F17F06M32M22F52M41F29M22M21M38M11M22F41F14M33F08M58F53M47F24F53M52M55M38F73M35F17M33F52F42F10M34F21M36F64F43M28M11F24M25M 32F 25M 20M22M13M25F 25M22M31F24M38F25M52M24F66M28M19M21M38F24M24M63M21M53M42F45F05F47M51F62M33F41F11M66M24M54F75F40F56M59F33F74M34M07M58F65M23M33F 41F48M25M32M24F 51M61F 21M30F50F68M39F21M37F69M21F36F24F24M70M14M40F24F24M44M52F40M36F70F11F25M10F31M08F54M64M47F24F30F37M46M64M48M26F27F28F45F13M63F68M70M07F74M67M67M54F24M39M44M38F44F60F16M64M45M23M12M09M27M62F29M44M07M14F23M67F45M32M24F17M17F24M45M39F56M26F46F31F42M17F43F20M12M14F35F36M25F71F25M35M21M26F24F35F36M09F12F40F25M09F22M06M42M09F28F21M47M23M56F06M22F06M11M21F46F44M10F21M72M22M06F59F27F33F33M38F23F35M30F53M12M22F60M14M07F10M73M73M22M36M22M22M28F07M12F38M08F40F05F21M04F70M10F40M31F29F65M21M05F56F65F11F25M08M13M60F43F22M10M53F17F49F66F10F16F09M09M16F47M14M13M21F30F60M38M21M58F11F44M61M23F57M51M33F68M 84M36M49F23M48F24M23M22M27M47M23M11M35M44F48M36M29M11F43M30F29M21M25M12M24M20F50F10F14M24M16M25M 60F72M45F35M40M47F11F17F17F39M43F24M27M24M22M26M34F71F21M63M07M44F35F12F 31M37F 42F 476 145 317 422 537 073 184 394 067 051 088 309 364 036 004007009013015017020 026030034 038041042 049052 057 062064068071 078079080081083084085086087089091092093094096100101102104105 112115116117 122123125128130132134 140 147149 155156 164165166168167 174175176178179180182183185186188190 196197200 206 220223225226228230234235237240243 256258261264 273275276 283285 292294298 307311312313 318319 324325327329331333334 354356 368 373 379 384 390393 399401404 413416420 434 440441443446449451453454455456459460462464467469472475479480481484486488490491495497498500503507511513514515517518519 524525528531533535536539540544 550553556557558559560561562 002003005006008010011012014016018019021022023024025027028029031032033035037039040043044045046047048050053054055056058059060061063065066069070072074075076077 082 090 095097098099 103106107108109110111113114118119120121124126127129131133135136137138139141142143144146148150151152153154157158159160161162163 169170171172173 177181 187189191192193194195198199201202203204205207208209210211212213214215216217218219221222224227229231232233236238239241242244245246247248249250251252253254255257259260262263265266267268269270271272274277278279280281282284286287288289290291293295296297299300301302303304305306308310314315316320321322323326328330332335336337338339340341342343344345346347348349350351352353355357358359360361362363365366367369370371372374375376377378380381382383385386387388389391392395396397398400402403405406407408409410411412414415417418419421423424425426427428429430431432433435436437438439442444445447448450452 457458461463465466468470471473474477478482483485487489492493494496499501502504505506508509510512 516520521522523526527529530532534538541542543545546547548549551552554555 563564 001

Gxxgle Pronunciaton in Kashiwa Area

■お待ちかね。「あなた」の分析結果を見てみよう! 分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。 ♪♪チェックポイントはここ!!さあ,自分の発音を自分でチェックしてみよう!!♪♪ • æとE この二つはいっつも仲良しです。あなたの発音はどうなってますか? • Iとi これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。 • Iと,Eæ その結果,IEæに似くるはずですが,あなたの発音ではどうなってます? • AとO アメリカ英語では,これらが似ている方言もあります。母音図でOが下がってきます。 • @と,2Aæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。 • @とÄ この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。 • Ä 実はrと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。 ■さてさて,どこから直していこうか。よ∼く,考えてみよう! あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示 されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大 丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか? どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音 質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきま す。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。 結局,厳密には,み∼んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた 自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

(36)

Logging of vowel system development

Data preparation

a simulated learner

--1 Japanese student who is a returnee from US

English words of /b-V-t/ and Japanese words of /b-V-to/ AE vowels : 1 word utterance per vowel

J vowels : 5 word utterances per vowel

Extraction of vowel segments and estimation of their system

Replacement of some AE vowels with J vowels

S1 : All the AE vowels are replaced by the J ones.

S2 :

/

A, √, Q, ‘, ´/

are corrected.

S3 :

/

i, I/

are additionally corrected.

S4 :

/

u, U/

are additionally corrected.

S5 :

/

E/

is additionally corrected. S6 :

/

c/

is additionally corrected. /i,I,E,æ,2,A,O,U,u,Ä,@/ 4 /a,i,u,e,o/ 5

(37)

Gradual changes from S1 to S6

Logging of vowel system development

S1 S2 S3 S4 S5 S6

(38)

Logging of vowel system development

Gradual changes from S1 to S6

S1 S2 S3 S4 S5 S6

a

J

i

J

u

J

e

J

o

J

(39)

Clustering of learners

Data preparation --

96

simulated learners

--12 Japanese students who are returnees from US (A to L)

English words of /b-V-t/ and Japanese words of /b-V-to/ AE vowels : 1 word utterance per vowel

J vowels : 5 word utterances per vowel

Vowel segments are extracted automatically to estimate a vowel system.

Replacement of some AE vowels with J vowels

12 speakers [A-L] x 8 pronunciations [1-8] = 96 learners

333333333333111111111111666666666666555555558555828252222222222444444444444777777777777888888888

F F F FM M M M M MF F F F FM M M M MF F F F F FM M M M M MF F FM M MF F F FM M M M M M M M M M MF F F F F FM MF FM M M M M MF F F F F FM M MF F F FM M MF F FM M MF F F F F

Fig. 1 学習者発音構造のクラスタリング

Table 1 母音置換の組み合わせ

Japanese vowels English vowels

a A, æ, 2, @, Ä i I, i u U, u e E o O Table 2 発音状態の定義 A æ 2 @ Ä I i U u E O S1 J J J J J J J J J J J S2 E E E E E J J J J J J S3 J J J J J E E E E E E S4 E E J J J E E J J E E S5 J J E E E J J E E J J S6 E J E J E J J J J E E S7 J E J E J E E E E J J S8 E E E E E E E E E E E E:英語の母音発声を使用, J :日本語の母音発声で置換 Table 3 音響分析条件 サンプリング 16bit / 16kHz 窓 窓長 25 ms, シフト長 1ms パラメータ FFT ケプストラム (1∼10 次元) の発音状態を定義した。S1 は全部日本語で置換、S8 を全部英語発音の状態とし、S2∼S7 については、全 音素 11 種類のうちの半分(5 個か 6 個)の音素が置 換されるような状態を定義した。 収録音声から目視により母音部分を切り出し、 Table 3 に示す音響分析条件の下でケプストラムパ ラメータを求め、MAP 推定を用いて分布化した。各 母音に対してそれぞれ 1 発声のみを用いている。複 数の英語母音を 1 種類の日本語母音で置き換える場 合は、日本語母音は異なる発声を用いるものとする。 例えば、/b2t/と/bæt/を置き換える場合は、2 回の 異なる/bat/の発声を用いてそれぞれの発音を置き換 えている。各学習者に対して音素間距離行列(学習者 発音構造)を求め、任意の異なる 2 構造間の距離を (2) 式により算出し、得られた学習者距離行列に対し て ward 法ボトムアップクラスタリングを行うことで 学習者発音構造の分類を行った。 3.3 分析結果 クラスタリングによる分類結果をFig. 1 に示す。樹 形図のリーフノードにおける数字がTable 2 における 各状態番号を表しており、M・F がそれぞれ男性・女 性を表している。多くの状態において同一の状態が 固まってクラスタを構成していることが確認できる。 一部では、異なる状態が混合した部分(例えば S2 と S5 と S8)も見受けられるが、ほぼ全体的に発音状態 による分類が行われているのがわかる。男女差につい ては、同一状態のクラスタ内では性別によって固まっ ている部分が見受けられるものの、状態を越えて性別 によるクラスタを構成する部分は、上述の S2,S5,S8 が混合したクラスタ以外ではほぼ見あたらない。 3.4 考察 上記の結果より、学習者構造のクラスタリングによ り、発音状態によって分類できていることが確認でき た。発音状態の定義や数についてはより詳細な検討が 必要であると考えられるが、構造的表象を用いるこ とで、話者や性別などの非言語的特徴に影響される ことなく、発音状態によって学習者を分類することが 可能となることが実験的に示された。一部、状態が混 合したクラスタが見られたことについては、各話者 で英語を身につけた過程が異なり、それぞれ発音の癖 や訛りが異なること等が原因として考えられる。全 て英語発音である S8 が、S2 や S5 に近いと判定され たことから、当該話者は/I, i, E, O/の発音が日本語的 な発音になっている、といった推測が立てられるが、 詳細に関しては当該話者に対するさらなる分析が必 要である。 4 まとめ 英語と日本語の母音発声を用いて、両者を同一話者 内で混ぜ合わせることで様々な学習者の発音状態を 模擬し、複数の話者・複数の状態における発音構造を 対象としてボトムアップクラスタリングを行った。構 造的表象を用いることで、話者や性別などの非言語的 特徴に影響されることなく、学習者の発音状態によっ て分類することが可能となることを実験的に示した。 実際の英語学習者音声を用いてこのような発音状態 による分類を行うことが出来れば、日本人英語学習 者におけるいくつかの典型的な発音状況を定義する ことができ、更には各状態に属する学習者に対して どの音素の発音を矯正すべきかという発音教示が可 能となることが考えられる。 参考文献

[1] N.Minematsu, Proc. ICASSP, 889–892, 2005.

[2] 峯松, 信学技報, SP2003-179, 25–30, 2004. [3] 峯松, 信学技報, SP2003-180, 31–36, 2004. [4] 朝川他, 信学技報, SP2005-24, 25–30, 2005. [5] 峯松他, 日本教育工学会論文誌, 27(3), 259–272, 2004. A, Q, √, ´, ‘ a I, i i U, u u E e ç o

(40)

Clustering of learners

Structure-to-str. (matrix-to-mat.) distance measure

Euclidian distance between two distance matrices

Can approximate the structural distance after shift and rotation

0 0 0 1 2 3 4 5 1 2 3 4 5 0 0 0 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

Minimum of the total distances between corresponding points

S

T

!

1

M

"

i<j

(41)

Clustering of learners

96

x

96

large distance matrix (

12

spk. x

8

pron.)

A B C D

1 2 3 4 5 6 7 96 0 1 2 3 4 5 6 7 96 0 0 0 0 0 0 0 0 0 0

1 2 3 4

?

Pronunciation

classification

Speaker

classification

(42)

Clustering of learners

Another distance measure between two structures

Contrast-based comparison

Substance-based comparison

C 1 C 2 C3 C1 C2 C3 ! 1 M " i<j (Sij − Tij)2 ! 1 M " i BD(viS, viT )

S

T

S

T

(43)

Clustering of learners

Contrast-based comparison

Substance-based comparison

F 11IK1A1C1D1E1H1B1G1A3L1D3F3H3E33IB3G3K3C3L3K6C6A6F66I6JL6E6H6B6D6G6B5L5G5F2F5C5E5D5H5K2K5G2K8A2E22ID2H22JC25JA8A55I8IA4C44IF4H44J1J3JL4E4K4G4B4D4B7L7G77IF7H7A7D7K7C7E7L2L8G8B8B2D8E8F8C87JH88J L 7L8L3L4L1L6L2L5E8E7E3E4E1E6E2E53J7J4J8J5J6J1J2JK2K5K6K4K8K1K3K71I4I3I7I8I5I2I6IA4A6A1A3A7A8A2A5D7D8D2D5D1D6D3D4B3B4B7B8B1B6B2B5G1G7G3G4G2G5G6G8F2F5F1F7F6F8F3F4H3H7H1H4H2H5H6H8C1C7C3C4C2C5C6C8

1 3 6 5 2

4 7 8

L E J K I A D B G F HC

(44)

Which vowels to correct at first?

Global

difference between

S

tudent and

T

eacher

Euclidian distance between two distance matrices

Can be decomposed into

local

differences

Contribution of individual vowels to the global difference

Vowels of larger are should be corrected at first!!!

0 0 0 1 2 3 4 5 1 2 3 4 5 0 0 0 1 2 3 4 5 1 2 3 4 5

S

T

!

1

M

"

i<j

(S

ij

− T

ij

)

2

d(v) =

!

"

"

# 1

M

M

$

j=1

(S

vj

− T

vj

)

2 d(v)

(45)

Which vowels to correct at first?

Estimation of the order of vowel correction

Only with two matrices without referring to the replacement table

333333333333111111111111666666666666555555558555828252222222222444444444444777777777777888888888

F F F FM M M M M MF F F F FM M M M MF F F F F FM M M M M MF F FM M MF F F FM M M M M M M M M M MF F F F F FM MF FM M M M M MF F F F F FM M MF F F FM M MF F FM M MF F F F F

Fig. 1 学習者発音構造のクラスタリング

Table 1 母音置換の組み合わせ

Japanese vowels English vowels a A, æ, 2, @, Ä i I, i u U, u e E o O Table 2 発音状態の定義 A æ 2 @ Ä I i U u E O S1 J J J J J J J J J J J S2 E E E E E J J J J J J S3 J J J J J E E E E E E S4 E E J J J E E J J E E S5 J J E E E J J E E J J S6 E J E J E J J J J E E S7 J E J E J E E E E J J S8 E E E E E E E E E E E E:英語の母音発声を使用, J :日本語の母音発声で置換 Table 3 音響分析条件 サンプリング 16bit / 16kHz 窓 窓長 25 ms, シフト長 1ms パラメータ FFT ケプストラム (1∼10 次元) の発音状態を定義した。S1は全部日本語で置換、S8 を全部英語発音の状態とし、S2∼S7 については、全 音素11種類のうちの半分(5個か6個)の音素が置 換されるような状態を定義した。 収録音声から目視により母音部分を切り出し、 Table 3 に示す音響分析条件の下でケプストラムパ ラメータを求め、MAP推定を用いて分布化した。各 母音に対してそれぞれ 1 発声のみを用いている。複 数の英語母音を 1種類の日本語母音で置き換える場 合は、日本語母音は異なる発声を用いるものとする。 例えば、/b2t/と/bæt/を置き換える場合は、2 回の 異なる/bat/の発声を用いてそれぞれの発音を置き換 えている。各学習者に対して音素間距離行列(学習者 発音構造)を求め、任意の異なる 2構造間の距離を (2)式により算出し、得られた学習者距離行列に対し てward法ボトムアップクラスタリングを行うことで 学習者発音構造の分類を行った。 3.3 分析結果 クラスタリングによる分類結果をFig. 1に示す。樹 形図のリーフノードにおける数字がTable 2における 各状態番号を表しており、M・Fがそれぞれ男性・女 性を表している。多くの状態において同一の状態が 固まってクラスタを構成していることが確認できる。 一部では、異なる状態が混合した部分(例えばS2と S5とS8)も見受けられるが、ほぼ全体的に発音状態 による分類が行われているのがわかる。男女差につい ては、同一状態のクラスタ内では性別によって固まっ ている部分が見受けられるものの、状態を越えて性別 によるクラスタを構成する部分は、上述のS2,S5,S8 が混合したクラスタ以外ではほぼ見あたらない。 3.4 考察 上記の結果より、学習者構造のクラスタリングによ り、発音状態によって分類できていることが確認でき た。発音状態の定義や数についてはより詳細な検討が 必要であると考えられるが、構造的表象を用いるこ とで、話者や性別などの非言語的特徴に影響される ことなく、発音状態によって学習者を分類することが 可能となることが実験的に示された。一部、状態が混 合したクラスタが見られたことについては、各話者 で英語を身につけた過程が異なり、それぞれ発音の癖 や訛りが異なること等が原因として考えられる。全 て英語発音であるS8が、S2やS5に近いと判定され たことから、当該話者は/I, i, E, O/の発音が日本語的 な発音になっている、といった推測が立てられるが、 詳細に関しては当該話者に対するさらなる分析が必 要である。 4 まとめ 英語と日本語の母音発声を用いて、両者を同一話者 内で混ぜ合わせることで様々な学習者の発音状態を 模擬し、複数の話者・複数の状態における発音構造を 対象としてボトムアップクラスタリングを行った。構 造的表象を用いることで、話者や性別などの非言語的 特徴に影響されることなく、学習者の発音状態によっ て分類することが可能となることを実験的に示した。 実際の英語学習者音声を用いてこのような発音状態 による分類を行うことが出来れば、日本人英語学習 者におけるいくつかの典型的な発音状況を定義する ことができ、更には各状態に属する学習者に対して どの音素の発音を矯正すべきかという発音教示が可 能となることが考えられる。 参考文献

[1] N.Minematsu, Proc. ICASSP, 889–892, 2005.

[2] 峯松, 信学技報, SP2003-179, 25–30, 2004. [3] 峯松, 信学技報, SP2003-180, 31–36, 2004. [4] 朝川他, 信学技報, SP2005-24, 25–30, 2005. [5] 峯松他, 日本教育工学会論文誌, 27(3), 259–272, 2004. : replaced by J vowels : no replacement

S1 - S7

: Japanese English

S8

: American English

Distortion 05 10 15 20 I E i ç U Q ´ √ u ‘ A P1 to P8 Distortion 05 10 15 20 I i E U ç Q √ u ´ ‘ A P2 to P8 Distortion 05 10 15 20 I i E U ç Q √ u ´ ‘ A P3 to P8 Distortion 05 10 15 20 I i E U ç Q √ u ´ ‘ A P4 to P8 Distortion 05 10 15 20 I Q E A i ç √ U ´ ‘ u P5 to P8 Distortion 05 10 15 20 I ´ Q E A i U √ ç u ‘ P6 to P8

Figure 15: The estimated order of vowel correction

S1 to S8

S2 to S8

S4 to S8

S6 to S8

S3 to S8

S5 to S8

■お待ちかね。「あなた」の分析結果を見てみよう! 分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。 ♪♪チェックポイントはここ!!さあ,自分の発音を自分でチェックしてみよう!!♪♪ • æとE この二つはいっつも仲良しです。あなたの発音はどうなってますか? • Iとi これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。 • Iと,Eæ その結果,IEæに似くるはずですが,あなたの発音ではどうなってます? • AとO アメリカ英語では,これらが似ている方言もあります。母音図でOが下がってきます。 • @と,2Aæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。 • @とÄ この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。 • Ä 実はrと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。 ■さてさて,どこから直していこうか。よ∼く,考えてみよう! あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示 されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大 丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか? どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音 質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきま す。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。 結局,厳密には,み∼んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた 自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

(46)

Very

motivating

interface for CALL

Select your favorite teachers!!

Whom do you want to become like?

S1 S2 S3 S4 S5 T1 T2 T3 T4 T5 O Student Teacher ■お待ちかね。「あなた」の分析結果を見てみよう! 分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。 ♪♪チェックポイントはここ!!さあ,自分の発音を自分でチェックしてみよう!!♪♪ • æとE この二つはいっつも仲良しです。あなたの発音はどうなってますか? • Iとi これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。 • Iと,Eæ その結果,IEæに似くるはずですが,あなたの発音ではどうなってます? • AとO アメリカ英語では,これらが似ている方言もあります。母音図で Oが下がってきます。 • @と,2Aæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。 • @とÄ この二つが仲良し,という人もいるかもしれませんね∼。どうです?あなたの場合。 • Ä 実はrと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。 ■さてさて,どこから直していこうか。よ∼く,考えてみよう! あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示し ます。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示 されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大 丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか? どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音 質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきま す。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。 結局,厳密には,み∼んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた 自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

(47)

Native-sounding vs. intelligible

What kind of pronunciation do you want to acquire?

Native-sounding or intelligible enough pronunciation?

Which English? American, British, Canadian, or Australian ? What should be asked to students is ....

(48)

Very

motivating

interface for CALL

Logging of all the classmates!!

Recording 1 week training another recording 18 learners and 5 teachers are plotted with MDS

Teachers

Teachers

1 week

training

(49)

Very

motivating

interface for CALL

(50)

Very

motivating

interface for CALL

Classification of 600 citizens living in Kashiwa city

49M 62M 77F 45F 49F 22F 84M 22F 32F 23F 66M 16M 64F 22M 65M 24M17F 23F24F25M 39F 24F 16M 34F 42F 16F36F 35F 39M 22M 28M24F 25M 16M 24M56M19M58M51M19F24M26M18M30M36F35F26M49F06M 23M38M20M50M32M 17M 19F56F48M 17M42M38M 29M26M54M22M 57M 17F62M 17M16F 25M68F16M27F24F 47M17M45M23M50M26M24M38F21F51F50F25M 16F31F 16F 16F 45M 23M16M32M28M24M 26M21M50F 61M 25M 23M10F 58F 15M 17M23M16M 56M44M 21M30F 39M 14F 17M16M17M 48M11M 57M17M17M44M09F30M52M 23M15F 57F 16M 08F 17F 16M 48F 57F25M 70M 71M 57M 17M 27F 38M36M17M 17F 28M25F41F51M43M31M 44M63F21M32M 25M51F 38M 60M 43M24M28M 26M22M30M24M46M 67M28M25F42F 49F 52M 21F23M20M27F46F41F38M 33F30M 32M 28F55F21F45M 36M50F 24M 54F 61M 69M26M29F57F27M23M76M 49F30M14F29M80M21M23M35F09M18F55F26F17F06M32M22F52M41F29M22M21M38M11M22F41F14M33F 08M58F53M47F24F53M52M 55M38F73M35F17M33F52F42F10M34F21M 36F64F43M28M11F24M25M 32F 25M 20M22M13M25F 25M 22M31F24M38F25M52M24F66M 28M19M21M38F 24M24M63M21M53M42F45F05F47M51F62M33F41F11M66M24M54F75F40F56M59F33F 74M34M07M58F65M23M33F 41F48M25M32M24F 51M 61F 21M30F50F68M39F21M37F 69M21F36F24F24M70M14M40F24F24M44M52F40M36F70F11F25M10F31M08F54M64M47F 24F30F37M46M64M 48M26F27F28F45F13M63F68M70M07F74M67M67M54F24M39M44M38F44F60F16M64M45M23M12M09M27M62F29M44M07M 14F23M67F45M32M24F17M17F24M45M39F56M26F46F31F42M17F43F20M12M14F35F36M25F71F25M35M 21M26F24F 35F36M09F12F 40F25M09F22M 06M42M09F28F21M47M23M56F06M22F06M11M21F46F44M10F21M72M22M06F59F27F33F33M38F23F35M30F53M12M22F60M14M07F10M73M73M22M36M22M22M28F07M12F38M08F40F05F21M04F 70M10F40M31F29F65M21M05F56F65F11F25M08M13M60F43F22M10M53F17F49F66F10F16F09M09M16F47M14M13M21F30F60M38M21M58F11F 44M61M23F57M51M33F68M 84M36M 49F23M48F24M23M22M27M47M23M 11M35M 44F48M36M29M11F 43M30F29M21M 25M12M24M20F50F10F14M24M16M25M 60F 72M45F35M40M 47F11F17F17F39M43F 24M 27M24M22M26M34F71F21M63M07M44F35F12F 31M37F 42F 476 145 317 422 537 073 184 394 067 051 088 309 364 036 004 007009 013015017 020 026 030 034 038 041042 049 052 057 062064 068 071 078079080081083084085086087089091092093094096 100101102104105 112 115116117 122123125 128130132134 140 147149 155156 164165166167168 174175176178179180182183185186188190 196197 200 206 220 223225226228230 234235237 240 243 256258 261 264 273275276 283285 292294 298 307 311312313 318319 324325327329331333334 354356 368 373 379 384 390 393 399401 404 413 416 420 434 440441443 446 449451453454455456 459460462464 467469 472 475 479480481 484486488490491 495497498500 503 507 511513514515517518519 524525 528 531533535536 539540 544 550 553 556557558559560561562 002003005006008010011012014016018019021022023024025027028029031032033035037039040 043044045046047048050 053054055056058059060061063065066 069070072074075076077 082 090 095097098099 103 106107108109110111113114 118119120121 124126127129131133135136137138139141142143144146148150151152153154 157158159160161162163 169170171172173 177 181 187189191192193194195 198199201202203204205207208209210211212213214215216217218219221222224 227229231232233 236238239241242244245246247248249250251252253254255257259260262263265266267268269270271272274 277278279280281282284286287288289290291293295296297299300301302303304305306308310 314315316 320321322323 326328330332 335336337338339340341342343344345346347348349350351352353355357358359360361362363365366367369370371372374375376377378380381382383385386387388389391392 395396397398400402403405406407408409410411412414415417418419421423424425426427428429430431432433435436437438439 442444445447448450452 457458 461463465466468470471473474 477478 482483485487489 492493494496 499501502504505506508509510512 516 520521522523 526527529530532534 538 541542543545546547548549551552554555 563564 001

Gxxgle Pronunciaton in Kashiwa Area

Google

(51)

A possible future direction

Structure construction from a single key phrase

Structural comparison among students and teachers

Corrective instructions fed back to individual students

Phrase of the week!!

“You’ve got a friend in me.”

49M 62M 77F 45F 49F 22F 84M 22F 32F 23F 66M 16M 64F 22M 65M 24M17F 23F24F25M39F 24F 16M 34F 42F 16F36F 35F 39M 22M 28M24F 25M 16M 24M56M19M58M51M19F24M26M18M30M36F35F26M49F06M 23M38M20M50M32M 17M 19F56F48M 17M42M38M29M26M54M22M 57M 17F62M 17M16F 25M68F16M27F24F 47M17M45M23M50M26M24M38F21F51F50F25M 16F31F 16F 16F 45M 23M16M32M28M24M 26M21M50F61M 25M 23M10F58F 15M 17M23M16M 56M44M 21M30F 39M 14F 17M16M17M 48M11M 57M17M17M44M09F30M52M 23M15F 57F 16M 08F 17F 16M48F 57F25M70M 71M 57M 17M 27F 38M36M17M 17F28M25F41F51M43M31M44M63F21M32M25M51F38M 60M 43M24M28M26M22M30M24M46M 67M28M25F42F49F 52M 21F23M20M27F46F41F38M 33F30M32M28F55F21F45M 36M50F 24M 54F61M69M26M29F57F27M23M76M 49F30M14F29M80M21M23M35F09M18F55F26F17F06M32M22F52M41F29M22M21M38M11M22F41F14M33F08M58F53M47F24F53M52M55M38F73M35F17M33F52F42F10M34F21M36F64F43M28M11F24M25M 32F 25M 20M22M13M25F 25M 22M31F24M38F25M52M24F66M 28M19M21M38F24M24M63M21M53M42F45F05F47M51F62M33F41F11M66M24M54F75F40F56M59F33F74M34M07M58F65M23M33F 41F48M25M32M24F 51M 61F 21M30F50F68M39F21M37F69M21F36F24F24M70M14M40F24F24M44M52F40M36F70F11F25M10F31M08F54M64M47F24F30F37M46M64M48M26F27F28F45F13M63F68M70M07F74M67M67M54F24M39M44M38F44F60F16M64M45M23M12M09M27M62F29M44M07M14F23M67F45M32M24F17M17F24M45M39F56M26F46F31F42M17F43F20M12M14F35F36M25F71F25M35M 21M26F24F 35F36M09F12F40F25M09F22M06M42M09F28F21M47M23M56F06M22F06M11M21F46F44M10F21M72M22M06F59F27F33F33M38F23F35M30F53M12M22F60M14M07F10M73M73M22M36M22M22M28F07M12F38M08F40F05F21M04F70M10F40M31F29F65M21M05F56F65F11F25M08M13M60F43F22M10M53F17F49F66F10F16F09M09M16F47M14M13M21F30F60M38M21M58F11F44M61M23F57M51M33F68M 84M36M 49F23M48F24M23M22M27M47M23M11M35M 44F48M36M29M11F43M30F29M21M 25M12M24M20F50F10F14M24M16M25M 60F 72M45F35M40M47F11F17F17F39M43F 24M27M24M22M26M34F71F21M63M07M44F35F12F 31M37F 42F 476 145 317 422 537 073 184 394 067 051 088 309 364 036 004 007009 013015017020 026 030 034 038 041042 049 052 057 062064 068 071 078079080081083084085086087089091092093094096 100101102104105 112 115116117 122123125128130132134 140 147149 155156 164165166167168 174175176178179180182183185186188190 196197 200 206 220 223225226228230 234235237240 243 256258261 264 273275276 283285 292294 298 307 311312313 318319 324325327329331333334 354356 368 373 379 384 390393 399401404 413 416 420 434 440441443 446449451453454455456459460462464467469472 475 479480481484486488490491 495497498500503 507 511513514515517518519 524525528531533535536 539540 544 550553556557558559560561562 002003005006008010011012014016018019021022023024025027028029031032033035037039040043044045046047048050053054055056058059060061063065066069070072074075076077 082 090 095097098099 103 106107108109110111113114 118119120121124126127129131133135136137138139141142143144146148150151152153154157158159160161162163 169170171172173 177 181 187189191192193194195198199201202203204205207208209210211212213214215216217218219221222224227229231232233236238239241242244245246247248249250251252253254255257259260262263265266267268269270271272274277278279280281282284286287288289290291293295296297299300301302303304305306308310 314315316 320321322323326328330332335336337338339340341342343344345346347348349350351352353355357358359360361362363365366367369370371372374375376377378380381382383385386387388389391392395396397398400402403405406407408409410411412414415417418419421423424425426427428429430431432433435436437438439442444445447448450452 457458 461463465466468470471473474477478 482483485487489492493494496 499501502504505506508509510512 516 520521522523526527529530532534 538541542543545546547548549551552554555 563564 001

Gxxgle Pronunciaton in Kashiwa Area

World Englishes

Individual Englishes

(52)

Application of structures to CALL

Experiment using the entire system (inc. consonants)

ERJ (English Read by Japanese) corpus

Sentences read by 200 (100 M + 100 F) university students in Japan

Set 6 used for evaluation and other sets used for training a CALL system Extraction of the entire system from utterances

Set 6 = 50 sentences read by 26 students

An HMM is estimated for each phoneme of each student

43 x 43 f-div.-based distance matrix for each student

Comparison between a student’s structure and a teacher’s one A male teacher (M08) is adopted commonly for all the 26 students.

Pronunciation proficiency estimation with conventional techniques GOP (Goodness of Pronunciation)

Posterior probability (P(p1,p2,...,pN|O)): probability of the intended phoneme sequence when acoustic observations are given.

(53)

Application of structures to CALL

Results of evaluating the 26 students in set-6

[Suzuki’09]

Machine scores estimated for the students vs. teachers’ scores GOP : obtained by using HMMs trained with 20 native teachers

Structure : obtained by using a structure estimated with a male teacher

!"#$ %" %"#$ %"#& %"#' %"#( %) !"#& !"#* !"#$ !"#) %" %"#) %"#$ %"#* %"#& +,--./012,3%4,.55242.316 ® 7%6238/.%1.049.-:6%61-;41;-. $"%1.049.-6:%<==6%>?@AB C0-D238%D0-0E.1.-α = −0.3 α = +0.3

(54)

Advertisement of a CALL system for kids

(55)

Today’s menu

Target of imitation in pronunciation training

Acoustic imitation and non-acoustic imitation

Vocal imitation found in the first language acquisition

What in teachers’ pron. should be modeled for CALL system?

Speaker-independent modeling of pronunciation

How to remove speaker identity from his/her speech acoustics? Natural solution and our mathematical (technical) solution

Pronunciation structure and its use for pronunciation modeling

Structure-based pronunciation assessment

A prototype system of vowel training for everybody

Native-sounding or intelligible-enough pronunciation? Individual Englishes and a possible future direction

参照

関連したドキュメント

Saturated chains in non-crossing partition posets... Poset of

In particular, we find that, asymptotically, the expected number of blocks of size t of a k-divisible non-crossing partition of nk elements chosen uniformly at random is (k+1)

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

In the process to answering this question, we found a number of interesting results linking the non-symmetric operad structure of As to the combinatorics of the symmetric groups, and

In this article, we considered the stability of the unique positive equilibrium and Hopf bifurcation with respect to parameters in a density-dependent predator-prey system with

If a non-saturated subset in the set of weights of the kth fundamental representation of SL(n) is found, then the analogous non-saturated subset exists in the set of weights of the

Kids Set Menu (Corn Soup, Salisbury Steak, Fried Shrimp, French Fries, Sausage, Rice,

[r]