話者照合のための整数化を用いた位相情報抽出に関する考察
6
0
0
全文
(2) Vol.2016-SLP-114 No.16 2016/12/20. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. Γग़͠ͷӨڹͰࢉܭੜ͡ΔҐ૬ඈͼ͕ൃੜͯ͠͠·͏. ϓϩʔνͷ 1 ͭͰ͋ΔɽҼࢠੳͰൃσʔλΛऀͱ. ͜ͱ͕ΒΕ͓ͯΓɼҐ૬εϖΫτϧΛ༻͢Δ͜ͱ. νϟωϧґଘͷશมಈ (total variavility; TV) ۭؒʹࣸ૾. ͍͠ɽͦ͜ͰɼҐ૬Λਖ਼نԽ͢Δख๏ [3] ܈ԆΛ. ͢ΔΞϓϩʔνͰ͋Δ [9]ɽऀ s ͷ GMMλs ͷฏ͚ͩۉ. Ґ૬ใͱͯ͠༻͍Δख๏ [4], [5] ͳͲ͕ఏҊ͞Ε͍ͯΔɽ. Λ݁߹ͨ͠ GMM εʔύʔϕΫτϧ ms ҼࢠੳʹΑͬ. ຊߘͰจ[ ݙ3] ͷҐ૬ใͷநग़๏ʹؔͯ͠ߋͳΔݕ౼. ͯҎԼͷΑ͏ʹఆٛ͞ΕΔɽ. Λߦͬͨɽจ[ ݙ3] ͷख๏Ͱநग़ͨ͠Ґ૬εϖΫτϧ. ms = m + T · ω s .. ऀͷใΛؚΉͱಉ࣌ʹ༨ͳεϖΫτϧ͕ൃੜͯ͠. (3). ͓Γɼ·ͨɼҐ૬ใํࢉܭ๏͔Βมಈ͕ܹ͍͜͠ͱ͕. ͜͜Ͱɼm UBM ͔ΒಘΒΕΔऀͼٴνϟωϧඇґଘ. ͔ͬͨɽͦͷͨΊຊߘͰԽΛ༻͍ͯ༨ͳҐ૬Λ. ͷ GMM εʔύʔϕΫτϧͰ͋ΔɽT ϥϯΫͷۣܗ. আ͢ڈΔ͜ͱ؆ૉԽΛߦ͏͜ͱͰҐ૬ใͷมಈΛ͑. ߦྻͰɼTV ۭؒΛషΔجఈϕΫτϧ͔Βߏ͞ΕΔɽωs. Δ͜ͱΛఏҊ͠ɼऀর߹࣮ʹݧΑͬͯݕ౼ͨ͠ख๏ͷ༗. ͕༩͑ΒΕͨൃʹର͢Δ i–vector Ͱ͋Δɽর߹࣌ೖྗ. ޮੑΛใࠂ͢Δɽ. σʔλʹରͯ͠ࢉग़ͨ͠ i–vector(ωtest ) ͱ, ऀϞσϧͱ. 2. ऀর߹γεςϜ. ͯ͠ొͨ͠ i–vector(ωtrg ) ͷίαΠϯྨࣅ͕͘༻͍ ΒΕΔɽ. ऀর߹γεςϜͱೖྗ͞ΕͨԻ͕ొ͞Εͨऀ. score(ωtrg , ωtest ) =. ຊਓͷԻ͔൱͔Λࣝผ͢ΔγεςϜͷ͜ͱͰ͋Δɽຊষ Ͱ౷ܭϞσϧΛ༻͍ͨऀর߹γεςϜͱͯ͘͠༻͍Β ΕΔ UBM–GMM(Universal background model–GMM)[6] ͓Αͼ i–vector[7] ʹͮ͘جऀর߹ʹ͍ͭͯհ͢Δɽ. ωtrg · ωtest . |ωtrg ||ωtest |. (4). ͜ͷর߹είΞ score(ωtrg , ωtest ) ͕༧Ίઃఆͨ͠ᮢΑ Γେ͖͚ΕొऀͷԻͰ͋Δͱఆ͢Δɽ. 3. Ґ૬நग़ख๏ 2.1 UBM–GMM GMM M ݸͷ୯ๆੑΨε pi (X) ͱࠞ߹ॏΈ ωi Λֻ͚߹ΘͤͨઢܗॏͶ߹ΘͤͰද͞ݱΕΔɽ͜͜Ͱɼొ ऀ s Λද͢ GMM ࣜ (1) ͷΑ͏ʹఆΊΔɽ. p(X|λs ) =. M . ωi pi (X).. (1). ͜͜ͰɼX = {x1 , x2 , ..., xT } ಛϕΫτϧΛද͢ɽ·. M. i=1. ༻͞Ε͓ͯΓɼԻʹ·ؚΕ͍ͯΔҐ૬ใߟྀ͞Εͯ ͍ͳ͔ͬͨɽۙͷʹڀݚΑΓҐ૬εϖΫτϧԻ৴߸ Λදͨ͢ΊʹඞཁෆՄܽͳཁૉͰ͋Γɼ༷ʑͳڀݚͷ. i=1. ͨɼ. ैདྷͷऀর߹ͰԻಛྔͱͯ͠ MFCC ͕ओʹ. ωi = 1 Ͱ͋ΔɽUBM–GMM ʹͮ͘جऀর. ߹ʹ༻͍ΔಛఆऀϞσϧͷֶश·ͣɼొऀ s ͷ σʔλ͔ΒಛྔΛநग़͠ొऀ s ͷ GMMλs Λֶश͢ Δɽ࣍ʹɼෆಛఆऀͷฏۉతͳϞσϧͰ͋Δ UBM Λࣄ લʹֶश͓͖ͯ͠ࣄ࠷֬ޙେԽ (Maximum a posteriori. probability; MAP) దԠ๏ [8] Λ༻͍ͯొऀ s ͷʹ దԠͤ͞Δɽ࠷ʹޙɼEM ΞϧΰϦζϜΛ༻͍ͯ࠷దԽΛ. ੑೳվળʹ༗༻ͳใΛ͍࣋ͬͯΔ͜ͱ͕Θ͔͖ͬͯͨɽ ͔͠͠ɼҐ૬εϖΫτϧΛಛྔͱͯ͠༻͍Δ߹ɼϑ ϨʔϜΓग़͠ͷӨڹΛड͚ͯ͠·͏͜ͱͳͲ͕ΒΕͯ ͓Γɼѻ͍͕͍͠ɽͦͷͨΊ܈ԆεϖΫτϧΛҐ૬ ใͱͯ͠༻͍Δख๏ [10], [11] Ґ૬Λਖ਼نԽ͢Δख๏ [3] ͕ఏҊ͞Ε͍ͯΔɽຊߘͰจ[ ݙ3] ΛͱʹҐ૬நग़ख ๏ʹؔͯ͠ߋͳΔݕ౼Λ͓͜ͳͬͨɽ. 3.1 Relative phase information[3] Ի৴߸ͷࢄϑʔϦΤมҎԼͷࣜͰද͞ΕΔɽ. X 2 (ω + t) + Y 2 (ω + t)×ejθ(ω+t) .. ߦ͍ొऀ s ͷϞσϧΛ࡞͢Δɽর߹࣌ʹొऀ Ϟσϧ λs ʹର͢Δೖྗσʔλ X ͷϑϨʔϜฏۉର. ͜͜Ͱɼω ɼt पͱ࣌ؒɼX ɼY ࣮෦ͱڏ෦Λද. . Λࣜ (2) ͷΑ͏ʹࢉग़͢Δɽ T 1 log p(X|λs ) = log p(xi |λs ). T. ͢ɽ. (2). i=1. UBM–GMM Ͱর߹είΞͱͯ͠ରΛ༻͍ΔΘ ΓʹɼಛఆऀϞσϧ λs ͱෆಛఆऀϞσϧ λubm ͷର ൺΛ༻͍ɼ༧Ίઃఆͨ͠ᮢΑΓେ͖͚Εొऀ ͷԻͰ͋Δͱఆ͢Δɽ. 2.2 i–vector i–vector ʹͮ͘جऀর߹ҼࢠੳΛ༻͍ͨϞσϧΞ ⓒ 2016 Information Processing Society of Japan. (5). X 2 (ω + t) + Y 2 (ω + t) ͕ৼ෯εϖΫτϧɼθ(ω + t). ͕Ґ૬εϖΫτϧͰ͋ΔɽҐ૬εϖΫτϧɼಉ͡प. ω ͰϑϨʔϜΓग़͠ͷҐஔʹΑ͕ͬͯେ͖͘มΘͬ ͯ͠·͏ɽͦ͜Ͱɼࣜ (6) ͷΑ͏ʹ͋Δج४ͱ͢Δप. ωb ͷҐ૬ΛҰఆʹͯ͠ଞͷपʹ͓͚ΔҐ૬Λ૬ରతʹ ٻΊΔ͜ͱͰਖ਼نԽΛߦ͏ɽ. ˜ + t) = θ(ω + t) + ω (A − (ωb + t)). θ(ω ωb. (6). ͜͜ͰɼA ج४प ωb ʹઃఆͨ͠Ґ૬ͷͰ͋Δɽຊ ߘͰ A = 0 ͱ͢Δɽ. 2.
(3) Vol.2016-SLP-114 No.16 2016/12/20. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ਤ 2. Ґ૬ใͷ؆ૉԽ. Fig. 2 Simplification of phase information. 4. Ґ૬ใͷϞσϧԽ͓ΑͼγεςϜ౷߹ 4.1 Ґ૬ใͷϞσϧԽ 3 ষͰड़ͨநग़๏Λ༻͍ͯநग़͞ΕͨҐ૬ใ GMM ʹΑͬͯϞσϧԽΛߦ͏ɽҐ૬ಛͷΈΛ༻͍ͯऀর ߹࣮ݧΛߦͬͨͱ͜ΖɼҐ૬ʹ ͮ͘جGMM ͷର. Lphase ͷฏۉɼࢄʹେ͖ͳΒ͖͕ͭΈΒΕͨɽͦ͜ ਤ 1 ԻͱܗҐ૬εϖΫτϩάϥϜ. ͰɼҎԼͷࣜͰείΞͷਖ਼نԽΛߦ͏ɽ. Fig. 1 Speech waveform and phase spectrogram. . Lphase =. (b)Relative phase spectrogram, (c)Round relative phase spectrogram. Lphase − m . αV. (7). ͜͜ͰɼmɼV ͦΕͧΕ Lphase ͷฏۉɼࢄΛද͢ɽ· ͨɼα ਖ਼نԽޙͷࢄΛิਖ਼͢ΔύϥϝʔλͰ͋Δɽ. 4.2 είΞͷ౷߹. 3.2 Խ Ի৴߸ͷϑʔϦΤมػցࢉܭΛ༻͍Δ͜ͱͰखܭ ࢉͰൃੜ͠ͳ͍पʹࢉܭਫ਼ͷݶքͳͲͰҐ૬ ใΛ࣋ͬͯ͠·͏͜ͱ͕͋ΔɽҐ૬ͷ −π ∼ π ͷؒʹ ͳΔͨΊɼ͋ͰࠩޡΒΘΕΔҐ૬ͱͯ͠େ͖ͳͱ ͳΔ͜ͱ͕͋Δɽ͜ͷӨڹΛ͑ΔͨΊʹҐ૬ใͷࢉܭ Λ͢ΔࡍʹΛԽ͢Δ͜ͱΛݕ౼ͨ͠ɽਤ 1(b) ʹ 3.1 અͰநग़ͨ͠Ґ૬εϖΫτϧΛɼਤ 1(c) ʹҐ૬ΛԽ͠ ͨͱ͖Ґ૬εϖΫτϧΛࣔ͢ɽਤΑΓɼ(b) ͰϊΠζ෦ ʹେ͖ͳͷมԽ͕දΕ͓ͯΓɼ(c) Ͱ༨ͳ෦ ͷ͕ফ͓͑ͯΓɼԻ෦ͷಛΛΑΓ໌֬ʹද͍ͯ͠ Δ͜ͱ͕Θ͔Δɽ. 3.3 Ґ૬ใͷ؆ૉԽ. ຊߘͰɼMFCC Λ༻͍ͨ UBM–GMM ·ͨ i–vector ͱҐ૬Λ༻͍ͨ GMMɼ2 ͭͷγεςϜΛ౷߹ͯ͠༻͍Δɽ ऀর߹Λߦ͏ࡍʹɼUBM–GMM ·ͨ i–vector ͔Β ಘΒΕͨর߹είΞͱҐ૬Λ༻͍ͨ GMM ͔ΒಘΒΕͨର ΛҎԼͷࣜͷΑ͏ʹઢ͠߹݁ܗɼ౷߹είΞ Lscomb ΛಘΔɽ. Lscomb = (1 − β)LsM F CC + βLsphase .. (8). ͜͜ͰɼLsM F CC ͱ Lsphase ͦΕͧΕऀ s ͷর߹είΞ ͱରͰ͋Γɼβ ॏΈͰ͋Δɽ. 5. ࣮ݧ݅ ݕ౼ͨ͠Ґ૬ಛநग़ख๏ͷऀর߹ʹ͓͚Δ༗ޮੑʹ. Ґ૬ใ࠲ۃඪදͰݱද͢͜ͱ͕Ͱ͖Δɽ͜ͷ࣌ɼҐ૬. ؔͯ͠ߟ͢ΔͨΊʹɼUBM–GMM ͓Αͼ i–vector ʹΑ. ใ θ ਤ 2 ʹࣔ͢Α͏ʹɼ−π ≤ θ < − π2 ɼ− π2 ≤ θ < 0ɼ. Δऀর߹࣮ݧΛߦͬͨɽ࣮݁ݧՌͷൺֱʹࢉग़͞Εͨ. 0≤θ<. π π 2ɼ2. ≤ θ ≤ π ͷ͍ͣΕ͔ͷҬʹ͚Δ͜ͱ͕. র߹είΞ͔Βຊਓڋ൱ͱଞਓड͚ೖΕΛ͠ࢉܭɼશ. Ͱ͖ΔɽҐ૬ใͷϑϨʔϜΓग़͠ͳͲͷӨʹڹΑ. ऀڞ௨ͷᮢΛઃఆͯ͠ٻΊͨՁΤϥʔʢEERʣΛ. Δมಈ͕େ͖͍ɽͦ͜Ͱɼ3.2 અͰԽͨ͠Ґ૬ಛΛ. ༻͍ͨɽऀর߹࣮Ͱݧ VLD σʔλϕʔε [12] ͷϔο. ͞Βʹ 4 ͭͷྖҬʹΘ͚ɼ࣮ࡍͷΛ؆ૉͳදʹݱม͑. υηοτϚΠΫͰऩ͞ΕͨԻσʔλΛ༻͍࣮ͯݧΛ. Δ͜ͱͰҐ૬ใͷେ͖ͳมಈͰͳ͓͓͘·͔ͳมಈͷ. ߦͬͨɽ1 ճͷऩ͔Β 2 ճͷऩ·Ͱͷؒظ 3. Έʹணͨ͠ಛநग़Λߦͬͨɽ. िؒͱͳ͍ͬͯΔɽ1 ճͷऩσʔλΛ࣌ ظAɼ2 ճ ͷऩσʔλΛ࣌ ظB ͱ͢Δɽ. ⓒ 2016 Information Processing Society of Japan. 3.
(4) Vol.2016-SLP-114 No.16 2016/12/20. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report ද 1. UBM–GMM ͓Αͼ i–vector ʹͮ͘جऀর߹ͷ࣮ݧ݅. Table 1 Experimental conditions for UBM–GMM and i–vector based speaker verification systems ొऀσʔλϕʔε. VLD σʔλϕʔε (ঁੑͷΈ). ֶशσʔλ. 70 จষ ʷ 17 ໊. ʢಛఆऀϞσϧʣ. ʢ ܭ1190 จষʣ. ςετσʔλ. 30 จষ ʷ 17 ໊. UBM ༻σʔλϕʔε. JNAS(ঁੑͷΈ). UBM ֶशσʔλ. 23657 จষ. GMM ࠞ߹. 1024. ʢ ܭ510 จষʣ. i–vector ͷ࣍ݩ. 400. αϯϓϦϯάप. 16 kHz. ϑϨʔϜ/ϑϨʔϜγϑτ. 25 msec / 10 msec. ಛྔ. MFCC 19 ࣍+ Δ + ΔΔ. ද 2. ʢaʣൃ original. Ґ૬ಛநग़͓Αͼ GMM ϞσϧԽͷ࣮ݧ݅. Table 2 Experimental conditions for phase feature extraction and GMM modeling ొऀσʔλϕʔε. VLD σʔλϕʔε. ֶशσʔλ. 70 จষ ʷ 17 ໊. ʢಛఆऀϞσϧʣ. ʢ ܭ1190 จষʣ. ςετσʔλ. 30 จষ ʷ 17 ໊. ʢbʣൃ short ਤ 3. ౷߹γεςϜͷ EER(UBM–GMM ͱҐ૬). Fig. 3 EERs of integrated systems (UBM–GMM and phase). ʢ ܭ510 จষʣ. ද 3. GMM ࠞ߹. 1. αϯϓϦϯάप. 16 kHz. ༻पଳҬ. 60–700Hz. Λ༻͍ͯಛఆऀϞσϧΛֶश͠ɼςετσʔλʹֶश. Ґ૬ಛநग़ʹ༻ͨ͠ϑϨʔϜͱϑϨʔϜγϑτʢmsecʣ. Table 3 Frame length and frame shift used for phase feature. σʔλͱಉ࣌͡ͱظҟͳΔ࣌ʹظऩͨ͠σʔλΛ༻͍ͨɽ. 4.2 અͰࣔͨ͠ํ๏Ͱ MFCC Λ༻͍ͨ UBM–GMM ·ͨ i–vector ͔ΒಘΒΕͨর߹είΞͱ֤Ґ૬ಛநग़ख๏ ʹ ͮ͘جGMM ͔ΒಘΒΕͨରͷείΞ౷߹Λߦ ͍, จষ୯Ґͷ EER ͱൺֱΛߦͬͨɽείΞ౷߹ͷલॲཧ. extraction(msec) ϑϨʔϜ. ϑϨʔϜγϑτ. frameleg0. 12.5. 5. frameleg1. 50. 25. frameleg2. 75. 37.5. frameleg3. 100. 50. frameleg4. 500. 100. ͱͯ͠Ґ૬ಛ (R)enph ( ͼٴR)sep4–enph ʹ 4.1 અͰ ࣔͨ͠ํ๏ͰείΞͷਖ਼نԽΛߦͬͨɽਖ਼نԽʹ༻͍ͨύ ϥϝʔλ α ͦΕͧΕ 0.25ɼ0.1 Ͱ͋Δɽ. 6. ࣮݁ݧՌ 6.1 Ґ૬ಛͱൃ ֤ൃʹରͯ͠ MFCC Λ༻͍ͨ UBM–GMM Λ 1 छ. UBM–GMM ͓Αͼ i–vector ʹͮ͘جऀর߹ͷ࣮ݧ. ྨɼMFCC Λ༻͍ͨ i–vector Λ 1 छྨɼҐ૬ಛநग़ख. ݅Λද 1ɼҐ૬ಛநग़͓Αͼ GMM ϞσϧԽͷ࣮ݧ݅. ๏ʹ ͮ͘جGMM Λ 3 छྨΛֶश͠ɼ֤Ϟσϧʹςετ. Λද 2 ʹͦΕͧΕࣔ͢ɽҐ૬ಛ 3 ষͰࣔͨ͠ Relative. σʔλΛೖྗͯ͠র߹είΞΛࢉग़ͨ͠ɽֶशσʔλɼς. phase information(enph), ԽΛ༻͍ͨ Relative phase. ετσʔλʹ ظ࣌ʹڞA Λ༻͍ͯ͠ΔɽMFCC Λ༻͍. information((R)enph), Խ͓Αͼ؆ૉԽΛ༻͍ͨ Rel-. ͨ UBM–GMM ·ͨ i–vector ͔ΒಘΒΕͨর߹είΞͱ. ative phase information((R)sep4–enph) ͷ 3 छྨͰநग़Λ. ֤Ґ૬ಛநग़ख๏ʹ ͮ͘جGMM ͔ΒಘΒΕͨର. ߦͬͨɽ·ͨɼͦΕͧΕͷಛநग़๏ʹରͯ͠ 5 छྨͷ. ͔Β౷߹είΞΛࢉग़ͨ͠ɽਤ 3 ʹ UBM–GMM ͔ΒಘΒ. ϑϨʔϜͰಛநग़ΛߦͬͨɽͦͷͨΊɼҐ૬ಛܭ. Εͨর߹είΞͱ֤Ґ૬நग़ख๏ʹ ͮ͘جGMM ͔ΒಘΒ. 15 छྨͰ͋ΔɽҐ૬ಛநग़ʹ༻ͨ͠ϑϨʔϜΛද. Εͨରͷ౷߹είΞΛ༻͍ͨࡍͷ EER Λࣔ͢ɽε. 3 ʹࣔ͢ɽςετσʔλʹ 2 छྨͷൃΛ༻ͨ͠ɽ. ίΞ౷߹ʹ༻͢Δύϥϝʔλ β 0.1 ∼ 0.9 ·Ͱ 0.1 ࠁ. σʔλϕʔεͷͱͱͷൃ ( 4 ඵ) Λ original ͱ. ΈͰมԽͤͨ͞ɽ·ͨɼਤ 4 ʹ i–vector ͔ΒಘΒΕͨর߹. ͯ͠ɼൃ۠ؒͷඵ͕͓Αͦ 1 ඵͱͳΔΑ͏ʹΧοτ͠. είΞͱ֤Ґ૬நग़ख๏ʹ ͮ͘جGMM ͔ΒಘΒΕͨର. ͨ short Λ࡞ͨ͠ɽMFCC ͓ΑͼҐ૬ͦΕͧΕͷಛྔ. ͷ౷߹είΞΛ༻͍ͨࡍͷ EER Λࣔ͢ɽείΞ౷߹. ⓒ 2016 Information Processing Society of Japan. 4.
(5) Vol.2016-SLP-114 No.16 2016/12/20. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ɹ. ද 5 ֤ϑϨʔϜʹ͓͍ͯ࠷খͷ EER(%) Table 5 Minimum EER for each frame length(%). ɹ ɹ ʢaʣֶशσʔλͱςετσʔλ͕ಉ࣌͡ظʢ࣌ ظA-Aʣ ςετσʔλʢ࣌ ظAʣ Ґ૬நग़ख๏. EER. ֶश. MFCC. –. 0.26. σʔλ. frameleg0. enph. 0.18. ʢ࣌ ظAʣ. frameleg1. enph. 0.18. frameleg2. enph. 0.21. frameleg3 ʢaʣൃ original. enph. 0.23. (R)enph. 0.23. enph. 0.23. (R)sep4–enph. 0.23. (R)sep4–enph. 0.23. frameleg4. ʢbʣֶशσʔλͱςετσʔλ͕ҟͳΔ࣌ظʢ࣌ ظA-Bʣ ςετσʔλʢ࣌ ظBʣ Ґ૬நग़ख๏. EER. ֶश. MFCC. –. 1.37. σʔλ. frameleg0. enph. 1.27. ʢ࣌ ظAʣ. frameleg1. (R)enph. 1.31. frameleg2. (R)enph. 1.31. frameleg3. (R)enph. 1.24. frameleg4. (R)enph. 1.31. ʢbʣൃ short ਤ 4. ౷߹γεςϜͷ EER(i–vector ͱҐ૬). Fig. 4 EERs of integrated systems (i–vector and phase). enph ͕࠷খͷ EER ͱͳ͍ͬͯΔɽҰํͰɼද 4ʢbʣ͔Β. ද 4 ֤Ґ૬ಛநग़ख๏ʹ͓͚Δ࠷খͷ EER(%) ɹTable 4. ɹɹ. Minimum EER for each phase feature extraction method(%) ʢaʣUBM–GMM ͱҐ૬ͷ౷߹݁Ռ ςετσʔλʢ࣌ ظAʣ original. short. i–vector ͱͷ౷߹Ͱ (R)enph ͕࠷খͷ EER ͱͳ͓ͬͯ Γɼenph վળ͕ݟΒΕͳ͔ͬͨɽൃ short ͷ߹ɼ ද 4ʢaʣɼ(b) ͱʹ (R)enph ͕࠷খͷ EER ͱͳ͍ͬͯ Δɽ͜ͷ͜ͱ͔Βɼൃ͕͍ͱҐ૬ͷΒ͖͕ͭӨڹ. ֶश. MFCC. 0.26. 0.59. ͯ͠͠·͏͜ͱ͕ߟ͑ΒΕΔɽ·ͨɼҐ૬ͷԽΛߦ͏. σʔλ. MFCC+enph. 0.18. 0.59. ͜ͱͰ༨ͳΛআ͢ڈΔ͜ͱ͕Ͱ͖ɼগྔͷσʔλͰ. MFCC+(R)enph. 0.25. 0.45. ҆ఆͨ͠ϞσϧԽ͕Մೳͱͳͬͨ͜ͱͰ EER ͕վળ͠. MFCC+(R)sep4–enph. 0.26. 0.56. ͨͱߟ͑ΒΕΔɽ. ʢ࣌ ظAʣ. ʢbʣi-vector ͱҐ૬ͷ౷߹݁Ռ ςετσʔλʢ࣌ ظAʣ ֶश. original. short. 0.98. 1.30. MFCC. 6.2 ऩ͓࣌ظΑͼϑϨʔϜ Ґ૬ͷϑϨʔϜʹର͢ΔӨڹΛௐࠪ͢ΔͨΊʹ UBM–. GMM ʹΑΔऀর߹࣮ݧΛߦͬͨɽ15 छྨ (3 ख๏ʷ. σʔλ. MFCC+enph. 0.98. 1.30. ʢ࣌ ظAʣ. MFCC+(R)enph. 0.86. 1.27. frameleg0ʙ4) ͷҐ૬ಛநग़ख๏ʹ ͮ͘جGMM Λֶश. MFCC+(R)sep4–enph. 0.91. 1.30. ͠ɼ֤ϞσϧʹςετσʔλΛೖྗͯ͠ରΛࢉग़͠ ͨɽUBM–GMM ͔ΒಘΒΕͨর߹είΞͱ֤Ґ૬ಛந. ʹ༻͢Δύϥϝʔλ β 0.0001 ∼ 0.001 ·Ͱ 0.0001 ࠁ. ग़ख๏ʹ ͮ͘جGMM ͔ΒಘΒΕͨର͔Β౷߹εί. ΈͰมԽͤͨ͞ɽ·ͨɼද 4 ʹਤ 3ɼ4 ͷ݁ՌͰɼMFCC. ΞΛࢉग़͠ɼ֤ϑϨʔϜͰ࠷͍ EER Λද 5 ʹࣔ͢ɽ. ͷΈΛ༻͍ͨ߹ͷ EER ͱ MFCC ͱ౷߹֤ͨ͠Ґ૬ಛ. είΞ౷߹ʹ༻͢Δύϥϝʔλ β 0.1 ∼ 0.9 ·Ͱ 0.1. நग़ख๏Ͱ࠷͍ EER Λࣔ͢ɽ. ࠁΈͰมԽͤͨ͞ɽද 5ʢaʣֶशσʔλʹ࣌ ظAɼς. ·ͣɼMFCC ͷΈΛಛྔͱͯ͠༻͍ͨ߹ͱɼMFCC. ετσʔλʹ࣌ ظA Λɼද 5ʢbʣֶशσʔλʹ࣌ ظAɼ. ͱҐ૬ͷ྆ํΛ༻͍ͨ߹ͷҧ͍Λൺֱ͢Δɽද 4ʢaʣɼ. ςετσʔλʹ࣌ ظB Λ༻͍ͨ EER Λ͍ࣔͯ͠Δɽදத. ʢbʣΑΓɼUBM–GMMɼi–vector ͱʹ MFCC ୯ମΑΓ. ͷ MFCC ͷߦʹ UBM–GMM ͷΈͰͷ EER Λࣔͯ͠. Ґ૬ಛΛ౷߹͢Δ͜ͱͰ EER ͕վળ͍ͯ͠Δ͜ͱ͔. ͍Δɽ“Ґ૬நग़ख๏” ౷߹είΞʹࢉܭΑͬͯ MFCC. ΒҐ૬ใͷ༗༻͕֬͞ೝͰ͖Δɽ. ͱ౷߹ͨ͠Ґ૬நग़ख๏ͷ͏ͪ࠷ਫ਼ͷߴ͔ͬͨख๏Λ. ࣍ʹɼςετσʔλͷൃʹؔͯ͠ൺֱ͢Δɽൃ. original ͷ߹ɼද 4ʢaʣΑΓ UBM–GMM ͱͷ౷߹Ͱ ⓒ 2016 Information Processing Society of Japan. ͍ࣔͯ͠Δɽ ·ͣɼMFCC ͷΈΛಛྔͱͯ͠༻͍ͨ߹ͱɼMFCC. 5.
(6) Vol.2016-SLP-114 No.16 2016/12/20. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ͱҐ૬ͷ྆ํΛಛྔͱͯ͠༻͍ͨ߹ͷҧ͍Λൺֱ͢Δɽ. ͨ߹ΑΓɼMFCC ͱҐ૬Λ߹Θͤͯ༻ͨ͠߹ͷ. ද 5ʢaʣ ɼ ʢbʣͱʹɼͯ͢ͷϑϨʔϜͰ MFCC ͷΈ. ํ͕ྑ͍݁Ռ͕ಘΒΕͨɽࠓޙͷ՝ͱͯ͠ɼൃͱ. ΑΓҐ૬ಛΛ౷߹ͨ͠߹ͷํ͕ EER ͕͘ͳͬͯ. ൃ࣌ظͷҧ͍ʹ͍ͭͯͷݕ౼Ґ૬ͷϞσϧԽख๏ͷݕ. ͍Δɽ͜Εલड़ͷ࣮ͱݧಉ༷ͷͰ͋ΓɼҐ૬ใ͕. ౼ɼଞͷҐ૬நग़ख๏ͷݕ౼ͳͲ͕͋͛ΒΕΔɽ. ಛͱͯ͠༗༻Ͱ͋Δ͜ͱ͕֬ೝͰ͖Δɽ ࣍ʹɼϑϨʔϜͷछྨʹؔͯ͠ൺֱ͢ΔɽҐ૬ϑ. ँࣙ. ຊڀݚͷҰ෦Պֶڀݚඅج൫ (B)26280066 ͓Α. ͼՊֶڀݚඅएख (B)93008552 ʹΑΔɽ. ϨʔϜΓग़͠ʹΑͬͯӨڹΛड͚ΔͨΊɼϑϨʔϜ ͕͍΄ͲͦͷӨڹΛ͖ͰݮΔͱߟ͑ΒΕΔɽ͔͠͠ɼ. ࢀߟจݙ. ද 5ʢaʣ ɼ(b) ͔ΒɼϑϨʔϜͷ͕͞ EER ͷվળͱൺ. [1]. ྫ͍ͯ͠ͳ͍͜ͱ͕Θ͔ΔɽҰํͰɼϑϨʔϜͷ͞ͱ ͦͷͱ͖࠷খͷ EER ΛͱͬͨҐ૬நग़ख๏ͱͷؔΛΈ ΔͱɼಛʹϑϨʔϜ͕͍߹ʢframeleg4ʣʹɼԽ 4 Խͨ͠ࡍͷҐ૬Λ༻͍ͨͷ͕ EER ͕Ұ൪͘ͳ. [2]. Δʹ͋Δɽ͜ͷ͜ͱ͔ΒɼҐ૬நग़ख๏ʹΑͬͯద ͳϑϨʔϜ͕ҟͳΔ͜ͱ͕ߟ͑ΒΕΔɽ. [3]. ࣍ʹɼҐ૬ಛྔͷछྨʹؔͯ͠ൺֱ͍ͯ͘͠ɽද 5ʢaʣ Ͱɼenph ͕શͯͷ݅ͷதͰҰ൪͍ EER ͱͳ͍ͬͯ Δɽ͔͠͠ɼframeleg3 ͓Αͼ frameleg4 Ͱݕ౼ͨ͠Ґ૬. [4]. ಛ ((R)enph ͱ (R)sep4–enph) ಉఔͷ EER ͱͳͬ ͍ͯΔɽͭ·Γɼ(R)enph ͱ (R)sep4–enph enph ΑΓ ಛ͕গͳ͍͕ɼಉ༷ʹҐ૬ͷಛΛද͍ͤͯΔͱߟ. [5]. ͑ΒΕΔɽ ࠷ʹޙɼϑϨʔϜͱςετσʔλͷ࣌ظͷҧ͍ʹؔ͠ ͯൺֱ͢Δɽද 5ʢaʣΑΓɼֶशσʔλͱςετσʔλ. [6]. ͷ͕࣌ظಉ͡߹ʹ frameleg0 ͓Αͼ frameleg1 ͕࠷খ ͷ EER ͱͳ͕ͬͨɼද 5ʢbʣΑΓɼֶशσʔλͱςετ σʔλͷ͕࣌ظҟͳΔ߹ʹ frameleg3 ͕࠷খͷ EER. [7]. ͱͳͬͨɽ͜Εಉ͡ൃ༰Ͱ͋ͬͯൃ࣌ʹظΑΔ มಈ͕େ͖͘ɼϑϨʔϜΛ͘ͱͬͨํ͕҆ఆͨ͠Ґ૬ நग़͕ՄೳʹͳΔͨΊͩͱߟ͑ΒΕΔɽ֤ϑϨʔϜͰ࠷. [8]. খͷ EER ͱͳͬͨ߹ͷҐ૬நग़ख๏ʹؔͯ͠ൺֱ͢Δ ͱɼද 5ʢaʣΑΓɼֶशσʔλͱςετσʔλͷ͕࣌ظಉ. [9]. ͡߹ʹैདྷख๏Ͱ͋Δ enph ͕શϑϨʔϜͷதͰ࠷ খͷ EER ͱͳΓɼϑϨʔϜ͕͍߹ͷΈ (R)enph ·. [10]. ͨ (R)sep4–enph ͕࠷খͷ EER ͱͳͬͨɽҰํͰɼද. 5ʢbʣΑΓɼֶशσʔλͱςετσʔλͷ͕࣌ظҟͳΔ ߹ʹ frameleg0 Λআ͘શͯͷϑϨʔϜͰ (R)enph ͕. [11]. Ұ൪͍ EER ͱͳͬͨɽ͜ͷ͜ͱ͔ΒɼఏҊख๏Ͱ͋Δ. (R)enph Ґ૬ಛͷ݈ؤੑΛ্ͤ͞Δ͜ͱ͕Ͱ͖͍ͯ Δͱߟ͑ΒΕΔɽ. 7. ͓ΘΓʹ ຊߘͰಛྔͱͯۙ͠͞Ε͍ͯΔҐ૬ใͷந. [12]. Zhu, D. and Paliwal, K. K.: Product of power spectrum and group delay function for speech recognition, Acoustics, Speech, and Signal Processing, 2004. Proceedings.(ICASSP’04). IEEE International Conference on, Vol. 1, IEEE, pp. I–125 (2004). Paliwal, K. K. and Alsteris, L. D.: Usefulness of phase spectrum in human speech perception., INTERSPEECH (2003). Wang, L., Yoshida, Y., Kawakami, Y. and Nakagawa, S.: Relative phase information for detecting human speech and spoofed speech, Proc. Interspeech, pp. 2092–2096 (2015). Hegde, R. M., Murthy, H. A. and Gadde, V. R. R.: Significance of the modified group delay feature in speech recognition, IEEE Transactions on audio, speech, and language processing, Vol. 15, No. 1, pp. 190–202 (2007). ࢁຊҰެɼ٢ӳҰɼதҰɿ࣌ؒੳʹͮ͘جҐ ૬ใΛ༻͍ͨԻೝࣝͷݕ౼ (ೝࣝ, ཧղ, ର, Ұൠ)ɼ ిࢠใ௨৴ֶձٕज़ڀݚใࠂ. SP, Իɼ Vol. 110, No. 143, pp. 31–36 (2010). Reynolds, D. A., Quatieri, T. F. and Dunn, R. B.: Speaker verification using adapted Gaussian mixture models, Digital signal processing, Vol. 10, No. 1, pp. 19–41 (2000). Dehak, N., Kenny, P. J., Dehak, R., Dumouchel, P. and Ouellet, P.: Front-end factor analysis for speaker verification, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 19, No. 4, pp. 788–798 (2011). Povey, D., Chu, S. M. and Varadarajan, B.: Universal background model based speech recognition, 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, pp. 4561–4564 (2008). খ࢘ɼԘా͔͞ɿi-vector Λ༻͍ͨऀೝࣝɼຊ Իֶڹձࢽɼ Vol. 70, No. 6, pp. 332–339 (2014). Yegnanarayana, B. and Murthy, H. A.: Significance of group delay functions in spectrum estimation, IEEE Transactions on signal processing, Vol. 40, No. 9, pp. 2281–2289 (1992). Correia, M. J., Abad, A. and Trancoso, I.: Preventing converted speech spoofing attacks in speaker verification, Information and Communication Technology, Electronics and Microelectronics (MIPRO), 2014 37th International Convention on, IEEE, pp. 1320–1325 (2014). Shiota, S., Fernando, V., Yamagishi, J., Ono, N., Echizen, I. and Matsui, T.: Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification, in Proc. Interspeech 2015 ((accepted), 2015).. ग़๏ͷΑΓదͳநग़ख๏ʹ͍ͭͯݕ౼Λߦͬͨɽݕ౼͠ ͨநग़ख๏ʹΑͬͯಘͨҐ૬ใʹͮ͘جಛྔ͕༗ޮͰ ͋Δ͔Λௐࠪ͢ΔͨΊʹ UBM–GMM ͓Αͼ i–vector Λ༻ ͍ͨऀর߹࣮ݧΛߦͬͨɽ࣮݁ݧՌͰֶशσʔλͱς ετσʔλ͕ಉ࣌ظͷͷͰ͋Ε MFCC ͷΈΛ༻͠. ⓒ 2016 Information Processing Society of Japan. 6.
(7)
図
関連したドキュメント
担い手に農地を集積するための土地利用調整に関する話し合いや農家の意
前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (
が前スライドの (i)-(iii) を満たすとする.このとき,以下の3つの公理を 満たす整数を に対する degree ( 次数 ) といい, と書く..
「系統情報の公開」に関する留意事項
(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計
生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・
排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報
排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報