• 検索結果がありません。

感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討

N/A
N/A
Protected

Academic year: 2021

シェア "感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2017-SLP-119 No.7 2017/12/21. ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report. ‫ײ‬৘Ի੠σʔλϕʔε JTES Λ༻͍ͨ ‫ײ‬৘Ի੠ೝࣝʹ͓͚ΔϞσϧదԠͷੑೳ޲্ͷ‫ݕ‬౼ ૬ᖒ Ղ޹1. Ճ౻ ਖ਼࣏1. খࡔ ఩෉1. ೳ੎ ོ2. ֓ཁɿۙ೥ɼ‫ײ‬৘Ի੠ίʔύεͱͯ͠ JTESʢJapanese Twitter-based Emotional Speechʣ͕ߏங͞Εͨɽ Twitter ͷᄁ͖Λϕʔεͱ͓ͯ͠Γɼ‫ײ‬৘ϥϕϧͷ෇༩ɼԻӆɾӆ཯ͷόϥϯε͕औΕͨจબ୒ͳͲͷಛ௃ ͕͋Δɽզʑ͸͜Ε·Ͱɼ೔ຊ‫ޠ‬࿩͠‫ݴ‬༿ίʔύε (CSJ) Λ༻ֶ͍ͯशͨ͠ DNN-HMM ʹΑΔԻ‫ڹ‬Ϟσ ϧΛॳ‫ظ‬Ϟσϧͱͯ͠ɼJTES Λ༻͍࿩ऀ΍‫ײ‬৘΁దԠͨ͠Ի‫ڹ‬ϞσϧΛ༻͍ͯೝ࣮ࣝ‫ݧ‬Λߦͳ͖ͬͯͨɽ CSJ Ͱֶश͠ CSJ ͷςετηοτΛೝࣝͨ͠৔߹ͷ୯‫ޡޠ‬Γ཰͸ 15.12 %ͱൺֱతྑ޷ͳೝࣝ݁Ռ͕ಘΒ Ε͍ͯͨɽҰํ CSJ ʹΑΔॳ‫ظ‬ϞσϧΛదԠͨ͠‫ޙ‬ͷ JTES ʹΑΔධՁΛ‫ݟ‬Δͱ࿩ऀదԠͰ͸ 27.86 %ͱ े෼ͳ݁Ռ͕ಘΒΕ͍ͯͳ͍ɽຊߘͰ͸ɼదԠ๏ͱ‫ޠݴ‬Ϟσϧʹؔͯ͠‫ݕ‬౼͠ɼߋͳΔੑೳ޲্ΛࢼΈͨɽ దԠ๏ͱͯ͠͸ɼDNN ͷΤϙοΫ਺ͷܾఆʹ early stopping ͷར༻Λ‫ݕ‬౼ͨ͠ɽ·ͨɼ‫ޠݴ‬Ϟσϧʹ͓͍ ͯ͸ະ஌‫ޠ‬ͷӨ‫ڹ‬Λௐࠪ͠ɼະ஌‫ޠ‬Λ௥Ճͨ͠‫ޠݴ‬ϞσϧΛ‫ݕ‬౼ͨ͠ɽҎ্ʹΑΓ࿩ऀదԠͰϕʔεϥΠ ϯ͕ 27.86 %ʹର͠ɼ23.05 %ɼίʔύεదԠͷϕʔεϥΠϯ͕ 32.37 %ʹର͠ɼ26.91 %ͱେ෯ͳੑೳ޲ ্͕ಘΒΕͨɽ Ωʔϫʔυɿ‫ײ‬৘Ի੠ೝࣝɼ‫ײ‬৘Ի੠σʔλϕʔεɼ࿩ऀɾ‫ײ‬৘ɾίʔύεదԠɼDNN-HMM. 1. ͸͡Ίʹ. Ԡ༻͕‫ظ‬଴͞Ε͍ͯΔɽ จ‫[ ݙ‬4] Ͱ͸ɼ͜ͷ JTES ΛධՁσʔλͱͯ͠Ի੠ೝ࣮ࣝ. ۙ೥ɼԻ੠ର࿩γεςϜ͕஫໨͞Ε͍ͯΔɽ͜͏ͨ͠γ. ‫ݧ‬Λߦͳͬͨɽͦͷࡍɼ೔ຊ‫ޠ‬࿩͠‫ݴ‬༿ίʔύεʢCorpus. εςϜ͸ɼ໨త৔ॴ΁ͷҊ಺΍৘ใ‫Ͳͳࡧݕ‬ಛఆͷ໨తʹ. of Spontaneous JapaneseɿCSJʣ[5] ͷσʔλΛϕʔεͱ. ༻͍Δ৔߹͸‫ػ‬ցతͳ΍ΓͱΓͰ΋े෼࣮༻ͱͳΔɽ͔͠. ͨ͠Ի‫ڹ‬Ϟσϧʹରͯ͠ɼJTES ͷσʔλΛ fine-tuning ʹ. ͠λεΫୡ੒ͷͨΊͷର࿩͚ͩͰͳ͘ɼࡶஊͳͲର࿩ࣗମ. ΑΓదԠ͠ೝ͍ࣝͯͨ͠ɽ͔͠͠ɼ୯‫ޡޠ‬Γ཰͸࿩ऀద. Λ໨తͱͨ͠༻్΁ͱԠ༻͕޿͕Γͭͭ͋Δɽ͜ͷΑ͏ͳ. ԠΛ༻͍ͯ΋໿ 28 %Ͱ͋Γɼे෼ͳ݁Ռ͕ಘΒΕ͍ͯͳ. ༻్ͷ৔߹ɼਓؒಉ࢜ͷձ࿩ʹ͓͚Δ‫ײ‬৘ͷ΍ΓͱΓͷΑ. ͍ɽͦͷ‫ݪ‬ҼͷҰͭͱͯ͠ɼదԠ๏ͷ‫ݕ‬౼͕ෆे෼Ͱ͋ͬ. ͏ʹɼγεςϜ͕‫ײ‬৘Λߟྀͯ͠ର࿩Λߦ͏͜ͱͰΑΓ๛. ͨ͜ͱ͕‫͛ڍ‬ΒΕΔɽຊߘͰ͸ɼDNN ͷదԠ࣌ͷΤϙο. ͔ͳԻ੠ର࿩͕ՄೳʹͳΔͱߟ͑ΒΕΔɽ‫ײ‬৘Λߟྀͨ͠. Ϋ਺ʹண໨͠ɼ‫͋ࢣڭ‬ΓదԠ࣮‫ ͍͓ͯʹݧ‬early stopping. Ի੠ର࿩ͷ࣮‫ݱ‬ͷͨΊʹ͸ɼγεςϜଆ͕‫ײ‬৘छผΛೝࣝ. Λ༻͍ͨɽ·ͨɼCSJ ʹ͓͚Δֶձߨԋͱ JTES ʹ͓͚Δ. Ͱ͖ɼ‫ײ‬৘Ի੠ͷൃ࿩಺༰Λਖ਼͘͠ೝࣝ͠ɼͦΕΒΛ΋ͱ. Twitter Ͱ͸༻͍ΒΕΔ‫ޠ‬ኮ΋ҟͳΓɼ‫ޠݴ‬Ϟσϧͷ‫ݕ‬౼. ʹ‫ײ‬৘Ի੠Λ߹੒Ͱ͖Δඞཁ͕͋Δɽ. ΋ඞཁͰ͋Δɽ͜ͷͨΊɼະ஌‫ޠ‬΍‫ޠݴ‬Ϟσϧͷ N-gram. ͜͏ͨ͠‫ײ‬৘Ի੠Λ༻͍࣮ͨ‫ʹݧ‬ར༻Ͱ͖Δίʔύε͕ ͍͔ͭ͘ߏங͞Ε͍ͯΔ [1]ɽจ‫[ ݙ‬2] Ͱ͸‫ײ‬৘Ի੠ೝࣝɾ ߹੒ͷ‫Ͱ఺؍‬Իӆɾӆ཯όϥϯεͷͱΕͨൃ࿩ηοτͷઃ ‫ܭ‬Λߦͬͨɽ·ͨจ‫[ ݙ‬3] Ͱ͸‫ײ‬৘Ի੠߹੒ͷ‫Ͱ఺؍‬ධՁ͠ ༗ޮੑΛ͍ࣔͯ͠Δɽ͜ͷίʔύε͸ʮJTESʯ ʢJapanese. Twitter-based Emotional Speechʣͱ໊͚ͮΒΕɼࠓ‫ޙ‬ͷ. ֬཰ͳͲΛ‫ݕ‬౼͢Δඞཁ͕͋Δ͕ɼࠓճ͸ະ஌‫ޠ‬Λ௥Ճ͠ ͨ‫ޠݴ‬Ϟσϧͷ࢖༻ʹؔͯ͠‫ݕ‬౼Λߦͳͬͨɽ. 2. ‫ײ‬৘Ի੠σʔλϕʔε JTES Twitter ͷᄁ͖Λ‫ײͨ͠ʹج‬৘Ի੠σʔλϕʔεʮJTESʯ ͸ɼஉঁ֤ 50 ໊ͷԻ੠͔ΒͳΔ [3]ɽTwitter ͷᄁ͖ʹ͸ ‫ޠޱ‬తͳ΋ͷ͕ଟ͘‫·ؚ‬Ε͍ͯΔ͜ͱ͔Βɼ༷ʑͳ‫ײ‬৘Λ. 1. 2. ࢁ‫ܗ‬େֶ Yamagata University ౦๺େֶ Tohoku University. c 2017 Information Processing Society of Japan. ෇༩ͨ͠ൃ࿩จΛ࡞੒͢Δ͜ͱ͕ՄೳͰ͋ΔɽTwitter ͷ ᄁ͖Λ‫ײ‬৘ද‫ͱޠݱ‬ͷϚονϯά [6] ʹΑΓ‫ͼت‬ɾౖΓɾ ൵͠Έɾฏৗͷ 4 ‫ײ‬৘ʹ෼ྨ͠ɼԻӆɾӆ཯ͷόϥϯε͕. 1.

(2) Vol.2017-SLP-119 No.7 2017/12/21. ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report. औΕͨจষηοτΛΤϯτϩϐʔʹΑΔจબ୒ΞϧΰϦζ Ϝ [7] Λ༻͍֤ͯ‫ײ‬৘ 50 จͷબग़͕ߦΘΕΔ [2]ɽͦΕΒ ͷจʹର͠ओ‫؍‬ධՁʹΑΓ‫ײ‬৘ͷద੾ੑΛ֬ೝ͠ɼԻ੠ͷ ऩ࿥͕ߦΘΕͨɽऩ࿥ͷࡍʹ͸ʮࣗ෼͕ҙਤ͢Δ‫ײ‬৘Λϩ Ϙοτʢ‫ػ‬ցʣʹ఻͑ΔΑ͏ʹʯൃ࿩͠ɼౖΓʹؔͯ͠͸ ʮhot angerʢౖܹ͍͠Γʣʯ[8] Λҙࣝ͢ΔΑ͏ʹࢦࣔͯ͠ ͍Δɽ. 3. దԠɾೝࣝख๏ ਤ 1. ຊষͰ͸ɼຊ࣮‫͍༻Ͱݧ‬ΒΕͨదԠ͓Αͼೝࣝख๏ʹͭ. ग़ྗ֬཰ิঈͷઆ໌ਤ. ͍ͯड़΂Δɽࠓճͷ࣮‫Ͱݧ‬͸దԠσʔλʹਖ਼ղςΩετ͕ ४උͰ͖Δ͜ͱΛલఏͱͨ͠‫͖෇ࢣڭ‬దԠΛߦͳ͏ʢ‫ࢣڭ‬. 3.3 ‫ޠݴ‬Ϟσϧͷະ஌‫ޠ‬ରԠ. ͳ͠దԠͷ݁Ռʹ͍ͭͯ͸จ‫[ ݙ‬4] Λࢀরͷ͜ͱʣɽదԠ. ‫ޠݴ‬Ϟσϧʹ͍ͭͯɼจ‫[ ݙ‬10] Ͱ͸λεΫΫϩʔζͷ‫ݴ‬. ʹ͓͍ͯ͸ΤϙοΫ਺ࣗಈܾఆͷͨΊ early stopping Λ࢖. ‫ޠ‬ϞσϧΛ༻͍͍ͯΔ͕ɼຊ࣮‫Ͱݧ‬͸Ի੠ೝࣝͷ൚༻ੑΛ. ༻͢ΔɽDNN-HMM Λ༻͍ͨೝࣝʹ͓͍ͯ͸ࣄ‫ิ཰֬ޙ‬. ߟ͑ɼผλεΫʹΑΓ‫ޠݴ‬ϞσϧͷߏஙΛߦͳ͍ͬͯΔɽ. ਖ਼๏Λซ༻͢Δɽ·ͨ‫ޠݴ‬Ϟσϧͷະ஌‫ޠ‬ରԠʹ͍ͭͯड़. ֶशσʔλྔΛ֬อ͢ΔͨΊʹɼࠓճ͸ CSJ Λར༻ͨ͠ɽ. ΂Δɽ. ͔͠͠ɼCSJ ͸ߨԋԻ੠Ͱ͋Δͷʹର͠ɼJTES ͸ Twitter ͷᄁ͖Λ‫͓ͯ͠ʹج‬Γɼະ஌‫ޠ‬΋ଟ͘‫·ؚ‬ΕΔɽͦ͜Ͱࠓ ճ͸୯‫ʹॻࣙޠ‬ະ஌‫ޠ‬Λ௥Ճ͢Δ͜ͱʹΑΓɼ͜ͷ໰୊ʹ. 3.1 early stopping early stopping ͸ֶश΍దԠ࣌ͷΤϙοΫ਺Λࣗಈܾఆ. ରॲͨ͠ɽ. ͢Δख๏Ͱ͋Δɽ͜ͷख๏Ͱ͸ DNN ͷ fine-tuning Λߦͳ. ·ͣɼCSJ Ͱग़‫͢ݱ‬Δ୯‫ޠ‬Λ‫ج‬४ͱͯ͠ɼJTES ʹ͓͚. ͏ࡍʹɼֶशʢదԠʣσʔλΛ։ൃσʔλͱධՁσʔλʹ. Δະ஌‫ͯؔ͠ʹޠ‬ௐࠪͨ͠ͱ͜ΖɼධՁσʔλͰ 3.15 %ͷ. ෼ׂͯ͠ަࠩ‫ݕ‬ఆΛߦͳ͍ɼ‫܁‬Γฦ͠ʹ͓͍ͯϑϨʔϜೝ. ະ஌‫͕ޠ‬ଘࡏͨ͠ɽ͜ͷͨΊ CSJ ͔Β࡞੒ͨ͠‫ޠݴ‬Ϟσ. ࣝ཰ͷվળ཰͕ᮢ஋ҎԼʹͳͬͨ৔߹ʹ‫܁‬Γฦ͠Λఀࢭ͢. ϧΛ༻͍ͨධՁͷࡍ͸ɼ͜ͷఔ౓ͷ୯‫ޡޠ‬Γ͕ੜͣΔɽຊ. Δɽຊ‫Ͱڀݚ‬͸։ൃσʔλͱධՁσʔλͷ෼ׂׂ߹Λ 9 : 1. ߘͰ͸͜ΕΒͷະ஌‫ޠ‬Λ௥Ճͨ͠‫ޠݴ‬ϞσϧΛ༻͍ͯɼະ. ͱͨ͠ɽ. ஌‫ޠ‬ͷӨ‫ڹ‬Λഉআͨ͠ධՁΛߦͳ͏ɽ. 4. ࣮‫ݧ‬৚݅. 3.2 ࣄ‫ิ཰֬ޙ‬ਖ਼ ೝࣝ࣌ʹ͸ DNN ͷࣄ‫཰֬ޙ‬ͷิਖ਼Λߦ͏ [9]ɽग़ྗ֬཰. Ի੠෼ੳͰ͸ɼ16 kHz αϯϓϦϯάɼ16 bit ྔࢠԽͷԻ. ‫ࢉܭ‬ͷࡍʹɼແԻͳͲҰ෦ͷԻૉͰঢ়ଶͷੜ‫୺ۃ͕཰֬ى‬. ੠৴߸ʹରͯ͠ɼ෼ੳ૭ͱͯ͠ϋϛϯά૭Λ༻͍ɼϑϨʔ. ʹେ͖͘ͳΔ໰୊ʹରͯ͠ରԠ͕ՄೳͱͳΔɽDNN-HMM. Ϝ௕ 25 msecɼϑϨʔϜप‫ ظ‬8 msec ͱͨ͠ɽೖྗಛ௃͸ɼ. ʹ͓͚Δग़ྗ֬཰͸ࣜ (1) ͷΑ͏ʹ‫ٻ‬ΊΒΕΔɽ. 24 ࣍‫ݩ‬ͷϑΟϧλόϯΫͱର਺ύϫʔɼ‫ͦͼٴ‬ͷ 1 ࣍ͱ 2. p(x|si ) =. p(si |x)p(x) p(si ). (1). ͜ͷͱ͖ɼp(x) ͸ೖྗಛ௃ͷੜ‫͕ͩ཰֬ى‬ೝࣝʹ͸Ө‫ڹ‬Λ ༩͑ͳ͍ͷͰແࢹ͢Δɽp(si ) ͸ঢ়ଶੜ‫͕ͩ཰֬ى‬ɼແԻ. ࣍ͷճ‫਺܎ؼ‬Λ‫ؚ‬Ίͨ 75 ࣍‫Ͱݩ‬ɼ11 ϑϨʔϜͷηάϝϯ τಛ௃ͱͯ͠࢖༻͢Δʢ25 × 3 × 11 = ‫ ܭ‬825 ࣍‫ ݩ‬ʣɽ· ͨɼฏ‫ۉ‬෼ࢄਖ਼‫ن‬ԽΛߦ͏ɽ. DNN-HMM ͷߏ੒ʹ͍ͭͯ͸ɼೖྗ૚ͱͯ͠ 825 ϊʔ. ۠ؒͳͲҰ෦ͷԻૉͰඇৗʹେ͖ͳ஋ͱͳΓɼग़ྗ֬཰͕. υɼӅΕ૚ͱͯ͠ 7 ૚ͷ 2048 ϊʔυɼग़ྗ૚ͱͯ͠ 3003. ௿Լ͢Δɽैͬͯɼ͜ͷ஋ʹ੍‫ݶ‬ΛՃ͑Δ͜ͱͰɼ֬཰ͷ. ϊʔυͱ͠ɼग़ྗಛ௃͸ HMM ͷঢ়ଶ֬཰ͱͯ͠༻͍ͨɽ. ௿ԼΛิঈ͢Δɽ۩ମతʹ͸ p(si ) ʹରͯ͠ᮢ஋ (্‫ݶ‬஋)θ. DNN-HMM ͷֶशͰ͸ɼֶशπʔϧΩοτͱͯ͠ kaldi[11]. Λઃఆ͠ɼ্‫ݶ‬Λ௒͑ͨ஋Λ θ ʹஔ͖‫͑׵‬Δɽ͜ͷࡍ θ ͸. Λ༻͍ͯɼֶशσʔλͱͯ͠ CSJ ͷୈ 1 ࡮ͷֶձߨԋ. ࣜ (2) ʹ‫ܾ͖ͮج‬ఆ͠ɼͦ͜Ͱ੍‫ ཰ݶ‬α (0 ≤ α ≤ 1) Λࢦ. 963 ߨԋΛ࢖༻ͨ͠ɽDNN ֶशͷॾ৚݅Λද 1 ʹࣔ͢ɽ. ఆ͢Δɽ P. DNN ͷֶश͸ pre-training Ͱ͸੍‫͖෇ݶ‬ϘϧπϚϯϚγ. α =. i∈D {p(si ) − θ} PI i=1 p(si ). (2). ϯʢRBMʣΛ࢖༻͢Δɽfine-tuning Ͱ͸ϑϨʔϜຖʹঢ় ଶ൪߸ϥϕϧΛ༩͑ɼ‫ֶ͖ͭࢣڭ‬शΛ֬཰తޯ഑߱Լ๏. ͜͜Ͱɼi ͸ঢ়ଶ൪߸ɼI ͸૯ঢ়ଶ਺Λҙຯ͠ɼp(si ) > θ. ʢSGDʣʹΑΔ‫఻ٯࠩޡ‬೻๏Ͱߦ͏ɽଛࣦؔ਺ʹ͸Ϋϩε. Λຬͨ͢ i ͷू߹Λ D ͱ͢Δɽp(si ) ͕େ͖͍ॱʹ i Λฒ. ΤϯτϩϐʔΛ༻͍Δɽ͜ΕΒͷ৚݅ʹΑΓ࡞੒͞ΕͨϞ. ͼସ͑ͨ৔߹ͷઆ໌ਤΛਤ 1 ʹࣔ͢ɽ͜ͷํ๏͸దԠ࣌ͳ. σϧΛॳ‫ظ‬Ϟσϧͱ͢Δɽ. Ͳֶश (దԠ) σʔλ͕গͳ͍৔߹ಛʹ༗ޮͰ͋Δɽ. c 2017 Information Processing Society of Japan. ࣍ʹ‫ޠݴ‬Ϟσϧʹ͍ͭͯड़΂Δɽ‫ޠݴ‬Ϟσϧͷ‫ޠ‬ኮηο. 2.

(3) Vol.2017-SLP-119 No.7 2017/12/21. ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report ද 1. DNN ֶशͷॾ৚݅ pre-training. ֶश܎਺. ୈ 1 ૚ͷΈ 0.01ʙ0.001 ΁. ද 3 ֶश܎਺. DNN దԠͷॾ৚݅ 0.0001. ϛχόοναΠζ. 2048. ‫ݮ‬গɽୈ 2 ૚ʙୈ 7 ૚͸. ϞϝϯλϜ. 0. 0.4ʙ0.04 ΁‫ݮ‬গ.. L2 ਖ਼ଇԽ܎਺. 0.0002. ΤϙοΫ਺. ަࠩ‫ݕ‬ఆʹΑΓϑϨʔϜ. ΤϙοΫ਺. 10ʢ1 ૚໨ͷΈ 20ʣ. ϛχόοναΠζ. 1024. ೝࣝ཰޲্͕ 0.005% ະຬ. ϞϝϯλϜ. 0.9ʢ࠷ॳͷ 50 ࣌ؒσʔλ. ͷ৔߹ఀࢭ. ͷΈ 0.5ʙ0.9 ΁૿Ճʣ. L2 ਖ਼ଇԽ܎਺. 0.0002 fine-tuning. ֶश܎਺ ΤϙοΫ਺. 0.008 ަࠩ‫ݕ‬ఆʹΑΓϑϨʔϜ. ද 4. ੍֤‫͚͓ʹ཰ݶ‬Δೝࣝ݁Ռ (WER[%]). ੍‫཰ݶ‬. 0.00. 0.05. 0.10. 0.15. Average. 39.33. 37.79. 36.12. 36.75. ೝࣝ཰޲্͕ 0.1% ະຬ ϛχόοναΠζ. ͷ৔߹ఀࢭ. ‫ݧ‬ɽԻ‫ͯ͠ͱڥ؀ڹ‬͸Ұ൪Ϛονͨ͠৚݅ͱͳΔ͕ɼ. 512. దԠσʔλ਺͸গͳ͍ɽ࿩ऀɾ‫ײ‬৘ґଘͷదԠͱͳΔɽ దԠ‫ޙ‬ϞσϧΛ༻͍ͨೝ࣮ࣝ‫͍͓ͯʹݧ‬͸ɼ5 અͷ༧උ. τ͸ CSJ ͷֶձߨԋ‫ͼٴ‬໛ٖߨԋ͔Βग़‫ݱ‬ճ਺ 2 ճҎ্. ࣮‫ݧ‬Λ΋ͱʹֶशσʔλʢCSJʣ͔Βࢉग़ͨ͠ঢ়ଶੜ‫֬ى‬. ͷ୯‫ޠ‬Λ߹Θͤͨ 49,058 ‫͢ͱޠ‬Δɽ‫ޠݴ‬Ϟσϧ͸ bigram. ཰Λ༻͍ͨɽ·ͨɼDNN దԠͷॾ৚݅͸ද 3 ͷΑ͏ʹఆ. ͱ trigram ͷ 2 छྨΛ༻͍ɼ૯୯‫਺ޠ‬໿ 6.68 M ͷ CSJ ͷ. ΊͨɽຊߘͰ͸ɼද 3 ʹ͓͚ΔΤϙοΫ਺Λ 5 ͱ‫ݻ‬ఆͨ͠. ֶशσʔλΑΓੜ੒͢Δɽ͞Βʹ JTES ʹग़‫͢ݱ‬Δະ஌‫ޠ‬. ৔߹͕ϕʔεϥΠϯͱͳΔɽ͜ͷ৚݅ʹ͓͍ͯɼ࿩ऀ‫ײ‬৘. ΛՃ࣮͑ͨ‫ݧ‬Λߦͳ͏ͨΊɼJTES ͷΈʹग़‫͢ݱ‬Δ୯‫ޠ‬Λ. దԠͷ࣮‫ͯؔ͠ʹݧ‬͸ɼదԠσʔλ਺͕ 40 ͔͠ͳ͘ early. Mecab[12] Λ༻͍ͯղੳͨ͠ɽղੳʹΑΓಘΒΕͨ 44 छ. stopping ͷަࠩ‫ݕ‬ఆ͕ਖ਼͘͠ߦ͑ͳ͔ͬͨͨΊɼϕʔεϥ. ྨͷ୯‫ޠ‬Λ୯‫ʹॻࣙޠ‬௥Ճ͠ɼະ஌‫ޠ‬௥ՃϞσϧΛ࡞੒͠. ΠϯͷΈͷ݁ՌΛࣔ͢ɽ. ͨɽ͜ͷ৔߹ೝࣝର৅୯‫਺ޠ‬͸ 49102 ‫ͳͱޠ‬Δɽ Ի੠ೝࣝख๏ͱͯ͠͸ɼ‫ࣨڀݚ‬ಠࣗͷ 2 ύεσίʔμΛ. 5. ༧උ࣮‫ݧ‬. ༻͍Δɽ͜ͷख๏Ͱ͸ɼୈ 1 ύεͰ triphone ͱ bigram Λ. ֤छύϥϝʔλΛܾΊΔͨΊ༧උ࣮‫ݧ‬Λߦͬͨɽ͍ͣΕ. ༻͍ͯϏʔϜαʔνΛߦ͍୯‫ޠ‬άϥϑΛ࡞੒͠ɼୈ 2 ύε. ΋ධՁσʔλͷ࿩ऀΛ 2 ໊ʹ‫ݮ‬Βͨ͠ 80 ൃ࿩ʢ10 จ × 4. Ͱ͸ੜ੒ͨ͠୯‫ޠ‬άϥϑΛ trigram ͰϦείΞ͠ɼೝࣝ݁. ‫ײ‬৘ × 2 ࿩ऀʣΛ࢖༻ͨ͠ɽࣄ‫ิ཰֬ޙ‬ਖ਼ͷ੍‫཰ݶ‬Λܾ. ՌΛಘΔߏ੒ͱͳ͍ͬͯΔɽԻ੠ೝࣝΛߦ͏ࡍͷϏʔϜ෯. ΊΔͨΊɼϕʔεϥΠϯ৚݅Ͱछʑͷ੍‫཰ݶ‬Λ༩͑ɼ୯‫ޠ‬. ʹؔͯ͠͸୯‫ ಺ޠ‬200ɼ୯‫ ؒޠ‬120ɼԾઆ਺ 2400 ͱͨ͠ɽ. ‫ޡ‬Γ཰Λ‫ٻ‬Ίͨɽ݁ՌΛද 4 ʹࣔ͢ɽ͜ͷ݁Ռ͔Β੍‫཰ݶ‬. ·ͨɼୈ 1 ύε͸‫ޠݴ‬ॏΈ 10ɼૠೖϖφϧςΟ −8 ͱ͠ɼ. 0.1 ͕࠷ྑ஋Ͱ͋ͬͨͨΊɼࠓճͷ͢΂ͯͷ࣮‫཰ݶ੍Ͱݧ‬. ୈ 2 ύε͸‫ޠݴ‬ॏΈ 12ɼૠೖϖφϧςΟΛ −24 ͱͨ͠ɽࣄ. Λ 0.1 ʹ‫ݻ‬ఆͨ͠ɽ·ͨదԠ࣌ͷঢ়ଶੜ‫ ཰֬ى‬p(si ) ʹͭ. ‫ิ཰֬ޙ‬ਖ਼ͷ੍‫཰ݶ‬͸ 5 અͷ༧උ࣮‫ݧ‬Λ΋ͱʹ 0.1 ͱͨ͠ɽ. ͍ͯɼCSJ ͷֶशσʔλ͔Βࢉग़ͨ͠৔߹ͱదԠσʔλ͔. ධՁσʔλͱͯ͠ɼJTES ͷத͔Β 400 ൃ࿩ʢ10 จ × 4. Βࢉग़ͨ͠৔߹ͷɼ͍ͣΕ͕ྑ͍͔Λௐࠪ͢ΔͨΊʮίʔ. ‫ײ‬৘ × 10 ࿩ऀʣΛ༻͍ͨɽ·ͨదԠσʔλͱͯ͠ɼධՁ. ύεదԠʯͷ৚݅Ͱ‫ݕ‬౼ͨ͠ɽͳ͓ɼ͜ͷͱ͖ͷΤϙοΫ. ʹ༻͍ͳ͍จΛ༻͍ͨɽ۩ମతʹ͸ɼද 2 ͷ௨ΓͰ͋Δɽ. ਺͸ 1 ͱͨ͠ɽ࣮‫ݧ‬ΑΓֶशσʔλ͔Βੜ‫཰֬ى‬Λ‫ٻ‬Ίͨ. ͳ͓ early stopping ͰΤϙοΫ਺Λܾఆ͢Δࡍ͸దԠσʔ. ৔߹ͷ୯‫ޡޠ‬Γ཰͸ 24.31 %ͩͬͨͷʹର͠ɼదԠσʔλ. λΛ 9:1 ʹ෼ׂ͠ 1 ׂΛަࠩ‫ݕ‬ఆ༻σʔλͱͯ͠༻͍Δɽ. ͔Β‫ٻ‬Ίͨ৔߹ͷ୯‫ޡޠ‬Γ཰͸ 79.31 %ͱେ෯ʹੑೳ͕௿. ֤దԠͷ࣮‫ݧ‬৚݅ʹ͍ͭͯҎԼʹࣔ͢ɽ͍ͣΕ΋‫͖ͭࢣڭ‬. Լͨ͠ɽ͜Ε͸దԠσʔλ਺͕গͳ͘ద੾ʹੜ‫ٻ͕཰֬ى‬. దԠΛ࣮ࢪͨ͠ɽ. ·Βͳ͔ͬͨͨΊͩͱߟ͑ΒΕΔɽҎ্ΑΓɼCSJ ͷֶश. ࿩ऀదԠ ಉҰ࿩ऀͷσʔλͰదԠΛߦͬͨɽ‫ײ‬৘ʹର͠. σʔλ͔Βࢉग़ͨ͠ঢ়ଶੜ‫཰֬ى‬Λ࢖༻͢Δɽ. ͯ͸ඇґଘͱͳΔɽ. ·ͨɼࢀߟͷͨΊʹॳ‫ظ‬Ի‫ڹ‬Ϟσϧɼ‫ޠݴ‬Ϟσϧͷੑೳ. ίʔύεదԠ ॳ‫ظ‬Ϟσϧͷֶशʹ࢖༻ͨ͠ CSJ ͱධՁର. Λ CSJ ͷ testset1 ͷֶձஉੑ 10 ߨԋͱ JTES ͷධՁσʔ. ৅ͷ JTES Ͱ͸Ի‫͕ڥ؀ڹ‬େ͖͘ҟͳΔͨΊɼJTES. λ 400 จͰ֬ೝͨ͠ɽCSJ ͷ testset1 Ͱ͸ɼೝࣝ৚݅ͷୈ. ͷ‫΁ڥ؀‬దԠͨ͠ɽదԠσʔλྔ͕ଟ͍ͱ͍͏ಛ௃͕. ೋύεͷ஋Λ‫ޠݴ‬ॏΈ 14ɼૠೖϖφϧςΟ −8 ͱ͠ɼࣄ. ͋Δɽ࿩ऀɾ‫ײ‬৘ඇґଘͷదԠͱͳΔɽ. ‫ิ཰֬ޙ‬ਖ਼Λ࢖༻͠ͳ͍৔߹Ͱɼ୯‫ޡޠ‬Γ཰͸ 15.12 %Ͱ. ‫ײ‬৘దԠ ಛఆͷ‫ײ‬৘ʹదԠͨ͠‫ײ‬৘ґଘϞσϧͷੑೳΛ. ͋ͬͨɽJTES ͷධՁσʔλ 400 จͰ͸ɼೝࣝ৚݅ͷୈೋ. ਤΔͨΊͷ࣮‫ݧ‬ɽ࿩ऀʹରͯ͠͸ඇґଘͱͳΔɽ. ύεͷ஋Λ‫ޠݴ‬ॏΈ 14ɼૠೖϖφϧςΟ −8 ͱ͠ɼࣄ‫֬ޙ‬. ࿩ऀ‫ײ‬৘దԠ ࿩ऀ͓Αͼ‫ײ‬৘ͷ྆ํ΁దԠͨ͠৔߹ͷ࣮. ཰ิਖ਼ α = 0.1 ͱͨ͠৔߹Ͱɼ୯‫ޡޠ‬Γ཰ 38.10 %ɼԻૉ. c 2017 Information Processing Society of Japan. 3.

(4) Vol.2017-SLP-119 No.7 2017/12/21. ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report ද 2 ໊শɹ ࿩ऀదԠ ίʔύεదԠ ‫ײ‬৘దԠ ࿩ऀ‫ײ‬৘దԠ. ද 5. దԠ࣮‫ͦͱݧ‬ΕʹରԠ͢ΔదԠσʔλ. దԠσʔλ਺. దԠϞσϧ਺. 160 ൃ࿩ʢ40 จ × 4 ‫ײ‬৘ × ධՁ࿩ऀ 1 ࿩ऀʣ. 10ʢ = ධՁ࿩ऀ਺ʣ. 14400 ൃ࿩ʢ40 จ × 4 ‫ײ‬৘ × 90 ࿩ऀʣ. 1. 3600 ൃ࿩ʢ40 จ × ධՁ‫ײ‬৘ 1 ‫ײ‬৘ × 90 ࿩ऀʣ. 4ʢ = ‫ײ‬৘਺ʣ. 40 ൃ࿩ʢ40 จ × ධՁ‫ײ‬৘ 1 ‫ײ‬৘ × ධՁ࿩ऀ 1 ࿩ऀʣ. 40ʢ = ධՁ࿩ऀ × ‫ײ‬৘਺ʣ. ࿩ऀదԠҎ֎ͷదԠ࣮‫ݧ‬ͷ early stopping ʹΑΓܾఆͨ͠Τ ϙοΫ਺ దԠ࣮‫ݧ‬. Ϟσϧ. ΤϙοΫ਺. ίʔύεదԠ. ίʔύεϞσϧ. 1. ‫ײ‬৘దԠ. ౖΓϞσϧ. 2. ‫ͼت‬Ϟσϧ. 3. ൵͠ΈϞσϧ. 1. ฏৗϞσϧ. 2. ࿩ऀదԠ. 11 ʙ 23. ɹɹ˞࿩ऀదԠ͸࿩ऀʹΑΓҟͳΔ. ‫ޡ‬Γ཰ 14.56 %Ͱ͋ͬͨɽ. 6. ࣮‫݁ݧ‬Ռ ֤దԠ࣮‫ݧ‬ͷೝࣝ݁Ռͱͯ͠୯‫ޡޠ‬Γ཰ʢWERʣΛਤ. 2ɼԻૉ‫ޡ‬Γ཰ʢPERʣΛਤ 3 ʹ‫͢ࡌه‬Δɽਤʹ͓͍ͯԣ. ਤ 4. ίʔύεదԠʹ͓͚ΔΤϙοΫ਺ 5 ·Ͱͷ WERʢനൈ͖෦ ෼͸ early stopping ܾఆՕॴʣ. ࣠͸֤దԠ࣮‫ݧ‬ͷछผΛɼຌྫʹ͍ͭͯ͸ɼepoch5 ͸ै དྷͷΤϙοΫ਺ 5 Ͱ‫ݻ‬ఆͨ͠৔߹ɼearly stopping ͸ early. ͱ͸Ͱ͖ͳ͔ͬͨɽҰํͰɼ‫ײ‬৘ೝࣝͷ࣮‫݁ݧ‬Ռͱͯ͠จ. stopping Λ࢖༻͠ΤϙοΫ਺Λܾఆͨ͠ϞσϧΛ࢖༻͠. ‫[ ݙ‬13] ΍จ‫[ ݙ‬14] Ͱ͸ɼ‫ײ‬৘‫౓ڧ‬ผͰೝࣝ͢Δ͜ͱʹΑΓ. ͨ৔߹ɼestop+unkmodel ͸ early stopping Ͱܾఆͨ͠Τ. ‫ײ‬৘ೝࣝͷਫ਼౓͕޲্͍ͯ͠Δɽ͜ΕΒͷ݁Ռ͔Βɼ‫ײ‬৘. ϙοΫ਺ͷԻ‫ڹ‬Ϟσϧͷར༻ʹՃ͑ɼະ஌‫ޠ‬௥ՃϞσϧΛ. ‫͕౓ڧ‬ҟͳΕ͹Ի‫ڹ‬తಛ௃͕ҟͳΔՄೳੑ͕͋Δɽࠓ‫ޙ‬͸. ࢖༻ͨ͠৔߹Λҙຯ͢Δɽ·ͨɼearly stopping ͷࡍʹܾ. ͜ͷ఺΋ߟྀ࣮ͯ͠‫͢ݧ‬Δඞཁ͕͋Δɽ·ͨɼ࿩ऀదԠ͸. ఆ͞Ε֤ͨదԠ‫ޙ‬ϞσϧͷΤϙοΫ਺Λද 5 ʹ‫͢ࡌه‬Δɽ. ίʔύεదԠ΍‫ײ‬৘దԠΑΓ΋ߴ͍ੑೳ͕ಘΒΕ͍ͯΔɽ. early stopping ʹΑΔ‫͋ࢣڭ‬ΓదԠ࣮‫ݧ‬ͷ݁ՌͰ͸ɼ͍ ͣΕ΋ੑೳ໘ͰΤϙοΫ਺ 5 ‫ݻ‬ఆ࣌ͷ݁ՌΑΓ΋վળͯ͠ ͍ͨɽ࠷ऴతͳΤϙοΫ਺Λ֬ೝ͢Δͱ࿩ऀదԠΛআ͖ɼ. 1 ͔Β 3 ఔ౓Ͱఀࢭ͓ͯ͠ΓɼΤϙοΫ਺ 5 ‫ݻ‬ఆͰ͸શମ ͷదԠ࣮‫͍͓ͯʹݧ‬աֶशͷ܏޲͕͋ͬͨɽ. ͜ͷͨΊɼ࿩ऀʹΑΔεϖΫτϧͷมಈ͸૬ରతʹӨ‫͕ڹ‬ େ͖͍ͱ‫͑ݴ‬Δɽ. 7. ·ͱΊ ຊ‫Ͱڀݚ‬͸‫ײ‬৘Ի੠ίʔύε JTES ΛɼదԠɾධՁσʔ. ίʔύεదԠʹ͍ͭͯΤϙοΫ਺ͱೝࣝੑೳͷؔ܎Λௐ. λͱͨ͠Ի੠ೝ࣮ࣝ‫ݧ‬Λߦͳͬͨɽจ‫[ ݙ‬4] Ͱ͸‫ײ‬৘Ի੠. ࠪͨ͠ɽίʔύεదԠͷ݁ՌΛਤ 4 ʹࣔ͢ɽਤ 4 ΑΓίʔ. σʔλϕʔε JTES Λɼ‫ײ‬৘΍࿩ऀ΍ίʔύεͱ͍ͬͨछ. ύεదԠͷ৔߹ͷ࠷ྑͷೝࣝ݁Ռ͸ΤϙοΫ਺ 1 ͰಘΒΕ. ผʹ෼ׂ͠ɼԻ‫ڹ‬ϞσϧదԠ͢Δ͜ͱʹΑΓೝࣝਫ਼౓ͷ޲. ͍ͯΔͷ͕෼͔Δ͕ɼ͜Ε͸ early stopping Ͱͷࣗಈܾఆ. ্ΛࢼΈͨɽ. ΤϙοΫ਺ʹҰக͢Δɽະ஌‫ޠ‬ͷӨ‫ͯؔ͠ʹڹ‬͸ධՁσʔ. ຊߘͰ͸ߋʹ early stopping ͷ‫ݕ‬౼ͱະ஌‫ޠ‬Λ௥Ճͨ͠. λͷະ஌‫཰ޠ‬໿ 3 %ʹରͯ͠ɼ୯‫ޡޠ‬Γ཰͕໿ 2 ϙΠϯ. ‫ޠݴ‬ϞσϧʹΑΔධՁΛߦͳͬͨɽ࣮‫݁ݧ‬ՌΑΓɼearly. τվળ͢Δͱ͍ͬͨ݁Ռʹͳͬͨɽ·ͨɼະ஌‫ޠݴޠ‬Ϟσ. stopping ࢖༻લͷೝࣝਫ਼౓ͱൺֱ͠ɼશͯͷదԠϞσϧͷ. ϧΛར༻͠ɼΤϙοΫ਺Λࣗಈܾఆͨ͠৔߹ɼ࿩ऀదԠ͕. ೝࣝਫ਼౓Ͱվળ͕ಘΒΕͨɽະ஌‫ͯؔ͠ʹޠ‬͸͍ͣΕͷద. 23.05 %Ͱ࠷ྑͷ݁Ռ͕ಘΒΕͨɽ. ԠϞσϧʹΑΔೝࣝͰ΋ 2 ϙΠϯτఔ౓ͷվળ͕ಘΒΕ. ֤దԠͷޮՌʹ͍ͭͯߟ࡯͢ΔɽదԠલͷ WER ͸ 5 ষ. ͨɽ͔͠͠ɼࠓճ‫ݕ‬౼ͨ͠ early stopping ͱະ஌‫ޠ‬Λ௥Ճ. ͷ݁ՌΑΓ 38.10 %Ͱ͋Γɼ͜Εͱൺֱ͍ͯͣ͠ΕͷదԠ. ͨ͠‫ޠݴ‬ϞσϧʹΑΔ݁ՌͰ͸ɼίʔύεదԠͱ‫ײ‬৘దԠ. ΋ޮՌతͰ͋Δ͜ͱ͕෼͔ΔɽίʔύεదԠͱ‫ײ‬৘దԠΛ. Ͱ͋·Γେࠩͷͳ͍ੑೳ͕ಘΒΕͨɽ͜ͷ͜ͱ͔Βɼεϖ. ൺֱ͢ΔͱɼWER ʹ͓͍ͯ͸ίʔύεదԠɼPER ʹ͓͍. ΫτϧʹΑΔ‫ײ‬৘ຖͷదԠͷޮՌΛ֬ೝͰ͖ͳ͔ͬͨɽ͜. ͯ͸‫ײ‬৘దԠͰए‫্ׯ‬ճ͍ͬͯΔ͕ɼ྆ऀ͸େ͕ࠩͳ͍ͱ. ͷ‫ݪ‬Ҽͱͯ͠‫ײ‬৘දग़ͷ‫͕౓ڧ‬࿩ऀʹΑΓେ͖͘ҟͳͬͯ. ‫͑ݴ‬Δɽ͜ͷͨΊࠓճ͸‫ײ‬৘ຖͷదԠͷޮՌ͸֬ೝ͢Δ͜. ͍Δͱߟ͑ΒΕΔɽ·ͨɼearly stoppingɼະ஌‫ޠ‬Λ௥Ճ͠. c 2017 Information Processing Society of Japan. 4.

(5) Vol.2017-SLP-119 No.7 2017/12/21. ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report. ਤ 2. ֤దԠ࣮‫ݧ‬ͷ୯‫ޡޠ‬Γ཰ʢ࿩ऀ‫ײ‬৘దԠʹ͍ͭͯ͸దԠσʔλ਺͕গྔͷͨΊަࠩ‫ݕ‬ఆ ͕ߦ͑ͣɼearly stopping Ҏ߱ͷ࣮‫ݧ‬Λߦͳ͍ͬͯͳ͍ʣ. ਤ 3. ֤దԠ࣮‫ݧ‬ͷԻૉ‫ޡ‬Γ཰. ͨ‫ޠݴ‬ϞσϧΛ࢖༻ͨ͠৔߹ͷ͍ͣΕͷ৚݅ʹ͓͍ͯ΋ɼ. ࢀߟจ‫ݙ‬. ‫ײ‬৘Ի੠ೝࣝʹ͓͍ͯ࿩ऀదԠ͕࠷ྑͰ͋Γɼ23.05 %ͷ. [1]. ୯‫ޡޠ‬Γ཰Λୡ੒ͨ͠ɽ͜ͷ͜ͱ͔Βɼ࿩ऀʹΑΔεϖΫ τϧͷมಈ͸૬ରతʹӨ‫͕ڹ‬େ͖͍ͱ‫͑ݴ‬Δɽ ࠓ‫ޙ‬ͷ՝୊ͱͯ͠ɼ‫ײ‬৘దԠͷੑೳ޲্ͷ‫ݕ‬౼Λߦͳ. [2]. ͏ɽ͜ͷ৔߹ɼ୯७ʹ‫ײ‬৘ผͰదԠ͢ΔͷͰ͸ͳ͘ɼ‫ײ‬৘ ͷ‫౓ڧ‬΋ߟྀͨ͠దԠΛ‫ݕ‬౼͢Δɽ·ͨɼࠓճ͸ CSJ ͷ. [3]. σʔλΛ༻͍ͯ‫ޠݴ‬ϞσϧͷߏஙΛߦͳ͍ͬͯΔ͕ɼCSJ ͱ Twitter ͷൃ‫Ͱݴ‬͸େ͖͘୯‫ޠ‬ͷग़‫ݱ‬ස౓͕ҟͳΔ͜ͱ. [4]. ͕༧૝͞ΕΔɽ͜ͷͨΊɼࠓ‫ޙ‬͸‫ޠݴ‬ϞσϧͷదԠ΋ߦͳ ͍ߋͳΔੑೳ޲্ΛਤΓ͍ͨɽ ँࣙ. [5]. ຊ ࣮ ‫ ݧ‬ͷ Ұ ෦ ͸ Պ ‫ ݚ‬අ (՝ ୊ ൪ ߸ 16K00227ɼ. 15H02720ʣʹΑͬͨɽ. c 2017 Information Processing Society of Japan. [6]. ༗ຊଞɼʠ‫ײ‬৘Ի੠ͷίʔύεߏஙͱԻ‫ڹ‬తಛ௃ͷ෼ੳ -MMORPG ʹ͓͚ΔԻ੠νϟοτΛར༻ͨ͠ର࿩தʹද Εͨ‫ײ‬৘ͷࣝผ-ɼʡ ৘ใॲཧֶձ‫ڀݚ‬ใࠂ, Իָ৘ใՊ ֶ, Vol.74, 133–138, 2008. ෢ੴଞɼʠΤϯτϩϐʔʹ‫ͮ͘ج‬Իӆɾӆ཯όϥϯε‫ײ‬ ৘ґଘจͷઃ‫ͱܭ‬ධՁɼʡిࢠ৘ใ௨৴ֶٕज़‫ڀݚ‬ใࠂɼ 115(253)ɼ33–38ɼ2015ɽ ෢ੴଞɼ ʠ‫ײ‬৘Ի੠σʔλϕʔε JTES ͷԻ੠߹੒ʹΑΔ ධՁɼʡԻ‫ֶڹ‬ձߨ࿦ूʢय़ʣɼ335–338ɼ2017ɽ ૬ᖒଞɼ ʠ‫ײ‬৘Ի੠σʔλϕʔε JTES Λ༻͍ͨ‫ײ‬৘Ի ੠ೝࣝʹ͓͚Δ DNN-HMM Ի‫ڹ‬ϞσϧదԠͷ‫ݕ‬౼ɼ ʡԻ ‫ֶڹ‬ձߨ࿦ूʢळʣɼ97–100ɼ2017ɽ K.Maekawa. ʠCorpus of Spontaneous Japanese: Its design and evaluation,ʡIn Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 1– 6, 2003. ߴ໺ଞɼ ʠ‫ײ‬৘ؔ࿈‫ޠ‬Λ༻͍ͨ‫ײ‬৘ਪఆ๏ͷఏҊͱχϡʔ εαΠτΞΫηεղੳ΁ͷԠ༻ɼ ʡ೔ຊ‫ײ‬ੑ޻ֶձ࿦จࢽɼ. 5.

(6) ৘ใॲཧֶձ‫ڀݚ‬ใࠂ IPSJ SIG Technical Report. [7]. [8]. [9] [10] [11] [12] [13]. [14]. Vol.2017-SLP-119 No.7 2017/12/21. 11ɼ3ɼ495–502ɼ2012ɽ ߥੜଞɼ ʠର࿩Ի੠߹੒ͷͨΊͷԻӆɾӆ཯ίϯςΩετ Λߟྀͨ͠Ի੠ίʔύεߏங๏ͷ‫ݕ‬౼ɼ ʡԻ‫ֶڹ‬ձߨ࿦ू ʢय़ʣɼ499–500ɼ2013ɽ Yacoub et al.ɼʠRecognition of emotions in interactive voice response systemsɼ ʡin Proc. INTERSPEECH ɼ729– 732ɼ2003ɽ ෌ాଞɼ ʠߴਫ਼౓ͳॳ‫ظ‬ϞσϧΛ༻͍ͨ‫͠ͳࢣڭ‬Ϋϩεద ԠͷධՁɼʡԻ‫ֶڹ‬ձߨ࿦ूʢळʣ ɼ95–98ɼ2016ɽ ޲‫ݪ‬ଞɼ ʠϘτϧωοΫಛ௃ྔΛ༻͍ͨ‫ײ‬৘Ի੠ೝࣝͷ‫ݕ‬ ౼ɼʡԻ‫ֶڹ‬ձߨ࿦ूʢय़ʣ ɼ43–44ɼ2016ɽ D.Povey et al.,ʠThe Kaldi Speech Recognition Toolkit,ʡ in Proc. ASRU, 2010. Mecabɼhttp://taku910.github.io/mecab/ Ѩ෦ଞɼʠSVM Λ༻͍ͨࣗൃର࿩Ի੠ͷ‫ײ‬৘ೝࣝʹ͓͚ Δֶशσʔλͷ‫ݕ‬౼ʡɼ৘ใॲཧֶձ౦๺ࢧ෦‫ڀݚ‬ใࠂɼ 7-A3-3ɼ2016ɽ ෢ੴଞɼ ʠ‫ײ‬৘Ի੠σʔλϕʔεߏஙʹ޲͚ͨԻӆɾӆ཯ όϥϯε‫ײ‬৘Ի੠ͷ༧උత෼ੳɼ ʡԻ‫ֶڹ‬ձߨ࿦ूʢळʣ ɼ 209–212ɼ2016ɽ. c 2017 Information Processing Society of Japan. 6.

(7)

参照

関連したドキュメント

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ

We conducted sound lateralization tests that involved determining the location of a sound image, using inter-aural time difference (ITD) as an indicator, for four patients exhibiting

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると

Acute effects of static stretching on the hamstrings using shear elastic modulus determined by ultrasound shear wave elastography: Differences in flexibility between

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察