感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討
6
0
0
全文
(2) Vol.2017-SLP-119 No.7 2017/12/21. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. औΕͨจষηοτΛΤϯτϩϐʔʹΑΔจબΞϧΰϦζ Ϝ [7] Λ༻͍֤ͯײ 50 จͷબग़͕ߦΘΕΔ [2]ɽͦΕΒ ͷจʹର͠ओ؍ධՁʹΑΓײͷదੑΛ֬ೝ͠ɼԻͷ ऩ͕ߦΘΕͨɽऩͷࡍʹʮ͕ࣗҙਤ͢ΔײΛϩ Ϙοτʢػցʣʹ͑ΔΑ͏ʹʯൃ͠ɼౖΓʹؔͯ͠ ʮhot angerʢౖܹ͍͠Γʣʯ[8] Λҙࣝ͢ΔΑ͏ʹࢦࣔͯ͠ ͍Δɽ. 3. దԠɾೝࣝख๏ ਤ 1. ຊষͰɼຊ࣮͍༻ͰݧΒΕͨదԠ͓Αͼೝࣝख๏ʹͭ. ग़ྗ֬ิঈͷઆ໌ਤ. ͍ͯड़Δɽࠓճͷ࣮ͰݧదԠσʔλʹਖ਼ղςΩετ͕ ४උͰ͖Δ͜ͱΛલఏͱ͖ͨ͠ࢣڭదԠΛߦͳ͏ʢࢣڭ. 3.3 ޠݴϞσϧͷະޠରԠ. ͳ͠దԠͷ݁Ռʹ͍ͭͯจ[ ݙ4] Λࢀরͷ͜ͱʣɽదԠ. ޠݴϞσϧʹ͍ͭͯɼจ[ ݙ10] ͰλεΫΫϩʔζͷݴ. ʹ͓͍ͯΤϙοΫࣗಈܾఆͷͨΊ early stopping Λ. ޠϞσϧΛ༻͍͍ͯΔ͕ɼຊ࣮ͰݧԻೝࣝͷ൚༻ੑΛ. ༻͢ΔɽDNN-HMM Λ༻͍ͨೝࣝʹ͓͍ͯࣄิ֬ޙ. ߟ͑ɼผλεΫʹΑΓޠݴϞσϧͷߏஙΛߦͳ͍ͬͯΔɽ. ਖ਼๏Λซ༻͢Δɽ·ͨޠݴϞσϧͷະޠରԠʹ͍ͭͯड़. ֶशσʔλྔΛ֬อ͢ΔͨΊʹɼࠓճ CSJ Λར༻ͨ͠ɽ. Δɽ. ͔͠͠ɼCSJ ߨԋԻͰ͋Δͷʹର͠ɼJTES Twitter ͷᄁ͖Λ͓ͯ͠ʹجΓɼະޠଟ͘·ؚΕΔɽͦ͜Ͱࠓ ճ୯ʹॻࣙޠະޠΛՃ͢Δ͜ͱʹΑΓɼ͜ͷʹ. 3.1 early stopping early stopping ֶशదԠ࣌ͷΤϙοΫΛࣗಈܾఆ. ରॲͨ͠ɽ. ͢Δख๏Ͱ͋Δɽ͜ͷख๏Ͱ DNN ͷ fine-tuning Λߦͳ. ·ͣɼCSJ Ͱग़͢ݱΔ୯ޠΛج४ͱͯ͠ɼJTES ʹ͓͚. ͏ࡍʹɼֶशʢదԠʣσʔλΛ։ൃσʔλͱධՁσʔλʹ. Δະͯؔ͠ʹޠௐࠪͨ͠ͱ͜ΖɼධՁσʔλͰ 3.15 %ͷ. ׂͯ͠ަࠩݕఆΛߦͳ͍ɼ܁Γฦ͠ʹ͓͍ͯϑϨʔϜೝ. ະ͕ޠଘࡏͨ͠ɽ͜ͷͨΊ CSJ ͔Β࡞ͨ͠ޠݴϞσ. ࣝͷվળ͕ᮢҎԼʹͳͬͨ߹ʹ܁Γฦ͠Λఀࢭ͢. ϧΛ༻͍ͨධՁͷࡍɼ͜ͷఔͷ୯ޡޠΓ͕ੜͣΔɽຊ. ΔɽຊͰڀݚ։ൃσʔλͱධՁσʔλͷׂׂ߹Λ 9 : 1. ߘͰ͜ΕΒͷະޠΛՃͨ͠ޠݴϞσϧΛ༻͍ͯɼະ. ͱͨ͠ɽ. ޠͷӨڹΛഉআͨ͠ධՁΛߦͳ͏ɽ. 4. ࣮ݧ݅. 3.2 ࣄิ֬ޙਖ਼ ೝࣝ࣌ʹ DNN ͷࣄ֬ޙͷิਖ਼Λߦ͏ [9]ɽग़ྗ֬. ԻੳͰɼ16 kHz αϯϓϦϯάɼ16 bit ྔࢠԽͷԻ. ࢉܭͷࡍʹɼແԻͳͲҰ෦ͷԻૉͰঢ়ଶͷੜۃ͕֬ى. ৴߸ʹରͯ͠ɼੳ૭ͱͯ͠ϋϛϯά૭Λ༻͍ɼϑϨʔ. ʹେ͖͘ͳΔʹରͯ͠ରԠ͕ՄೳͱͳΔɽDNN-HMM. Ϝ 25 msecɼϑϨʔϜप ظ8 msec ͱͨ͠ɽೖྗಛɼ. ʹ͓͚Δग़ྗ֬ࣜ (1) ͷΑ͏ʹٻΊΒΕΔɽ. 24 ࣍ݩͷϑΟϧλόϯΫͱରύϫʔɼͦͼٴͷ 1 ࣍ͱ 2. p(x|si ) =. p(si |x)p(x) p(si ). (1). ͜ͷͱ͖ɼp(x) ೖྗಛͷੜ͕ͩ֬ىೝࣝʹӨڹΛ ༩͑ͳ͍ͷͰແࢹ͢Δɽp(si ) ঢ়ଶੜ͕ͩ֬ىɼແԻ. ࣍ͷճؼΛؚΊͨ 75 ࣍Ͱݩɼ11 ϑϨʔϜͷηάϝϯ τಛͱͯ͠༻͢Δʢ25 × 3 × 11 = ܭ825 ࣍ ݩʣɽ· ͨɼฏۉࢄਖ਼نԽΛߦ͏ɽ. DNN-HMM ͷߏʹ͍ͭͯɼೖྗͱͯ͠ 825 ϊʔ. ۠ؒͳͲҰ෦ͷԻૉͰඇৗʹେ͖ͳͱͳΓɼग़ྗ͕֬. υɼӅΕͱͯ͠ 7 ͷ 2048 ϊʔυɼग़ྗͱͯ͠ 3003. Լ͢Δɽैͬͯɼ͜ͷʹ੍ݶΛՃ͑Δ͜ͱͰɼ֬ͷ. ϊʔυͱ͠ɼग़ྗಛ HMM ͷঢ়ଶ֬ͱͯ͠༻͍ͨɽ. ԼΛิঈ͢Δɽ۩ମతʹ p(si ) ʹରͯ͠ᮢ (্ݶ)θ. DNN-HMM ͷֶशͰɼֶशπʔϧΩοτͱͯ͠ kaldi[11]. Λઃఆ͠ɼ্ݶΛ͑ͨΛ θ ʹஔ͖͑Δɽ͜ͷࡍ θ . Λ༻͍ͯɼֶशσʔλͱͯ͠ CSJ ͷୈ 1 ͷֶձߨԋ. ࣜ (2) ʹܾ͖ͮجఆ͠ɼͦ͜Ͱ੍ ݶα (0 ≤ α ≤ 1) Λࢦ. 963 ߨԋΛ༻ͨ͠ɽDNN ֶशͷॾ݅Λද 1 ʹࣔ͢ɽ. ఆ͢Δɽ P. DNN ͷֶश pre-training Ͱ੍͖ݶϘϧπϚϯϚγ. α =. i∈D {p(si ) − θ} PI i=1 p(si ). (2). ϯʢRBMʣΛ༻͢Δɽfine-tuning ͰϑϨʔϜຖʹঢ় ଶ൪߸ϥϕϧΛ༩͑ɼֶ͖ͭࢣڭशΛ֬తޯ߱Լ๏. ͜͜Ͱɼi ঢ়ଶ൪߸ɼI ૯ঢ়ଶΛҙຯ͠ɼp(si ) > θ. ʢSGDʣʹΑΔٯࠩޡ๏Ͱߦ͏ɽଛࣦؔʹΫϩε. Λຬͨ͢ i ͷू߹Λ D ͱ͢Δɽp(si ) ͕େ͖͍ॱʹ i Λฒ. ΤϯτϩϐʔΛ༻͍Δɽ͜ΕΒͷ݅ʹΑΓ࡞͞ΕͨϞ. ͼସ͑ͨ߹ͷઆ໌ਤΛਤ 1 ʹࣔ͢ɽ͜ͷํ๏దԠ࣌ͳ. σϧΛॳظϞσϧͱ͢Δɽ. Ͳֶश (దԠ) σʔλ͕গͳ͍߹ಛʹ༗ޮͰ͋Δɽ. c 2017 Information Processing Society of Japan. ࣍ʹޠݴϞσϧʹ͍ͭͯड़ΔɽޠݴϞσϧͷޠኮηο. 2.
(3) Vol.2017-SLP-119 No.7 2017/12/21. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report ද 1. DNN ֶशͷॾ݅ pre-training. ֶश. ୈ 1 ͷΈ 0.01ʙ0.001 . ද 3 ֶश. DNN దԠͷॾ݅ 0.0001. ϛχόοναΠζ. 2048. ݮগɽୈ 2 ʙୈ 7 . ϞϝϯλϜ. 0. 0.4ʙ0.04 ݮগ.. L2 ਖ਼ଇԽ. 0.0002. ΤϙοΫ. ަࠩݕఆʹΑΓϑϨʔϜ. ΤϙοΫ. 10ʢ1 ͷΈ 20ʣ. ϛχόοναΠζ. 1024. ೝ্͕ࣝ 0.005% ະຬ. ϞϝϯλϜ. 0.9ʢ࠷ॳͷ 50 ࣌ؒσʔλ. ͷ߹ఀࢭ. ͷΈ 0.5ʙ0.9 ૿Ճʣ. L2 ਖ਼ଇԽ. 0.0002 fine-tuning. ֶश ΤϙοΫ. 0.008 ަࠩݕఆʹΑΓϑϨʔϜ. ද 4. ੍֤͚͓ʹݶΔೝࣝ݁Ռ (WER[%]). ੍ݶ. 0.00. 0.05. 0.10. 0.15. Average. 39.33. 37.79. 36.12. 36.75. ೝ্͕ࣝ 0.1% ະຬ ϛχόοναΠζ. ͷ߹ఀࢭ. ݧɽԻͯ͠ͱڥڹҰ൪Ϛονͨ݅͠ͱͳΔ͕ɼ. 512. దԠσʔλগͳ͍ɽऀɾײґଘͷదԠͱͳΔɽ దԠޙϞσϧΛ༻͍ͨೝ࣮͍͓ࣝͯʹݧɼ5 અͷ༧උ. τ CSJ ͷֶձߨԋͼٴٖߨԋ͔Βग़ݱճ 2 ճҎ্. ࣮ݧΛͱʹֶशσʔλʢCSJʣ͔Βࢉग़ͨ͠ঢ়ଶੜ֬ى. ͷ୯ޠΛ߹Θͤͨ 49,058 ͢ͱޠΔɽޠݴϞσϧ bigram. Λ༻͍ͨɽ·ͨɼDNN దԠͷॾ݅ද 3 ͷΑ͏ʹఆ. ͱ trigram ͷ 2 छྨΛ༻͍ɼ૯୯ޠ 6.68 M ͷ CSJ ͷ. ΊͨɽຊߘͰɼද 3 ʹ͓͚ΔΤϙοΫΛ 5 ͱݻఆͨ͠. ֶशσʔλΑΓੜ͢Δɽ͞Βʹ JTES ʹग़͢ݱΔະޠ. ߹͕ϕʔεϥΠϯͱͳΔɽ͜ͷ݅ʹ͓͍ͯɼऀײ. ΛՃ࣮͑ͨݧΛߦͳ͏ͨΊɼJTES ͷΈʹग़͢ݱΔ୯ޠΛ. దԠͷ࣮ͯؔ͠ʹݧɼదԠσʔλ͕ 40 ͔͠ͳ͘ early. Mecab[12] Λ༻͍ͯղੳͨ͠ɽղੳʹΑΓಘΒΕͨ 44 छ. stopping ͷަࠩݕఆ͕ਖ਼͘͠ߦ͑ͳ͔ͬͨͨΊɼϕʔεϥ. ྨͷ୯ޠΛ୯ʹॻࣙޠՃ͠ɼະޠՃϞσϧΛ࡞͠. ΠϯͷΈͷ݁ՌΛࣔ͢ɽ. ͨɽ͜ͷ߹ೝࣝର୯ޠ 49102 ͳͱޠΔɽ Իೝࣝख๏ͱͯ͠ɼࣨڀݚಠࣗͷ 2 ύεσίʔμΛ. 5. ༧උ࣮ݧ. ༻͍Δɽ͜ͷख๏Ͱɼୈ 1 ύεͰ triphone ͱ bigram Λ. ֤छύϥϝʔλΛܾΊΔͨΊ༧උ࣮ݧΛߦͬͨɽ͍ͣΕ. ༻͍ͯϏʔϜαʔνΛߦ͍୯ޠάϥϑΛ࡞͠ɼୈ 2 ύε. ධՁσʔλͷऀΛ 2 ໊ʹݮΒͨ͠ 80 ൃʢ10 จ × 4. Ͱੜͨ͠୯ޠάϥϑΛ trigram ͰϦείΞ͠ɼೝࣝ݁. ײ × 2 ऀʣΛ༻ͨ͠ɽࣄิ֬ޙਖ਼ͷ੍ݶΛܾ. ՌΛಘΔߏͱͳ͍ͬͯΔɽԻೝࣝΛߦ͏ࡍͷϏʔϜ෯. ΊΔͨΊɼϕʔεϥΠϯ݅Ͱछʑͷ੍ݶΛ༩͑ɼ୯ޠ. ʹؔͯ͠୯ ޠ200ɼ୯ ؒޠ120ɼԾઆ 2400 ͱͨ͠ɽ. ޡΓΛٻΊͨɽ݁ՌΛද 4 ʹࣔ͢ɽ͜ͷ݁Ռ͔Β੍ݶ. ·ͨɼୈ 1 ύεޠݴॏΈ 10ɼૠೖϖφϧςΟ −8 ͱ͠ɼ. 0.1 ͕࠷ྑͰ͋ͬͨͨΊɼࠓճͷͯ͢ͷ࣮ݶ੍Ͱݧ. ୈ 2 ύεޠݴॏΈ 12ɼૠೖϖφϧςΟΛ −24 ͱͨ͠ɽࣄ. Λ 0.1 ʹݻఆͨ͠ɽ·ͨదԠ࣌ͷঢ়ଶੜ ֬ىp(si ) ʹͭ. ิ֬ޙਖ਼ͷ੍ݶ 5 અͷ༧උ࣮ݧΛͱʹ 0.1 ͱͨ͠ɽ. ͍ͯɼCSJ ͷֶशσʔλ͔Βࢉग़ͨ͠߹ͱదԠσʔλ͔. ධՁσʔλͱͯ͠ɼJTES ͷத͔Β 400 ൃʢ10 จ × 4. Βࢉग़ͨ͠߹ͷɼ͍ͣΕ͕ྑ͍͔Λௐࠪ͢ΔͨΊʮίʔ. ײ × 10 ऀʣΛ༻͍ͨɽ·ͨదԠσʔλͱͯ͠ɼධՁ. ύεదԠʯͷ݅Ͱݕ౼ͨ͠ɽͳ͓ɼ͜ͷͱ͖ͷΤϙοΫ. ʹ༻͍ͳ͍จΛ༻͍ͨɽ۩ମతʹɼද 2 ͷ௨ΓͰ͋Δɽ. 1 ͱͨ͠ɽ࣮ݧΑΓֶशσʔλ͔Βੜ֬ىΛٻΊͨ. ͳ͓ early stopping ͰΤϙοΫΛܾఆ͢ΔࡍదԠσʔ. ߹ͷ୯ޡޠΓ 24.31 %ͩͬͨͷʹର͠ɼదԠσʔλ. λΛ 9:1 ʹׂ͠ 1 ׂΛަࠩݕఆ༻σʔλͱͯ͠༻͍Δɽ. ͔ΒٻΊͨ߹ͷ୯ޡޠΓ 79.31 %ͱେ෯ʹੑೳ͕. ֤దԠͷ࣮ݧ݅ʹ͍ͭͯҎԼʹࣔ͢ɽ͍ͣΕ͖ͭࢣڭ. Լͨ͠ɽ͜ΕదԠσʔλ͕গͳ͘దʹੜٻ͕֬ى. దԠΛ࣮ࢪͨ͠ɽ. ·Βͳ͔ͬͨͨΊͩͱߟ͑ΒΕΔɽҎ্ΑΓɼCSJ ͷֶश. ऀదԠ ಉҰऀͷσʔλͰదԠΛߦͬͨɽײʹର͠. σʔλ͔Βࢉग़ͨ͠ঢ়ଶੜ֬ىΛ༻͢Δɽ. ͯඇґଘͱͳΔɽ. ·ͨɼࢀߟͷͨΊʹॳظԻڹϞσϧɼޠݴϞσϧͷੑೳ. ίʔύεదԠ ॳظϞσϧͷֶशʹ༻ͨ͠ CSJ ͱධՁର. Λ CSJ ͷ testset1 ͷֶձஉੑ 10 ߨԋͱ JTES ͷධՁσʔ. ͷ JTES ͰԻ͕ڥڹେ͖͘ҟͳΔͨΊɼJTES. λ 400 จͰ֬ೝͨ͠ɽCSJ ͷ testset1 Ͱɼೝࣝ݅ͷୈ. ͷڥదԠͨ͠ɽదԠσʔλྔ͕ଟ͍ͱ͍͏ಛ͕. ೋύεͷΛޠݴॏΈ 14ɼૠೖϖφϧςΟ −8 ͱ͠ɼࣄ. ͋ΔɽऀɾײඇґଘͷదԠͱͳΔɽ. ิ֬ޙਖ਼Λ༻͠ͳ͍߹Ͱɼ୯ޡޠΓ 15.12 %Ͱ. ײదԠ ಛఆͷײʹదԠͨ͠ײґଘϞσϧͷੑೳΛ. ͋ͬͨɽJTES ͷධՁσʔλ 400 จͰɼೝࣝ݅ͷୈೋ. ਤΔͨΊͷ࣮ݧɽऀʹରͯ͠ඇґଘͱͳΔɽ. ύεͷΛޠݴॏΈ 14ɼૠೖϖφϧςΟ −8 ͱ͠ɼࣄ֬ޙ. ऀײదԠ ऀ͓Αͼײͷ྆ํదԠͨ͠߹ͷ࣮. ิਖ਼ α = 0.1 ͱͨ͠߹Ͱɼ୯ޡޠΓ 38.10 %ɼԻૉ. c 2017 Information Processing Society of Japan. 3.
(4) Vol.2017-SLP-119 No.7 2017/12/21. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report ද 2 ໊শɹ ऀదԠ ίʔύεదԠ ײదԠ ऀײదԠ. ද 5. దԠ࣮ͦͱݧΕʹରԠ͢ΔదԠσʔλ. దԠσʔλ. దԠϞσϧ. 160 ൃʢ40 จ × 4 ײ × ධՁऀ 1 ऀʣ. 10ʢ = ධՁऀʣ. 14400 ൃʢ40 จ × 4 ײ × 90 ऀʣ. 1. 3600 ൃʢ40 จ × ධՁײ 1 ײ × 90 ऀʣ. 4ʢ = ײʣ. 40 ൃʢ40 จ × ධՁײ 1 ײ × ධՁऀ 1 ऀʣ. 40ʢ = ධՁऀ × ײʣ. ऀదԠҎ֎ͷదԠ࣮ݧͷ early stopping ʹΑΓܾఆͨ͠Τ ϙοΫ దԠ࣮ݧ. Ϟσϧ. ΤϙοΫ. ίʔύεదԠ. ίʔύεϞσϧ. 1. ײదԠ. ౖΓϞσϧ. 2. ͼتϞσϧ. 3. ൵͠ΈϞσϧ. 1. ฏৗϞσϧ. 2. ऀదԠ. 11 ʙ 23. ɹɹ˞ऀదԠऀʹΑΓҟͳΔ. ޡΓ 14.56 %Ͱ͋ͬͨɽ. 6. ࣮݁ݧՌ ֤దԠ࣮ݧͷೝࣝ݁Ռͱͯ͠୯ޡޠΓʢWERʣΛਤ. 2ɼԻૉޡΓʢPERʣΛਤ 3 ʹ͢ࡌهΔɽਤʹ͓͍ͯԣ. ਤ 4. ίʔύεదԠʹ͓͚ΔΤϙοΫ 5 ·Ͱͷ WERʢനൈ͖෦ early stopping ܾఆՕॴʣ. ֤࣠దԠ࣮ݧͷछผΛɼຌྫʹ͍ͭͯɼepoch5 ै དྷͷΤϙοΫ 5 Ͱݻఆͨ͠߹ɼearly stopping early. ͱͰ͖ͳ͔ͬͨɽҰํͰɼײೝࣝͷ࣮݁ݧՌͱͯ͠จ. stopping Λ༻͠ΤϙοΫΛܾఆͨ͠ϞσϧΛ༻͠. [ ݙ13] จ[ ݙ14] ͰɼײڧผͰೝࣝ͢Δ͜ͱʹΑΓ. ͨ߹ɼestop+unkmodel early stopping Ͱܾఆͨ͠Τ. ײೝࣝͷਫ਼্͕͍ͯ͠Δɽ͜ΕΒͷ݁Ռ͔Βɼײ. ϙοΫͷԻڹϞσϧͷར༻ʹՃ͑ɼະޠՃϞσϧΛ. ͕ڧҟͳΕԻڹతಛ͕ҟͳΔՄೳੑ͕͋Δɽࠓޙ. ༻ͨ͠߹Λҙຯ͢Δɽ·ͨɼearly stopping ͷࡍʹܾ. ͜ͷߟྀ࣮ͯ͢͠ݧΔඞཁ͕͋Δɽ·ͨɼऀదԠ. ఆ͞Ε֤ͨదԠޙϞσϧͷΤϙοΫΛද 5 ʹ͢ࡌهΔɽ. ίʔύεదԠײదԠΑΓߴ͍ੑೳ͕ಘΒΕ͍ͯΔɽ. early stopping ʹΑΔ͋ࢣڭΓదԠ࣮ݧͷ݁ՌͰɼ͍ ͣΕੑೳ໘ͰΤϙοΫ 5 ݻఆ࣌ͷ݁ՌΑΓվળͯ͠ ͍ͨɽ࠷ऴతͳΤϙοΫΛ֬ೝ͢ΔͱऀదԠΛআ͖ɼ. 1 ͔Β 3 ఔͰఀࢭ͓ͯ͠ΓɼΤϙοΫ 5 ݻఆͰશମ ͷదԠ࣮͍͓ͯʹݧաֶशͷ͕͋ͬͨɽ. ͜ͷͨΊɼऀʹΑΔεϖΫτϧͷมಈ૬ରతʹӨ͕ڹ େ͖͍ͱ͑ݴΔɽ. 7. ·ͱΊ ຊͰڀݚײԻίʔύε JTES ΛɼదԠɾධՁσʔ. ίʔύεదԠʹ͍ͭͯΤϙοΫͱೝࣝੑೳͷؔΛௐ. λͱͨ͠Իೝ࣮ࣝݧΛߦͳͬͨɽจ[ ݙ4] ͰײԻ. ࠪͨ͠ɽίʔύεదԠͷ݁ՌΛਤ 4 ʹࣔ͢ɽਤ 4 ΑΓίʔ. σʔλϕʔε JTES Λɼײऀίʔύεͱ͍ͬͨछ. ύεదԠͷ߹ͷ࠷ྑͷೝࣝ݁ՌΤϙοΫ 1 ͰಘΒΕ. ผʹׂ͠ɼԻڹϞσϧదԠ͢Δ͜ͱʹΑΓೝࣝਫ਼ͷ. ͍ͯΔͷ͕͔Δ͕ɼ͜Ε early stopping Ͱͷࣗಈܾఆ. ্ΛࢼΈͨɽ. ΤϙοΫʹҰக͢ΔɽະޠͷӨͯؔ͠ʹڹධՁσʔ. ຊߘͰߋʹ early stopping ͷݕ౼ͱະޠΛՃͨ͠. λͷະޠ 3 %ʹରͯ͠ɼ୯ޡޠΓ͕ 2 ϙΠϯ. ޠݴϞσϧʹΑΔධՁΛߦͳͬͨɽ࣮݁ݧՌΑΓɼearly. τվળ͢Δͱ͍ͬͨ݁Ռʹͳͬͨɽ·ͨɼະޠݴޠϞσ. stopping ༻લͷೝࣝਫ਼ͱൺֱ͠ɼશͯͷదԠϞσϧͷ. ϧΛར༻͠ɼΤϙοΫΛࣗಈܾఆͨ͠߹ɼऀదԠ͕. ೝࣝਫ਼Ͱվળ͕ಘΒΕͨɽະͯؔ͠ʹޠ͍ͣΕͷద. 23.05 %Ͱ࠷ྑͷ݁Ռ͕ಘΒΕͨɽ. ԠϞσϧʹΑΔೝࣝͰ 2 ϙΠϯτఔͷվળ͕ಘΒΕ. ֤దԠͷޮՌʹ͍ͭͯߟ͢ΔɽదԠલͷ WER 5 ষ. ͨɽ͔͠͠ɼࠓճݕ౼ͨ͠ early stopping ͱະޠΛՃ. ͷ݁ՌΑΓ 38.10 %Ͱ͋Γɼ͜Εͱൺֱ͍ͯͣ͠ΕͷదԠ. ͨ͠ޠݴϞσϧʹΑΔ݁ՌͰɼίʔύεదԠͱײదԠ. ޮՌతͰ͋Δ͜ͱ͕͔ΔɽίʔύεదԠͱײదԠΛ. Ͱ͋·Γେࠩͷͳ͍ੑೳ͕ಘΒΕͨɽ͜ͷ͜ͱ͔Βɼεϖ. ൺֱ͢ΔͱɼWER ʹ͓͍ͯίʔύεదԠɼPER ʹ͓͍. ΫτϧʹΑΔײຖͷదԠͷޮՌΛ֬ೝͰ͖ͳ͔ͬͨɽ͜. ͯײదԠͰए্ׯճ͍ͬͯΔ͕ɼ྆ऀେ͕ࠩͳ͍ͱ. ͷݪҼͱͯ͠ײදग़ͷ͕ڧऀʹΑΓେ͖͘ҟͳͬͯ. ͑ݴΔɽ͜ͷͨΊࠓճײຖͷదԠͷޮՌ֬ೝ͢Δ͜. ͍Δͱߟ͑ΒΕΔɽ·ͨɼearly stoppingɼະޠΛՃ͠. c 2017 Information Processing Society of Japan. 4.
(5) Vol.2017-SLP-119 No.7 2017/12/21. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ਤ 2. ֤దԠ࣮ݧͷ୯ޡޠΓʢऀײదԠʹ͍ͭͯదԠσʔλ͕গྔͷͨΊަࠩݕఆ ͕ߦ͑ͣɼearly stopping Ҏ߱ͷ࣮ݧΛߦͳ͍ͬͯͳ͍ʣ. ਤ 3. ֤దԠ࣮ݧͷԻૉޡΓ. ͨޠݴϞσϧΛ༻ͨ͠߹ͷ͍ͣΕͷ݅ʹ͓͍ͯɼ. ࢀߟจݙ. ײԻೝࣝʹ͓͍ͯऀదԠ͕࠷ྑͰ͋Γɼ23.05 %ͷ. [1]. ୯ޡޠΓΛୡͨ͠ɽ͜ͷ͜ͱ͔ΒɼऀʹΑΔεϖΫ τϧͷมಈ૬ରతʹӨ͕ڹେ͖͍ͱ͑ݴΔɽ ࠓޙͷ՝ͱͯ͠ɼײదԠͷੑೳ্ͷݕ౼Λߦͳ. [2]. ͏ɽ͜ͷ߹ɼ୯७ʹײผͰదԠ͢ΔͷͰͳ͘ɼײ ͷڧߟྀͨ͠దԠΛݕ౼͢Δɽ·ͨɼࠓճ CSJ ͷ. [3]. σʔλΛ༻͍ͯޠݴϞσϧͷߏஙΛߦͳ͍ͬͯΔ͕ɼCSJ ͱ Twitter ͷൃͰݴେ͖͘୯ޠͷग़ݱස͕ҟͳΔ͜ͱ. [4]. ͕༧͞ΕΔɽ͜ͷͨΊɼࠓޙޠݴϞσϧͷదԠߦͳ ͍ߋͳΔੑೳ্ΛਤΓ͍ͨɽ ँࣙ. [5]. ຊ ࣮ ݧͷ Ұ ෦ Պ ݚඅ (՝ ൪ ߸ 16K00227ɼ. 15H02720ʣʹΑͬͨɽ. c 2017 Information Processing Society of Japan. [6]. ༗ຊଞɼʠײԻͷίʔύεߏஙͱԻڹతಛͷੳ -MMORPG ʹ͓͚ΔԻνϟοτΛར༻ͨ͠ରதʹද Εͨײͷࣝผ-ɼʡ ใॲཧֶձڀݚใࠂ, ԻָใՊ ֶ, Vol.74, 133–138, 2008. ੴଞɼʠΤϯτϩϐʔʹͮ͘جԻӆɾӆόϥϯεײ ґଘจͷઃͱܭධՁɼʡిࢠใ௨৴ֶٕज़ڀݚใࠂɼ 115(253)ɼ33–38ɼ2015ɽ ੴଞɼ ʠײԻσʔλϕʔε JTES ͷԻ߹ʹΑΔ ධՁɼʡԻֶڹձߨूʢय़ʣɼ335–338ɼ2017ɽ ૬ᖒଞɼ ʠײԻσʔλϕʔε JTES Λ༻͍ͨײԻ ೝࣝʹ͓͚Δ DNN-HMM ԻڹϞσϧదԠͷݕ౼ɼ ʡԻ ֶڹձߨूʢळʣɼ97–100ɼ2017ɽ K.Maekawa. ʠCorpus of Spontaneous Japanese: Its design and evaluation,ʡIn Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 1– 6, 2003. ߴଞɼ ʠײؔ࿈ޠΛ༻͍ͨײਪఆ๏ͷఏҊͱχϡʔ εαΠτΞΫηεղੳͷԠ༻ɼ ʡຊײੑֶձจࢽɼ. 5.
(6) ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. [7]. [8]. [9] [10] [11] [12] [13]. [14]. Vol.2017-SLP-119 No.7 2017/12/21. 11ɼ3ɼ495–502ɼ2012ɽ ߥੜଞɼ ʠରԻ߹ͷͨΊͷԻӆɾӆίϯςΩετ Λߟྀͨ͠Իίʔύεߏங๏ͷݕ౼ɼ ʡԻֶڹձߨू ʢय़ʣɼ499–500ɼ2013ɽ Yacoub et al.ɼʠRecognition of emotions in interactive voice response systemsɼ ʡin Proc. INTERSPEECH ɼ729– 732ɼ2003ɽ ాଞɼ ʠߴਫ਼ͳॳظϞσϧΛ༻͍ͨ͠ͳࢣڭΫϩεద ԠͷධՁɼʡԻֶڹձߨूʢळʣ ɼ95–98ɼ2016ɽ ݪଞɼ ʠϘτϧωοΫಛྔΛ༻͍ͨײԻೝࣝͷݕ ౼ɼʡԻֶڹձߨूʢय़ʣ ɼ43–44ɼ2016ɽ D.Povey et al.,ʠThe Kaldi Speech Recognition Toolkit,ʡ in Proc. ASRU, 2010. Mecabɼhttp://taku910.github.io/mecab/ Ѩ෦ଞɼʠSVM Λ༻͍ͨࣗൃରԻͷײೝࣝʹ͓͚ Δֶशσʔλͷݕ౼ʡɼใॲཧֶձ౦ࢧ෦ڀݚใࠂɼ 7-A3-3ɼ2016ɽ ੴଞɼ ʠײԻσʔλϕʔεߏஙʹ͚ͨԻӆɾӆ όϥϯεײԻͷ༧උతੳɼ ʡԻֶڹձߨूʢळʣ ɼ 209–212ɼ2016ɽ. c 2017 Information Processing Society of Japan. 6.
(7)
関連したドキュメント
6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP
音節の外側に解放されることがない】)。ところがこ
We conducted sound lateralization tests that involved determining the location of a sound image, using inter-aural time difference (ITD) as an indicator, for four patients exhibiting
TV会議やハンズフリー電話においては、音声のスピーカからマイク
以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると
Acute effects of static stretching on the hamstrings using shear elastic modulus determined by ultrasound shear wave elastography: Differences in flexibility between
Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC
具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察