音声情報と行動計測による作業内容推定の研究
68
0
0
全文
(2) ذෞେֶത࢜จ. ԻใͱߦಈܭଌʹΑΔ ࡞ۀ༰ਪఆͷڀݚ. ݄̎̌̍̒̎. ݪਖ਼ۣ.
(3) ࣍ ୈ1ষ. ং. 1. 1.1. ڀݚഎ ܠ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. ڀݚత . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. ؔ࿈ ڀݚ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.4. จߏ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. ߦಈܭଌ. 6. ୈ2ষ. 2.1. ߦಈܭଌͷΈ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2. Ϩετϥϯʹ͓͚Δσʔλऩू . . . . . . . . . . . . . . . . . . . . . .. 6. 2.3. Իσʔλͷܭଌ. 7. ୈ3ষ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ൃ۠ؒݕग़. 9. 3.1. ൃ۠ؒݕग़ͷ֓ཁ . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 3.2. ൃ۠ؒݕग़ͷྲྀΕ . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 3.3. ࣮ ݧ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 3.4. ߟ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. ऀΫϥεྨ. 16. 4.1. ऀΫϥεྨͷ֓ཁ . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 4.2. ಛྔ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 4.3. SVMʢSupport Vector Machineʣ . . . . . . . . . . . . . . . . . . . .. 20. 4.4. DNNʢDeep Neural Networkʣ. . . . . . . . . . . . . . . . . . . . . .. 24. 4.5. ࣮ ݧ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. ࡞ۀ༰ਪఆ. 34. 5.1. త . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 5.2. ࡞ۀ༰ਪఆͷྲྀΕ . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 5.3. ಛྔͷݕ౼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 5.4. ࣝผثͷݕ౼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.5. ࣮ ݧ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. ୈ4ষ. ୈ5ষ. i.
(4) ୈ6ষ. ݁. 54. 6.1. Ռ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 6.2. ՝ͱల։ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. ँࣙ. 56. ࢀߟจݙ. 57. ۀڀݚ. 61. ii.
(5) ୈ1ষ. ং 1.1 ڀݚഎܠ αʔϏεۀຊͷ࢈ۀͷ 7 ׂΛΊΔ͕ɼͱۀൺֱͯ͠ੜ࢈ੑͷ͕͞ͱ ͳ͍ͬͯΔɽ࣭ཧϚʔέςΟϯάɼधཁ༧ଌͳͲɼ͋ΒΏΔ͔ΒαʔϏεΛվ ળ͢ΔࢼΈ͋Δ͕ɼαʔϏεΛఏ͢ڙΔݱͷैۀһͷ࿑ಇڥͷվળਓࡐڭҭͳ ͲɼݱϨϕϧͷվળʹ͍͍ͭͯ·ͩଟ͘ͷ͕͋Δɽओͳͱͯ͠ɼվળʹ͔͔ Δίετ͕ߴ͘ɼͦͷޮՌΛ࣮͛ڍ͕ͱ͍͘͜ʹ͠ײΒΕΔɽվળͷͨΊͷίετͷԼ վળޮՌͷ໌ࣔԽ͕՝ͱͳΔɽ·ͨɼैۀһͷଟ͘ύʔτλΠϚʔͳͲͷඇਖ਼ޏن ༻ऀͰྲྀಈੑ͕ߴ͘ɼैۀһͷมԽʹซͤͨۀεΩϧͷڭҭ͕ඞཁͱͳΔɽͦͷࡍɼΑ Γޮత͔ͭૣۀैʹظһͷεΩϧΛߴΊΒΕΔΑ͏ͳੳɾՄࢹԽख๏ɼվળͷͨΊ ͷϊϋΛੵͯ͠վળ׆ಈʹө͍ͯ͘͠Έ͕ඞཁͰ͋Δɽ ैདྷɼ࡞ۀ༰ঢ়گΛه͢ΔͨΊɼਓखʹΑΔ؍ଌख๏͕Α͘ݕ౼͞Ε͖ͯͨɽ ͜ΕɼళϚωʔδϟʔͱ͍ͬͨैۀһͷϦʔμʔతଘࡏͷਓίϯαϧλϯτͳͲ ͷୈࡾऀʹΑΔهͱ؍͕ओͰ͋ͬͨɽ͜ΕΒଟ͘ͷखؒͱίετ͕͔͔Δ্ʹɼ؍ ͞ΕΔଆͷෛ୲গͳ͘ͳ͍ɽ·ͨɼސ٬ͷ͍ΔۭؒͰαʔϏεʹؔͷͳ͍ऀ؍ Λஔ͢Δ͜ͱ·͘͠ͳ͍ɽ ۙɼਓͷߦಈ࡞ۀͷܭଌੳΛతͱͯ͠ɼΣΞϥϒϧͷٕज़͕ൃల͠ ͖͍ͯͯΔɽۀҩྍݱͰɼ͢ͰʹΣΞϥϒϧʹΑΔैۀһͷ࡞ۀͷܭଌ ࣄྫ͕͋ΔɽػցֶशύλʔϯೝࣝͳͲͷֶతख๏ɼͦͷૅجཧͷΈͳΒͣɼ࣮ ͔ͭڥେنͳσʔλΛରͱͨ͠Ԡ༻ٕज़ͷڀݚଟ͘ͳ͞Ε͍ͯΔɽͦ͜Ͱɼຊݚ Ͱڀ͜ΕΒͷֶతख๏ΛαʔϏεݱͷैۀһͷߦಈੳʹద༻͠ɼਓखʹཔΒͳ͍ ߦಈܭଌͱੳɾՄࢹԽʹ͍ͭͯݕ౼Λߦ͏ɽֶతख๏Λ༻͍Δ͜ͱʹΑͬͯɼਓखΑ Γ٬؍త͔ͭظతͳੳΛՄೳͱ͠ɼίετෛ୲ͷΛղফ͢ΔଞɼΑΓޮՌత ͳۀվળ͕ߦ͑Δ͜ͱ͕ظ͞ΕΔ [1][2]ɽ ੳٕज़ͷҰͭͰ͋Δैۀһͷ࡞ۀ༰ਪఆɼैۀһ͕͋Δ࣌ࠁʹ͓͍ͯͲͷΑ͏ͳ ࡞ۀΛߦ͍͔ͬͯͨΛਪఆ͢Δٕज़Ͱ͋Δ [3]ɽ͜ΕʹΑΓɼͦͷͷैۀһͷׂۀ. 1.
(6) ͷ͕͠͞໌Β͔ʹͳΓɼۀͷͷѲվળ͕ଅਐ͞ΕΔɽ࡞ۀ༰ਪఆͷؔ ࿈ٕज़ͱͯ͠جຊಈ࡞ݕग़࡞ݕۀग़ɼ࡞ۀͷਫ਼ͷଌఆͳͲͷྫ͋Δ͕ɼجຊಈ࡞Λ Έ߹Θͤͨेඵ͔Β୯Ґͷ࡞ۀΛਪఆ͢Δࣄྫ΄ͱΜͲΈΒΕͳ͍ɽ·ͨɼਪ ఆʹಈը૾ใΛ༻͍Δࣄྫ͋Δ͕ɼը૾ͷऔಘ͕͍͠ݱͰผछͷσʔλΛऩू ͢Δඞཁ͕͋Δɽ. 1.2 ڀݚత ຊ͕ڀݚࢦ͢ͱ͜ΖɼαʔϏε͚͓ʹۀΔैۀһͷۀͷՄࢹԽͰ͋ΔɽՄࢹԽ͢ Δࢦඪͷ 1 ͭͱͯ͠ैۀһͷۀ࣌ؒதͷ࡞ۀ༰͕͛ڍΒΕΔɽຊͰڀݚɼػցֶ शΛ༻͍ͯैۀһͷ࡞ۀ༰ΛࣗಈͰਪఆ͢Δख๏ΛఏҊ͢Δɽ࡞ۀ༰ΛਓखͰهड़͠ ͨΓੳͨ͠Γ͢Δ͜ͱߴίετͰ͋Δɽ·ͨɼސ٬ఏ͢ڙΔαʔϏεͷྲྀಈੑͷͨ Ίɼ࡞ۀ༰Λظతʹੳ͢Δඞཁ͕͋ΔɽࣗಈͰਪఆ͢Δٕज़Λཱ֬͢Δ͜ͱʹΑͬ ͯɼ͜ΕΒͷίετ͘ͳͰ͚ͩݮɼ౷ܭతɼֶతͳࢹͰͷੳ͕ՄೳͱͳΔɽ࡞ۀ ༰ͷϞσϧैۀһͦͷׂ͝ͱʹ࡞ۀΛγϛϡϨʔγϣϯ͢Δ߹ʹ༻͍ΒΕ Δɽ͜ΕɼαʔϏεݱͷ࠷దͳਓһஔͷݕ౼ɼ৽نళฮͷग़ళલͷγϛϡϨʔ γϣϯʹΑΔ࠷దԽʹԠ༻Ͱ͖Δɽ αʔϏεݱʹ͓͍ͯैۀһͷߦಈΛܭଌ͢Δ͜ͱ͍͠ɽಛʹɼސ٬͕ۙ͘ʹ͍Δ ߹ɼސ٬ͷϓϥΠόγʔαʔϏεۭؒͷྀ͕ඞཁͱͳΔɽΧϝϥϚΠΫϩϗϯ ͳͲΛళʹઃஔ͢Δ͜ͱɼ๏্ɼ൜తҎ֎ͰೝΊΒΕͳ͍ɽ·ͨɼैۀһʹ ண͢ΔΣΞϥϒϧސ٬ͷࢹʹೖΒͳ͍ͷͳͲɼඞཁ࠷ʹݶ͑ͳ͚Ε ͳΒͳ͍ɽ͜ͷΑ͏ʹɼݶఆ͞Εͨঢ়گͷதͰɼैۀһͷࠊʹணͨ͠ηϯαɼैۀһಉ ͕࢜ΓͱΓ͢Δ௨৴ʹثػਵͨ͠ϚΠΫϩϗϯɼސ٬͕ྉཧΛจɾձ͢ܭΔࡍʹೖ ྗ͢Δ POS σʔλͷใΛʹݩɼैۀһͷ࡞ۀ༰ਪఆΛࢼΈΔɽ ैۀһͷԻσʔλʹɼΧϝϥը૾ͷΑ͏ʹɼݱͷঢ়گैۀһͷ࡞ؔ͢ʹۀΔ ใ͕ه͞Ε͍ͯΔɽྫ͑ɼैۀһͱސ٬ͷձɼ࡞ʹۀ͏ԻͳͲͰ͋Δɽൃ ༰ɾΩʔϫʔυͳͲɼԻσʔλͷΑΓ۩ମతͳใΛநग़Ͱ͖Εɼ࡞ۀ༰ਪఆʹ େ͍ʹཱͭͱߟ͑ΒΕΔɽ͔͠͠ɼԻσʔλʹैۀһͷൃ͚ͩͰͳ͘ސ٬ͷ ൃೖΓಘΔɽൃ༰ͷநग़ސ٬ͷϓϥΠόγʔैۀһͷਫ਼ਆతෛ୲ʹؔΘΔͨ Ίɼൃ༰Λ࡞ۀ༰ਪఆʹ༻͍Δ͜ͱ͍͠ɽ࡞ۀ༰ਪఆͷػցֶशͷͨΊʹԻ σʔλΛਓखͰௌ͍ͯࢣڭσʔλΛ༩͢Δ͜ͱɼ࠷ʹݶ͑ΒΕΔ͜ͱ͕· ͍͠ɽຊͰڀݚɼൃ༰ͳͲϓϥΠόγʔʹؔΘΔ༰நग़ͤͣɼൃ۠ؒ ऀͷใͳͲɼநతͳ֓೦Λநग़͠ɼ࡞ۀ༰ਪఆͷํ༻׆๏Λݕ౼͢Δɽ·ͨɼԻ σʔλʹՃ͑ͯɼैۀһͷҐஔಈ࡞ͳͲΛද͢ݱΔηϯασʔλސ٬ͷจใ ΛѻͬͨձܭσʔλΛ༻͍ɼҟछͷσʔλΛಉ࣌ʹ࡞ۀ༰ਪఆʹద༻͢Δख๏Λݕ౼ ͢Δɽ. 2.
(7) 1.3 ؔ࿈ڀݚ ݐઃݱͰɼ࿑ಇऀ*1 ͷ࡞ۀਫ਼ͱ҆શੑධՁͷͨΊɼ࿑ಇऀͷ࡞ۀதͷಈ ࡞ͷܭଌͱɼੳख๏͕ఏҊ͞Ε͍ͯΔɽHartman Β [4] ɼࣗಈंʹ͓͍ͯɼ࡞ۀ ॴʹΧϝϥɼ࡞ʹ۩ثۀηϯαΛઃஔͯ͠ɼ࿑ಇऀͷಈ࡞ͱ࡞ۀਫ਼ͷਪఆΛߦͬͨɽ. Chae Β [5] ɼݐઃݱͷ࿑ಇऀʹରͯ͠ΧϝϥͱηϯαΛணͤ͞ɼಈ࡞ͷܭଌͱ࡞ۀ ͷ҆શੑʹର͢ΔධՁΛߦͬͨɽ͜ΕΒɼ࡞ۀ༰͕ࣗ໌Ͱ͋Γɼ࡞͍ͯͭʹۀͷධՁ Λߦ͏͜ͱ͕తͰ͋Δɽ հࢪޢઃ [6][7] ҩྍࢪઃ [8] Ͱɼݱͷैۀһͷ࿑ಇڥͷ࣮ଶ͓Αͼ՝ΛѲ ͢ΔͨΊɼλΠϜελσΟௐࠪʹۀै͍ͯͮجһͷߦಈΛਓखͰهɾ͠؍ɼհޢױ ऀͷέΞʹؔ͢Δ࣮ଶͷௐ͕ࠪߦΘΕͨɽλΠϜελσΟௐࠪͱɼۀΛϫʔΫϢχο τͱݺΕΔ࡞ۀ୯Ґʹׂ͠ɼ࡞ۀͷ࣌ؒͱ༰ΛଌఆɾධՁ͢Δੳख๏Ͱ͋Δɽ ࣄྔͷఆྔతѲɼ࡞ۀͷແବͷൃͱݟվળͷͨΊʹߦΘΕΔɽਓखͰͷهɼ1 ୯ ҐͰɼ͔ͭه͢Δैۀһͷਓͱಉ͕͡ऀ؍ඞཁͱͳΔͨΊɼ૬Ԡͷίετͱෛ୲ ͕ٻΊΒΕΔ͕ɼऀ؍ͷՄೳͳൣғͰɼΑΓ۩ମతͳهड़ධՁ͕Ͱ͖Δ͜ͱ͕ར Ͱ͋ΔɽҰํɼλΠϜελσΟௐࠪΛਓखʹཔΒͣΣΞϥϒϧͰߦ͏ࣄྫ͋Δ. [9][10][11]ɽҩྍࢪઃͰɼҩྍ۩ثʹணܕηϯαɼ෦ʹڥઃஔܕηϯαΛ ઃஔ͢Δ͜ͱʹΑͬͯɼࢣޢͷ࡞ۀ༰࡞ۀॴͷه͕ߦΘΕͨɽਓखʹΑΔλΠ ϜελσΟௐࠪͱൺɼΑΓظత͔ͭίετͰۀͷ࣮ଶΛਤΔ͜ͱ͕Ͱ͖ɼʹऀױ Ԡͯ͡ྲྀಈతʹͳΔࢣޢͷ࡞ۀΛੳͰ͖Δ͜ͱ͕རͰ͋Δɽ ຊͰڀݚରͱ͢Δ֎৯࢈ۀʹ͍ͭͯɼௐཧʹઃஔͨ͠Χϝϥө૾ௐཧͷ ैۀһʹணͨ͠ηϯαใ͔ΒಘΒΕΔҐஔใΛʹݩɼௐཧઃඋௐཧ࡞ۀͷվળΛ ݕ౼͢Δߦ͕ڀݚΘΕͨ [12][13][14]ɽௐཧͷ࡞ۀɼͷ࿑ಇऀͷ࡞ͱۀൺֱతࣅ ͓ͯΓɼैۀһͷҐஔํʹΑͬͯԿͷ۩ثΛͬͯԿͷ࡞ۀΛ͍ͯ͠Δ͔Λྨਪ͠ ͍͢ɽ͢ͳΘͪɼҐஔใ͑͞ਖ਼͘͠ਪఆͰ͖Εɼௐཧ࡞ۀͷݕग़ͦΕ΄Ͳ͘͠ͳ ͍ɽ·ͨɼސ٬ཱ͕ͪೖΒͳ͍ۭؒͷͨΊɼΧϝϥʹΑΔࡱӨՄೳͰ͋Γɼ͜ͷΑ͏ͳ ݅Ͱ࡞ۀ༰ͷਪఆख๏ཱ֬͞Εͭͭ͋Δɽ ࿑ಇऀͷԻσʔλͷੳͱ͍͏Ͱ؍ɼίʔϧηϯλʔͷΦϖϨʔλͱސ٬ؒͷձ Λੳ͢Δྫ͕Α͘ݟΒΕΔ [15][16]ɽձ༰ͷςΩετԽ͚ͩͰͳ͘ɼൃ ΛϞσϧԽͯ͠Ԡର࣭Λੳͨ͠Γ [17]ɼऀࣝผٕज़ʹΑͬͯࣗಈతʹऀΛਪఆ͢ ΔͳͲͷࢼΈ͋Δ [18]ɽ͜ΕΒɼൃ͕ओͨΔۀͰ͋ΓɼൃͦͷͷΛੳ͠՝ Λൃ͢ݟΔ͜ͱ͕ۀͷվળʹ͕ܨΔɽ. *1. ຊͰڀݚैۀһʹ૬ɽ. 3.
(8) 1.4 จߏ ຊڀݚͷྲྀΕͱจߏΛਤ 1.1 ʹࣔ͢ɽຊڀݚͷഎߦͨͬͳͱܠಈܭଌۀվળͷ Έʹ͍ͭͯୈ 2 ষͰհ͢Δɽ࡞ۀ༰ਪఆʹ͚ͨԻσʔλͷੳʹ͍ͭͯ ୈ 3 ষɼୈ 4 ষͰड़ΔɽຊڀݚͷతͰ͋Δ࡞ۀ༰ਪఆୈ 5 ষͰड़Δɽ࡞ۀ༰ ਪఆ݁ՌͷԠ༻ٕज़ՄࢹԽͷࢼΈʹ͍ͭͯୈ 6 ষͰٞ͢Δɽୈ 7 ষͰຊΛ·ͱ ΊΔɽҎԼʹɼ֤ষͷతʹ͍ͭͯड़Δɽ ୈ 2 ষͰɼैۀһͷߦಈܭଌ࡞ۀ༰ਪఆɼൃͷੳʹؔ͢Δؔ࿈͍ͯͭʹڀݚ հ͢ΔɽͦΕΛ౿·্͑ͨͰຊڀݚͷҐஔ͚ͮʹ͍ͭͯड़Δɽ·ͨɼຊͰڀݚੳ͢ ΔԻσʔλɾηϯασʔλɾձܭσʔλͷऩूํ๏ͱͦͷৄࡉʹ͍ͭͯࣔ͢ɽ ୈ 3 ষͰɼԻσʔλͷੳٕज़ͷ 1 ͭɼൃ۠ؒݕग़ʹ͍ͭͯड़ΔɽैۀһϚ ΠΫϩϑΥϯΛ༻͍ͯԻσʔλΛԻͨ͠ɽϚΠΫϩϑΥϯϋϯζϑϦʔͷͨΊɼۀ தɼৗʹԻ͞Εͨঢ়ଶͰ͋ͬͨɽैۀһͷൃʹணͯ͠ੳ͢ΔͨΊɼԻσʔλ தͷैۀһސ٬ͷൃҎ֎ͷ۠ؒΛআ͢ڈΔɽൃ۠ؒݕग़͔͘ݹΒ͞ڀݚΕ͍ͯΔ ٕज़Ͱ͋Δ͕ɼଟ༷ͷࡶԻΛؚΈɼपғͷڥൃύϫʔ͕࣌ؒͱͱʹมԽ͢ΔΑ͏ ͳঢ়Ͱگߴͳٕज़Λඞཁͱ͢ΔɽຊͰڀݚɼڥͷมԽ͕සൟʹൃੜ͢Δ݅ԼͰ ΑΓଟ͘ͷൃΛநग़Ͱ͖Δख๏Λݕ౼͢Δɽ ୈ 4 ষͰɼୈ 3 ষͰݕग़ͨ͠ൃ۠ؒͷऀΛਪఆ͢ΔɽऀϚΠΫΛணͨ͠ ैۀһʢҎԼɼϚΠΫணऀʣɼଞͷैۀһɼސ٬ͷ 3 Ϋϥεͱ͠ɼ֤ऀͷൃΛϞσ ϧԽ͠ɼ3 ΫϥεྨΛߦ͏ɽऀΫϥεྨͷతɼϚΠΫணऀ͕͋Δ࣌ؒଳʹ͓ ͍ͯ୭ʢଞͷैۀһ·ͨސ٬ʣͱΑ͘ձ͍ͯ͠Δ͔ΛѲ͢Δ͜ͱͰ͋Δɽ͜ΕʹΑ ΓɼϚΠΫணऀ͕٬࡞ۀΛ͍ͯ͠Δͷ͔ɼ٬Ҏ֎ͷ࡞ۀΛ͍ͯ͠Δͷ͔Λେผ͢Δ ͜ͱ͕Ͱ͖Δɽ͜ͷใɼ࣍ষͰड़Δ࡞ۀ༰ਪఆ͞༻׆ΕΔɽྨࣅٕज़ͷऀࣝ ผͰಛఆऀͷΫϥεΛѻ͏͜ͱ͕ଟ͔͕ͬͨɼຊڀݚͷऀΫϥεྨͰɼଞͷै ۀһɼސ٬ͷ 2 ΫϥεෆಛఆऀΛଟؚ͘ΉΫϥεͰ͋ΓɼಛఆऀΑΓ͍͠λε ΫͰ͋ΔɽຊͰڀݚɼऀΫϥεྨʹ SVM DNN ͳͲͷख๏Λద༻͠ɼੑೳͷൺ ֱΛߦ͏ɽ ୈ 5 ষͰɼԻσʔλɾηϯασʔλɾձܭσʔλΛ༻͍ͨैۀһͷ࡞ۀ༰ਪఆʹ ͍ͭͯड़Δɽ࡞ۀ༰ैۀһͷۀதͷׂతʹԠͯ͡ఆٛ͞ΕͨͷͰɼʮ จ͍ʯʮહʯ ʮձܭʯͷΑ͏ͳ٬࡞ۀɼʮ٬੮४උɾย͚ʯʮҠಈɾӡൖʯͷΑ͏ ͳඇ٬࡞͕͋ۀΔɽ͜ΕΒɼෳͷجຊಈ࡞ঢ়͕گΈ߹Θͬͯ͞ 1 ͭͷ࡞ۀΛߏ ͢Δɽ࡞ۀ༰ਪఆͷೖྗͱ͢Δ 3 छͷσʔλɼ͜ΕΒͷ࡞ͱۀඥ͚ΒΕΔ ͷ͕গͳ͍ͰطଘͷߦಈਪఆΑΓ͍͠ɽ·ͨɼԻใΛ࡞ۀ༰ਪఆʹ͢༻׆Δ ྫڀݚগͳ͍ɽຊͰڀݚɼ࡞ۀ༰ਪఆʹ༻͍Δಛྔʹ͍ͭͯɼԻσʔλ͔Βಘ ͨൃ۠ؒऀͷใΛ༻͍Δɽ·ͨɼࣝผʹث Adaboost ๏ʹ࣌ؒతΛΈ߹ Θͤͨख๏ʹΑΓɼੑೳͷվળΛࢼΈΔɽ. 4.
(9) ਤ 1.1. શମͷྲྀΕͱจߏɽ. ୈ 6 ষͰຊจΛ·ͱΊΔɽ. 5.
(10) ୈ2ষ. ߦಈܭଌ ຊষͰɼαʔϏεۀͷۀվળͷͨΊͷΈͰ͋Δߦಈܭଌʹ͍ͭͯड़Δɽͦ͠ ͯɼຊͰڀݚѻ͏ٕज़ͷҐஔ͚ͮͱɼϨετϥϯͰ࣮ࡍʹܭଌͨ͠σʔλͷৄࡉʹ͍ͭͯ ड़Δɽ. 2.1 ߦಈܭଌͷΈ αʔϏεۀͷۀվળ͔͘ݹΒߦΘΕ͖͍ͯͯΔɽۀվળʹۀͷ͑ݟΔԽ ͱ٬؍తͳࢹ͔ΒͷੳɾධՁ͕ඞཁͱͳΔɽैདྷ͔ΒɼQC ׆ಈʢQuality Control. Activityʣ[19][20] ʹΑͬͯɼαʔϏε࣭ͷཧ࡞ޮۀͷվળͳͲΛݱϨϕϧͰ ٞ͢ΔऔΓΈ͕͋ͬͨɽ͔͠͠ɼ͜ΕΒͷͳͱݩΔใϕςϥϯैۀһܦӦऀͷ ओʹ؍པΔͱ͜Ζ͕େ͖͘ɼͦͷ͚ͩͷվળՄೳͰɼظతͳվળ͔ͬͨ͠ɽ ՝େ͖͘ 2 ͭ͋Γɼࠜͱڌ٬؍ੑͷ͋ΔσʔλΛऩू͢Δ͜ͱɼͦͯ͠ݱͷैۀһ ͷͱ͖ͮؾվળʹ͕ܨΔ͜ͱͰ͋Δɽ αʔϏεֶͰɼ؍ଌɼੳɼఏࣔɼઃܭͷϧʔϓΛ܁Γฦ͢͜ͱʹΑͬͯɼۀվળ Λࢧԉ͢ΔΈ͕ఏҊ͞Ε͍ͯΔɽ؍ଌͰɼैۀһͷߦಈσʔλళฮͷձܭσʔλ ͷऩूɼੳͰऩूͨ͠σʔλͷੳͱۀࢦඪͷநग़ɼఏࣔͰݱͷैۀһ͕ղऍ Ͱ͖ΔͨΊͷੳ݁ՌͷՄࢹԽͱఏࣔɼઃͰܭݱϨϕϧͰͷͷநग़ɼඪͷઃ ఆɼվળͷଧʹΑͬͯ৽ͨͳαʔϏεͷઃܭΛߦ͏ɽͦͯ͠ɼ৽ͨͳαʔϏεʹର͠ ͯ࠶؍ଌΛߦ͍ɼվળ༰ͱͦͷޮՌʹ͍ͭͯੳΛߦ͏ɽຊͰڀݚɼͦͷதͰɼ ؍ଌͱੳͷϑΣʔζʹணͨ͠ɽ؍ଌͰɼηϯαϚΠΫϩϑΥϯʹΑͬͯैۀһͷ ηϯαɾԻσʔλΛऩू͠ɼPOS Λ༻͍ͯސ٬ͷจɾձܭσʔλΛऩूͨ͠ɽ. 2.2 Ϩετϥϯʹ͓͚Δσʔλऩू ຊڀݚɼϨετϥϯͷ٬Λରͱ͓ͯ͠Γɼސ٬ͱͷίϛϡχέʔγϣϯͷଟ͍ ͋ͰڥΔɽ·ͨɼੳʹؒظͷσʔλΛඞཁͱ͓ͯ͠Γɼσʔλऩूίετϓϥ. 6.
(11) ਤ 2.1. ैۀһͷߦಈܭଌπʔϧɽ ʢ্ϚΠΫϩϑΥϯͱϨίʔμɼԼηϯαϞδϡʔϧʣ. ਤ 2.2. ࠎಋϚΠΫϩϑΥϯ (ࠨ) ͱணྫ (ӈ)ɽ. Πόγʔɼରऀͷਫ਼ਆతෛ୲ͷ໘͔Β؍๏ઃஔʹΑΔ؍ଌద༻͠ʹ͍͘ɽͦ͜ ͰɼΣΞϥϒϧʹΑΔ؍ଌΛߦͬͨɽैۀһʹηϯαϚΠΫϩϑΥϯΛண͠ ͯɼηϯασʔλԻσʔλΛऔಘͨ͠ [21]ɽैۀһͷஔͷணྫͱɼࠎಋϚΠ ΫϩϑΥϯ [22] ͷྫΛਤ 2.1 ͱਤ 2.2 ʹࣔ͢ɽΧϝϥʹ͍ͭͯྙཧతʹಋೖ͕͍ͨ͠ ΊɼΘΓͱͯ͠ԻσʔλΛऩूͨ͠ɽԻσʔλΛԻ͢Δʹ͋ͨͬͯɼސ٬ͷൃ ैۀһͷۀ֎ͷൃ͕ೖΔ͜ͱʹΑΔϓϥΠόγʔͷʹྀ͢Δඞཁ͕͋Δɽ· ͨɼۀʹඞཁͳൃͰ͋ͬͯɼൃ༰ΛԻ͞ΕΔͱ͍͏͜ͱਫ਼ਆతෛ୲͕ൃੜ ͢Δɽ͜ΕΒͷରࡦͱͯ͠ɼࠎಋϚΠΫϩϑΥϯࢦੑϚΠΫϩϑΥϯΛ༻͍Δ͜ͱ ͰɼपғͷൃΛೖΓʹ͘͘͢Δ͜ͱɼैۀһͷؒ࣌ܜٳͷσʔλੳ͠ͳ͍ͳͲɼ Իσʔλͷੳ༰Λඞཁ࠷ʹݶ͑Δ͜ͱ͕͛ڍΒΕΔɽ. 2.3 Իσʔλͷܭଌ ϨετϥϯͰɼपғͷൃ৯ثԻͳͲͷԻɼళ BGM ͳͲ༷ʑͳඇఆৗࡶԻ͕ ൃੜ͢ΔͨΊɼࡶԻରࡦ͕ඞཁͰ͋ΔɽࠎಋϚΠΫϑΥϯɼҰൠతͳۭؾಋʹΑΔ ϚΠΫϩϗϯͱൺֱ͢ΔͱࡶԻͷॏ͕গͳ͍ɽͦΕΏ͑ɼϚΠΫϩϗϯΛணͨ͠ैۀ һͷൃΛΑΓ໌ྎʹԻ͢Δ͜ͱ͕Ͱ͖Δɽ·ͨɼपғͷൃ͕ݮਰ͢ΔͨΊɼސ٬ͷ. 7.
(12) ൃͷϓϥΠόγʔอ͕ͳͭʹޢΓɼސ٬ͷଟ͍ॴͰԻ͢Δ߹ʹࠎಋϚΠΫϩϗ ϯ༗༻Ͱ͋ΔɽࠎಋϚΠΫϩϗϯʹɼϔουηοτܕͷͷݟΒΕΔ͕ɼண ඇண࣌ͷཧ͕༰қͰɼैۀһ͕ۀதʹண͍ͯ͠ΔΠϯΧϜʹ͍ۙܗঢ়Ͱ͋Δͱ͍ ͏ͰΠϠʔϚΠΫܕΛ࠾༻ͨ͠ɽ զʑɼϲ݄ؒʹͬͯैۀһͷۀதͷԻσʔλΛܭଌͨ͠ [23]ɽैۀһ 1 ਓ 1 ͋ͨΓ 5ʙ10 ࣌ؒఔʢؚؒ࣌ܜٳΉʣͷۀ͕͋Γɼ࿈ଓͯ͠ԻσʔλΛԻ͢Δ ͨΊʹ MP3 ͰࣜܗԻͨ͠ɽԻ࣭ΛอͭͨΊɼϏοτϨʔτΛ 256kbps ͱͨ͠ɽ࣌ؒ ͔ͭؒظͷܭଌʹ͓͍ͯɼணͷෛ୲͕՝ͱͯ͛͠ڍΒΕͨɽܭଌͷࡍɼۀʹࢧো Λ͖ͨ͢߹ϚΠΫϩϗϯΛҰ࣌తʹ֎ͯ͠ྑ͍ͱ͍͏݅ͰɼैۀһʹϚΠΫϩϗ ϯΛ༻͍ͯͨ͠ɽࠎಋϚΠΫϩϗϯΛ༻͍ͯཧతͳԻΛऩू͢ΔͨΊʹɼਖ਼ ͍͠ணঢ়ଶΛอͭඞཁ͕͋Δɽ͔͠͠ɼࠎಋϚΠΫΫϩϑΥϯΠϠϗϯͱൺֱͯ͠ ண෦ʹಥ͕͋ىΔͨΊணͳʹؾ͕ײΓ͘͢ɼۀதʹϚΠΫϩϗϯʹ৮ΕͨΓϚΠ ΫϩϗϯΛ֎ͨ͠Γ͢Δέʔε͕͋ͬͨɽͦͷ߹ɼࡶԻͷࠞೖϚΠΫϩϗϯΛண͠ ͨैۀһͷԻ͕ेͳύϫʔͰԻ͞Εͳ͍ͳͲͷ͕ൃੜͨ͠ɽ͜ͷޙड़ͷ Իॲཧʹେ͖͘ӨڹΛ༩͑ͯ͠·͍ͬͯΔͨΊɼϚΠΫϩϗϯͷܗঢ়ͷվྑඞਢͰ͋ Δɽணͷෛ୲ʹؔͯ͠ɼͦΕΛܰ͢ݮΔஔ [24] NAM ϚΠΫ [25] ͳͲ͕։ൃ͞ Ε͍ͯΔɽ·ͨɼண࣌ͷෛ୲͚ͩͰͳ͘ɼԻ͢Δ͜ͱʹର͢Δैۀһͷཧղਫ਼ਆత ෛ୲ͷܰݮ՝ͱͯ͛͠ڍΒΕͨɽैۀһͰిΦϖϨʔλͳͲҰ෦ͷۀʹ͓͍ͯ Ի͢Δ͜ͱҰൠతʹͳ͍ͬͯΔɽ͔͠͠ɼαʔϏεͷݱʹ͓͍ͯۀதͷൃΛ Ի͢Δ͜ͱ·ͩ·ͩ͘͠ɼ߅ͷ͋Δैۀһগͳ͘ͳ͍ɽԻͨ͠Իσʔλͷ༻ ్తΛ͖ͬΓͤ͞ɼैۀһͷෆ҆ʹରॲ͢Δ͜ͱ͕ඞཁͰ͋Δɽ·ͨɼ࣮ࡍʹ QC ׆ಈͳͲͷۀվળʹཱͯɼԻσʔλͷඞཁੑΛཧղͯ͠Β͏͜ͱͰܭଌͷϞν ϕʔγϣϯΛ্͛Δ͜ͱେͰ͋Δɽ. 8.
(13) ୈ3ষ. ൃ۠ؒݕग़ ຊষͰɼैۀһͷԻσʔλΛੳ͢Δ࠷جຊతͳॲཧͰ͋Δൃ۠ؒݕग़ʹ͍ͭ ͯड़Δɽൃ۠ؒݕग़ͷҙٛͱຊจʹ͓͚Δతʹ͍ͭͯԆɼ࣮ͦͱݧͷߟΛߦ ͏ɽൃ۠ؒݕग़ͷ݁Ռɼޙड़ͷΩʔϫʔυਪఆɼऀΫϥεྨɼ࡞ۀ༰ਪఆʹ༻ ͍ΒΕΔɽ. 3.1 ൃ۠ؒݕग़ͷ֓ཁ (a) ઌߦڀݚ ൃ۠ؒݕग़ʢVoice Activity Detection; ҎԼɼVADʣͱɼԻσʔλதͷൃ۠ؒ Λநग़͢Δٕज़Ͱ͋Δ [26]ɽͦͷଟ͘ൃͷΓग़͠Λతͱ͓ͯ͠ΓɼԻೝࣝ ऀࣝผͳͲͷલॲཧͱͯ͠༻͍Δ͜ͱͰɼͦͷޙͷॲཧͷݮྔࢉܭɼࡶԻԼʹ͓͚Δޡ ࣝผΛݮΒ͢ͳͲͷޮՌ͕͋Δɽ·ͨɼαʔϏεֶʹ͓͍ͯɼൃ۠ؒͷ͞ैۀ һސ٬ͳͲͷൃ࣌ؒΛද͠ɼैۀһͷ͠͞ސ٬ͱͷίϛϡχέʔγϣϯʢ٬ʣ ͷྔɾ࣭ͳͲɼैۀһͷߦಈղੳʹ͓͚Δ౷ͯ͠ͱྔܭѻ͏͜ͱ͕Ͱ͖ΔɽͦͷͨΊɼൃ ۠ؒͷใɼऀΩʔϫʔυͳͲͷϝλใͱಉ༷ʹɼैۀһͷߦಈղੳʹ͓͍ͯ ॏཁͳׂΛ࣋ͭɽ. VAD ͷྺ࢙͘ݹɼ࣮ۙڥσʔλʹରͯ͠ੵۃతʹऔΓ·Ε͍ͯΔɽVAD ͷॲཧաఔେ͖͘ಛநग़෦ͱࣝผ෦͔ΒͳΔɽಛநग़෦ͰɼൃͷಛੑΛද͠ ͨಛྔΛೖྗ৴߸ʢԻσʔλʣ͔Β͢ࢉܭΔɽࣝผ෦Ͱɼಛྔ͔Βൃɾඇൃ Λࣝผ͢ΔͨΊͷج४౷ྔܭʢϞσϧʣΛֶश͠ɼൃɾඇൃͷఆΛߦ͏ɽݹయ తʹɼಛྔͱͯ͠ൃͷରύϫʔθϩަ͕ࠩ༻͍ΒΕɼࣝผ෦Ͱᮢॲཧ Λߦ͏͜ͱͰൃɾඇൃΛఆ͖ͯͨ͠ɽΫϦʔϯͰڥ͜ͷํ๏Ͱेͳੑೳ ΛಘΔ͜ͱ͕Ͱ͖ɼᮢͷνϡʔχϯά͑͞దʹߦ͑ྔࢉܭඇৗʹগͳͯ͘ࡁΉɽ. VAD Ͱ࣌ؒͷԻσʔλϦΞϧλΠϜͷೖྗ৴߸Λѻ͏͜ͱ͕ଟ͘ɼྔࢉܭͷগ ͳ͞ॏཁͱͳΔɽҰํɼ୯७ʹԿΒ͔ͷԻ͕ฉ͑͜Δ͔Ͳ͏͔Λఆج४ͱ͍ͯ͠Δͨ ΊɼൃҎ֎ͷԻʢࡶԻʣൃͱఆͯ͠͠·͏͜ͱ͕ଟ͘ɼࡶԻԼͷԻʹରͯ͠. 9.
(14) ेͳਫ਼ΛಘΒΕͳ͔ͬͨɽͦ͜ͰɼൃͱࡶԻΛ۠ผ͢ΔͨΊͷಛྔ͕ఏҊ͞Ε ͖ͯͨɽྫ͑ɼԻ৴߸ͷɾͳͲͷߴ࣍౷[ ྔܭ27]ɼεϖΫτϧͷप ͷύϫʔ [28]ɼεϖΫτϧͷௐͷύϫʔ [29]ɼMFCCʢMel-Frequency Cepstrum. Coefficientsʣͷ࿈ଓੑΛߟྀͨ͠ͷ [30]ɼ࣌ؒมಈಛྔ [31] ͳͲͰ͋Δɽ·ͨɼࣝ ผ෦Ͱɼᮢॲཧ͚ͩͰͳ͘ɼൃɾඇൃ࣌ͷಛྔΛ֬ϞσϧͰදࣝͯ͠ݱผ͢ Δख๏ఏҊ͞Ε͖ͯͨɽ͞Βʹɼൃͷ࿈ଓੑΛߟྀͨ͠ɼࣝผ݁ՌͷϋϯάΦʔόॲ ཧ͕ߦΘΕΔ͜ͱଟ͍ [28]ɽ͜ΕΒɼࡶԻͱൃΛ۠ผ͢ΔଞɼΑΓಛతͳൃΛ ࣝผ͢Δ͜ͱՄೳͱ͢Δɽ. (b) ຊڀݚͷ VAD ͷ՝ ຊڀݚͷ VAD Ͱରॲ͖͢େ͖͘ 3 ͭ͋Δɽ1 ͭɼԻڥͷมԽͰ͋Δɽ ԻͱڥɼԻॴʹΑΔपғͷࡶԻͷೖΓ͢͞ڹͷେ͖͞ɼϚΠΫϩϑΥϯ ͷண۩߹ʹԠͨ͡ൃͷԻ͢͠͞ʢύϫʔ໌ྎੑͳͲʣΛࢦ͢ɽैۀһ࡞࣌ۀ ؒதɼৗʹϚΠΫϩϑΥϯΛண͓ͯ͠ΓɼॴͷҠಈʹ͍Ի͕ڥมԽ͢Δɽ·ͨɼ ϚΠΫϩϑΥϯίʔυʹ৮͢Δ͜ͱͰԻ͕ڥมԽ͢Δ߹͋ΔɽԻʹڥద ԠతʹύϥϝʔλΛௐઅ͢Δ͜ͱ͕ٻΊΒΕΔɽ2 ͭɼଟछଟ༷ͳࡶԻͰ͋ΔɽϨε τϥϯͰڥଟ͘ͷछྨͷࡶԻ͕Իσʔλʹॏ͢Δɽ৯ثԻਫಓͷԻɼԻɼ Իɼళ BGM ͳͲ͕͋Δɽ͜ΕΒͷࡶԻൃͷੳʹෆཁͰ͋Δ͕ɼগͳ͔Βͣ ԻॲཧͷӨڹΛ༩͑ΔͨΊɼࣄલʹআ͢ڈΔ͔ɼࡶԻʹͳ݈ؤख๏Λ༻͍Δ͜ͱ͕ ·͍͠ɽ3 ͭɼൃʹଟ͘ͷछྨ͕͋Δ͜ͱͰ͋Δɽऀঢ়ʹگΑͬͯൃͷύ ϫʔԻߴɼͳͲͷಛ͕ҟͳΔɽऀʹɼϚΠΫΛணͨ͠ैۀһɼଞͷैۀһɼ ސ٬ͱ͍͏ 3 ͭͷΧςΰϦ͕͋Γɼঢ়Ͱگ٬ձɼۀ࿈བྷɼࡶஊͳͲ͞Βʹෳͷ ΧςΰϦ͕͋ΔɽຊষͰѻ͏ VAD ɼ͜ΕΒͷҧ͍Λ۠ผ͢Δ͜ͱͳ͘ɼΑΓଟ͘ͷൃ Λݕग़͢Δ͜ͱΛࢦ͠ɼൃͷҧ͍ͷৄࡉୈ 4 ষͷऀΫϥεྨͰྨ͢Δɽ ਤ 3.1 ʹ͍͔ͭ͘ͷ࣮ڥԻσʔλͷ৴߸ܗΛࣔ͢ɽ·ͨɼද 3.1 ʹͦΕͧΕͷ৴ ߸ܗͷิΛࣔ͢ɽType A ͕ཧʹ͍ۙࠎಋϚΠΫϩϗϯͷԻ͋ͰܗΔɽ͜ͷ Α͏ͳԻσʔλશମͷ 4 ׂఔͰ͋ΔɽType B ࠎಋϚΠΫϩϗϯΛண͠ͳ ͔ͬͨ߹ͰɼԻͷύϫʔඇৗʹখ͍͞ɽ·ͨɼType C ͷΑ͏ʹࠎಋϚΠΫϩϗ ϯͷண͕ෆेͳέʔεɼType D ͷΑ͏ʹ IC ϨίʔμͷϚΠΫϩϑΥϯʹΑͬͯ Իͨ͠έʔε͋Γɼͦͷ߹ɼ༨ࡶͳܭԻΛଟ͘रͬͯ͠·͍ͬͯΔɽ͜ΕΒͷண ঢ়ଶɼैۀһʹΑͬͯҟͳΔ͚ͩͰͳ͘ɼ࣌ؒଳʹΑͬͯมԽ͢Δ߹͕͋Δɽ ͦ͜ͰɼԻঢ়ଶΛผ্ͨ͠Ͱͷ VAD ॲཧ͕ඞཁͱͳΔɽ. 3.2 ൃ۠ؒݕग़ͷྲྀΕ ຊจͷ VAD ͷॲཧͷྲྀΕҎԼͷΑ͏ʹͳΔɽ. 1. ఆৗࡶԻআڈ. 10.
(15)
(16)
(17)
(18) .
(19)
(20)
(21) .
(22)
(23)
(24)
(25) .
(26)
(27)
(28) . ਤ 3.1. Իσʔλͷྫܗɽ. ද 3.1. Իσʔλͷྫܗɽ. Ի࣭. ϚΠΫϩϗϯͷঢ়ଶ. Type A. ࠎಋԻ. ࠎಋϚΠΫϩϗϯΛਖ਼͘͠ணͨ͠ঢ়ଶ. Type B. ࠎಋԻ. ࠎಋϚΠΫϩϗϯΛʢࣖʹʣண͍ͯ͠ͳ͍߹. Type C. ۭؾಋԻͱࠎಋԻͷࠞ߹. ࠎಋϚΠΫϩϗϯͷண͕ෆेͳ߹. Type D. ۭؾಋԻ. IC ϨίʔμͰԻͨ͠߹. 2. ಛநग़ 3. ಛྔਖ਼نԽ 4. ൃʗඇൃఆ 5. ϋϯάΦʔόॲཧ. (1) ఆৗࡶԻআڈ ࡶԻʹΑΔݕग़ਫ਼ͷԼΛ͑ΔͨΊɼೖྗ৴߸ʹରͯ͠ RSFʢRunning Spectrum. Filteringʣ[32] Λద༻͠ɼՃ๏ੑͷఆৗࡶԻͷআڈΛߦ͏ɽRSF ͱɼSSʢSpectrum Subtractionʣ๏ͷҰछͰ͋ΓɼεϖΫτϧΛ࣌ؒํʹฒͨϥϯχϯάεϖΫτϧ্ ʹ͓͚ΔࡶԻআڈख๏Ͱ͋Δɽೖྗ৴߸Λ࣌ؒϑʔϦΤมٻ͠ΊͨεϖΫτϧΛ࣌ؒ ํʹฒͨ 3 ࣍ݩͷϥϯχϯάεϖΫτϧΛ Y (ω, t) ͱ͢Δɽω प binɼt ֤ε ϖΫτϧͷ࣌ࠁΛද͢ɽతͷೖྗ৴߸ʢൃʣʹࡶԻ͕Ճ๏తʹॏ͍ͯ͠ΔͱԾఆ͢ ɼ Δͱɼೖྗ৴߸ Y (ω, t) ࣜ (3.1) ͷΑ͏ʹද͞ΕΔɽS(ω, t) తͷೖྗ৴߸ʢൃʣ. N (ω, t) ࡶԻͷϥϯχϯάεϖΫτϧͰ͋Δɽ Y (ω, t) = S(ω, t) + N (ω, t) 11. (3.1).
(29) ϥϯχϯάεϖΫτϧΛ࣌ؒํʹΈΔͱɼఆৗతͳࡶԻ؇͔ʹมԽ͠ɼൃඇ ఆৗͳࡶԻܹ͘͠มԽ͢Δɽͭ·ΓɼY (ω, t) ʹରͯ͠ɼͱ͍ͯΧοτΦϑप Λ࣋ͭϋΠύεϑΟϧλΛ࣌ؒํʹ͔͚Δ͜ͱͰɼఆৗతͳࡶԻΛআ͘͜ͱ͕Ͱ͖Δɽ ͜ͷϋΠύεϑΟϧλΛ RSF ͱͿݺɽRSF Ұൠతͳ SS ๏ͱൺֱͯ͠ɼࡶԻεϖΫτ ϧͷਪఆΛඞཁͱ͠ͳ͍͜ͱ͕རͰ͋Δɽ. (2) ಛநग़ ࣍ʹɼϑϨʔϜ୯ҐͰಛྔΛநग़͢ΔɽຊͰڀݚɼεϖΫτϧͷपͷύ ɼεϖΫτϧͷഒԻͷύϫʔʢHarmonic PowerʣɼεϖΫτ ϫʔʢLow Powerʣ ɼʢskewnessʣΛநग़͢Δɽ ϧͷઑʢkurtosisʣ ൃ۠ؒͷԻ৴߸ͷಛͷ 1 ͭͱͯ͠ɼεϖΫτϧͷपʹଟ͘ͷύϫʔ͕ू த͢Δɽͦ͜ͰɼपͷΈநग़͢ΔόϯυύεϑΟϧλʔΛ͔͚ͯग़ྗΛੵ͢Δ ͜ͱͰɼपͷύϫʔΛٻΊΔɽόϯυύεϑΟϧλʔෳͷόϯυ෯Λ࣋ͨ ͤɼෳͷύϫʔΛࢉग़͢Δɽຊ࣮ݧͷόϯυύεϑΟϧλʔɼԻೝࣝͰΑ͘༻͍ ΒΕΔಛྔͷҰͭͰ͋Δ MFCC(Mel-frequency cepstrum coefficient) Ͱ༻͞ΕΔό ϯυύεϑΟϧλʔΛ༻ͨ͠ɽ ൃ۠ؒʹදΕΔ͏ 1 ͭͷಛͱͯ͠ɼεϖΫτϧͷௐߏ͕͛ڍΒΕΔɽௐߏ ͱɼԻ৴߸ͷجຊपͱͦͷഒͷपʢഒԻʣʹ͍ڧύϫʔ͕දΕΔεϖ ΫτϧߏͰ͋ΓɼൃָثԻʹΑ͘ݟΒΕΔɽ͋Δ࣌ࠁ tɼप ω ͷഒԻͷύ ϫʔ f (ω, t) ΛɼύϫʔεϖΫτϧ Y (ω, t) ͱͦͷഒԻʢK ഒԻʣ·Ͱͷύϫʔͷฏۉ ɽഒԻΛͨ͠ʹݩಛྔ H(t) ͱͯ͠ɼf (ω, t) ͷ࠷େ͔Β ͱఆٛ͢Δʢࣜ (3.2)ʣ ฏۉΛҾ͘͜ͱͰഒԻͷಥग़ΛٻΊΔʢࣜ (3.3)ʣɽඇԻ۠ؒͰഒԻ͕ಥग़ ͠ͳ͍ͨΊɼH(t) ͕૬ରతʹ͘ͳΔɽω0 ൃͷجຊपͷऔΓ͏Δͷ্ݶΛઃ ఆ͢Δɽ࣮Ͱݧ K = 3ɼω0 500Hz ʹ૬͢Δप bin ͱͨ͠ɽ K 1 Y (kω, t) f (ω, t) = K. (3.2). k=1. H(t) = max{f (ω, t), ω = 1, 2, · · · , ω0 } −. Kω 1 0 f (ω) Kω0 ω=1. (3.3). εϖΫτϧॏ৺ [33] εϖΫτϧͷઑɼͳͲͷߴ࣍ݩಛྔɼൃͷύϫʔ͕ ݮਰ͢Δ߹ͰൃΛݕग़͢Δ͜ͱ͕ՄೳͰ͋Δ͕ɼύϫʔͷࡶ͍ڧԻʹऑ͍ɽ·ͨɼ ࠎಋϚΠΫϩϗϯͷपಛੑ͔ΒɼۭؾಋԻͷԻσʔλͱൺֱ͢Δͱਫ਼͕མͪ Δɽࣜ (3.4) ʹεϖΫτϧॏ৺ͷࣜࢉܭΛࣔ͢ɽ. K Ct =. k=1. K. Mt [k] ∗ k. k=1. 12. Mt [k]. (3.4).
(30) ͜͜ͰɼMt [k] t ൪ͷϑϨʔϜΛϑʔϦΤมͯ͠ಘΒΕΔεϖΫτϧͷɼk ൪ ͷपϏϯͷৼ෯Ͱ͋ΔɽεϖΫτϧॏ৺ͷ Ct ͕େ͖͍΄ͲߴपΛؚΉͨ ΊɼԻ৭໌Δ͘ͳΔɽࠎಋԻͷ߹ɼपͷύϫʔ͕શମతʹ͘ڧɼॏ৺ͷ ͘ͳΓ͍͢ɽൃ۠ؒʹ͓͍ͯɼ͕͞Βʹ͘ͳΔɽ. (3) ಛྔਖ਼نԽ ԻσʔλͷൃύϫʔɼࡏॴࠎಋϚΠΫϩϗϯͷணঢ়ଶʹΑͬͯมԽ͢ Δ߹͕͋Δɽൃύϫʔ͕ҟͳΔͱಛྔͷมԽ͢Δɽ࣍ͷൃɾඇൃͷݕग़ॲ ཧͰݻఆ͞Ε͖͍ͨ͠Λ͏ͨΊɼͦͷ··Ͱݕޡग़͕ଟ͘ͳΔɽͦ͜Ͱɼಛྔ ͷ֤࣍ʹݩରͯ͠ਖ਼نԽΛߦ͏ɽਤ 3.2 ͷΑ͏ʹɼԻσʔλΛҰఆ۠ؒ͝ͱʹׂ͠ɼ ͋Δ۠ؒʢt0 ʙt1 ʣͷਖ਼نԽʹͦͷલޙͷ۠ؒʢt−1 ʙt0 ͱ t1 ʙt2 ʣؚΊͯਖ਼نԽΛ͢ Δɽ͜ͷ 3 ۠ؒͷதʹ·ؚΕΔൃ͕গͳ͍ͱɼਖ਼نԽ VAD ʹѱӨڹΛ͢΅ٴɽҰ ํɼ1 ۠ؒΛ͘͢ΔͱɼڥͷมԽʹରԠ͠ʹ͘͘ͳΔͨΊɼ1 ۠ؒͷ͞దʹઃ ఆ͢Δඞཁ͕͋Δɽ࣮Ͱݧ֤۠ؒͷ͞Λ 10 ͱ͠ɼલ ޙ10 ؚΊͨ 30 ؒͰਖ਼ نԽͨ͠ɽ. . ਤ 3.2. . . . ಛྔͷਖ਼نԽൣғɽ. (4) ᮢॲཧʹΑΔผ ਖ਼نԽ͞ΕͨಛྔʹᮢॲཧΛࢪ͢લʹɼ࣌ؒํʹಛྔͷฏԽΛߦ͏ɽൃ۠ ؒͰ͋ͬͯɼແԻϙʔζͷΑ͏ʹɼ࣌ؒͰൃͷಛ͕දΕͳ͍߹͋Δͨ Ίɼ͋ΔϑϨʔϜʹରͯ͠લޙϑϨʔϜͷಛྔͷͷฏۉΛͱΔ͜ͱͰฏԽ͢Δɽ ࣮Ͱݧલ ޙ5 ϑϨʔϜʢ߹ ܭ11 ϑϨʔϜʣͰฏԽͨ͠ɽ ଓ͍ͯɼಛྔͷᮢॲཧʹΑ֤ͬͯϑϨʔϜ͕ൃɾඇൃ͔Λผ͢Δɽ͜ͷ࣌ͷ ᮢɼࣄલʹগྔͷσʔλΛ༻͍ͯ࠷ൃɾඇൃΛΑ͚͘ΔΛಛྔ͝ͱʹܾ ఆ͓ͯ͘͠ɽ. 13.
(31) (5) ϋϯάΦʔόॲཧ VAD ࣌ؒͷϑϨʔϜͰݟΕݕޡग़গͳ͘ͳ͍ɽඇఆৗࡶԻॏͨ͠··ॲ ཧ͞Ε͍ͯΔͨΊɼඇൃΛൃͱݕޡग़ͯ͠͠·͏Մೳੑ͕͋Δɽ·ͨɼൃʹൃ தͷϙʔζແԻͳͲɼൃͱೝࣝ͞ΕΔ͖͕ͩൃͷಛ͕ݱΕͳ͍ϑϨʔϜଘ ࡏ͠ɼൃΛඇൃͱغޡ٫ͯ͠͠·͏͜ͱ͋Δɽൃɼඇൃͱʹ࿈ଓੑ͕͋Δ͜ ͱΛߟྀ͠ɼൃϑϨʔϜ·ؚʹ܈ΕΔಥൃతͳඇൃϑϨʔϜͱɼඇൃϑϨʔϜʹ܈ ·ؚΕΔಥൃతͳൃϑϨʔϜΛআ͢ڈΔɽ͜ΕΛϋϯάΦʔόॲཧͱ͍͍͏ɽ࣮Ͱݧ ɼ10 ϑϨʔϜҎͷ࿈ଓ͢ΔඇൃΛൃʹஔ͖Ͱޙͨ͑ɼ15 ϑϨʔϜҎͷ࿈ଓ ͢ΔൃΛඇൃʹஔ͖͑Δɽ. 3.3 ࣮ݧ ࣮ʹݧɼϨετϥϯͰܭଌ͞ΕͨԻσʔλͷ͏ͪɼऀ 10 ໊ɼ ܭ70 ࣌ؒΛ༻ ͨ͠ɽࡶԻܭଌͷ࣌ؒଳʹΑ༷ͬͯʑͰ͋Γɼ࠷ΫϦʔϯʹ͍ۙͰڥ 15ʙ10dBɼ ސ٬ͷଟ͍࣌ؒଳͰ 5ʙ-5dB Ͱ͋Δɽൃ༰ɼ٬ɼैۀһͱͷΓͱΓɼࡶஊ ͳͲࣗ༝ൃͰ͋ΔɽԻࣜܗ MP3 ࣜܗɼ256kbps Ͱ͋ΔͨΊɼWAV ࣜܗʢϏοτ Ϩʔτ 16bitɼαϯϓϦϯάϨʔτ 16kHzʣʹม͍ͯ͠ΔɽϑϨʔϜαΠζͼٴγϑτ ͦΕͧΕ 25msɼ10ms Ͱ͋ΔɽύϫʔεϖΫτϧࢉग़ͷࡍʹɼϋϛϯά૭ʹΑΔ૭ ֻ͚ΛߦͬͨɽධՁईϑϨʔϜ୯Ґͷࣝผ݁Ռͷ FARʢFalse Acceptance Rateʣͱ. FRRʢFalse Rejection Rateʣͷௐฏͨ͠ͱۉɽ ද 3.2 ʹɼಛྔผͷࣝผ݁ՌΛࣔ͢ɽεϖΫτϧͷपͷύϫʔʢLow. PowerʣɼεϖΫτϧͷഒԻͷύϫʔʢHarmonic PowerʣɼεϖΫτϧͷઑ ʢkurtosisʣɼʢskewnessʣͷ 4 ͭʹ͍ͭͯੑೳΛൺֱͨ͠ɽ࣮ݧͷ݁ՌɼLow Power ͕࠷ྑ͍݁ՌͱͳΓɼͦͷͱ͖ͷपൣғ 190Hzʙ431Hz Ͱ͋ͬͨɽଞͷ 3 छྨ ͷಛྔ Low Power ʹ͍ۙਫ਼ͱͳͬͨɽࣝผख๏ͷൺֱͱͯ͜͠ΕΒͷಛྔ͔Β ࠞ߹ਖ਼نϞσϧʢGMMʣΛֶशࣝ͠ผΛߦ͕ͬͨɼԻ৴߸ͷڥͷมԽ͕ܹ͍͠ ͨΊେྔͷֶशσʔλΛඞཁͱ͢Δ্ɼද 3.2 ʹඖఢ͢Δਫ਼͕ಘΒΕͳ͔ͬͨɽ ද 3.2. 4 छྨͷಛྔ͝ͱͷ VAD ੑೳൺֱɽ. Feature. FAR[%]. FRR[%]. ௐฏ[ ۉ%]. Low Power. 5.8. 11.5. 8.7. Harmonic Power. 7.1. 12.8. 9.9. Kurtosis. 8.8. 16.9. 13.3. Skewness. 13.2. 11.8. 12.5. 14.
(32) 3.4 ߟ ಛྔपͷύϫʔɼಛʹൃͷجຊपଳҬͷύϫʔ͕࠷ྑ͍݁Ռͱ ͳͬͨɽ·ͨɼௐͷಛྔ΄΅ಉͷੑೳΛಘͨɽඇൃΛൃͱޡडཧͨ͠ྫ ͷଟ͘ɼস͍ɼ֏ɼ͋Δ͍తऀʢϚΠΫணऀʣҎ֎ͷൃΛݕग़͍ͯͨ͠ɽ ຊख๏ͰൃͷҰൠతͳಛΛநग़͍ͯ͠ΔͨΊɼతऀͷൃͱͷ۠ผऀࣝผ ͳͲผͷख๏͕ඞཁͱߟ͑ΒΕΔɽҰํɼൃΛඇൃͱغޡ٫ͨ͠߹ɼൃͷதͰ খͰ͋Δ͔ɼൃͷ։࢝ɾऴ͕ྃແԻʹ͍ۙͳͲ෦తʹޡΔ͕ଟ͘ɼ͋Δఔ ͷ͞Λ࣋ͭൃΛશͯغޡ٫͢ΔྫݟΒΕͳ͔ͬͨɽಡΈ্͛λεΫͷΑ͏ʹ͖ͬ Γͱൃ͢Δ߹͋Εɼྲྀெ͔ͭࣗવʹൃ͢Δ߹͋Δɽಛʹɼऀޙൃͷ։ ࢝ɾऴྃ࣌ͷύϫʔ͕େ͖͘ݮਰ͢Δʹ͋Δ. VAD ͷ݁ՌΛԻೝࣝʹ༻͍Δ߹ेʙඦϛϦඵ୯ҐͰͷਫ਼͕·ΕΔɽҰ ํɼൃͷ༗ແճɼ࣌ࠁͳͲΛٻΊΔ߹ɼVAD ͷਫ਼͕ඵ୯ҐͰ͋ͬͯे ʹ༻Ͱ͖Δͱߟ͑ΒΕΔɽલऀͱͰऀޙॲཧ࣌ؒʹେ͖ͳ͕ࠩͰͯ͘Δɽൃͷස ͕গͳ͍۠ؒۀʹؔ͢Δใྔগͳ͍ͨΊɼۀੳͷର֎ͱ͢Δɽ͢ͳΘͪɼ େہతͳ VAD ʹΑΓɼશମͷ౷ͱྔܭΑΓৄࡉͳੳ͕ٻΊΒΕΔ۠ؒͷݕग़Λߦ͍ɼ ଓ͍ͯͦͷ۠ؒʹணͨ͠ߴਫ਼ͳ VAD Λߦ͏ͱ͍ͬͨɼൃ۠ؒͷ͍͚͕ॏཁͱ ͳΔɽ. 15.
(33) ୈ4ষ. ऀΫϥεྨ ຊষͰɼୈ 3 ষͰͨ͠ൃ۠ؒʹରͯ͠ߦ͏ऀΫϥεྨʹ͍ͭͯઆ໌͢Δɽ ऀΫϥεྨͱɼൃ͕ͲͷΫϥεʹଐ͢Δऀ͔Λྨ͢Δ͜ͱͰ͋Δɽ͜͜Ͱ͍ ͏ऀͱɼϨετϥϯͷैۀһʢϚΠΫணऀɼͦΕҎ֎ͷैۀһʣɼސ٬Λࢦ͢ɽ ऀ͕͔Δ͜ͱͰɼϚΠΫΛணͨ͠ैۀһ͕୭ͱձΛ͠ɼ͓͓ΑͦͲͷΑ͏ͳ࡞ۀΛ ߦ͍ͬͯΔ͔ਪଌ͕ՄೳͱͳΔɽਪఆ͞Εͨऀใୈ 5 ষͷ࡞ۀ༰ਪఆͷಛྔʹ ༻͍ΒΕΔɽ. 4.1 ऀΫϥεྨͷ֓ཁ ൃ۠ؒݕग़Ͱɼൃʹڞ௨ͯ͠ΈΒΕΔಛΛʹݩɼൃͱඇൃͷྨΛߦͬ ͨɽൃ۠ؒͷଟ͘ϚΠΫΛணͨ͠ैۀһͷۀʹؔ͢Δൃ͕ͩɼ༷ʑͳछྨͷൃ ͕ݟΒΕΔɽྫ͑ɼѫࡰɼ٬ձɼۀձɼࡶஊͳͲ͕͛ڍΒΕΔɽ͜ΕΒɼ ͷύϫʔɼτʔϯɼͳͲ͕ҟͳΔɽ·ͨɼϚΠΫΛணͨ͠ैۀһҎ֎ͷऀͷൃ ·ؚΕΔɽ͜ΕΒɼϚΠΫΛணͨ͠ैۀһͷൃΑΓύϫʔ͕খ͘͞ɼͱΓΘ ͚ɼपͷύϫʔ͕খ͍͞ʹ͋Δɽ ͢ͳΘͪɼൃΛ͍͔ͭ͘ͷಛʹ͕ͨͬͯ͠ྨ͢ΔλεΫ͕ߟ͑ΒΕΔɽ͠ɼલ ड़ͷΑ͏ͳɼൃͷҙਤత্ͷྨ͕Ͱ͖Εɼͦͷैۀһͷঢ়گ࡞ۀ༰Λਪଌ ͢Δख͕͔ΓͱͳΔɽ·ͨɼϚΠΫΛணͨ͠ैۀһҎ֎ͷൃΛݕग़͢Δ͜ͱͰɼ٬ ࡞ͳۀͷ͔ɼඇ٬࡞ͳۀͷ͔Λผ͢Δ͜ͱՄೳͱͳΔɽ ऀΫϥεྨʹྨࣅٕͨ͠ज़ͱͯ͠ɼऀࣝผ͕͋Δɽ͜ΕɼൃͷऀΛಛఆ ͢ΔͷͰ͋Δɽදతͳख๏ͱͯ͠ɼ֤ऀͷԻڹಛྔ͔ΒΨεࠞ߹Ϟσϧ ʢGMMʀGaussian Mixture ModelʣαϙʔτϕΫλʔϚγϯʢSVMʀSupport Vector. MachineʣΛֶशͯࣝ͠ผʹ༻͍Δͷ͕͋Δ [34][35][36]ɽۙ DNNʢDeep Neural NetworkʣऀࣝผʹऔΓೖΕΒΕ͍ͯΔ [37]ɽಛྔʹɼϝϧपέϓετϥ ϜʢMFCCʀMel-Frequency Cepstrum CoefficientʣͱԻ৴߸ͷରύϫʔ [38]ɼ. i-vector[39] ͳͲ͕࠾༻͞Ε͍ͯΔɽ 16.
(34) +,-.
(35) 5673 . !"#$. 1234 %&'()* /00. ਤ 4.1. MFCC நग़ͷྲྀΕɽ. ຊڀݚͷൃΫϥεྨͰɼൃ۠ؒΛʮϚΠΫணऀʯʮଞͷैۀһʯʮސ٬ʯͷ 3 ͭͷΫϥεʹ͚ΔɽʮϚΠΫணऀʯಛఆͷऀͰ͋Δ͕ɼʮଞͷैۀһʯͱʮސ٬ʯ ෳͷෆಛఆऀΛରͱ͢Δɽಛఆऀͱෆಛఆऀͷ྆ํͷൃΛѻ͏ͱ͍͏ ຊڀݚͷಛ৭Ͱ͋ΔɽຊͰڀݚɼಛྔͱͯ͠ MFCCɼࣝผ ͯ͠ͱثSVM ͱ DNN Λ ༻͍Δɽ. 4.2 ಛྔ 4.2.1 ϝϧपέϓετϥϜʢMFCCʣ MFCC ͱɽεϖΫτϧ͔ΒಓͷԻڹಛੑʢߢޱͷܗʣϐονΛͨ͠έ ϓετϥϜΛɼώτͷௌ্֮ॏཁͳϝϧपଳҬʹࣸ૾͠ɼ࣍ݩѹॖͨ͠ͷͰ͋Δɽ ಛʹɼMFCC ͷ࣍ݩɼԻೝࣝʹ͓͚ΔԻૉͷࣝผʹ༻͍ΒΕΔදతͳಛ ྔͰ͋ΔɽԻ৴߸͔Β MFCC Λநग़͢ΔྲྀΕΛਤ 4.1 ʹࣔ͢ɽ. (1) ϓϦΤϯϑΝγεॲཧ ͡ΊʹɼԻ৴߸͔Βपղੳ͢ΔલʹϓϦΤϯϑΝγεॲཧΛߦ͏ɽԻ৴߸ ɼ૬ରతʹΈͯप͕େ͖͘ɼߴपʹͳΔʹͭΕͯ࣍ୈʹৼ෯εϖΫτϧ͕খ ͘͞ͳΔಛ͕͋Δɽ͜ΕपͷภΓͰ͋ΓɼέϓετϥϜੳʹӨڹΛͨ͢΅ٴ Ίɼࣜ (4.1) ͷϋΠύεϑΟϧλΛద༻͠ɼߴपͷৼ෯Λڧௐ͢Δɽ. x(t) = y(t) − py(t − 1). (4.1). y(t) Ի৴߸ͷαϯϓϧ tʢ࣌ࠁ t ʹ૬ʣͷৼ෯Ͱɼx(t) ϓϦΤϯϑΝγεޙ ͷԻ৴߸Ͱ͋Δɽp ϓϦΤϯϑΝγεͰɼԻೝࣝͰ 0.97 ͕ΘΕΔɽ1 α. 17.
(36) ϯϓϧલͷʹରͯ͠େ͖͕͘มԽͨ͠߹ʢ͢ͳΘͪߴपʣͦͷ͕อଘ ͞ΕɼͷมԽ͕খ͔ͬͨ͞߹ʢपʣ͡ݮΒΕΔɽຊ࣮ݧಉ༷ʹϓϦΤϯ ϑΝγεΛ 0.97 ʹઃఆͨ͠ɽ. (2) ϑϨʔϜԽɾ૭ֻ͚ Ի৴߸Λपղੳ͢Δͱ͖ɼ৴߸Λ࣌ؒͷϑϨʔϜʹΓ͚ͯੳ͢Δɽ͜ ΕΛϑϨʔϜԽͱ͍͏ɽԻ৴߸ͷ֤ϑϨʔϜܗͷ࢝ͱऴ͕ෆ࿈ଓʹ్Εͯ ͓ΓɼϑʔϦΤม͢Δࡍʹෆ߹͕ੜ͡Δɽ͜ͷӨڹΛͳͨ͘͢Ίɼࣜ (4.2) ͷ૭ؔ. w(t) ΛΓग़ͨ͠ೖྗ৴߸ʹΛద༻͠ʢࣜ (4.3)ʣɼ࢝ͱऴͷαϯϓϧΛ 0 ʹ͚ۙͮ Δɽ͜ΕΛ૭ֻ͚ͱ͍͏ɽ. 2πt , (t : 0, 1, · · · , N − 1) N −1 x (t) = w(t)x(t). w(t) = 0.54 − 0.46 cos. (4.2) (4.3). N ϑϨʔϜʢαϯϓϧʣɼx(t) ϑϨʔϜԽͨ͠Ի৴߸ɼx (t) ૭ֻޙͷϑϨʔ ϜͰ͋Δɽ࿈ଓͨ͠εϖΫτϧͷมԽΛଊ͑ΔͨΊɼϑϨʔϜԽͱ૭ֻ͚ॲཧҰఆαϯ ϓϧͣͭͣΒͯ͠ߦ͏ɽ͜ͷͣΒ͠෯ΛϑϨʔϜγϑτͱ͍͏ɽຊ࣮ͰݧɼϑϨʔϜ Λ 25msecɼϑϨʔϜγϑτΛ 10msec ͱͨ͠ɽ. (3) ࢄϑʔϦΤม Ի৴߸ͷ֤ϑϨʔϜࢄϑʔϦΤมʹΑͬͯपྖҬͰͷεϖΫτϧใʹม ͞ΕΔɽࢄϑʔϦΤมࣜ (4.4) Ͱද͞ΕΔɽ. X(ω) =. N −1 . x(t)e−j. 2πωt N. (4.4). t=0. ω प binɼX(ω) ෳૉεϖΫτϧͰ͋ΔɽෳૉεϖΫτϧͷ֤प bin ͷઈ ରΛͱͬͨͷΛৼ෯εϖΫτϧͱͿݺɽৼ෯εϖΫτϧɼ֤प bin ʹ૬͢Δ पͷԻ৴߸ͷ͞ڧʢύϫʔʣΛද͢ɽ֤प bin ͷରΛͱΕɼώτͷௌ֮ʹ ߹ͬͨύϫʔʹม͞ΕΔɽ. (4) ϑΟϧλόϯΫ ϑΟϧλόϯΫɼόϯυύεϑΟϧλͷू߹ମͰ͋Γɼೖྗ৴߸ΛಛఆͷͷଳҬʹ ׂ͢Δɽ֤ଳҬͷεϖΫτϧͷੵΛٻΊΔ͜ͱͰɼεϖΫτϧͷ࣍ݩΛଳҬͷͱ ಉ͡ʹѹॖ͢Δ͜ͱ͕Ͱ͖Δɽ͜Εɼޙͷࣝผʹ͓͍ͯؒ࣌ࢉܭΛॖͤ͞ΔΛ࣋ ͭɽϝϧϑΟϧλόϯΫɼ֤ϑΟϧλͷଳҬΛৼ෯εϖΫτϧͷΑ͏ͳपͷࠩؒ ִͰͳ͘ɼࣜ (4.5) ͷΑ͏ͳϝϧईΛ͞ࢉܭʹݩΕΔɽϝϧईͱɼप͕খ͞ ͍ଳҬ΄Ͳपղೳ͕ྑ͘ɼେ͖͘ʹͳΔʹͭΕͯपղೳ͕ૈ͘ͳΔईͰ͋. 18.
(37)
(38) . . . ਤ 4.2. ϝϧϑΟϧλόϯΫͷ֓ܗɽ. Γɼώτͷௌ֮ಛੑʹΑΓ߹கͨ͠ͷͰ͋ΔɽMFCC ͷʹࢉܭɼਤ 4.2 ʹࣔ͢Α͏ ͳࡾ֯૭ͷϝϧϑΟϧλόϯΫ͕༻͍ΒΕΔɽຊ࣮ͰݧɼϝϧϑΟϧλόϯΫͷΛ. 20 ͱͨ͠ɽ M el(f ) = 2595 log10 (1 +. f ) 700. (4.5). (5) ରɾࢄίαΠϯม ϝϧϑΟϧλόϯΫʹΑͬͯѹॖ͞ΕͨεϖΫτϧɼ֤࣍ݩͷରΛͱͬͯεέʔϧ Λௐઅ͠ɼࢄίαΠϯมʹΑͬͯϝϧέϓετϥϜʹม͢ΔɽέϓετϥϜͱɼ εϖΫτϧͷܗঢ়Λදͨ͠ݱͷͰɼέϓετϥϜͷप͕ಓಛੑɼߴप ͕ϐονʹ૬͢ΔɽϝϧέϓετϥϜɼέϓετϥϜͷप࣠Λϝϧईʹࣸ ૾ͨ͠ͷͰ͋ΔɽԻೝࣝͰԻ৴߸ͷಓಛੑΛॏࢹ͢ΔͨΊɼϝϧέϓετϥϜ ͷ࣍ΛऔΓग़ͯ͠ɼԻڹಛྔͱ͢Δɽ͜ΕΛ MFCC ͱ͍͏ɽຊ࣮Ͱݧɼϝϧ ϑΟϧλόϯΫʹΑͬͯѹॖ͞Εͨ 20 ࣍ݩͷ͏ͪɼ2 ࣍ݩ͔Β 14 ࣍ݩͷ ܭ13 ࣍ݩ Λ༻͢ΔɽMFCC ͷ 1 ࣍ݩύϫʔʢྔʣʹ૬͢ΔͰɼλεΫʹΑͬͯ ࣝผੑೳΛԼͤ͞Δ͜ͱ͕͋ΔͨΊɼຊ࣮Ͱݧ༻͠ͳ͍ɽ. 4.2.2 ΔMFCC MFCC ԻͷΑ͏ͳఆৗతͳԻӆΛΑ͘ද͢ݱΔಛྔͰ͋Δ͕ɼࢠԻԻ ͷΑ͏ͳಈతͳԻӆΛද͢ݱΔʹෆेͰ͋Δɽͦ͜ͰɼMFCC ͷಈతಛྔʢσϧ λύϥϝʔλʣ͕ఏҊ͞Ε͓ͯΓɼԻೝࣝʹΑ͘༻͍ΒΕ͍ͯΔɽ͋ΔϑϨʔϜͷ. MFCC ʹ͍ͭͯɼͦͷલޙϑϨʔϜʢຊ࣮Ͱݧ 2ʣͷσʔλʹରͯ͠ɼతม y Λ MFCC ͷ֤࣍ݩͷɼઆ໌ม x Λ࣌ࠁʢϑϨʔϜ൪߸ʣͱ͠ɼ࠷͕ࠩޡখʹͳΔΑ͏ͳ y = ax + b ΛଟॏճؼੳʹΑͬͯٻΊɼͦͷ࣌ͷճؼϕΫτϧ a Λ ΔMFCC ͱ 19.
(39) ͢Δɽ·ͨɼΔMFCC ʹରͯ͠ɼಉ༷ʹٻΊͨճؼϕΫτϧΛ ΔΔMFCC ͱ͢Δɽ. 4.3 SVMʢSupport Vector Machineʣ SVM ͱɼ͋ࢣڭΓֶशΛ༻͍ΔύλʔϯೝࣝϞσϧͷҰͭͰ͋ΔɽSVM Χʔω ϧτϦοΫͱݺΕΔख๏ʹΑͬͯඇઢܗͷࣝผؔΛߏͰ͖ΔΑ͏ʹ֦ு͞Ε͓ͯ Γɼύλʔϯೝࣝͷଟ͘ͷख๏ͷதͰೝࣝੑೳͷ༏Ε͍ͯΔֶशϞσϧͰ͋Δͱߟ͑Β Ε͍ͯΔɽSVM ͷڧΈɼະֶशσʔλʹରͯ͠ߴ͍ࣝผੑೳΛಘΔͨΊͷ͕͋Δ ͜ͱͰ͋ΔɽSVM ઢܗೖྗૉࢠΛར༻ͯ͠ 2 ΫϥεͷύλʔϯࣝผثΛߏ͢Δख๏ Ͱ͋Δɽ܇࿅αϯϓϧ͔Βɼ֤σʔλͱͷ࠷͕ڑେͱͳΔϚʔδϯ࠷େԽฏ໘Λٻ ΊΔͱ͍͏ج४ʢฏ໘ఆཧʣͰઢܗೖྗૉࢠͷύϥϝʔλΛֶश͢Δɽݹయతͳ. SVM ઢܗྨ͕ͨͬ͋ͰثɼΧʔωϧؔΛ༻͍ͯύλʔϯΛ༗ݶ͘͠ແݩ࣍ݶ ͷಛۭؒࣸ૾͠ɼಛ্ۭؒͰઢܗΛߦ͏ख๏͕ఏҊ͞Εɼඇઢܗྨʹ ༏ΕͨੑೳΛൃ͢شΔ͜ͱ͕ࣔ͞Ε͍ͯΔɽ. 4.3.1 SVM ͷૅج SVM ɼ߹ ܭN ݸͷ D ࣍ݩϕΫτϧ xi = (xi1 , xi2 , · · · , xiD )T Λࣝผؔ f ʹΑͬ ͯΫϥε AʢCA ʣͱΫϥε BʢCB ʣʹࣝผ͢Δ͜ͱΛߟ͑ͨ߹ɼ܇࿅σʔλʹରͯ͠ ࣜ (4.6) Λຬͨ͢Α͏ʹࣝผؔ f (xi ) ͷύϥϝʔλΛௐ͢Δɽ. f (xi ) =. ≥1 if xi ∈ CA ≤ −1 if xi ∈ CB. (4.6). i = 1, 2, · · · , N Ͱ͋Δɽࣝผؔ f ࣜ (4.7) ͷΑ͏ʹఆٛ͞ΕΔɽ f (x) = wT x + b. (4.7). ͜͜Ͱɼw = (w1 , w2, · · · , wD )T ॏΈϕΫτϧɼb εΧϥʔͰද͞ݱΕΔ͖͍͠Ͱ ͋Δɽf Ұൠʹฏ໘ͱݺΕΔڥքͰ͋Γɼະσʔλʹରͯ͠࠷దͳฏ໘ɼ͢ͳ Θͪ w, b ΛٻΊΔ͜ͱʹͳΔɽ͜ͷ࣌ɼSVM ਤ 4.3 ʹ͋ΔΑ͏ʹɼ֤Ϋϥεͷ. Support Vector ͱฏ໘ʢਤதͷଠઢʣͱͷڑʢϚʔδϯʣΛ࠷େԽ͢Δฏ໘Λਪ ఆ͢Δɽ. 4.3.2 Ϛʔδϯ ฏ໘ͷਪఆɼฏ໘ͱ֤ΫϥεͷڑʢϚʔδϯʣ͕࠷େʹͳΔΑ͏ʹߦ͏ɽฏ ໘ΛڬΉ 2 ͭͷڥք໘Λࣜ (4.8) ͱ͓͘ɽ͜Εਤ 4.3 ͷ 2 ͭͷഁઢʹ૬͢Δɽ. f (x) = wT x + b = ±1 20. (4.8).
(40) . ਤ 4.3. SVM ͷΠϝʔδɽ. ͜Ε࣍ࣜͱಉٛͰ͋Δɽ. |wT xi + b| = 1. (4.9). ·ͨɼσʔλ xi ͱฏ໘ͱͷ࠷খϢʔΫϦουڑɼ. min i. |wT xi + b| w. (4.10). ͱද͞ݱΕΔɽw ϕΫτϧ w ͷ͞Ͱ͋Δɽ͢Δͱࣜ (4.10) ࣜ (4.9) ΑΓɼ. min i. |wT xi + b| 1 = w w. (4.11). ͱͳΔɽࣜ (4.11) ͷӈลٻΊΔฏ໘ͱ࠷͍ۙσʔλ xi ͱͷϚʔδϯͰ͋ΔɽϚʔ δϯฏ໘ͷ྆ଆʹଘࡏ͢ΔͷͰɼ࣮ࡍ. 2 w. ͱͳΓɼ͜ΕΛ࠷େԽ͢Δ͜ͱͰ൚Խ. ೳྗͷߴ͍ฏ໘͕ಘΒΕΔɽ. 4.3.3 ύϥϝʔλਪఆ ܇࿅σʔλ xi ʹର͢Δࢣڭ৴߸ yi Λ࣍ͷΑ͏ʹఆٛ͢Δɽ. yi =. 1 if xi ∈ CA −1 if xi ∈ CB. (4.12). ·ͨɼϚʔδϯ࠷େԽͷͨΊͷ੍݅࣍ͷ௨ΓͰ͋Δɽ. yi (wT xi + b) ≥ 1 21. (4.13).
(41) ͜ͷ੍݅ͷԼͰϚʔδϯ. 2 w. Λ࠷େԽ͢Δ͜ͱΛߟ͑Δɽରͱͯ͠ɼϥάϥ. ϯδΣͷະఆ๏Λ༻͍ͯ͜ͷΛղͨ͘ΊɼϚʔδϯͷ࠷େԽ. w2 2. ͷ࠷খԽ. ʹஔ͖͑Δɽ͜͜Ͱɼࣜ (4.14) ͷΑ͏ʹ͓͖ɼϥάϥϯδϡະఆఆΛ α ͱ͢Δͱɼ ࣜ (4.14) Λ࠷খԽ͢Δɼࣜ (4.15) Λࣜ (4.16) ͱࣜ (4.17) ͷ੍݅ʹ࠷͍ͯͮج େԽ͢ΔʹͳΔɽ. L(w) = L(w, b, α) =. N . 1 w2 2. (4.14). N. αi −. i=1. 1 yi yj αi αj xT i xj 2 i=1. αi ≥ 0 N . yi α i = 0. (4.15) (4.16) (4.17). i=1. ࠷߱ٸԼ๏Λ༻͍ͯ͜ͷΛղ͖ɼಘΒΕͨ࠷దղ α Λ༻͍ͯɼॏΈͷ࠷దύϥϝʔ λ w ࣜ (4.18) ͰٻΊΒΕΔɽα ͷߋ৽ࣜ (4.19) ʹै͍ɼΔαi ͕ेʹখ͘͞ͳͬ ͨΒऩଋͨ͠ͱΈͳ͢ɽη ֶशͰ͋Δɽ . w =. N . yi αi xi. (4.18). i=1. Δαi = η(1 −. . α j y i y j xT i xj ). (4.19). ͜͜Ͱɼαi > 0 Λຬͨ͢܇࿅αϯϓϧ xi ΛαϙʔτϕΫλʔͱͿݺɽαϙʔτϕΫλʔ ฏ໘ʹ࠷͍ۙͰ͋Γɼਤ 4.3 Ͱֻ͚ʢփ৭ృΓͭͿ͠ʣͷͰ͋Δɽαϙʔ τϕΫλʔΛ xs ͱ͓͚ɼb ࣜ (4.20) ͰٻΊΒΕΔɽ. b = ys − wT xs. (4.20). 4.3.4 ϋʔυϚʔδϯͱιϑτϚʔδϯ ਤ 4.3 ͷΑ͏ͳϚʔδϯʹ܇࿅σʔλ͕ଘࡏ͠ͳ͍߹ΛϋʔυϚʔδϯͱ͍͏ɽ͜ Εʹର͠ɼϚʔδϯʹ܇࿅σʔλ͕ଘࡏ͢Δ߹ΛιϑτϚʔδϯͱ͍͏ɽιϑτϚʔ δϯʹ͓͚Δ੍݅࣍ࣜͷΑ͏ʹͳΔɽ. yi (wT xi + b) ≥ 1 − ξi where ξi ≥ 0. (4.21). ξ εϥοΫมͱݺΕΔɽϋʔυϚʔδϯͳΒ ξ = 0ɼਖ਼͘͠ྨͰ͖͍ͯΔ͕Ϛʔ δϯʹσʔλ͕ଘࡏ͢Δ߹ 0 < ξ ≤ 1ɼޡྨ͞Εͨ߹ ξ > 1 ͱͳΔɽιϑτ ϚʔδϯΛߟྀͨ͠Ϛʔδϯ࠷େԽͷతؔࣜ (4.22) ͱͳΔɽ. 22.
(42) N. w2 ξi where C > 0 +C 2 i=1. (4.22). C ϖφϧςΟΛද͢ύϥϝʔλͰɼC → ∞ ͳΒϋʔυϚʔδϯͱͳΔɽҰൠʹɼC ͕ େ͖͚Εେ͖͍΄Ͳ܇࿅σʔλͷޡΓʹର͢ΔϖφϧςΟ͕େ͖͘ͳΔͨΊɼաֶशΛ Ҿ͖͢͜ىՄೳੑ͕ߴ͘ͳΔɽ൚ԽੑೳΛߴΊΔͨΊʹɼάϦου୳ࡧΛ༻͍ͯޙड़ͷ Χʔωϧ๏ͷύϥϝʔλ σ ͱ C ͷ࠷దͳΈ߹ΘͤΛٻΊΔɽ. 4.3.5 Χʔωϧ๏ SVM ඇઢܗʹରͯ͠ɼੑೳͷྑ͍ฏ໘Λඞͣ͠ߏͰ͖ΔΘ͚Ͱͳ ͍ɽྫ͑ɼ2 ࣍ ݩXOR Λղ͘͜ͱෆՄೳͰ͋Δɽͦ͜Ͱɼ܇࿅σʔλΛݩͷۭ ؒͷ࣍ݩҎ্ͷ࣍ݩΛ࣋ͭผͷۭؒʹࣸ૾͠ɼͦͷ্ۭؒͰฏ໘ΛٻΊΔ͜ͱͰ Մೳͱ͢Δํ๏͕ߟ͑ΒΕͨɽ͜ͷ࣌ɼ܇࿅σʔλ xi = (xi1 , xi2 , · · · , xiD )T Λ Φ(xi ) Ͱࣸ૾ͨ͠σʔλΛ zi = (zi1 , zi2 , · · · , ziD )T ͱ͢Εɼࣜ (4.15) ࣜ (4.23) ʹॻ͖ ͑ΒΕΔɽ N . N. 1 L(w, b, α) = αi − yi yj αi αj ziT zj 2 i=1 i=1. (4.23). ࣜ (4.23) தͷ ziT zj Ұൠʹ͕ྔࢉܭେʹͳΔͨΊɼࣸ૾લͷ܇࿅σʔλΛ༻͍ͨܭ ࢉࣜͰ༻͢Δɽྫ͑ɼຊ͍༻ͰڀݚΔ RBF Χʔωϧࣜ (4.24) Ͱද͞Εɼσ(> 0) Ϣʔβ͕ࢦఆ͢Δɽσʔλͱൺֱͯ͠ಛྔͷ͕࣍ݩѹతʹଟ͍Α͏ͳ߹ɼ ઢܗΧʔωϧͷํ͕ྑ͍͜ͱ͋Δɽ. ziT zj. = =. K(xi , xj ) 2 e−σxi −xj . (4.24). 4.3.6 ଟΫϥεྨͷԠ༻ SVM 2 ΫϥεྨͰ͋ΔͨΊɼଟΫϥεྨʹԠ༻͢ΔͨΊʹɼ1 ରଞྨ๏ 1 ର 1 ྨ๏ͳͲɼෳͷ SVM Λߏங͢Δ͜ͱ͕ඞཁͱͳΔɽ1 ରଞྨ๏ɼ͋ΔΫ ϥεͱͦͷଞͷΫϥεશͯͰ SVM Λߏங͍͖ͯ͠ɼͦΕΒΛͱʹଞΫϥεྨΛߦ ͏ํ๏Ͱ͋Δ K ΫϥεྨͰ K ݸͷ SVM ͕ඞཁͱͳΔɽ1 ର 1 ྨ๏ɼ2 Ϋϥε ͰϖΞΛ࡞͍͖ͬͯɼͦΕΒΛྨ͢Δ SVM Λߏங͢ΔɽK ΫϥεྨͰ K C2 ݸͷ. SVM ͕ඞཁͱͳΔɽ1 ର 1 ྨ๏ɼΫϥε͕ଟ͍߹ࢉܭίετ͕͔͔Δ͕ɼ ྨͷ͍͠σʔλʹରͯ͠ྨੑೳ͕ߴ͍ɽ. SVM ߏஙͷࡍɼΫϥεؒͷ܇࿅σʔλʹ͕ࠩ͋Δͱɼ܇࿅σʔλͷଟ͍Ϋϥεʹ ࣝผ݁Ռ͕ภͬͯ͠·͏͜ͱ͕͋Δɽ࣮ੈքͷଟ͘ͷྨɼσʔλΛۉʹ༻ҙ͢. 23.
(43) Δ͜ͱ͕͍ͨ͠Ίɼେ͖͘ 2 ͭͷํ๏Ͱରॲ͢Δɽ1 ͭɼࣜ (4.22) ʹ͓͚Δίετ ύϥϝʔλ C Λௐઅ͢Δํ๏Ͱ͋Δɽσʔλͷগͳ͍Ϋϥεʹର͢Δ C Λߴ͘͠ɼޡΓ ʹରͯ͘͢͠͠ݫΔ͜ͱͰσʔλͷগͳ͍ΫϥεͷࣝผੑೳΛ্ͤ͞Δɽ͏ 1 ͭɼ ΫϥεؒͷσʔλΛଗ͑Δํ๏Ͱ͋Δɽσʔλͷগͳ͍ํͷΫϥεʹσʔλΛ߹Θͤ ΔʢΞϯμʔαϯϓϦϯάʣ߹ɼσʔλͷଟ͍Ϋϥεʹ͍ͭͯΫϥελϦϯάͳͲΛ ༻͍ͯຬวͳ͘αϯϓϦϯά͢Δɽσʔλͷଟ͍ํ͓ΫϥεʹσʔλΛ߹ΘͤΔʢΦʔ όʔαϯϓϦϯάʣ߹ɼσʔλͷগͳ͍Ϋϥεʹ͍ͭͯ k-NN ๏ͳͲΛ༻͍ͯσʔλ Λਫ૿͢͠Δɽ. 4.4 DNNʢDeep Neural Networkʣ 4.4.1 DNN ͷجຊߏ DNN ͱɼNeural Network Λଟʹ݁߹ͨ͠ϞσϧͰ͋Δɽೖྗͱग़ྗͷؔΛଟ ͘ͷӅΕͱͦͷύϥϝʔλͰද͢ݱΔ͜ͱͰɼະͷσʔλʹର͢Δࣝผੑೳ͕ߴ͍͜ ͱ͕ಛͰ͋Γɼۙଟ͘ͷػցֶशͷʹऔΓೖΕΒΕ͍ͯΔɽ. DNN ͷ࠷খ୯ҐͰ͋ΔϢχοτਤ 4.4ʢࠨʣͷΑ͏ʹ ॏΈ w ͱόΠΞεθ ͷύϥ ϝʔλΛ࣋ͭɽͦͯ͠ɼଞͷϢχοτ͔Βͷೖྗ x ΛॏΈ͚ͯ͠όΠΞεΛՃ͑ɼ׆ੑ Խؔ f Λ௨ͯ࣍͠ͷϢχοτͷग़ྗͱ͢Δ (ࣜ (4.26))ɽ׆ੑԽؔ f ᮢؔ. tanh ؔɼγάϞΠυؔͳͲ͕༻͍ΒΕΔɽ. z = wx + θ x = f (z). (4.25) (4.26). ͜ΕΛෳͷʹ֦ு͠ɼ͔֤ͭʹෳͷϢχοτΛஔ͢ΔߏΛ MLPʢMulti-. Layer Perceptronʣͱ͍͏ʢਤ 4.4ʢӈʣʣɽMLP Ͱɼୈ 1 ͔Βୈ 2 ɼୈ 2 ͔Β ୈ 3 ͱɼͷ֤Ϣχοτ͕࣍ͷͷ֤Ϣχοτग़ྗ͢Δɽ֤Ϣχοτ࣍ͷͷϢ χοτͷॏΈߦྻ W ͱόΠΞε߲ θ Λ࣋ͭɽࣜ (4.27) ࣜ (4.28) ͷ֤߲ҎԼͰ ͋Δɽ (q). • Wij ɿୈ q − 1 ͷϢχοτ i ͔Βୈ q ͷϢχοτ j ͷ݁߹ॏΈɽ (q−1). • xi • •. ɿୈ q − 1 ͷϢχοτ i ͷग़ྗɽ. (q) θj ɿୈ q (q) xj ɿୈ q. ͷϢχοτ j ͷόΠΞεɽ ͷϢχοτ j ͷग़ྗɽ࣍ͷͷϢχοτͷೖྗʹͳΔɽ. (q). zj. =. . (q) (q−1). Wij xi. i (q) xj. (q). = f (zj ) 24. (q). + θj. (4.27) (4.28).
(44) . ਤ 4.4. . χϡʔϥϧωοτϫʔΫͷϢχοτʢࠨʣͱ݁߹ͷྫʢӈʣɽ. . .
(45) . . ਤ 4.5. . . MLP ʹΑΔଟΫϥεྨɽ. MLP ΛଟΫϥεྨʹ༻͍Δ߹ɼਤ 4.5 ͷΑ͏ʹ࠷ॳͷΛೖྗͱͯ͠ɼ؍ଌ σʔλͷ؍ଌσʔλΛՃͨ͠ಛྔͳͲΛೖྗ͢Δɽ࠷ޙͷग़ྗͱͯ͠ɼ؍ ଌσʔλ X ʹର͢ΔΫϥε c ͷग़ྗ֬ P (c|X) Λग़ྗ͢Δɽೖྗͱग़ྗͷؒͷ Λதؒ·ͨӅΕͱͿݺɽ͋ࢣڭΓֶशΛ͢Δ߹ɼೖྗʹֶशσʔλΛ༩͑ɼग़ ྗ·Ͱ৴߸Λൖͤ͞ɼग़ྗͷग़ྗͱࢣڭ৴߸ͷࠩޡΛগͳ͘͢ΔΑ͏ʹֶश͢Δɽ ׆ੑԽؔʹγάϞΠυؔ (ࣜ (4.29)) ͕Α͘༻͍ΒΕΔ͕ɼग़ྗʹΑΔࣝผΫϥ εͷग़ྗʹιϑτϚοΫεؔ (ࣜ (4.30)) Λ༻͍Δ͜ͱ͕ଟ͍ɽιϑτϚοΫεؔ ɼ࣍ͷͷग़ྗͷ૯Λ 1 ʹ͢ΔͨΊɼ֬తʹग़ྗͰ͖Δɽ. 1 1 − e−xi exi f (xi ) = xn ne. f (xi ) =. (4.29) (4.30). 4.4.2 ͋ࢣڭΓֶशʢFine-tuningʣ (q). (q). DNN ͷ͋ࢣڭΓֶशͷඪɼ֤ɼ֤ϢχοτͷॏΈ Wij ͱόΠΞε θj. Λࢣڭ. ৴߸ʹΑֶͬͯश͠ɼ؍ଌ৴߸͔Βࢣڭ৴߸ͱͷ͕ࠩޡগͳ͍ग़ྗΛฦ͢Α͏ʹ͢Δ͜ͱ Ͱ͋ΔɽॏΈͱόΠΞεɼॳظϥϯμϜʹઃఆ͞Εɼֶशσʔλͱͦͷࢣڭ৴߸ Λࠩޡٯʹݩൖ๏ʢBack-PropagationʀҎԼɼBP ๏ʣΛ༻͍ͯॏΈΛߋ৽͢Δɽֶश σʔλͷग़ྗͱࢣڭ৴߸ͱͷʹؔࠩޡɼަࠩΤϯτϩϐʔೋ͍༻͕ࠩޡΒΕΔɽ. 25.
(46) ຊ͍ͨ༻Ͱڀݚೋࠩޡࣜ (4.31) Ͱද͞ΕΔɽ. E(W ) = (n). ͜͜Ͱɼxj. 1 (n) (xj − dj )2 2 i. (4.31). ग़ྗ n ͷ j ൪ͷϢχοτͷग़ྗɼdj ग़ྗͷ j ൪ͷϢχοτʹର (q). Ԡ͢Δࢣڭ৴߸Ͱ͋ΔɽॏΈͷߋ৽ʹ֬తޯ߱Լ๏͕༻͍ΒΕɼWij ࣜ (4.32) ͷΑ͏ʹߋ৽͞ΕΔɽη ֶशͰ͋ΔɽόΠΞεಉ༷ʹ͞ࢉܭΕΔɽ. ˆ (q) = W (q) − η ∂E(W ) W ij ij (q) ∂Wij. (4.32). ࣜ (4.32) ͷୈ 2 ߲࣍ͷΑ͏ʹ͢ࢉܭΔɽ. ∂E(W ) (q). (q). =. (q). ∂Wij. (q). ࣜ (4.34) ͷΑ͏ʹ δj. (q). ∂xj =. (q). ∂E(W ) ∂xj ∂zj. ∂E(W ) (q) ∂xj. ∂zj. (q). ∂Wij. (q). (q−1). f (zj )xi. (4.33). Λఆٛ͢Δͱɼࣜ (4.33) ࣜ (4.35) ʹม͖ͰܗΔɽ (q). δj. ∂E(W ). =−. (q) ∂xj. ∂E(W ). (q). f (zj ). (4.34). (q) (q−1). = −δj xi. (q) ∂Wij. (4.35). q = n ͷ߹ɼ͢ͳΘͪग़ྗͷࠩޡ؆୯ʹ͖Ͱࢉܭɼࣜ (4.34) ͷภඍͷ߲͕ࣜ (4.36) ͱͳΔͨΊࣜ (4.34) ࣜ (4.37) ʹͳΔɽ·ͨɼࣜ (4.35) ࣜ (4.38) ʹͳΔɽ ∂E(W ) (n) ∂xj (n). δj. (n). = xj. (n). = −(xj. − dj. (4.36) (n). − dj )f (zj ). (4.37). ∂E(W ) (n) (n−1) = −δj xi ∂Wijn. (4.38). ࣜ (4.37) ͷγάϞΠυؔͷඍࣜ (4.39) ͷͨΊɼࣜ (4.38) ࣜ (4.37) ͱࣜ (4.28) ͔Β࠷ऴతʹࣜ (4.40) ʹͳΔɽ. 1 f (x) = 1 − e−x = f (x){1 − f (x)} . . ∂E(W ) (n) ∂Wij. (n). = −(xj. (n). (4.39) (n). (n−1). − dj )xj (1 − xj )xi 26. (4.40).
(47) (q). ଓ͍ͯɼq < n ͷ߹ɼ͢ͳΘͪӅΕͷ͑ߟ͍ͯͭʹࠩޡΔɽδj. ɼͦͷ࣍ͷ. ʢୈ q + 1 ʣͷग़ྗΛ༻͍Δ͜ͱͰɼࣜ (4.41) Ͱද͞ΕΔɽ (q). δj. =−. ∂E(W ) . =−. (q). f (zj ). (q) ∂xj. ∂E(W ) ∂x(q+1) ∂z (q+1) (q+1) ∂xk. k. k (q+1) ∂zk. . k. (q) ∂xj. (q). f (zj ). (4.41). ͜ΕΛղ͘ͱɼ (q). δj. (q). = fj (zj ). =. (q) ∂Wij (q). ͱͳΔɽδj. =. . k. (q+1). Wjk. (q+1) (q) δj Wjk. (q). (q). (1 − xj )xj. (4.42). (q+1) (q) δj Wjk. (q+1). Λ͢ࢉܭΔʹɼδj. (q+1). δj. k. k. ∂E(W ). . (q). (q) (q−1). (1 − xj )xj xi. (4.43). ͕ඞཁͱͳΓɼ͕ࠩޡग़ྗ͔Βٯൖ͍ͯ͠Δ͜. ͱ͕͔Δɽຊڀݚͷ֬తޯ߱Լ๏Ͱɼ֬తޯͷʹࢉܭશͯͷσʔλΛ͏ͷ Ͱͳ͘ɼϛχόονͱݺΕΔ୯ҐͰֶशσʔλΛϥϯμϜʹநग़͠ɼͦͷฏۉΛ༻ ͢Δ͜ͱͰɼղ͕࠷ॴہదղʹऩଋ͢Δʢաֶश͢Δʣ͜ͱΛ͙ɽ. 4.4.3 ֶ͠ͳࢣڭशʢPre-trainingʣ DNN Ͱ͋ࢣڭΓֶशΛ͢Δ࣌ͷύϥϝʔλͷॳظϥϯμϜͰ͋Δ͕ɼֶ͠ͳࢣڭ शͷΞϧΰϦζϜΛ༻͍ͯ͋Δఔσʔλʹґଘͨ͠ʹॳظΛߋ৽͢Δ͜ͱͰֶशੑ ೳΛߴΊΒΕΔ͜ͱ͕ΒΕ͍ͯΔɽʢจݙҾ༻ʣ͜ΕΛ Pre-training ͱ͍͏ɽຊͰڀݚ SdAʢStacked denoising Auto-encoderʣΛ Pre-training ʹऔΓೖΕΔɽ. Autoencoder ֶ͠ͳࢣڭशͷҰछͰɼਤ 4.6 ͷΑ͏ʹɼೖྗσʔλ͔ΒӅΕΛհ ͯ͠ೖྗσʔλͱಉ͡ͷΛग़ྗ͢ΔΑ͏ʹύϥϝʔλΛֶश͢Δख๏Ͱ͋Δɽਤ 4.6 ͷ. x(q−1) ୈ q − 1 ͷϢχοτɼx(q) ୈ q ͷϢχοτͰ͋Δɽग़ྗʹࢣڭ৴߸ͷม ΘΓʹೖྗσʔλΛ༻͍ɼֶशΞϧΰϦζϜʹ BP ๏Λ༻͍Δɽࣜ (4.32) ͷࢉܭࠩޡ Ͱɼࢣڭ৴߸ di ͷΘΓʹೖྗ৴߸ vi Λ༻͍Δɽ. Denoising Autoencoder(dA)[40] ɼAutoencoder Λϕʔεͱͯ͠ɼೖྗ v Λ֬త ʹॻ͖͍͠৽ͨ͑ೖྗ v ʹ͔ͯ͠Βɼݩͷೖྗ v Λग़ྗͤ͞ΔΑ͏ͳχϡʔϥϧωο τϫʔΫΛֶश͢Δɽ͜ΕʹΑΓɼೖྗσʔλʹϊΠζͷॏܽଛ͕ൃੜͯ͠ɼΫ ϦʔϯͳೖྗσʔλΛ෮͖ͰݩΔΑ͏ʹͳΔɽdA σʔλͷϊΠζআʹڈΑͬͯೝࣝΛ ༰қʹ͢ΔσʔλΛ෮͢ݩΔ͜ͱ͕ओͳతͰ͋ΔɽҰൠʹ dA ͷֶशʹ༻͍Δೖྗ σʔλΫϦʔϯͰ͋ΓɼdA ͷதؒͰϊΠζΛ༩͢Δɽ৽͍͠ೖྗ v ͷੜʹɼ. 27.
(48) ਤ 4.6. Autoencoder.. ΨεϊΠζʢGaussian noiseʣԘ͜͠ΐ͏ϊΠζʢSolt and pepper noiseʣͳͲ͕༻ ͍ΒΕΔɽຊڀݚͷ߹ɼࡶԻ͕ॏͨ͠ԻͷΈѻ͏ͨΊɼࡶԻআ͏͍ͱڈΑΓɼࡶ ԻʹΑͬͯೖྗσʔλ͕ଟগมԽͯ͠ॊೈʹࣝผͰ͖Δ͜ͱΛ dA ʹظ͢Δɽຊڀݚ ͰɼԘ͜͠ΐ͏ϊΠζʹΑͬͯɼೋ߲Λ༻͍ͯ֬తʹ͍͔ͭ͘ͷ࣍ݩͷಛྔΛ. 0 ʹஔ͖ͨ͑ɽ Stacked denoising AutoencoderʢSdAʣ[41] ɼdA ΛԿॏͶͯ࡞ΒΕΔɽDNN ͷ MLP ͷΑ͏ͳଟͷχϡʔϥϧωοτϫʔΫʹֶ͓͍ͯ͠ͳࢣڭशΛ࣮͢ݱΔͨΊʹ ߟҊ͞Εͨɽֶश dA ͱಉ͘͡ 1 ͣͭߦΘΕΔɽ࠷ॳೖྗɾӅΕ 1 ɾೖྗ ͱ͍͏ߏͰɼೖྗ͔ΒӅΕ 1 ͷύϥϝʔλΛֶश͢Δɽ࣍ʹɼӅΕ 1 ɾӅΕ 2 ɾӅΕ 1 ͱ͍͏ߏͰɼӅΕ 1 ͔ΒӅΕ 2 ͷύϥ ϝʔλΛֶश͢ΔɽӅΕ 1 ͷग़ྗɼઌ΄Ͳֶशͨ͠ೖྗͱӅΕ 1 ͷύ ϥϝʔλΛʹݩɼೖྗ৴߸͔Βॱ࣍ٻΊΒΕΔɽಉ༷ʹͯ͠ɼӅΕ 2 Ҏ߱ dA ʹ ΑֶͬͯशΛ͢Δɽ࠷ޙͷӅΕ͔Βग़ྗͷύϥϝʔλ͜͜Ͱֶश͠ͳ͍ɽ. 28.
Outline
関連したドキュメント
研究計画書(様式 2)の項目 27~29 の内容に沿って、個人情報や提供されたデータの「①利用 目的」
歩行 体力維持と気分転換 屋外歩行・屋内歩行 軽作業 蝶番組立作業等を行い、工賃収入を得る 音楽 カラオケや合唱をすることでのストレスの解消
「事業活動収支計算書」は、当該年度の活動に対応する事業活動収入および事業活動支出の内容を明らか
問13 あなたの職種を教えてください?
By the method I, emotional recognition rate is 60% for close data, and 50% for open data(8 sentence speech of another speaker).The method II improves drastically the recognition
である水産動植物の種類の特定によってなされる︒但し︑第五種共同漁業を内容とする共同漁業権については水産動
「事業活動収支計算書」は、当該年度の活動に対応する事業活動収入および事業活動支出の内容を明らか
調査地点2(中央防波堤内側埋立地)における建設作業騒音の予測結果によると、評