コミュニケーション場のメカニズムの制約活用による音声認識精度向上の概念検証

(1)

ίϛϡχέʔγϣϯ৔ͷϝΧχζϜͷ੍໿׆༻ʹΑΔ

Ի੠ೝࣝਫ਼౓޲্ͷ֓೦ݕূ

Improving Speech Recognition by Utilizing Communication-ﬁeld Mechanism Constraints

ӹҪ ത࢙

Masui Hirofumi

தྛ Ұو

Nakabayashi Kazuki

୩ޱ ஧େ

Taniguchi Tadahiro

໋ཱؗେֶ৘ใཧ޻ֶ෦

College of Information Science and EngineeringɼRitsumekan University

Communication-field mechanism design includes rules and incentives to indirectly control the communication of a group of people, e.g., discussion, debate, meeting, and consultation, by introducing constraints to the communica-tion process. Similarly, we hypothesize that such constraints are beneficial for the applicacommunica-tion of speech recognicommunica-tion technologies based on artificial intelligence. In this paper, we evaluate this hypothesis by using an automatic speech recognition system with Dealing Rights to Speak (DRS) as a proof of concept. Our experimental results show that the introduction of DRS can effectively improve the performance of the speech recognition system.

1. ͸͡Ίʹ

ίϛϡχέʔγϣϯ৔ͷϝΧχζϜσβΠϯͱ͸ɼϧʔϧ΍ ΠϯηϯςΟϒ౳ͷ੍౓ઃܭʹΑΓɼίϛϡχέʔγϣϯ৔ͷ վળΛ໨ࢦ͢ΞϓϩʔνͰ͋Δ [୩ޱ11,୩ޱ19]ɽίϛϡχ έʔγϣϯ৔ͷϝΧχζϜ͸ɼ੍໿Λ௨ͯͦ͠ͷ৔ͷࢀՃऀͷ ൃ࿩౳ͷߦಈʹมԽΛٴ΅͢ɽݴ͍׵͑Δͱɼ͜ͷ੍໿͕ࢀՃ ऀͷൃݴ࣌ؒ΍ൃ࿩಺༰ͱ͍ͬͨίϛϡχέʔγϣϯߦಈʹɼ Ұछͷߏ଄Λ༩͑Δ͜ͱʹͳΔɽൃ࿩͕ߏ଄Խ͞ΕΔ͜ͱʹΑ ΓɼԻ੠ೝࣝ΍ݴޠॲཧ౳ͷਓ޻஌ೳٕज़ʹੑೳ޲্Λ༩͑Δ Մೳੑ͕ߟ͑ΒΕΔɽ ຊ࿦จͰ͸͜ͷίϛϡχέʔγϣϯ৔ͷϝΧχζϜͷ੍໿׆ ༻ʹΑΔਓ޻஌ೳٕज़ͷਫ਼౓޲্ͱ͍͏γφϦΦͷ֓೦࣮ূΛ ߦ͏ͨΊɼൃ࿩ݖऔҾͱԻ੠ೝٕࣝज़Λྫͱ͠ɼͦͷଥ౰ੑΛ ඃݧऀ࣮ݧΛ௨࣮ͯ͠ূతʹݕূ͢Δ͜ͱΛ໨తͱ͢Δɽ

2. ݚڀഎܠ

ൃ࿩ݖऔҾͱ͸ɼࢀՃऀͷൃݴ࣌ؒΛۉ౳ʹ͚ۙͮͭͭɼඞ ཁʹԠͯ͡ΑΓଟ͘ൃݴ͢Δࣗ༝౓Λ࢒ͨ͠ɼ࿩͠߹͍վળͷ ͨΊͷϝΧχζϜͱͯ͠ݹլΒʹΑͬͯఏҊ͞Εͨ΋ͷͰ͋Δ ʢৄࡉ͸[ݹլ14]ʣɽ ൃ࿩ݖऔҾͰ͸ɼൃ࿩ݖͱݺ͹ΕΔΧʔυࢀՃऀʹ౉͠ɼͦ ΕΛ֤ࢀՃऀ͕ࣗ཯෼ࢄతʹ༥௨ɾ࢖༻͢Δ͜ͱʹΑͬͯɼൃ ݴ࣌ؒͷॴ༗ݖ੍͕ޚ͞ΕΔϝΧχζϜͰ͋Δɽ͜Ε͕ɼ࢘ձ ͷෛՙΛݮΒ͠ɼൃݴ࣌ؒͷۉ౳ԽΛଅ͠ɼҙࢥදࣔ΍ཧ༝ʹ ؔ͢Δൃ࿩಺༰Λ૿΍͠ɼશମͱͯ͠࿩͠߹͍ͷޮ཰ੑΛߴΊ ΔޮՌ͕͋Δͱใࠂ͞Ε͍ͯΔ[ݹլ14]ɽຊݚڀͰண໨͢Δ ͷ͸ɼ͜ͷϝΧχζϜͷؼ݁ͱͯ͠ɼ֤ࢀՃऀͷൃݴ͕Ұఆ࣌ ִؒؒͰ۠੾ΒΕɼ·ͨɼݪଇతʹ͸ൃ࿩ͷඃΓ͕ͳ͘ͳΓɼ ࿩͠߹͍͕ਐߦ͢ΔΑ͏ʹͳΔͱ͍͏ଆ໘Ͱ͋Δɽ͜ͷ݁Ռͱ ͯ͠෭࡞༻తʹɼࣗಈԻ੠ೝࣝ΍ࣗಈٞࣄ࿥࡞੒͕༰қʹͳΔ ͜ͱ͕ظ଴͞ΕΔɽ

2.1 Ի੠ೝٕࣝज़

Ի੠ೝٕࣝज़͸ਓ޻஌ೳ෼໺ʹΑΔओͨΔٕज़։ൃ੒ՌͰ ͋ΔɽεϚʔτεϐʔΧʔ΍εϚʔτϑΥϯͳͲʹ͓͍ͯࣗવ ൃ࿩͔ΒͷԻ੠ೝٕࣝज़͸঎༻ར༻͞Ε͍ͯΔɽ͔͠͠ɼձٞ ࿈ བྷ ઌ: ӹ Ҫ ത ࢙ ɼཱ ໋ ؗ େ ֶ ɼ৘ ใ ཧ ޻ ֶ ෦ ɼ [email protected] ΍ΧδϡΞϧͳ࿩͠߹͍ͷٞࣄ࿥ࣗಈ࡞੒Λ࢝Ίͱͯ͠ɼଟਓ ਺ͷ೔ৗձ࿩΁ͷద༻͸ະͩʹे෼ͳਫ਼౓ΛಘΔ͜ͱ͕೉͍͠ ͱݴΘΕΔɽɹ ଟਓ਺ձ࿩ʹରͯ͠Ի੠ೝࣝثΛద༻͢Δࡍʹੜ͡Δɼయ ܕతͳ໰୊ͱͯ͠ɼಉ࣌ൃ࿩ͷ໰୊͕͋Δɽ͜Ε͸ෳ਺ͷࢀՃ ऀ͕ಉ࣌ʹൃ࿩͢Δ͜ͱͰɼԻ੠͕ඃΓԻ੠ೝ͕ࣝࠔ೉ʹͳͬ ͯ͠·͏΋ͷͰ͋Δɽ͜ͷ໰୊ͷղܾࡦͱͯ͠ɼ࿩ऀ෼཭ٕज़ ͷ׆༻͕ߟ͑ΒΕΔ∗1͕ɼ࿩ऀ෼཭ٕज़͸ɼԻ੠ೝٕࣝज़ͱ ҟͳΓɼݱঢ়Ͱ͸୭΋͕ط੡඼Ͱ༰қʹ༻͍ΒΕΔঢ়گʹࢸͬ ͍ͯͳ͍ɽ ຊߘͰ͸ɼίϛϡχέʔγϣϯ৔ͷϝΧχζϜσβΠϯ͕ਓ ޻஌ೳٕज़ͷ׆༻ʹߩݙ͢Δͱ͍͏ݱ৅ͷࣄྫͱͯࣔͨ͢͠ ΊɼԻ੠ೝࣝثͦͷ΋ͷͷٕज़తͳҙຯͰͷੑೳվળ͸ߦΘͣ ʹɼൃ࿩ݖऔҾͷ࿩͠߹͍΁ͷಋೖ͕ಉ࣌ൃ࿩Λ཈੍͢Δ͜ͱ Ͱɼٞࣄ࿥࡞੒ʹ͓͚ΔԻ੠ೝࣝثͷ׆༻ʹߩݙ͢Δ͜ͱΛ ࣔ͢ɽ

3. ࣮ݧ

3.1 ࣮ݧ໨త

ຊ࣮ݧͰ͸ɼൃ࿩ݖऔҾΛಋೖͨ͠࿩͠߹͍ͱɼಛஈͷ੍໿ Λઃ͚ͳ͍࿩͠߹͍ͷٞࣄ࿥ॻ͖ى͜͠ʹط੡඼ͷԻ੠ೝࣝث Λద༻͠ɼൃ࿩ݖऔҾͷಋೖ͕΋ͨΒ͢ӨڹΛ໌Β͔ʹ͢Δɽ ൃ࿩ݖऔҾͰ͸ɼ੍໿ʹΑͬͯൃ࿩ݖ͕؅ཧ͞ΕΔͨΊʹɼಉ ࣌ʹෳ਺ͷࢀՃऀ͕ൃݴ͢Δػձ͕ݮΔɽ͜ͷੑ࣭ΑΓɼൃ࿩ ݖऔҾΛ࢖༻͢Δ͜ͱͰɼಉ࣌ൃ࿩͕ࣗવͱ཈੍͞Εɼ݁Ռత ʹԻ੠ೝࣝਫ਼౓ͷ޲্͕ظ଴͞ΕΔɽ͜ΕΛ࣮ূతʹ໌Β͔ʹ ͢ΔͨΊʹ࣮ݧΛߦͬͨɽ

3.2 ࣮ݧ৚݅

ຊ࣮ݧͰ͸ɼൃ࿩ݖऔҾΛಋೖͨ͠࿩͠߹͍ͱϑϦʔσΟε ΧογϣϯʹΑΔ࿩͠߹͍Λൺֱ͢Δɽൃ࿩ݖऔҾʹ͓͚Δൃ ࿩ݖͷ؅ཧʹ͸ઌߦݚڀ[ӹҪ19]Ͱ։ൃ͞ΕͨεϚʔτϑΥ ϯΞϓϦΛ༻͍ͨ∗2ɽҰํɼϑϦʔσΟεΧογϣϯͰ͸ςʔ ϚͷΈΛ࣮ݧࢀՃऀʹ௨஌͠ɼࣗ༝ʹٞ࿦ͯ͠΋Βͬͨɽ ͦΕͧΕͷձ࿩͸ࢀՃऀͷதԝʹઃஔͨ͠ϚΠΫʹΑΓ࿥ ∗1 ྫ͑͹ [Nakadai 10] ͳͲ ∗2 ൃ࿩ݖऔҾΞϓϦ https://apps.apple.com/us/app/ൃ࿩ݖऔ ҾΞϓϦ/id1449230080

1 The 34th Annual Conference of the Japanese Society for Artificial Intelligence, 2020

(2)

Իͨ͠∗3ɽ͜ΕΛʮશपғ࿥ԻʯͱݺͿ͜ͱʹ͢Δɽ·ͨɼ࣮ ݧ݁ՌͷൺֱͷͨΊɼ࿩ऀ෼཭͕ద੾ʹͳ͞ΕͨԻ੠ͷ໛฿ͱ ֤ͯ͠ࢀՃऀʹ͸ϐϯϚΠΫΛऔΓ෇͚ɼͦΕͧΕͷ࿩ऀͷൃ ࿩͚͕ͩ࿥Ի͞ΕΔԻ੠σʔλ΋ऩूͨ͠ɽ͜ΕΛʮϐϯϚΠ Ϋ࿥ԻʯͱݺͿ͜ͱʹ͢Δɽ

ͦΕͧΕͷ࿥Ի͸ʢ̍ʣGoogle Cloud Speech APIΛ༻͍ ͨԻ੠ೝࣝʹΑΔࣗಈॻ͖ى͜͠∗4ɼʢ̎ʣਓखʹΑΔॻ͖ى ͜͠Λߦ͏ɽʢ̍ʣΛඪ४తͳԻ੠ೝࣝثʹΑΔॻ͖ى͜͠ͱ ݟͳ͠ɼʢ̎ʣΛਖ਼ղσʔλͱݟͳ͢ɽ

ఆྔධՁͰ͸ɼશͯͷೝࣝ݁ՌΛͻΒ͕ͳදهʹ։͖ɼͻ Β͕ͳදهͰͷจࣈͷೝࣝͷޡΓ཰(Character Error Rateɼ

CER)Λ༻͍ͯධՁ͢Δ͜ͱΛجຊͱͨ͠ɽ ࣮ݧΛߦ͏ࡍʹ஫ҙ͢Δ఺ͱͯ͠ɼਓһͷબఆɼςʔϚͷબ ఆɼ࣮ݧΛߦ͏ࡍͷ׳ΕʹىҼ͢ΔॱংޮՌ͕ڍ͛ΒΕΔɽ͜ ͷͨΊɼ͜ΕΒΛߟྀͨ͠ਓһ΍ςʔϚɼ࣮ࢪॱΛ࠾༻ͨ͠ɽ ৄࡉͳ࣮ݧ৚݅ʹؔͯ͠͸ɼޱ಄ൃදʹ͓͍ͯใࠂ͢Δɽ ࣮ݧͷશମతͳखॱΛҎԼʹࣔ͢ɽ 1. 4ਓʹΑΔ6෼ؒͷൃ࿩ݖऔҾͱϑϦʔσΟεΧογϣ ϯΛߦ͍ɼ࿥Ի͢Δɽ͜ΕΛ4ճͣͭߦ͏άϧʔϓΛ4 ૊༻ҙ͢Δɽ࠷ऴతʹɼൃ࿩ݖऔҾͱϑϦʔσΟεΧο γϣϯͷσʔλ͕ͦΕͧΕ16ύλʔϯͣͭಘΒΕΔɽ 2. ࿥Ի͢Δࡍ͸શһͷձ࿩͕࿥Ի͕Ͱ͖ΔϘΠεϨίʔμʔ Λ୎্தԝʹஔ͖ɼશपғ࿥ԻΛಘΔɽ·ͨɼಉ࣌ʹ֤ ࢀՃऀ͕ࢦ޲ੑͷϐϯϚΠΫΛ͚ͭɼ࿩ऀ෼཭ࡁΈσʔ λͱΈͳ͢ϐϯϚΠΫ࿥ԻΛಘΔɽ

3. ࿥ԻσʔλΛऩू͠ɼGoogle Cloud Speech APIʹΑΔ จࣈॻ͖ى͜͠ͱਓखʹΑΔจࣈॻ͖ى͜͠Λߦ͏ɽ

4. ਓखʹΑΔจࣈॻ͖ىͨ͜͠͠σʔλΛਖ਼ղσʔλͱ͠ɼ

Google Cloud Speech APIͷจࣈى͜͠σʔλͱਓखʹ ΑΔจࣈॻ͖ىͨ͜͠͠σʔλΛൺֱ͢Δ͜ͱͰจࣈى ͜͠ͷԻ੠ೝࣝਫ਼౓Λݕূ͢Δɽ

3.3 ࣮ݧ݁Ռͷݕ౼

·ͣɼൃ࿩ݖऔҾͷಋೖ͕Ի੠ೝࣝਫ਼౓Λվળ͔ͨ͠Ͳ͏͔ ʹؔͯ͠ɼओͨΔ࣮ݧ݁ՌΛݕ౼͢Δɽ શपғ࿥Իʹ͓͚Δൃ࿩ݖऔҾ৚݅ͱϑϦʔσΟεΧογϣ ϯ৚݅ͷCERฏۉ஋Λൺֱͨ͠ͱ͜Ζɼൃ࿩ݖऔҾ৚݅ͷํ ͕༗ҙʹ௿͔ͬͨɽ͜ΕʹΑΓൃ࿩ݖऔҾͷಋೖ͕Ի੠ೝࣝث ͷਫ਼౓Λ޲্ͤ͞Δͱ͍͏Ծઆ͕ࢧ࣋͞Εͨɽ ࣍ʹɼͦͷਫ਼౓վળͷ౓߹͍ʹ͍ͭͯݕ౼͢Δɽൃ࿩ݖऔҾ ಋೖͷޮՌ͕࿩ऀ෼཭ͱಉఔ౓Ͱ͋Ε͹ɼϐϯϚΠΫͰ࿥Ի͠ ͨ৚݅ͱಉఔ౓ͷೝࣝਫ਼౓Λࣔ͢͸ͣͰ͋Δɽ͜ͷͨΊʹશप ғ࿥Իͷൃ࿩ݖऔҾ৚݅ͱɼϐϯϚΠΫͷೋ৚݅Λൺֱ͢Δɽ ͜ͷ݁ՌɼϐϯϚΠΫ৚͕݅༗ҙʹ௿͔ͬͨɽ͜ΕΑΓൃ࿩ݖ औҾ͸Ի੠ೝࣝਫ਼౓Λվળ͢Δ΋ͷͷɼͦͷఔ౓͸΄΅׬શͳ ࿩ऀ෼཭ʹ͸ٴ͹ͳ͍͜ͱ͕Θ͔ΔɽҰํͰɼϐϯϚΠΫͷ̎ ৚݅ͷؒʹ͸༗ҙ͕ࠩͳ͔ͬͨɽ࿩ऀ෼཭͕ߦΘΕͨ৚݅Լʹ ͓͍ͯ͸ɼൃ࿩ݖऔҾͷޮՌ͸ফ͍͑ͯΔ͜ͱ͔Βɼൃ࿩ݖऔ Ҿͷ΋ͨΒ͢Ի੠ೝࣝਫ਼౓վળͷػೳ͸ɼ࿩ऀ෼཭ʹؔΘΔ΋ ͷͰ͋Δ͜ͱ͕ࣔࠦ͞ΕΔɽ

∗3 ࿥Իʹ͸εϚʔτϑΥϯ HUAWEI nova lite 2 ͷ಺ଂͷϚΠΫ

Λ༻͍ɼϘΠεϨίʔμʔͷΞϓϦΛ༻͍ͨɽ

∗4 Google Speech API ʹؔͯ͠͸ݚڀΛߦͬͨ 2019 ೥ 11 ݄ݱࡏͰ

ར༻Մೳͳ΋ͷͷσϑΥϧτઃఆΛ༻͍ͨɽ࿩ऀμΠΞϥΠθʔγϣ ϯػೳ͸ؚ·Ε͍ͯͳ͍΋ͷΛ༻͍͍ͯΔɽCloud SpeechtoText -Google Cloud: https://cloud.google.com/speech-to-text/ ?hl=ja Ҏ্ΑΓɼൃ࿩ݖऔҾΛ༻͍Δ͜ͱͰɼԻ੠ೝࣝͷਫ਼౓ͷ޲ ্͕ՄೳͰ͋Δ͜ͱ͕֬ೝ͞Εͨɽৄࡉͳ݁Ռͱͦͷݕ౼ʹͭ ͍ͯ͸ޱ಄ൃදʹ͓͍ͯใࠂ͢Δɽ

4. ·ͱΊ

ຊ࿦จͰ͸ίϛϡχέʔγϣϯ৔ͷϝΧχζϜͷ੍໿׆༻ʹ ΑΔਓ޻஌ೳٕज़ͷਫ਼౓޲্ͱ͍͏γφϦΦͷ֓೦࣮ূͷͨ Ίɼൃ࿩ݖऔҾͱԻ੠ೝٕࣝज़Λྫͱͯ͠औΓ্͛ɼͦͷଥ౰ ੑΛ࣮ূతʹݕূͨ͠ɽط੡඼ͷϚΠΫͱԻ੠ೝࣝثΛ༻͍ɼ ϑϦʔσΟεΧογϣϯͱൃ࿩ݖऔҾͷ৚݅ԼͰ࿩͠߹͍Λ࿥ Իɼೝࣝ͢Δ͜ͱʹΑΓɼఆྔతͳൺֱΛߦͬͨɽͦͷ݁Ռɼ ൃ࿩ݖऔҾΛ༻͍ͨ৔߹ɼϑϦʔσΟεΧογϣϯʹൺ΂ɼԻ ੠ೝࣝਫ਼౓͕޲্͢Δ͜ͱ͕෼͔ͬͨɽ͔͠͠ɼϐϯϚΠΫΛ ༻͍ͨ৔߹͸CER͕ΑΓ௿͍஋ͱͳ͓ͬͯΓɼ׬શͳ࿩ऀ෼ ཭Λ૝ఆͨ͠ϐϯϚΠΫ࿥ԻΛߦͬͨ৔߹ʹൺ΂Δͱɼ௿͍Ի ੠ೝࣝͷਫ਼౓ʹཹ·Δ͜ͱ͕෼͔ͬͨɽ Ի੠ೝࣝ΍ࣗવݴޠॲཧͱ͍ͬͨਓ޻஌ೳٕज़Λ׆༻͢Δ ͜ͱͰՄೳͱͳΔίϛϡχέʔγϣϯ৔ͷϝΧχζϜσβΠϯ ͕͋ΔҰํͰɼຊ࿦จͰݕ౼ͨ͠Α͏ʹίϛϡχέʔγϣϯ৔ ͷϝΧχζϜͷ੍໿ʹΑΓਫ਼౓޲্ΛਤΕΔਓ޻஌ೳٕज़΋ ͋Δɽ[୩ޱ19]Ͱओு͞ΕΔΑ͏ʹɼ͜ͷΑ͏ͳڞਐԽతؔ ܎ΛߟྀʹೖΕͭͭɼࠓޙͷݚڀ։ൃΛਐΊΔ΂͖Ͱ͋Δͱߟ ͑Δɽ

ँࣙ

ຊݚڀ͸JSTະདྷࣾձ૑଄ࣄۀJPMJMI17C7ͷࢧԉΛड ͚ͨ΋ͷͰ͋Δɽ

ࢀߟจݙ

[Nakadai 10] Nakadai, K., Takahashi, T., Okuno, H. G., Nakajima, H., Hasegawa, Y., and Tsujino, H.: Design and Implementation of Robot Audition System’HARK’

ʕOpen Source Software for Listening to Three Simulta-neous Speakers, Advanced Robotics, Vol. 24, No. 5-6, pp. 739–761 (2010)

[ӹҪ19] ӹҪ ത࢙,େౡ ਸ߂,୩ޱ ஧େɿൃ࿩ݖऔҾϞόΠ ϧΞϓϦέʔγϣϯΛ༻͍ͨσΟεΧογϣϯ৔ͷ෼ੳ,ਓ޻ ஌ೳֶձશࠃେձ࿦จू, Vol. JSAI2019, pp. 2F4OS5b03– 2F4OS5b03 (2019) [ݹլ14] ݹլ ༟೭,୩ޱ ஧େɿൃ࿩ݖऔҾɿ࿩͠߹͍ͷ৔ʹ ͓͚Δ࣌ؒ഑෼ͷϝΧχζϜσβΠϯ,೔ຊܦӦ޻ֶձ࿦จ ࢽ, Vol. 65, No. 3, pp. 144–156 (2014) [୩ޱ11] ୩ޱ஧େ,ਢ౻ल঺ɿίϛϡχέʔγϣϯͷϝΧχζ ϜσβΠϯ:ϏϒϦΦότϧͱൃ࿩ݖऔҾΛࣄྫͱͯ͠,γ εςϜ੍ޚ৘ใֶձࢽ, Vol. 55, No. 8, pp. 339–344 (2011) [୩ޱ19] ୩ޱ஧େɿίϛϡχέʔγϣϯ৔ͷϝΧχζϜσβ Πϯʹ޲͚ͨγεςϜ࿦ͷߏஙͱల๬,γεςϜ੍ޚ৘ใֶ ձ࿦จࢽ, Vol. 32, No. 12, pp. pp. 417–428 (2019), ট଴ ࿦จ