音声中の検索語検出における単語共起情報の利用
全文
(2) Vol.2016-SLP-110 No.1 2016/2/5. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ࣝޡΓͱͳͬͨ୯͍ͳ͖Ͱࡧݕ͕ޠɽ͜ͷΛղܾ͢Δ. Իڹใʹ͍ͨͮجαϒϫʔυྻʹΑΔ࿈ଓ DP Ϛονϯ. ͨΊɼ୯ޠΑΓ͍ԻૉԻઅͳͲͷαϒϫʔυΛ୯Ґͱ. άʹΑΓޠࡧݕͷީิ۠ؒΛݕग़͠ɼىڞ୯ޠใΛ༻͍. ͯ͠Իೝࣝ͠ɼྻܥͨ͠ࣅྨͱޠࡧݕΛݕग़͢Δख๏͕. ͯείΞΛ࠶ධՁ͢Δ͜ͱʹΑΓޠࡧݕΛݕग़͢Δɽ. ͘༻͍ΒΕɼະʹޠରͯ͠Ұఆͷੑೳ͕ಘΒΕ͍ͯ Δ [3], [4], [5], [6]ɽ͜ͷख๏Ͱɼޠࡧݕͷαϒϫʔυྻ ͱྨࣅͨ͠αϒϫʔυྻܥΛԻυΩϡϝϯτ͔Βݕग़͢ ΔͨΊɼ༙͖ग़͠ޡΓͷൃੜ͕ͱͳΔͷͷɼԻΛ छྨͷݶΒΕΔαϒϫʔυ୯ҐͰද͢ݱΔͨΊɼະޠͷ ආ͚ΒΕΔɽҰํͰɼSTD Ͱൃ͞Εͨޠࡧݕͷ۠ ؒΛ࿙Εͳ͘ݕग़͢Δɼ͢Θͳͪݕग़Λ্͛ΔͨΊʹɼ ԻυΩϡϝϯτʹ͓͚ΔԻڹతͳଟ༷ੑΛͲͷΑ͏ʹߟ ྀͯ͠ͱޠࡧݕর߹͢Δͷ͔͕େ͖ͳͱͳΔɽ͜Ε· ͰʹɼෳͷԻೝࣝ݁ՌΛ༻͍Δ͜ͱͰԻڹతଟ༷ੑΛ ߟྀ͢Δख๏ [7] ɼԻૉͷସΘΓʹԻڹಛΛϕΫτϧ. 2.1 ىڞ୯ޠใͱީิ۠ؒͷ୯ޠ৴པΛ༻͍ͨࡧݕ ݕޠग़ͷॲཧͷ֓ཁ ఏҊ͢Δ STD ख๏ͷॲཧͷྲྀΕΛ Fig. 1 ʹࣔ͢ɽҎԼ ʹͦͷखॱΛड़Δɽ. ( 1 ) ԻυΩϡϝϯτͷೝࣝ ࡧݕରͷԻυΩϡϝϯτΛԻೝࣝ͢Δ͜ͱʹ ΑͬͯɼԻૉྻͱ୯ྻޠͷ 2 छྨͷԻೝࣝ݁ՌΛ ಘ͓ͯ͘ɽ. ( 2 ) ؒ۠ิީޠࡧݕͷੜ. ྔࢠԽͨ͠ಘΒΕΔʹྻ߸هΑͬͯԻυΩϡϝϯτΛද. ͕ޠࡧݕೖྗ͞ΕΔͱɼԻυΩϡϝϯτͷԻૉྻ. ͢ݱख๏ [8] ͳͲ͕ఏҊ͞Ε͍ͯΔɽҎ্ͷख๏ɼԻ. Ͱͷೝࣝ݁ՌΛରʹͯ͠ɼ࿈ଓ DP Ϛονϯάʹ. ೝࣝʹΑͬͯԻυΩϡϝϯτΛมͯ͠ੜ͞Εͨ߸ه. Αͬͯݕޠࡧݕग़Λߦ͍ɼ݁ՌΛޠࡧݕͷީิ۠ؒ. ྻͱͱޠࡧݕͷর߹ʹΑͬͯޠࡧݕΛݕग़͢ΔͨΊɼԻ. ͱ͢Δɽ͜͜Ͱɼൃ͕ޠࡧݕ͞Ε͍ͯΔ͕۠ؒީ. υΩϡϝϯτʹ͓͚ΔԻڹతͳಛͷΈΛ༻͍ͯޠࡧݕΛ. ิ͔۠ؒΒͳΔ͘࿙Εͳ͍Α͏ɼݕ͕ޠࡧݕग़͞. ݕग़͍ͯ͠Δͱ͑ݴΔɽ. Ε͍͢Α͏ߴΊͷ͖͍͠ઃఆΛ͓ͯ͘͠ɽ. ޠࡧݕԻυΩϡϝϯτதͰจͷҰ෦ͱͯ͠ൃ͞ Εɼલޙͷ୯ͱޠͷؔ࿈ੑ͕ݟΒΕΔɽԻυΩϡϝϯτ ʹ͓͚Δ୯ؒޠͷؔΛ͜ͷΑ͏ͳޠݴใͱͯ͠༻͢ Δ͜ͱʹΑͬͯɼ༙͖ग़͠ޡΓΛ੍͠ STD ͷੑೳΛ ্ͤ͞ΒΕΔՄೳੑ͕͋ΔɽޠݴใΛ༻ͨ͠ STD ख ๏ͱͯ͠ɼޠࡧݕͷલࢺॿ֨ʹޙΛ༩͢͠ࡧݕΔख ๏ [9] ɼ୯ޠϥςΟεͰද͞ݱΕͨԻυΩϡϝϯτʹ ରͯ͠ɼਪఆʹ͍ͨͮج୯ىڞޠใΛ༻͍طޠͷ. ( 3 ) ىڞ୯ޠϦετͷੜ ޠࡧݕΛ web ͠ࡧݕɼؔ͢ʹޠࡧݕΔ web จॻΛ ऩू͢Δɽࣄલʹ web ࡧݕΛߦͬͯ࡞͓͍ͯ͠ ͨ web จॻू߹ͱͯؔ͠ʹޠࡧݕऩूͨ͠ web จ ॻΛ༻͍ͯɼؔͱޠࡧݕ࿈ੑ͕ߴ͍ͱߟ͑ΒΕΔڞ ى୯ޠϦετΛੜ͢Δɽৄࡉ 3.1 અͰड़Δɽ. ( 4 ) ͱޠࡧݕͷىڞΛߟ͑Δ୯߹ूޠͷੜ. ݕग़Λߦ͏ख๏ [10] ͳͲ͕ఏҊ͞Ε͍ͯΔɽ·ͨɼԻυ. ԻυΩϡϝϯτͷ୯Ͱྻޠͷೝࣝ݁Ռʹ͓͍ͯɼ. ΩϡϝϯτΛ࿈ଓ୯ޠೝࣝͨ͠ࡍɼ୯ޠຖʹ୯ޠ৴པ͕. ؒ۠ิީޠࡧݕͷҐஔΛܾఆ͢Δɽؒ۠ิީޠࡧݕ. ࢉग़͞ΕΔɽ͜ͷ୯ޠ৴པɼԻೝ͕ࣝثਖ਼͍݁͠Ռ. ʹઌߦ͢Δ M ݸɼ͓Αͼޙଓ͢Δ M ݸʢ ܭ2M. ͱஅͨ͠߹ߴ͘ͳΔ͕ɼݕग़͖͢୯͕ޠະޠೝ. ݸʣ͔ΒΔ୯߹ूޠͷ͏ͪɼ ʢ3ʣͰੜͨ͠ىڞ୯. ࣝޡΓͷ߹ɼݕग़͖۠ؒ͢ͷ୯ޠ৴པ͘ͳΔ. ޠϦετʹ·ؚΕΔ୯ ߹ूޠU = u1 , . . . , uK ʢ͜. ʹ͋Δɽޠࡧݕͷީิ۠ؒͷ୯ޠ৴པΛݟΔࣄͰݕޡ. ͜ͰɼK ≤ 2M ʣΛ࠶ධՁʹ༻͍Δىڞ୯ͱ߹ूޠ. ग़Λ͖ܰͰݮΔՄೳੑ͕͋Δɽ. ͢Δɽ͜ͷ୯߹ूޠΛ༻͍ͯީิ۠ؒʹର͢Δىڞ. ຊจͰɼ୯ޠͷىڞใͱީิ۠ؒͷ୯ޠ৴པ Λར༻ͯ͠ STD ͷੑೳΛվળ͢Δख๏ʹ͍ͭͯड़Δɽ ैདྷ͔Β༻͍ΒΕ͍ͯΔԻૉྻͷর߹ʹ ͍ͨͮجSTD ʹ Αͬͯޠࡧݕͷީิ۠ؒΛੜ͠ɼީิ۠ؒͷલʹޙग़ݱ ͢Δ୯ͱޠࡧݕͱޠͷىڞใɼԻೝࣝ࣌ʹಘΒΕΔީ ิ۠ؒͷ୯ޠ৴པΛ༻͍ͯީิ۠ؒΛ࠶ධՁͨ͠είΞ ʹޠࡧݕ͍ͯͮجΛݕग़͢ΔɽҎԼɼ2 ষͰఏҊ͢Δݕ ࡧݕޠग़ख๏ͷ֓ཁɼ3 ষͰىڞ୯ޠใͱީิ۠ؒͷ ୯ޠ৴པͷ۩ମతࢉग़ํ๏ɼ4 ষͰධՁ࣮ݧɼ5 ষʹ ݁ͱࠓޙͷ՝ʹ͍ͭͯड़Δɽ. 2. ݕޠࡧݕग़ख๏ ຊจͰఏҊ͢Δ STD ख๏Ͱɼैདྷ͔Β༻͍ΒΕΔ. ⓒ 2016 Information Processing Society of Japan. ୯ޠใΛࢉग़͢Δɽৄࡉ 3.2 અͰड़Δɽ. ( 5 ) ީิ۠ؒʹ͓͚Δ୯ޠ৴པͷࢉग़ ޠࡧݕͷީิ۠ؒ w ˜ ɼԻυΩϡϝϯτͷԻૉྻ ͱޠࡧݕͷԻૉྻͰྻ߸هর߹͢ΔͨΊɼಘΒΕΔ ީิ۠ؒ୯ޠ୯ҐͰͳ͘ɼԻυΩϡϝϯτத ͷ͍͔ͭ͘ͷ୯ݕ͍͕ͯͬͨ·ʹޠग़͞ΕΔ߹͕ ͋Δɽީิ۠ؒʹ·ؚΕΔ୯ޠΛ bi (1 ≤ i ≤ B) ͱ ͠ɼީิ۠ؒ w ˜ ʹ·ؚΕΔ୯ ޠbi ͷϑϨʔϜΛ. di ͱ͢ΔɽԻೝࣝ࣌ʹಘΒΕΔ୯ ޠbi ͷ୯ޠ৴ པΛ ci ͱ͢Δͱɼީิ۠ؒͷ୯ޠ৴པ Jw˜ . PB. Jw˜ = Pi=1 B. c i di. i=1. di. (1). 2.
(3) Vol.2016-SLP-110 No.1 2016/2/5. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ਤ 1. ୯ىڞޠΛ༻͍ͨ STD ख๏ͷྲྀΕ. Fig. 1 Flow of STD method using infomation of collocation. ਤ 2. ͱͯ͠ࢉग़͢Δɽ. ىڞ୯ޠϦετ࡞ͷྲྀΕ. Fig. 2 Flow of making collocation information list.. ( 6 ) ޠࡧݕͷݕग़ ޠࡧݕw ʹର͢Δީิ۠ؒ w ˜ ʹରͯ͠ɼʢ2ʣͰಘ ΒΕΔর߹είΞ Lw˜ ͱʢ4ʣͰࢉग़ͨ͠ىڞ୯ޠ ใ Iw˜ ͱʢ5ʣͰࢉग़ͨ͠ީิ۠ؒͷ୯ޠ৴པ J( w) ˜ Λ༻͍ͯɼީิ۠ؒΛ࠶ධՁͨ͠είΞ Cw˜ Λ. Cw˜ =. 1 + αIw˜ − βJw˜ Lw˜. (2). ͷΑ͏ʹٻΊΔɽ͜͜Ͱɼα ىڞ୯ޠใͷॏΈɼ. β ީิ۠ؒͷ୯ޠ৴པͷॏΈͰ͋Δɽ͜ͷεί Ξ Cw˜ ʹର͢Δ͖͍͠ॲཧʹΑͬͯɼ࠷ऴతʹݕ. ਤ 3 TF-IDF ࢉग़ͷͨΊͷจॻ. ࡧޠΛݕग़͢Δɽ. Fig. 3 Document of calculating TF-IDF.. 3. ىڞ୯ޠใ. ද 1 ޠࡧݕϥϯΩϯά্Ґޠ. Table 1 An example of top words. ຊষͰɼىڞ୯ޠϦετͷੜͱʹؒ۠ิީޠࡧݕର. in retrieval term rank.. ͢Δىڞ୯ޠใͷࢉग़ख๏ʹ͍ͭͯड़Δɽ. 3.1 ىڞ୯ޠϦετͷੜ. NISA. ύζυϥ. ͋·ͪΌΜ. ࡖխਓ. ҆౻ඒඣ. ୌΫϦεςϧ. ࢜ࢁ. iPhone. ౦ژεΧΠπϦʔ. ຊख๏Ͱɼ͠ىڞͱޠࡧݕ͍͢୯ޠͷू߹ͱͯ͠ڞ ى୯ޠϦετΛੜ͢Δɽىڞ୯ޠϦετ࡞ͷྲྀΕΛ. ηοτ V = v1 , . . . , v49 Λߟ͑ɼTF-IDF Λࢉग़͢ΔͨΊ. Fig. 2 ʹࣔ͢ɽ ޠࡧݕw ͕༩͑ΒΕΔͱɼޠࡧݕΛ web. ͷจॻू߹ͱͯ͠ɼD(w) ͷଞ D(v1 ), . . . , D(v49 ) ͷ ܭ50. ͠ࡧݕɼؔ͢ʹޠࡧݕΔ web จॻΛऩू͢ΔɽจॻΛܗଶ. จॻΛ༻͍ΔɽD(v1 ), . . . , D(v49 ) ɼࣄલʹ࡞͓ͯ͠. ૉղੳ͠ɼग़͚ͩࢺ໊ͨ͠ݱΛநग़͠ɼ໊֤ࢺͷ TF-IDF. ͘͜ͱͱ͢Δɽ͜ΕΑΓɼࣜʢ3ʣͷ tf D(w)ɼdf . ͷΛ͢ࢉܭΔɽTF-IDF ɼจॻ N , ޠස tfʢterm. D(w), D(v1 ), . . . , D(v49 ) ͔Β͞ࢉܭΕɼN 50 ͱͳΔɽ. frequencyʣ, จॻස df ʢdocument frequencyʣ͔Β. V ͱͯ͠ɼ2013 ͷ google ޠࡧݕϥϯΩϯά্Ґ 49 ޠΛ. N TF − IDF = tf × log df. (3). ༻͍ͨɽͦͷҰ෦Λ Table. 1 ʹࣔ͢ɽจॻ D(x) ΛಘΔͨ ΊͷࡧݕΤϯδϯͱͯ͠ google Λ༻͍ɼऔಘ͢Δ web. ͷΑ͏ʹࢉग़͞ΕɼTF-IDF ͷ্Ґ T ݸͷ୯ʹޠΑͬͯ. ϖʔδ S 500 ͱͨ͠ɽͨͩ͠ɼจॻΛ͏·͘औಘͰ. ىڞ୯ޠϦετΛߏ͢Δɽ. ͖ͳ͍ URL ͕Ұ෦ଘࡏ͢ΔͨΊɼ࣮ࡍʹऔಘͰ͖ͨ web. TF-IDF ͷࢉग़ʹɼҰൠʹɼจॻू߹͕ඞཁͰ͋Γɼ. ϖʔδ 500 ΑΓগͳ͍߹͕͋Δɽܗଶૉղੳ͠ͱث. ຊͰڀݚɼFig. 3 ʹࣔ͢Α͏ʹ୯ޠΛ web ্͠ࡧݕ. ͯʮʯΛ༻͍ɼىڞ୯ޠϦετͷ୯ ޠT ༧උ࣮ݧ. Ґ S ݅ͷ web ϖʔδΛ࿈݁ͨ͠ͷΛ 1 ͭͷจॻͱ. ͷ݁Ռ͔Β T = 150 ͱͨ͠ɽޠࡧݕʮ҆อཧʯʹରͯ͠ಘ. ߟ͑Δɽ͜͜Ͱɼ͋Δ୯ ޠx Λͯ͠ࡧݕಘΒΕΔจॻ. ΒΕͨىڞ୯ޠͷ͏ͪɼ্Ґ 5 Ґ·Ͱͷ୯ޠΛ Table. 2 ʹ. Λ D(x) ͱද͢هΔ͜ͱͱ͢Δɽ ޠࡧݕw Ҏ֎ͷ୯ޠ. ࣔ͢ɽ. ⓒ 2016 Information Processing Society of Japan. 3.
(4) Vol.2016-SLP-110 No.1 2016/2/5. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report ද 2. ޠࡧݕʮ҆อཧʯʹର͢Δىڞ୯ޠͷྫ. Table 2 An example of collocation words for a query term “Anpori”. ॱҐ. ୯ޠ. 1. ҆อཧ. 8.2. 2. ܾٞ. 2.4. 3. ࠃ࿈. 2.3. 4. ৗ. 1.6. 5. ࠾. 1.4. ද 3. TF-IDF . ฏىڞۉ୯ޠͷൺֱ. Table 3 Comparison of average number of collocation words. M. ਖ਼ղ۠ؒ. ෆਖ਼ղ۠ؒ. 10. 0.48. 0.0001. 100. 2.61. 0.0007. ਤ 4. ฏىڞۉ୯ޠͷมԽ. Fig. 4 Change of average number of collocation words. ද 4. 3.2 ىڞ୯ޠใͷࢉग़. ະ ޠ50 ޠͷྫ. Table 4 An example of 50 unknown words.. ىڞ୯ޠใͷࢉग़ख๏ͱͯ͠ɼҎԼͰड़Δ 3 छྨͷ ख๏ΛࢼΈΔɽ. 3.2.1 ख๏ 1ɿTF-IDF Λ༻͍ͨख๏ ޠࡧݕw ʹରͯ͠ɼީิ۠ؒͷલ ޙM ʹޠग़ͨ͠ݱ. ίϯςΩετσΟϖϯσϯτ. ໊ݘϥογʔ. চ. εςΟʔϒϯΩϯά. ੴౡધॴ. ҆อཧ. ϢχόʔαϧελδΦ. ஊऱ࿖ᖼഅ. NATO ܉. ىڞ୯ ޠui ͷ TF-IDF Λ Fw˜ (ui ) ͱ͢Δͱ͖ɼىڞ୯ ޠใΛࣜ (4) ʹΑͬͯࢉग़͢Δɽ. X Fw˜ (ui ) Iw˜ = 2M. 4. ධՁ࣮ݧ (4). ui ∈U. 4.1 ࣮ݧ݅ͷઃఆ ࣮ݧσʔλʹɼNTCIR-9 Spoken Doc[13] ͷςετί. 3.2.2 ख๏ 2ɿىڞ୯ޠग़ݱΛ༻͍ͨख๏. ϨΫγϣϯΛ༻͍ͨɽ࣮ݧσʔλʹ·ؚΕΔࡧݕରͷԻ. ؒ۠ิީޠࡧݕͷલʹޙग़͢ݱΔ୯ͯؔ͠ʹޠɼىڞ୯. υΩϡϝϯτɼຊޠ͠ݴ༿ίʔύεʢCSJɿCorous. Ͳ͕ޠͷఔͰग़͢ݱΔ͔Λ༧උతʹੳͨ͠ɽ͕ޠࡧݕ. of Spontaneous JapaneseʣͷίΞ 177 ߨԋʢஉੑ 99 ߨԋɼ. ࣮ࡍʹ͞Ε͍ͯΔਖ਼ղ۠ؒͱީิ͕༙͖۠ؒग़͠ޡΓͰ. ঁੑ 78 ߨԋʣ[14], [15] Λ༻͍ɼࡧݕରͷԻυΩϡϝ. ͋Δෆਖ਼ղ۠ؒʹ͚ͯɼલޙͷ୯ ޠM Λม͑ͨͱ͖. ϯτͷೝࣝ݁ՌɼNTCIR-9 Spoken Doc ͷλεΫΦʔ. ͷฏىڞۉ୯ޠΛ Table. 3 ͱ Fig. 4 ʹࣔ͢ɽ͜ΕΑΓɼ. ΨφΠβ͔Β͞Ε͍ͯΔ୯ޠԻೝࣝ݁Ռʢ୯ޠਖ਼ղ. લޙͷ୯ ޠM ʹґΒͣɼਖ਼ղ۠ؒͱෆਖ਼ղ۠ؒͰڞ. 76.68%ʣͱԻઅ trigram ͰͷԻઅೝࣝ݁ՌʢԻઅೝࣝ. ى୯ޠͷग़͕ݱେ͖͘ҟͳΔ͜ͱ͕Θ͔Δɽͦ͜Ͱɼީ. 81.8%ʣΛ༻͍ͨɽ·ͨɼධՁ༻ͷޠࡧݕɼίΞߨԋ. ิ۠ؒͷલ ޙM ʹޠग़ىڞͨ͠ݱ୯ޠͷ୯ ޠK Λ. ༻ະޠηοτ 50 ޠࡧݕΛ༻͍ͨ [13]ɽະ ޠ50 ޠͷҰ. ༻͍ͯɼىڞ୯ޠใΛ. ෦Λ Table. 4 ʹࣔ͢ɽະ ޠ50 ޠͷฏۉԻૉ 11.8ɼ. Iw˜ =. X ui ∈U. 1 K = 2M 2M. (5). ͍͜ͱΛࣔ͢ɽϕʔεϥΠϯͱͯ͠ɼ2.1 અͰड़ͨαϒ. 3.2.3 ख๏ 3ɿ୯ޠ৴པΛ༻͍ͨख๏ ԻυΩϡϝϯτΛ࿈ଓԻೝࣝͨ͠ͱ͖ʹಘΒΕΔ୯ ޠ৴པΛ༻͍ͯ୯ىڞޠใΛࢉग़͢Δɽީิ۠ؒͷલ ޙM ʹޠग़ىڞͨ͠ݱ୯ ޠui ͷ୯ޠ৴པΛ Rw˜ (ui ) ͱ͢Δͱ͖ɼىڞ୯ޠใΛ. X Rw˜ (ui ) 2M. ui ∈U. ʹΑͬͯࢉग़͢Δɽ. ͯɼ࠶ݱɼద߹ɼF ɼMAP Λ༻͍Δɽ͜ΕΒͷධ Ձईશͯ 0 ∼ 1 ͷΛͱΓɼ1 ʹ͍ۙ΄Ͳਫ਼͕ߴ. ʹΑͬͯࢉग़͢Δɽ. Iw˜ =. ࠷େԻૉ 21ɼ࠷খԻૉ 6 Ͱ͋ΔɽධՁईͱ͠. ϫʔυྻʹͮ͘ج࿈ଓ DP Ϛονϯάͷ݁ՌΛ༻͍Δɽڞ ى୯ޠϦετʹ༻͍Δ୯ ޠT 150 ͱ͠ɼલޙ୯ޠ ʢM ʣ 0 ∼ 300 ·Ͱ 10 ִؒɼىڞ୯ޠใͷॏΈʢαʣ 0 ∼ 100 ·Ͱ 5.0 ɼ୯ޠ৴པͷॏΈʢβ ʣ 0 ∼ 2.0 ·Ͱ 0.2 ִؒͰมԽͤͨ͞ɽ. (6) 4.2 ࣮݁ݧՌ ࣮ݧͷ݁Ռͷ࠶ݱɼద߹ɼF ɼMAP Λ Table.5 ʹ ࣔ͢ɽM ɼα ɼF ͕࠷ߴ͍Λࣔͨ͠ͱ͖ͷͰ͋. ⓒ 2016 Information Processing Society of Japan. 4.
(5) Vol.2016-SLP-110 No.1 2016/2/5. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report. ਤ 5 ࠶ݱ-ద߹ۂઢ. Fig. 5 Recall - Precision curve.. ਤ 6. ॏΈ α ͷมԽʹΑΔ F ͷมԽ. Fig. 6 F-mesure change curve by weight “α”.. ΓɼFig.5 ʹɼϕʔεϥΠϯɼख๏ 1-3 ͷ࠶ݱ-ద߹ ۂઢΛ͍ࣔͯ͠Δɽख๏ 1 ͰϕʔεϥΠϯʹൺɼF Ͱ 4.6% ɼMAP Ͱ 13.5% ͷਫ਼্ɼख๏ 2 Ͱϕʔ εϥΠϯʹൺɼF Ͱ 7.0% ɼMAP Ͱ 17.1% ͷਫ਼ ্ɼख๏ 3 ͰϕʔεϥΠϯʹൺɼF Ͱ 5.8% ɼMAP Ͱ 15.4% ͷਫ਼্͕ݟΒΕͨɽख๏ 2 ͕࠷্ͨ͠ ͨΊɼख๏ 2 ʹީิ۠ؒͷ୯ޠ৴པࢉݮΛΈࠐΜͩ ߹ɼख๏ 2 ʹൺߋʹ F Ͱ 1.9%ɼMAP Ͱ 6.7%ͷਫ਼ ্͕ݟΒΕͨɽશͯͷख๏Ͱਫ਼ͷ্͕ݟΒΕͨ͜ͱ ͔ΒɼఏҊख๏ͷ༗༻ੑ͕֬ೝͰ͖ͨɽ·ͨɼͦΕͧΕͷ ख๏Ͱ࠷ద F ΛऔΔͱ͖ͷલޙ୯ ޠM Λݻఆ͠ॏΈ. α ΛมԽͤͨ͞άϥϑΛ Fig. 6 ʹɼॏΈ α Λݻఆ͠લޙ୯ ޠM ΛมԽͤͨ͞άϥϑΛ Fig. 7 ʹࣔ͢ɽͦΕͧΕɼ. α = 0ɼM = 0 ͕ϕʔεϥΠϯͷੑೳΛ͓ࣔͯ͠Γɼख๏ 1-3 ʹ͓͍ͯɼM = 100, α = 50 ·Ͱʹ࠷ద F ͕ग़͠ݱ ͨͨΊɼM = 100, α = 50 ·ͰΛࣔ͢ɽFig. 6 ͔Βىڞ୯. ਤ 7. લޙ୯ޠͷมԽʹΑΔ F ͷมԽ. Fig. 7 F-mesure change curve by number of context words.. ޠใͱͯ͠ىڞ୯ޠग़ݱΛ༻͍Δख๏ 2 Ͱɼଞͷ 2 ͭ. ख๏ 2 Ͱ͍͠ɼख๏ 3 ͰԻೝࣝΛߦͬͨͱ͖ͷ. ͷख๏ΑΓͲͷ α ʹରͯ͠ F ͕ߴ͍͜ͱ͕Θ͔Δɽ. ୯ޠ৴པΛ༻͍͍ͯΔͱߟ͑Δ͜ͱ͕Ͱ͖Δɽىڞ୯ޠ. Fig. 7 ͔ΒɼͲͷఏҊख๏ʹ͓͍ͯɼىڞใͷࢉग़ʹ. ͷՃࢉʹ͓͍ͯɼ୯ޠผʹҟͳΔॏΈΛ༩͑Δ͜ͱʹΑͬ. ༻͍Δީิ۠ؒલޙͷ୯ ޠM Λ૿Ճͤ͞Δͱ F ্͕. ͯΑΓదͳىڞ୯ޠใΛಘΔ͜ͱΛظ͕ͨ͠ɼ݁Ռ. ঢ͢Δ͕ɼM = 40 ∼ 60 Λӽ͑ͯ૿Ճͤͯͦ͞Ε΄Ͳ F. ͱͯ͠Ͳͷ୯ʹޠ͍͠ॏΈΛ༩͑Δɼ͢ͳΘͪ୯ޠ. ͷใݟΒΕͳ͍͜ͱ͕Θ͔Δɽ͜Εɼൃͷ༰. ͚ͩΛߟྀ͢Δख๏ 2 ͕࠷ྑ͍ੑೳΛࣔͨ͠ɽख๏. ͕มԽ͠ɼͦΕʹ͍ؔ࿈ੑͷ͋Δ୯ޠมԽ͍ͯ͠Δ͔. 2 ʹΑͬͯɼԻڹใΛͷΈΛ༻͍ΔϕʔεϥΠϯͷख๏. ΒͩͱਪଌͰ͖Δɽ. ʹൺͯɼF Ͱ 7.0%ɼMAP Ͱ 17.3% ্ͨ͠ɽߋʹɼ. 5. ·ͱΊ. ख๏ 2 ʹର͠ɼީิ۠ؒͷ୯ޠ৴པͷࢉݮΛՃ͑ͨͱ͜ Ζख๏ 2 ͔Β F Ͱ 1.9%ɼMAP Ͱ 6.7% ਫ਼্͕͠. Իதͷݕޠࡧݕग़ (STD: Spoken Term Detection) ʹ. ͨɽຊจͰɼ͢ىڞͱޠࡧݕΔ୯ޠΛ໊ࢺ͚ͩʹݶఆ. ͓͍ͯɼԻυΩϡϝϯτͷԻڹతͳಛʹՃ͑ͯɼޠݴ. ͠ TF-IDF ʹΑͬͯબ͍ͯ͠Δɽ͜ͷબํ๏ͷมߋ. తͳಛΛར༻͢Δख๏ΛఏҊ͠ɼͦͷ༗ޮੑΛͨ͠ূݕɽ. ผͷॏΈ͚Λߟ͑Δ͜ͱʹΑͬͯɼىڞ୯ޠͷॏΈ͚. ޠݴతͳಛɼؒ۠ิީޠࡧݕͷલʹޙग़͢ݱΔ୯ͱޠ. ͕༗ޮͱͳΔՄೳੑ͋Γɼࠓޙɼݕ౼͍͖͍ͯͨ͠ɽ·. ͱޠࡧݕͷ͍ͯͮجʹىڞද͞ݱΕΔɽ୯ىڞޠใΛఆ. ͨɼީิ۠ؒલʹޙग़͢ݱΔ୯ͱޠࡧݕͱޠͷىڞΛίʔ. ྔԽ͢Δख๏ͱͯ͠ɼ3 ͭͷख๏Λൺֱͨ͠ɽ͜ΕΒͷख. ύε͔Βతʹֶश͢Δख๏ͳͲࠓޙͷݕ౼՝ͱ͠. ๏ͷҧ͍ɼग़ىڞͨ͠ݱ୯ޠΛՃࢉ͢Δ࣌ͷॏΈͷҧ͍. ͯ͛ڍΒΕΔɽ. Ͱ͋Γɼىڞ୯ޠͷॏΈͱͯ͠ख๏ 1 Ͱ TF-IDF ͷɼ. ⓒ 2016 Information Processing Society of Japan. 5.
(6) Vol.2016-SLP-110 No.1 2016/2/5. ใॲཧֶձڀݚใࠂ IPSJ SIG Technical Report ද 5. STD ͷ݁Ռ. Table 5 Results of STD. ख๏. ىڞใ. ୯ޠ৴པ. ϕʔεϥΠϯ. ͳ͠. ͳ͠. 0. 0. 0. 55.9. 60.6. 58.2. 48.9. ख๏ 1. TF-IDF . ͳ͠. 50. 10. 0. 64.3. 61.3. 62.8. 62.4. ख๏ 2. ىڞ୯ޠग़ݱ. ͳ͠. 60. 25. 0. 56.6. 76.8. 65.2. 66.0. ख๏ 3. ୯ޠ৴པ. ͳ͠. 40. 35. 0. 63.5. 64.5. 64.0. 64.3. ख๏ 2. ىڞ୯ޠग़ݱ. ͋Γ. 180. 65. 1.6. 65.7. 68.5. 67.1. 72.7. M. α. ँࣙ ຊڀݚΛߦ͏ʹ͋ͨΓʮຊޠ͠ݴ༿ίʔύεʯ ͼٴɼʮNTCIR-9 Spoken Doc λεΫʯͷ ʮCSJ Spoken. Document Retrieval CollectionʯΛ༻ͨ͠ɽ. ࠶ݱʢ%ʣ. β. [14] [15]. ద߹ʢ%ʣ. F ʢ%ʣ MAPʢ%ʣ. લٱت༤ɼ“ʮຊޠ͠ݴ༿ίʔύεʯͷ֓ཁ”ɼࠃཱ ࠃॴڀݚޠɼVer.1.2ɽ http://www.ninjal.ac.jp/corpus center/csj/. ࢀߟจݙ [1]. [2] [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. T.Akiba, K.Aikawa, Y.Itoh, T.Kawahara, H.Nanjo, H.Nishizaki, N.Yasuda, Y.Yamashita and K.Itouɼ“Construction of a test collection for spoken document retrieval from lecture audio data”ɼJournal of Information ProcessingɼVol.17ɼpp. 82-94ɼ2009ɽ ळ༿༑ྑɼ“ԻυΩϡϝϯτࡧݕͷݱঢ়ͱ՝”ɼใॲ ཧֶձڀݚใࠂɼVol.2010-SLP-82ɼNo.10ɼpp.1-6ɼ2010ɽ ߞాؠฏଞɼ“ޠኮϑϦʔԻࡧݕख๏ʹ͓͚Δ৽͍͠α ϒϫʔυϞσϧͱαϒϫʔυԻڑڹͷ༗ޮੑ”ɼใॲ ཧֶձจࢽɼVol.48ɼNo.5ɼpp.1990-2000ɼ2007ɽ T.AkibaɼH.NishizakiɼK.AikawaɼT.Kawaharaɼ T.Matsuiɼ“Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop”ɼProceedings of NTCIR-9 Workshop Meetingɼpp.223-235ɼ2011ɽ ࡔຊॷɼࢁຊҰެɼதҰɼ“͖ͭڑԻઅτϥΠάϥ ϜΛ༻͍ͨԻೖྗʹΑΔԻυΩϡϝϯτͷݕޠࡧݕ ग़๏ͷධՁ”ɼୈ 7 ճԻυΩϡϝϯτॲཧϫʔΫγϣο ϓɼSDPW2013-05ɼpp.1-4ɼ2013. େฏɼळ༿༑ྑɼ“Իઅܧଓ࣌ؒΛར༻ͨ͠ઢݕग़ ʹ ͮ͘جSTD ख๏”ɼୈ 8 ճԻυΩϡϝϯτॲཧϫʔ ΫγϣοϓɼSDPW2012-02-01ɼpp.1-8ɼ2012ɽ ໊औݡɼ࡚തޫɼؔޱ๕ኍɼ“ෳԻೝࣝγεςϜΛ ༻͍ͨԻதͷݕޠࡧݕग़ͷݕ౼”ɼใॲཧֶձڀݚใ ࠂɼVol.2009-SLP-79ɼNo.19ɼpp.1-6ɼ2009ɽ ࡔຊҏ৫ɼদӬపɼ᪅ᅳɼࢁԼ༸Ұɼ“ԻڹใͷϕΫτϧ ྔࢠԽΛ༻͍ͨԻυΩϡϝϯτ͔Βͷݕޠࡧݕग़”ɼ ใॲཧֶձจࢽɼVol.55ɼNo.12ɼpp.2537-2545ɼ2014ɽ ೆᑍߒًɼલాᠳɼ٢ؽݟɼ“Իݕޠࡧݕग़ͷͨΊͷ ΫΤϦ֦ுͷݕ౼”ɼใॲཧֶձڀݚใࠂɼVol.2014SLP-101ɼNo.16ɼpp.1-6ɼ2014ɽ Haiyang LIɼTiean ZHENGɼGuibin ZHENGɼJiqing HANɼ“Confidence Measure Based on Context Consistency Using Word Occurrence Probability and Topic Adaptation for Spoken Term Detection”ɼIEICE TRANSACTIONS on Information and Systemsɼ Vol.E97-DɼNo.3ɼpp.554-561ɼ2014ɽ ࡚ɼळ༿༑ྑɼ“୯ىڞޠΛ༻͍ͨٙཅੑޡΓʹ݈ؤ ͳԻυΩϡϝϯτͷࡧݕϞσϧ”ɼຊԻֶڹձ 2014 य़ൃڀݚقදձߨԋจूɼ3-Q5-5ɼpp.193-196ɼ2014ɽ ֯ྑଠɼҶඒࣿࢠɼ࢘ɼ෦Ұɼ“୯ޠͷڞ ىใʹ͍ͨͮجԻೝࣝޡΓ୯ޠͷิਖ਼ख๏”ɼిࢠ ใ௨৴ֶձٕज़ڀݚใࠂɼAI2012-44ɼpp.19-24ɼ2013ɽ ࡚തޫɼً৽މɼೆᑍߒًɼҏ౻໌ܚɼळ༿༑ྑɼՏ ݪୡɼதҰɼদҪࢠɼࢁԼ༸Ұɼ૬ਗ਼໌ɼ“Ի தͷݕޠࡧݕग़ͷͨΊͷςετίϨΫγϣϯͷߏஙͱ ੳ”ɼใॲཧֶձจࢽɼVol.54ɼNo.2ɼpp.471-483ɼ 2013ɽ. ⓒ 2016 Information Processing Society of Japan. 6.
(7)
図
関連したドキュメント
学術資源リポジトリにおけるLightweight Information Describing ObjectLIDOの検討 A study of Lightweight Information Describing Object LIDO in Academic Resource
2022 年9月 30 日(金)~10 月 31 日(月)の期間で東京・下北沢で開催される「下北沢カレーフェステ ィバル 2022」とのコラボ企画「MANKAI
大六先生に直接質問をしたい方(ご希望は事務局で最終的に選ばせていただきます) あり なし
○社会福祉事業の経営者による福祉サービスに関する 苦情解決の仕組みの指針について(平成 12 年6月7 日付障第 452 号・社援第 1352 号・老発第
○ 4番 垰田英伸議員 分かりました。.
Let T (E) be the set of switches in E which are taken or touched by the jump line of E. In the example of Fig. This allows us to speak of chains and antichains of switches.. An
検索対象は、 「論文名」 「著者名」 「著者所属」 「刊行物名」 「ISSN」 「巻」 「号」 「ページ」
It is clear that each Dyck path is coded by a word u ∈ {a, a} ¯ ∗ , called Dyck word, so that every rise (resp. fall) corresponds to the letter a (resp. valley ) if it is preceded by