• 検索結果がありません。

文字単位の多対多自動アライメントを用いた日本語歴史コーパスのルビアノテーションの自動修正

N/A
N/A
Protected

Academic year: 2021

シェア "文字単位の多対多自動アライメントを用いた日本語歴史コーパスのルビアノテーションの自動修正"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)「人文科学とコンピュータシンポジウム」 2016 年 12 月. จࣈ୯ҐͷଟରଟࣗಈΞϥΠϝϯτΛ༻͍ͨ ೔ຊ‫࢙ྺޠ‬ίʔύεͷϧϏΞϊςʔγϣϯͷࣗಈमਖ਼ Ԭ রߊ † † ࠃཱࠃ‫ ॴڀݚޠ‬ίʔύε։ൃηϯλʔ ຊ࿦จͰ͸ɼࠃཱࠃ‫Ͱॴڀݚޠ‬੔උ͍ͯ͠Δ೔ຊ‫࢙ྺޠ‬ίʔύεͷϧϏΞϊςʔγϣϯमਖ਼ʹͭ ͍ͯड़΂Δɽ‫ࡏݱ‬ͷϧϏͷΞϊςʔγϣϯ͸ࠃ‫ݚޠ‬ͷ‫ن‬ఆ͢Δ‫ޠݴ‬୯ҐͰ͋Δ୹୯Ґͱͷ੔߹͕ ͱΕ͓ͯΒͣɼίʔύε‫ʹࡧݕ‬ෆศͰ͋Δɽͦ͜Ͱจࣈ୯ҐͷଟରଟࣗಈΞϥΠϝϯτख๏Λ࢖ ༻͠ɼϧϏΞϊςʔγϣϯΛϞϊϧϏʹमਖ਼͢Δख๏ΛఏҊ͢Δɽ͜ͷख๏ʹΑΓɼ97.4%ͱ͍͏ ߴ͍ਖ਼ղ཰ͰϧϏΞϊςʔγϣϯͷमਖ਼͕ߦ͑Δ͜ͱ͕෼͔ͬͨɽ·ͨ͜ͷΞϥΠϝϯτͷεί ΞΛར༻͢Δ͜ͱͰ 79%ͷద߹཰Ͱۙੈͷ‫ࢿޠޱ‬ྉ͔Β౰ͯࣈϧϏͷ 50%Λ‫ݕ‬ग़Ͱ͖Δ͜ͱ͕Ͱ ͖Δ͜ͱ͕෼͔ͬͨɽ. Automatic Modification for Information of Ruby in Corpus of Historical Japanese using an Automatic many-to-many Character Alignment Terauaki Oka† †Center for Corpus Development, National Institute for Japanese Language and Linguistics In this paper, we describe modification of annotations of ruby in Corpus of Historical Japanese, that is creating in National Institute for Japanese Language and Linguistics. Since the annotations are not corresponding with annotations of Short Unit Word unit, current ruby annotations are inconvenience for retrieving the corpus. Therefore, we introduce automatic many-to-many character aliment technique to modify the ruby annotations into mono-ruby annotations. By using this method, we achieved 97.4% of automatic modification accuracy. Furthermore, we confirm that we can discriminate “Ateji” rubes from rubes in historical documents written in spoken language of Edo era by utilizing the alignment scores. 1 ͸͡Ίʹ. Λ࢖༻͢Δ͜ͱͰ‫ࡧݕ‬ՄೳͰ͋Γɼ·ͨ 2016 ೥ 4 ݄͔Β͸ίʔύε‫ࡧݕ‬ΞϓϦέʔγϣϯதೲ ‫ࡏݱ‬ɼࠃཱࠃ‫Ͱॴڀݚޠ‬͸্୅͔Βۙ୅ʹ͔͚ ‫ݴ‬2 Ͱ΋ϧϏ৘ใͷࢀর͕Մೳͱͳͬͨɽ͔͠͠ ͯͷ೔ຊ‫ࢿ࢙ޠ‬ྉΛऩΊͨ೔ຊ‫࢙ྺޠ‬ίʔύε ͋͘·ͰϧϏ͸ิॿతͳ৘ใͰ͋ΓɼҰ෦Λআ ʢCHJʣ1 ͷߏஙΛߦͳ͍ͬͯΔ [2]ɽCHJ ͷେ͖ ͖ɼຊจςΩετͷ୹୯ҐΞϊςʔγϣϯͱ΋ ͳಛ௃ͱͯ͠ɼ୹୯Ґͱ‫ݺ‬͹ΕΔ੪Ұͳ‫ޠݴ‬୯ ੔߹͕ͱΒΕ͓ͯΒͣɼෳ਺ͷ୹୯ҐΛ·͙ͨ ҐͰ୯‫ޠ‬෼ׂ͞Ε͍ͯΔ͜ͱɼ֤୹୯Ґ΁ͷৄ ‫Ͱܗ‬Ξϊςʔγϣϯ͞Ε͍ͯΔϧϏ΋ଟ͍ɽྫ ࡉͳ‫ܗ‬ଶ࿦৘ใʢൃԻɼ඼ࢺɼ‫ޠ‬ኮૉɼ‫ޠ‬छʜʣ ͑͹ɼਤ 1 ͸࣮ࡍͷதೲ‫ݴ‬ͷ‫݁ࡧݕ‬ՌͰ͋Δ͕ɼ ͕෇༩͞Ε͍ͯΔ͜ͱ͕͋Δ [4]ɽ୹୯Ґ͸ೝఆ ʮ‫ڮ‬ʯͱ͍͏୹୯Ґʹର͠ɼ ʮ͸͠ʯͱϧϏৼΒ ‫ج‬४͕‫ن‬ఔूͰ໌֬ʹఆΊΒΕ͓ͯΓɼΞϊςʔ Ε͍ͯΔ΋ͷ΋͋Δ͕ɼ ʮΈ͸͠ʯ΍ʮ͹͋͠΍ γϣϯ࣌ͷ༳Ε΋ੜͮ͡Β͍ɽͦͷͨΊίʔύ ;ʯͳͲɼ1 ͭͷ୹୯Ґ‫ڥ‬քΛӽ͑ͨϧϏ΋‫ݟ‬Β ε‫ʹࡧݕ‬ద͓ͯ͠ΓɼCHJ Ͱ͸௨ৗͷจࣈྻ‫ݕ‬ ΕΔɽ͜ͷঢ়ଶͷ··Ͱ͸ϧϏ͔Β୹୯ҐΛ‫ݕ‬ ࡧΛ௒͑ͯɼ͞·͟·ͳ࣌୅Λԣஅͨ͠‫ޠ‬ͷ௨ ࡧ͍ͨ͠৔߹ɼ΋͘͠͸ͦͷ‫ٯ‬Λߦ͏ࡍͷෆศ ࣌తมԽΛ‫؍‬ଌ͢Δ͜ͱ͕ՄೳͰ͋Δɽ ͱͳΔɽ·ͨɼͻ·ΘΓͰͷϧϏจࣈྻ‫Ͱࡧݕ‬ CHJ Ͱ͸ఈຊࢿྉͷຊจ͚ͩͰͳ͘ɼຊจʹ ΋ɼෆඞཁͳจࣈྻ·Ͱ‫݁ࡧݕ‬Ռʹ‫ݱ‬ΕΔ͜ͱ ซ‫͞ه‬ΕͨϧϏ৘ใͷΞϊςʔγϣϯ΋࣮ࢪͯ͠ ΍ɼඞཁͳจࣈྻ͕‫݁ࡧݕ‬Ռ͔Β࿙ΕΔ‫ڪ‬Ε΋ ͍ΔɽϧϏ৘ใ͸શจ‫ࡧݕ‬γεςϜͻ·ΘΓ [5] 1 http://pj.ninjal.ac.jp/corpus. center/chj/. 2 https://chunagon.ninjal.ac.jp/. ⓒ 2016 Information Processing Society of Japan. ─ 133 ─.

(2) The Computers and the Humanities Symposium, Dec. 2016. ਤ 1: ίʔύε‫ࡧݕ‬ΞϓϦέʔγϣϯதೲ‫ݴ‬ͷ‫݁ࡧݕ‬Ռͷྫɽ‫ޠ‬ኮૉʮ‫ڮ‬ʯͰ୹୯Ґ‫݁ͨ͠ࡧݕ‬Ռ ͷҰ෦ʢ2016/11/1 ͷ‫݁ࡧݕ‬Ռʣɽ֤ߦ͕̍୹୯ҐΛද͠ɼ֤୹୯ҐͷϧϏ৘ใ͸ʮৼΓԾ໊ʯྻ ʹදࣔ͞Ε͍ͯΔɽ·ͨʮલจ຺ʯ͓Αͼʮ‫ޙ‬จ຺ʯྻ͕໨త୹୯ҐʢΩʔྻʣͷલ‫ޙ‬ͷ୹୯Ґ ྻΛͦΕͧΕද͓ࣔͯ͠Γɼίϯίʔμϯαతͳදࣔͱͳ͍ͬͯΔɽ ͋Δɽ ຊ‫Ͱڀݚ‬͸ɼ‫ݱ‬ঢ়ͷ CHJ ͷϧϏΞϊςʔγϣ ϯΛमਖ਼͠ɼຊจςΩετͷ୹୯ҐΞϊςʔγϣ ϯͱ੔߹ͷͱΕΔϧϏΞϊςʔγϣϯͷ࣮‫ݱ‬Λ ໨ࢦ͢ɽίʔύεதͷϧϏͷ࢖༻ʹ͸ɼ਌จࣈ ΋͘͠͸ϧϏ͕ɼΧλΧφ‫ޠ‬΍ΞϧϑΝϕοτ จࣈྻͱͳ͍ͬͯΔ৔߹΋͋Δ͕ɼࠓճ͸਌จ ࣈ͕‫ࣈ׽‬จࣈྻͰɼͦΕʹର͢ΔԻಡΈɼ‫܇‬ಡ ΈͷԾ໊จࣈϧϏΛର৅ͱ͢Δɽ·ͨϧϏΞϊ ςʔγϣϯमਖ਼ͷ‫ج‬ຊํ਑ͱͯ͠ɼ֤਌จࣈ̍ࣈ ʹϧϏ৘ใΛ෇༩͢ΔϞϊϧϏΛ࠾༻͢Δɽͨ ͩ͠ʮ᥾‫ڇ‬ʦ͔ͨͭͿΓʧʯͷΑ͏ʹϞϊϧϏԽ ͕ࠔ೉ͳख़ࣈ‫ʹ܇‬ରͯ͠͸άϧʔϓϧϏΛ࠾༻ ͢Δ3 ɽ·ͨ‫ݱ‬ঢ়ͷ CHJ શମʹର͠ɼ্ड़ͷमਖ਼ Λ͢΂ͯਓखͰ࣮ࢪ͢Δ͜ͱͷ͸ਓ݅අ͓Αͼ ͕࣌ؒଟେͱͳΔɽͦ͜Ͱຊ‫Ͱڀݚ‬͸౷‫ܭ‬త‫ػ‬ ցֶशʹΑΔࣗಈΞϥΠϝϯτख๏ʹΑͬͯ‫׽‬ ࣈ̍ࣈͣͭʹରԠ͢ΔϧϏจࣈྻΛࣗಈ൑ผ͢ 3 ҎԼɼ[ɹ]. ͸௚લจࣈྻͷϧϏΛද͢ɽ. Δɽͦͷ‫ޙ‬ɼࣗಈରԠ෇͚ʹࣦഊͨ͠ՕॴΛਓ खͰमਖ਼͍ͯ͘͠ɽࣗಈΞϥΠϝϯτख๏ʹ͸ɼ จࣈ୯ҐͷଟରଟΞϥΠϝϯτख๏ [3] Λ࠾༻͢ Δɽ͜ͷख๏͸‫ࣈ׽‬ͷࣗಈಡΈਪఆͷͨΊʹఏ Ҋ͞Εͨ΋ͷͰ͋Γɼຊ‫ڀݚ‬ͷ໨తʹ΋ଈͨ͠ ख๏Ͱ͋Δɽςετέʔεͱͯ͠‫ࡏݱ‬੔උΛߦ ͳ͍ͬͯΔΩϦγλϯࢿྉΤιϙͷϋϒϥεʹ ର͠ɼ͜ͷख๏Λ࢖༻ͨ͠ɽͦͷ݁Ռɼ97.4%ͱ ͍͏ߴ͍ਖ਼ղ཰ͰϧϏΞϊςʔγϣϯͷमਖ਼͕ ߦ͑Δ͜ͱ͕෼͔ͬͨɽϧϏͷमਖ਼ʹࣦഊͨ͠ Օॴ΋ɼ਌จࣈྻଆͰʮʑʯͷΑ͏ͳགྷࣈΛ‫ؚ‬ Ή৔߹Ͱ͋ͬͨͨΊɼ͋Β͔͡ΊགྷࣈΛ։͍ͯ ͓͘ͳͲͷલॲཧʹΑͬͯɼ͞Βʹਫ਼౓޲্Մ ೳͩͱΘ͔ͬͨɽ ·ͨ௥Ճ࣮‫ͯ͠ͱݧ‬ɼۙੈ‫ࢿޠޱ‬ྉʹසग़͢ Δ౰ͯࣈϧϏͷ‫ݕ‬ग़࣮‫ݧ‬΋ߦͳͬͨɽۙੈͷࢿྉ ʹ͸ʮ৺‫ڻ‬ʦͼͭ͘Γʧʯ ʮ༠Ҿʦͦ͞͸Εʧʯͷ Α͏ʹ௨༻తͰͳ͍ಛघͳৼΓԾ໊͕ଟ͍ɽͦ ͷͨΊ͜͏͍ͬͨ౰ͯࣈʹର͠ɼࣗಈΞϥΠϝϯ τ͸௿͍είΞΛׂΓ౰ͯΔͱ༧ଌͰ͖Δɽͦ. ⓒ 2016 Information Processing Society of Japan. ─ 134 ─.

(3) 「人文科学とコンピュータシンポジウム」 2016 年 12 月. ͜Ͱ‫ࡏݱ‬੔උதͷۙੈͷᔬམຊɼਓ৘ຊίʔύ εͷϧϏΞϊςʔγϣϯΛର৅ʹΤιϙͷϋϒ ϥεͱಉ༷ͷํ๏ͰจࣈྻΞϥΠϝϯτΛ࣮ࢪ ͠ɼ͖͍͠஋Λ࢖֤ͬͯΞϥΠϝϯτͷείΞ͔ Β౰ͯࣈΛ‫ݕ‬ग़͢Δ࣮‫ݧ‬Λߦͳͬͨɽͦͷ݁Ռɼ 79%ͷద߹཰Ͱࢿྉதͷ౰ͯࣈϧϏͷ 50%Λ‫ݕ‬ ग़͢Δ͜ͱ͕Ͱ͖Δ͜ͱ͕෼͔ͬͨɽ. 2 JIS ‫֨ن‬ͷ૊൛ॲཧʹ͓͚ΔϧϏͷѻ͍ͱ‫ݱ‬ ঢ়ͷ CHJ ͷϧϏΞϊςʔγϣϯ ϧϏ͸จࣈͷͦ͹ʹ෇͚ͯจࣈͷಡΈํɼҙຯ ͳͲΛࣔ͢খ͞ͳจࣈͰ͋ΔʢҎ߱ɼϧϏจࣈ ΋͘͠͸ϧϏจࣈྻʣɽϧϏจࣈʢྻʣΛ෇༩͢ Δࡍɼͦͷ෇༩ͷର৅ͱͳΔจࣈΛ਌จࣈͱ͍ ͏ɽϧϏͷ૊൛ॲཧ͸ɼJIS X 40514 ʹ͓͍ͯ‫ن‬ ఆ͞Ε͓ͯΓɼ਌จࣈ̍ࣈ͝ͱʹରԠͯ͠ϧϏ จࣈʢྻʣΛ഑ஔ͢ΔϞϊϧϏͱɼ2 จࣈҎ্ͷ ਌จࣈʹରͯ͠ϧϏจࣈʢྻʣΛ഑ஔ͢Δख़‫ޠ‬ ϧϏ͓ΑͼάϧʔϓϧϏ͕͋Δɽख़‫ޠ‬ϧϏ͸ख़ ࣈ‫͚ͳͰ܇‬Ε͹ɼ ʮ‫͗[ ڽ‬Α͏]ʢվߦʣࢹ [͠]ʯͷ Α͏ʹ਌จࣈྻͷ్தͰվߦՄೳͰ͋Δ͕ɼά ϧʔϓϧϏͷ৔߹ɼϧϏจࣈʢྻʣͷ෇༩͞Ε ͨ਌จࣈྻΛ 1 ͭͷմͱͯ͠ߟ͑ɼ਌จࣈྻத Ͱͷվߦ͸Ͱ͖ͳ͍ɽ Ҏ্ͷΑ͏ͳ‫ن‬ଇʹର͠‫ݱ‬ঢ়ͷ CHJ Ͱ͸ɼۙ ୅‫ޠ‬ͷίʔύεͳͲҰ෦ʹ͸ϧϏΞϊςʔγϣ ϯʹؔ͢Δ‫ن‬ఔΛઃ͚͍ͯΔ͕ɼ5 ‫ج‬ຊతʹɼఈ ຊதͰҰఆͷۭനΛۭ͚ͣʹ࿈ଓͨ͠ϧϏจࣈ ʢྻʣΛҰ·ͱΊͱ͠ɼͦΕ͕ซ‫͞ه‬Ε͍ͯΔຊ จจࣈྻΛ਌จࣈྻͱ͢Δɼͱ͍ͬͨେࡶ೺ͳ Ξϊςʔγϣϯ͕࣮ࢪ͞Ε͍ͯΔɽ͜Ε͸ CHJ ͷେ෦෼͕খֶ‫ؗ‬ͷ৽ฤ೔ຊ‫ݹ‬యจֶશूΛఈ ຊͱ͓ͯ͠Γɼখֶ‫͔ؗ‬Β௚઀ఏ‫͞ڙ‬Εͨ XML σʔλͷϧϏλάΛͦͷ··࢖༻͍ͯ͠ΔͨΊ Ͱ͋Δɽਤ 2 ͸ɼࢴഔମͷ৽ฤશूʹ͓͍࣮ͯ ࡍʹਤ 1 ͷʮ͹͋͠΍;ʯͷϧϏ͕ଘࡏͨ͠Օ ॴͰ͋Δɽখֶ‫ؗ‬ͷ XML σʔλ͸‫ݩ‬ʑίʔύε ‫࡞ʹ༻ࡧݕ‬੒͞Εͨ΋ͷͰ͸ͳ͘ɼࢴͷϖʔδ ͷ‫ͨݟ‬໨Λ XML ‫Ͱࣜܗ‬ϚʔΫΞοϓ͢Δ͜ͱ Λ໨తͱ͍ͯ͠ΔͨΊɼ্ड़ͷΞϊςʔγϣϯ Ͱ໰୊ͳ͔ͬͨɽ͔͠͠‫ࡧݕ‬Λ༻్ͱ͢Δ CHJ Ͱ͸ɼϧϏͷΞϊςʔγϣϯʹ΋Կ͔͠Βͷ‫ج‬ 4 http://www.jisc.go.jp/app/pager?id= 0&RKKNP vJISJISNO=X4051&\%23jps.JPSH0090D: JPSO0020:/JPS/JPSO0090.jsp 5 http://pj.ninjal.ac.jp/corpus center/cmj/ doc/07kondo.pdf. ਤ 2: ৽ฤ೔ຊ‫ݹ‬యจֶશू 25 ‫ר‬ɼ‫ࢯݯ‬෺‫ޠ‬ ʢ̒ʣɼखशɼp.329ɽΑΓൈਮɽࠇ࢛֯Ͱғͬ ͨՕॴ͕౰֘ͷʮ͹͋͠΍;ʯͰ͋Δɽ ४ɼগͳ͘ͱ΋‫ࡧݕ‬୯ҐͰ͋Δ୹୯Ґͱͷ੔߹ ͕ඞཁͱͳΔɽ ͦ͜Ͱຊ‫Ͱڀݚ‬͸ɼίʔύεதͷϧϏΞϊςʔ γϣϯΛख़ࣈ‫܇‬Λআ͍ͯɼ͢΂ͯϞϊϧϏͱ͠ɼ ख़ࣈ‫ʹ܇‬ରͯ͠͸ɼख़‫ͱ͝ޠ‬ͷάϧʔϓϧϏʹ मਖ਼͢Δɽ͜ͷΑ͏ʹՄೳͳ‫ݶ‬Γࡉཻ͔͍౓Ͱ ͷϧϏΞϊςʔγϣϯΛ࣮‫͢ݱ‬Ε͹ɼCHJ ຊจ ςΩετͷ୹୯ҐΞϊςʔγϣϯͱͷ੔߹΋༰ қͱͳΔɽ. ⓒ 2016 Information Processing Society of Japan. ─ 135 ─.

(4) The Computers and the Humanities Symposium, Dec. 2016. 3 จࣈ୯ҐͷଟରଟࣗಈΞϥΠϝϯτख๏ʹ‫ ج‬ஔ‫׵‬ϧʔϧͷεΫϦϓτͰ CHJ Ͱ࠾༻͍ͯ͠Δ ͮ͘ϧϏΞϊςʔγϣϯͷࣗಈमਖ਼ XML ‫ࣜܗ‬ʢਤ 4ʣʹม‫ͨ͠׵‬ɽ͜ͷࡍɼ‫͕ऀۀ‬ ࣮ࢪͨ͠ϧϏͷΞϊςʔγϣϯ͸ XML தͰ͸ CHJ ͷϧϏΞϊςʔγϣϯΛ͢΂ͯਓखͰमਖ਼͢ ruby λάʹҰ‫ׅ‬ஔ‫͞׵‬ΕΔɽruby λάͰ਌จࣈ Δ͜ͱ͸ࠔ೉Ͱ͋ΔͨΊɼຊ‫Ͱڀݚ‬͸ɼจ‫[ ݙ‬3] ྻΛ‫ׅ‬ΓɼrubyText ଐੑͰϧϏจࣈྻΛΞϊςʔ ͷจࣈ୯ҐͷଟରଟࣗಈΞϥΠϝϯτख๏Λ࢖ γϣϯ͍ͯ͠ΔɽΤιϙͷϋϒϥεʹ‫·ؚ‬ΕΔ ༻͠ɼϧϏΞϊςʔγϣϯͷࣗಈमਖ਼ΛࢼΈΔɽ ruby λά͸શ 1,425 ‫ͨͬ͋Ͱݸ‬ɽ จ‫[ ݙ‬3] ͷख๏͸ɼ‫ࣈ׽‬ͷಡΈʢൃԻʣਪఆͷͨ mpaligner ΁ͷೖྗͱͯ͠ɼΤιϙͷϋϒϥε Ίʹ։ൃ͞ΕͨจࣈྻΞϥΠϝϯτख๏Ͱ͋Δɽ தͷ਌จࣈྻͱɼϧϏจࣈྻΛฒ΂ͨ΋ͷʹՃ ‫ͦͱྻࣈ׽‬ͷಡΈจࣈྻΛฒ΂ͨύϥϨϧίʔ ͑ɼ‫ܗ‬ଶૉղੳ༻ࣙॻ UniDic[4] ͷද૚‫ͱܗ‬ɼԾ ύεΛೖྗͱͯ͠ɼ༩͑ΒΕ֤ͨ‫ࣈ׽‬จࣈྻͱ ໊‫ܗ‬ग़‫ܗݱ‬8 Λฒ΂ͨ΋ͷɼ͓Αͼ CHJ ʹ‫·ؚ‬ ͦͷಡΈจࣈྻͷ࠷খͷଟରଟΞϥΠϝϯτΛ ΕΔ͢΂ͯͷϧϏλάΛ࢖༻ͨ͠ɽ͜ΕʹΑΓɼ ྆ऀͷ‫ֶ͠ͳࢣڭ͍ͨͮجʹ܎ؔىڞ‬शʹΑΓ શ 1,374,214 ͷ‫ࣈ׽‬จࣈྻɼԾ໊จࣈྻϖΞ͕ ֫ಘ͢Δɽຊ‫Ͱڀݚ‬͸ɼจ‫[ ݙ‬3] ͷख๏Λ࣮૷ mpaligner ΁ͷೖྗͱͳͬͨɽ 6 ͨ͠πʔϧ mpaligner Λ࢖༻͠ɼಡΈͷ୅ΘΓ mpaligner ͕ߦͳͬͨࣗಈΞϥΠϝϯτͷྫΛ ʹϧϏΛೖྗ͢Δ͜ͱͰɼ‫ࣈ׽‬จࣈྻͱϧϏจ ਤ 5 ʹࣔ͢ɽ͜ΕΛ‫ݟ‬ΔͱɼϞϊϧϏԽՄೳͳ‫׽‬ ࣈྻͷରԠΛͱΔɽ‫ͱࣈ׽‬ϧϏͷ‫͍ͮجʹىڞ‬ ࣈྻʹؔͯ͠͸ɼਖ਼͘͠ 1 ࣈͣͭʹϧϏΛ౰ͯɼ ͨ࠷খͷΞϥΠϝϯτΛ֫ಘ͢ΔͨΊɼҰఆྔ ʮ᥾‫Ϳ͔ͭͨ[ ڇ‬Γ]ʯͷΑ͏ͳख़ࣈ‫܇‬͸ͦͷ·· Ҏ্ͷ‫ͦͱྻࣈ׽‬ͷϧϏจࣈྻͷϖΞ͕͋Ε͹ɼ ͷঢ়ଶͰ࢒͢͜ͱ͕Ͱ͖͍ͯΔɽ·ͨࣗಈΞϥ ಛघͳ‫͋Ͱ܎ؔىڞ‬Δख़ࣈ‫܇‬Λআ͖ɼ֤‫ʹࣈ׽‬ Πϝϯτͷ݁ՌΛΩϦγλϯࢿྉͷίʔύεԽ ϧϏΛରԠͤ͞ΔϞϊϧϏ͕࣮‫͖Ͱݱ‬ɼಉ࣌ʹ ୲౰ऀ͕͢΂ͯਓखͰ֬ೝͨ͠ͱ͜ΖɼΤιϙ ख़ࣈ‫܇‬͸άϧʔϓϧϏͱͯ͠ɼΞϥΠϝϯτ݁ ͷϋϒϥεʹ͓͍ͯվΊͯਓखͷमਖ਼͕ඞཁͰ ՌʹऔಘՄೳͩͱߟ͑ΒΕΔɽ ͋ͬͨՕॴ͸ 37/1,425 Ͱ͋Γɼਖ਼ղ཰͸ 97.4%ͱ 4 ϧϏΞϊςʔγϣϯࣗಈमਖ਼ͷੑೳධՁ࣮‫͍ߴ ݧ‬ਫ਼౓ͰϧϏλάͷࣗಈमਖ਼͕ߦ͍͑ͯΔ͜ ͱ͕Θ͔ͬͨɽ·ͨ‫ޡ‬Γͷ͋ͬͨՕॴΛௐ΂ͨ ϧϏΞϊςʔγϣϯͷࣗಈमਖ਼ͷੑೳධՁ࣮‫ݧ‬ ͱ͜Ζɼ ʮॾ [΋Ζ΋]ʑ[Ζ]ʯͷΑ͏ʹགྷࣈΛ਌จ ͱͯ͠ɼΩϦγλϯࢿྉΤιϙͷϋϒϥεΛର ࣈྻʹ‫ؚ‬ΉՕॴͰ෼ׂΤϥʔͱະ෼ׂ͕ൃੜ͠ ৅ʹɼϧϏΞϊςʔγϣϯͷࣗಈमਖ਼Λ࣮ࢪ͠ ͍ͯΔ͜ͱ͕෼͔ͬͨʢΤϥʔ਺ɿ5ʣɽͦ͜Ͱ ͨɽ͜ͷࢿྉ͸‫ࡏݱ‬ίʔύεԽ࡞‫ۀ‬ͷ్தͰ͋ mpaligner ΁ͷೖྗ࣌ɼགྷࣈΛ௚લͷจࣈ΁ஔ‫׵‬ Γɼେӳਤॻ‫ؗ‬ଂʢ1593ʣΛఈຊʹɼϩʔϚࣈ ͢ΔલॲཧΛ࣮ࢪͨ͠ͱ͜Ζɼ౰֘ͷΤϥʔ͸ ຊจͷςΩετԽͷஈ֊͔Β࡞‫ۀ‬Λ։͍࢝ͯ͠ 0 ʹͳΓɼղੳਫ਼౓΋ 97.8%·Ͱ޲্ͨ͠ɽ࢒Γ Δɽͨͩ͠ຊ࣮‫ͨ͠༻࢖Ͱݧ‬ͷ͸‫ݩ‬ͷϩʔϚࣈ ͷΤϥʔΛ֬ೝͨ͠ͱ͜Ζɼ΄ͱΜͲ͕ʮҰਓ ςΩετͰͳ͘ɼίʔύεͷ‫ࣈ׽‬ยԾ໊ަ͡Γ [ͻͱΓʧʯ΍ʮࡢ೔ʦ͖ͷ;ʧʯͷΑ͏ͳߴස౓ ຊจςΩετͱͯ͠ࢼ‫ݧ‬తʹ XML ԽΛࢼΈͯ ͷจࣈྻͰɼ୲౰ऀ͕ओ‫؍‬తʹ͸෼ׂͯ͠΄͠ ͍Δจ‫[ ݙ‬1] Ͱ͋Δ7 ɽຊ࣮‫ݧ‬͸͜ͷࢼ‫ݧ‬త XML ͘ͳ͍Օॴͷա෼ׂͰ͋ͬͨɽͦͷͨΊɼͲ͏ ԽͷҰ‫ͨͨ͠ࢪ࣮ͯ͠ͱ؀‬Ίɼࣗಈղੳͷੑೳ ͍ͬͨจࣈྻ͸ա෼ׂͨ͘͠ͳ͍͔Λ͋Β͔͡ ධՁΛ͢΂ͯਓखͷνΣοΫʹΑͬͯߦ͏͜ͱ͕ Ί‫ن‬ఔूͱͯ͠·ͱΊ͓ͯ͘͜ͱͰɼ͜ΕΒͷ Ͱ͖ͨɽ Τϥʔ͸ͳ͘͢͜ͱ͕Ͱ͖Δɽ࣮ࡍɼ ʮ਺ࣈ+ਓʯ จ‫[ ݙ‬1] ͷిࢠԽ͸ɼ ʢΞϊςʔγϣϯ࡞‫ۀ‬ͷ ͓Αͼʮࡢ೔ʯͷա෼ׂʢΤϥʔ਺ɿ16ʣΛഉ ઐ໳ՈͰͳ͍ʣ‫ऀۀ‬ґཔͱͨͨ͠ΊɼϧϏΞϊ আ͚ͨͩ͠Ͱɼਫ਼౓͸ 98.9%·Ͱ޲্ͨ͠ɽ ςʔγϣϯ΋৽ฤશूͱಉ༷ͷେࡶ೺ͳ࢓༷ͱ ͳ͍ͬͯΔɽೲ඼͞Εͨσʔλʢਤ 3ʣΛ୯७ͳ 5 ௥Ճ࣮‫ݧ‬ɿΞϥΠϝϯτείΞΛར༻ͨۙ͠ ੈ‫ࢿޠޱ‬ྉͷ౰ͯࣈͷ‫ݕ‬ग़. 6 https://osdn.jp/projects/mpaligner/. ௥Ճ࣮‫ͯ͠ͱݧ‬ɼۙੈ‫ࢿޠޱ‬ྉʹසग़͢Δ౰ͯ ࣈԾ໊ަ͡ΓจͰͷຊจ͸ະͩఆ·͍ͬͯͳ͍ɽࠓճͷσʔ ࣈϧϏͷ‫ݕ‬ग़࣮‫ݧ‬΋ߦͳͬͨɽۙੈͷࢿྉʹ͸ 7 ஶ࡞‫ݖ‬ͷؔ܎Ͱɼίʔύεެ։࣌ʹ࣮ࡍʹ࢖༻͢Δ‫׽‬. λ͸ XML Խํ਑ͷ‫ݕ‬౼ͷͨΊࢀߟͱͯ͠࢖༻͍ͯ͠Δ΋ ͷͰ͋Γɼࠓճ࢖༻͍ͯ͠Δ‫ࣈ׽‬Ծ໊ަ͡ΓจΛຊจͱ͠ ͯެ։͢ΔΘ͚Ͱ͸ͳ͍ɽ. 8 UniDic ͷԾ໊‫ܗ‬͸ΧλΧφද‫͋Ͱه‬ΔͨΊɼฏԾ໊ද. ‫ʹه‬ม‫ͨ͠༻࢖ͯ͠׵‬ɽ. ⓒ 2016 Information Processing Society of Japan. ─ 136 ─.

(5) 「人文科学とコンピュータシンポジウム」 2016 年 12 月. ˑ̐̔̌ 1 ɹ‫ݴ‬Լʦ͝Μ͔ʧʹਓ͔Β‫ݟ‬஌ΒΕͯɺஏʹ‫Ͱ͏ٴ‬ɺୀʦ͠Γͧʧ͔͏ 2 ɹͣɻ 3 ɹɹഅͱᱝഅͱͷࣄɻ 4 ɹɹ͋ΔਓɺᱝഅͱഅͱʹՙΛବʦ͓΄ʧͤͯߦ͕͘ɺᱝ 5 ɹഅͷՙ෺͕͋·Γա͗ͯɺઌ΁ߦ͖ண͔͏༷ʦ΍͏ʧ΋ 6 ɹͳ͚Ε͹ɺᱝഅ͔Βഅʹဢ‫ݴ‬ʦΘͼ͜ͱʧΛͯ͠‫;ݴ‬΍͏͸ɺ 7 ɹʮͦͳͨͱզ͸Ұ໳ͰɺͦͬͱͷߴԼΛ΋ͬͯ 8 ɹִͬͨɻΘ͕ՙ෺͕͋·Γա͗ͯɺҰ଍΋ 9 ɹҾ͔͏ͣΔ༷͕ͳ͍ɻগͦ͠ͳͨͷ্ʹ෇͚ͯɺ 10 ɹզΛॿ͚ΒΕ͍͔͠ʯͱɻഅ͸Ұ޲ঝҾ͍ͤͰɺ 11 ɹ݁۟େ͖ʹᅑͬͯɺઌ΁ߦͬͨΕ͹ɺᱝഅ͸ྗ 12 ɹʹ‫ٴ‬͹͍Ͱɺͭͻʹ౗ΕͯࢮΜͩɻͦ͜Ͱɺ͜ͷ 13 ɹഅ௥ͻ͸ͤ͏͜ͱ͕ͳ͏ͯɺᱝഅʹ෇͚ͨՙ෺Λ΋ɺ 14 ɹ͜ͱ͝ͱ͘അҰඖʹऔΓ෇͚ͯɺ͋·ͬ͞΁ᱝഅ 15 ɹͷൽΛ΋ണ͍Ͱɺഅʹବʦ͓΄ʧͤͯߦ͘ͱ͜ΖͰɺ 16 ɹͦͷ࣌ɺഅ͸ɺΘ͕۪ஒʦ͙ͪʧͳΔ͜ͱΛ‫ސ‬Έɺ 17 ɹʮઌʹᱝഅͷဢͼͨ࣌ɺͦͬͱ߹ྗʦ͔;ΓΑ͘ʧͨ͠Β͹ɺ͜Ε 18 ɹ΄Ͳͷॏՙ͸࣋ͭ·͍͡΋ͷΛʯͱչΊ 19 ɹͲ΋ɺӹ͕ͳ͔ͬͨɻ 20 ɹɹԼ৺ɻ 21 ɹɹʮཧͷ͜͏ͣΔ͸ඇͷҰഒʯͱ͍͏ͯɺಓཧΛঝҾ 22 ɹͤ͵ऀ͸ɺඞͣඇ෼ͷ֐ʹձ͸͍Ͱ‫׎‬͸ 23 ɹ͵΋ͷͫΌɻ ˑ̐̔̍ 1 ɹɹೋਓʦʹʹΜʧಉಓͯ͠ߦ͘ࣄɻ. ਤ 3: ೲ඼͞Εͨจ‫[ ݙ‬1] ͷςΩετσʔλɽˑ͸ϖʔδ൪߸Λද͠ɼ֤ߦ͕൅ͷຊ্Ͱͷ 1 ߦʹ ૬౰͍ͯ͠Δɽ·ͨߦ಄ͷ਺ࣈ͸ߦ൪߸Ͱ͋Δɽ. ਤ 4: ਤ 3 ͔ΒϧʔϧεΫϦϓτͰҰ‫ׅࣗ‬ಈม‫ ͨ͠׵‬XML ϑΝΠϧͷҰ෦ɽΤιϙͷϋϒϥε͸ ෳ਺ͷখ࿩͔Βߏ੒͞Ε͓ͯΓɼ֤࿩Λ 1 ͭͷ XML ϑΝΠϧͱ͍ͯ͠Δɽ্‫ه‬͸ਤ 3 தʹ‫·ؚ‬Ε ͍ͯΔʮഅͱᱝഅͱͷࣄɻʯΛͷ XML Խͨ͠΋ͷͰ͋ΔɽϧϏ͸ ruby λάͱͯ͠෇༩͞Ε͓ͯΓɼ ruby λάͰ‫ׅ‬ΒΕͨςΩετ͕౰֘ϧϏͷ෇༩͞Ε͍ͯΔ‫ࣈ׽‬Ծ໊ަ͡Γͷຊจɼruby λάதͷ rubyText ͕ϧϏจࣈྻΛ֨ೲ͍ͯ͠Δɽ. ⓒ 2016 Information Processing Society of Japan. ─ 137 ─.

(6) The Computers and the Humanities Symposium, Dec. 2016. 6 ͓ΘΓʹ ࠃ‫͕͜ݚޠ‬Ε·Ͱʹ஝ੵ͖ͯͨ͠ UniDic ΍௨࣌ ίʔύεͱ͍ͬͨ‫ݯࢿޠݴ‬ΛࣗಈΞϥΠϝϯτ ʹ‫͢༻׆‬Δ͜ͱͰɼਓखͰ͸ߴίετͳϧϏλ άͷमਖ਼࡞‫ۀ‬΋ߴਫ਼౓ʹࣗಈԽͰ͖Δ͜ͱ͕Θ ͔ͬͨɽࠓ‫ޙ‬ͷ՝୊ͱͯ͠ɼΩϦγλϯࢿྉͩ ͚Ͱͳ͘ɼଞͷ࣌୅ͷࢿྉɼಛʹϧϏͷසग़͢ Δۙੈ΍ۙ୅ͷࢿྉʹରͯ͠΋ಉ༷ͷख๏Λ࢖ ༻͠ɼධՁΛߦͳ͍ͬͯ͘༧ఆͰ͋Δɽ·ͨۙ ਤ 5: ΤιϙͷϋϒϥεͷϧϏλάमਖ਼݁Ռͷྫɽ ੈ‫ࢿޠޱ‬ྉͷ౰ͯࣈ͸ɼࣗಈղੳɼಛʹ‫ܗ‬ଶૉ ղੳʹ͓͍ͯਫ਼౓޲্ͷো֐ͱͳ͍ͬͯΔͨΊɼ ໼ҹͷ্͕मਖ਼લɼԼ͕मਖ਼‫͋Ͱޙ‬Δɽ ௥Ճ࣮‫ͨͬͳߦͯ͠ͱݧ‬౰ͯࣈ‫ݕ‬ग़Λࠓ‫ൃޙ‬ల ͤ͞Δ͜ͱͰɼۙੈ‫ࢿޠޱ‬ྉͷ‫ܗ‬ଶૉղੳੑೳ ʮ৺‫ڻ‬ʦͼͭ͘Γʧʯ ʮ༠Ҿʦͦ͞͸—Εʧʯ9 ͷΑ ޲্ʹ΋ͭͳ͕Δͱߟ͑ΒΕΔɽ ͏ʹ௨༻తͰͳ͍ಛघͳৼΓԾ໊ʢ౰ͯࣈʣ͕ ଟ͍ɽ͜Ε͸ۙੈͷᔬམຊ΍ਓ৘ຊͳͲͷ௨ଏ খઆྨ͸େऺ޲͚ͷग़൛෺Ͱ͋Γɼ೉͍͠‫ࣙँ ޠ׽‬ ͕ಡΊͳ͍ಡऀͰ΋ɼৼΓԾ໊ͱຊจͷฏԾ໊ ຊ‫ڀݚ‬͸ɼࠃཱࠃ‫ڞॴڀݚޠ‬ಉ‫ڀݚ‬ʮ௨࣌ίʔ ͷ෦෼͚ͩΛ໨Ͱ௥͍͚ͬͯ͹ɼ಺༰ΛཧղͰ ύεͷߏஙͱ೔ຊ‫ڀݚ࢙ޠ‬ͷ৽ల։ʯͷ‫ڀݚ‬੒ ͖ΔΑ͏ʹ޻෉͞Ε͍ͯͨͨΊͰ͋Δɽ͜͏͍ͬ ՌΛใࠂͨ͠΋ͷͰ͋Δɽ ͨ౰ͯࣈ͸ɼຊจͷ‫ྻࣈ׽‬ͷ࣮ࡍͷಡΈͱဃ཭ ͓ͯ͠Γɼ͔ͭஶऀ͝ͱʹಠಛͷ࢖༻Λߦͳͬ ࢀߟจ‫ݙ‬ ͍ͯͨͨΊɼࣗಈΞϥΠϝϯτΛߦͳͬͨ৔߹ [1] େ௩ޫ৴, དྷాོฤɿΤιϙͷϋϒϥε ຊจ ͱ૯ࡧҾ ຊจรɼਗ਼จಊग़൛ (1999). ʹ௿͍είΞׂ͕Γ౰ͯΔͱ༧ଌͰ͖Δɽͦ͜ Ͱ‫ࡏݱ‬੔උதͷۙੈͷᔬམຊɼਓ৘ຊίʔύε [2] ۙ౻ହ߂ɿʮ೔ຊ‫ޠ‬௨࣌ίʔύεͷઃ‫ܭ‬ʯɼ NINJALʮ௨࣌ίʔύεʯϓϩδΣΫτɾOxͷϧϏΞϊςʔγϣϯΛର৅ʹΤιϙͷϋϒϥ ford VSARPS ϓϩδΣΫτ߹ಉγϯϙδ΢ εͱಉ༷ͷํ๏ͰจࣈྻΞϥΠϝϯτΛ࣮ࢪ͠ɼ Ϝʮ௨࣌ίʔύεͱ೔ຊ‫ڀݚ࢙ޠ‬ʯ༧ߘूɼ ͖͍͠஋Λ࢖֤ͬͯΞϥΠϝϯτͷείΞ͔Β pp.1-10 (2012). ౰ͯࣈΛ‫ݕ‬ग़͢Δ࣮‫ݧ‬Λߦͳͬͨɽ [3] ‫ٱ‬อ ‫ޔܚ‬ɼ઒೾ ߂ಓɼԐ౉ ༸΄͔ɿ೔ຊ‫ޠ‬ ͷະ஌‫ʹޠ‬ର͢ΔൃԻ෇༩ͷͨΊͷଟରଟΞ ର৅ͱͨ͠ͷ͸ɼ੔උதͷᔬམຊίʔύεΑ ϥΠϝϯτ৘ใॲཧֶձ࿦จࢽ, Vol.54, No. ΓՖ֗ؑɼਓ৘ຊίʔύε͔Βൺཌྷ࿈ཧՖ᫱ࢤ 2, pp.452-462 (2013). ຬ୆ΛͦΕͧΕ 1 ϑΝΠϧͣͭͰ͋ΓɼͲͪΒ [4] ఻߁੖, খ໦ીஐ৴, খໆलथ΄͔ɿίʔύ ΋ XML ͰϚʔΫΞοϓ͞Ε͓ͯΓϧϏ΋λά෇ ε೔ຊ‫ֶޠ‬ͷͨΊͷ‫ݯࢿޠݴ‬ɿ‫ܗ‬ଶૉղੳ༻ ͚͞Ε͍ͯΔɽ͜ΕΒͷ XML ϑΝΠϧ͔Βநग़ ిࢠԽࣙॻͷ։ൃͱͦͷԠ༻ɼ ʰ೔ຊ‫ޠ‬Պֶʱ 22 ߸ɼ pp.101-123 (2007). ͨ͠ϧϏλά͸਺શ෦Ͱ 5,153 Ͱ͋ͬͨɽίʔύ ε੔උͷ୲౰ऀ͕͜ΕΒͷϧϏλάʹର͠ɼ౰ [5] ࢁ‫ޱ‬ণ໵ɿߏ଄ԽςΩετʹରԠͨ͠શจ‫ݕ‬ ࡧγεςϜʰͻ·ΘΓʱɼࠃཱࠃ‫ॴڀݚޠ‬ใ ͯࣈͱ൑அͨ͠ϧϏʹ͸ type ଐੑͱͯ͠ʮ౰ͯ ࠂ 122, pp.49-82, തจ‫( ࣾ৽ؗ‬2002). ࣈʯͱ͍͏஋Λ෇༩ͨ͠ɽ෇༩͞Εͨͷ͸ 5,153 தɼ206 ‫ͨͬ͋Ͱݸ‬ɽ͜ΕΛΤιϙͷϋϒϥεͱ ಉ༷ͷํ๏ͰࣗಈΞϥΠϝϯτ͠ɼείΞͷঢ ॱͰιʔςΟϯάΛߦͳͬͨɽͦͷ݁Ռɼεί Ξʹର͠ɼ͖͍͠஋ʵ 40 Λઃఆͨ͠ͱ͖-40 Ҏ ԼͷείΞΛ࣋ͭϧϏ͸ 130 ‫ݸ‬ɼ͏ͪ౰ͯࣈ͸ 103 ‫Ͱݸ‬໿ 79%ͷਫ਼౓Ͱ൒෼ͷ౰ͯࣈ͕‫ݕ‬ग़Ͱ ͖Δ͜ͱ͕෼͔ͬͨɽ 9 ʮʛʯ͸୹୯Ґ‫ڥ‬քΛද͢ɽ. ⓒ 2016 Information Processing Society of Japan. ─ 138 ─.

(7)

参照

関連したドキュメント

国民の「知る自由」を保障し、

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

The number of isomorphism classes of Latin squares that contain a reduced Latin square is the number of isomorphism classes of loops (since every quasigroup isomorphic to a loop is

The system consists of five components namely: Data Converter, Initial Microdata Analyzer, Disclosure Method Selection, Disclosure Risk and Information Loss Analyzer, and

<警告> •

本学級の児童は,89%の児童が「外国 語活動が好きだ」と回答しており,多く

These power functions will allow us to compare the use- fulness of the ANOVA and Kruskal-Wallis tests under various kinds and degrees of non-normality (combinations of the g and

日本語で書かれた解説がほとんどないので , 専門用 語の訳出を独自に試みた ( たとえば variety を「多様クラス」と訳したり , subdirect