実験 の結果 か ら,4つ 中3つ の品詞 で 文字単 位か ら単語 ベ ク トルを生成 す るよ り,も とも と分 か ち書 きされて い る単 語ベ ク トルの方 がス ピアマ ンの順位相 関係 数 が高 くな るこ とがわ か る.特 に,副 詞 と名詞で顕著 に数字が下が ってい る こ とが確 認で き る.デ ー タセ ッ トを見て み る と,こ れ らの品詞 で は文字種が 異な る単語 ペ ア が多 く存在 してい るこ とがわか った.文 字ベ ク トルか ら作 られ た単語 ベ ク トル は, 文 字種 の情報 が含 まれ てお りまた学 習 され る周 りの単 語 は同 じ文字種 で ある こ とが 多い為 学 習の過程で 同 じ文字種で似 たペ ク トル として学習 され る可 能性 が高 い.例 えば,"も ち ろん',と"勿 論,,は 表 記が 異な るだ けで 同 じ意 味 を表 す単 語ペ アで あ る.10人 の アノテー タがつ ける類 似度 も当然10に な り,分 散表現 のcos類 似 度 も 高 くな る こ とが予想 され る.分 か ち書 きで学 習 されたword2vecの 分 散表現で の こ れ らのペ アの類似 度 は0。895と 高 い値 にな ってい る.そ れ に対 して,文 字単位 で学 習 されたword2vecの 分 散表現で の これ らのペ アの類 似度 は0.181と 低 い値 になっ てい る こ とがわか る.こ れ は上述 の通 り,文 字種 の違 い によって低 い類似度 となっ てい る と予想 され る.
同様 に,同 じ文字 を含 む単語 ベ ク トルで は,文 字単位 か ら作 られた単語 のベ ク ト ル の方が類似 度が高 くな る ことが確認 で きた.例 えぼ,̀̀基 礎"と"基 調"の よ うに 同 じ単語が含 まれて い る単語 ペ アの場合単語 か ら作 られ るword2vecよ りも類似 度 が大 き くな る場 合が 多い.こ れ は,2.2.2節 で述べ た よ うに通常 の単語 の分 散表現 の学習で は単 語 の表層情報 か らしか 学習せず,単 語 の 中の情報 を考慮 で きない こ と に起 因 して い る と考 え られ る.
文字単位 で単 語ベ ク トル を生成 す る とき,形 容詞 のみス ピアマ ンの順 位相 関係数
が上が ってい る ことがわか る.ま た,動 詞 の値 も副詞,名 詞 に比べ て数値 の下 りが
小 さい こ とが確 認 で きる.こ れ らは活用 の文字 ベ ク トルの類似 度 が反 映 され るた
め,他 の2つ の品詞 に比べ て精 度の結果 を著 し く落 とす ような ことが なか った.特
に,形 容詞 は似た活用 の単 語ペ アが多か ったため,精 度が 向上 された と考 え られ る.
第7章 お わ りに
本論文 で は,日 本語単語類 似度 デー タセ ッ トを構築 し,日 本語 の分散表現 の評価 を可能 に した.こ のデー タセ ッ トは語彙平 易化 システムの評価 デ ータセ ッ トか ら日 本語 の単 語ペ アを抽 出 し,ク ラウ ドソーシ ングを利用 して各単 語ペ アに類似 度 を付 与 した もので あ る.対 象の品詞 は,名 詞 だ けでな く動詞 ・形容 詞 ・副詞 も対象 とし て い る.ま た抽 出 した単 語ペ アを頻度 ご とに分 類 し,高 頻 度語 か ら低 頻 度語 まで含
まれ るよ うに してい る.
日本語類 似度 デー タセ ッ トを構築 した こ とによ り,こ の よ うな分散表現 の評価が 可能 になった.そ のため,word2vecで 現在 の 日本 語分散表 現 の評価 と文字単 位で の単 語の構成生 について検 討 を行 った.文 字単位で単語 ペ ク トルの構成 が可 能 にな れ ば,表 層で は学習が こん な単語 のベ ク トルの獲 得が可能 にな る.
本論文 の主要 な貢献 は以下 に示 す通 りで ある.
1.日 本 語 単 語 類 似 度 デ ー タ セ ッ トを 構 築 し,日 本 語 分 散 表 現 の 評 価 を 可 能 に した.
2.こ の デ ー タ セ ッ ト を用 い て,文 字 単 位 か ら構 成 し た 単 語 ベ ク トル と通 常 通 り 学 習 さ れ た 単 語 の ベ ク トル の 比 較 を した.
謝辞
本修 士論 文 は,筆 者が 首都 大学東京大 学院 システムデザイ ン研究 科情報通信 シス テ ム学域博 士前 期 課程在 学 中 に小 町研 究 室 におい て行 った研 究 を ま とめた もので す.本 論文 に関 して終始 ご指導 ご鞭錘 を頂 きま した本 学小町守先生 には とて もお世 話 にな りました.研 究室 に配属 されてか ら3年 間,研 究 とは何 か を全 く知 らない状 態か らここまで これ たの は小 町先生 の指導 に よるものです.毎 週 の進 捗報告 やイ ン
ター ンシ ップな ど研 究以外 の分野 で もお世話 にな りました.心 よ り感 謝致 します.
また,本 論 文の副査 を引 き受 けて くだ さった 山 ロ亨教 授,石 川博教授 に感謝 致 しま す.秘 書 の馬繰 さんに は,全 員分 の事務 書類 の作成 ・提 出 を して くだ さ り,事 務 に かか る時 間を大 幅 に削減 して いただ きま した.感 謝致 します.
本論文 を書 くにあた り,研 究室 の同期 ・先輩 ・後 輩 には日頃 の研 究や ア ドバ イス な どとて も助 けて もらい ま した.特 に同期 の人 たち は,研 究 以外 にも多 くの こ とを 共 有 して一緒 にこ こまで歩ん で きた と思い ます.感 謝 してい ます.
最後 に,博 士課程前期 まで応 援 して くださってい る家族 には大変 感謝 して い ます.
あ りが とうござい ま した.
参考文献
[1]Q.v.LeandT.Mikolov,"DistributedRepresentationsofsentencesandDocu‑
ments,,,Proceedingsofthe31thInternatienalConferenceonMachineLearning, pp.1188‑1196,2014.http://jmlr.org/proceedings/papers/v32/le14.html [2]R.Socher,E.且.Huang,J.Pennin,C.D.Manning,andA.Y.Ng,"Dy‑
namicpoolingandunfbldingrecursiveautoencodersfbrparaphrasedet㏄ 一
tion,,,AdvancesinNeuralInformationProcessingSystems24,pp.801‑
809,2011.http://papers.nips.cc/paper/4204‑dynamic‑pooling‑and‑unfblding・
recursiv(… 〉‑autoencoders‑f()r‑paraphrase‑det㏄tion.pdf
[3]L.Finkelstein,G.Evgenly,M.Ybssi,R.Ehud,S.Zach,W.Gadi,andR.Eytan,
̀̀Placingsearchincontext:theconceptrevisited
,,,ProceedingsoftheTenth InternationalWorldWideWebConference,pp.116‑131,2001.
[4]且.RubensteinandJ.B.Goodenough,"ConteXtualcorrelatesofsynonymy,,,Com‑
municationsoftheAssocia尤ionfbrComputingMachinery,pp.627‑633,1965.
http://doi.acm.org/10.1145/365628.365657
[5]T.Kodaira,T.Kajiwara,andM.Komachi,"Controlledandbalanced
datasetfbrjapaneselexicalsimplification,"ProceedingsoftheAssociationfbr ComputationalLinguistics2016StudentResearchWorkshop,pp.1‑7,2016.
http://anthology.aclweb.org/P/P16/P16‑3001
[6]J.A.BothaandP.Blunsom,"Compositionalmorphologyforwordrepresentations
andlanguagemodelling,,,Proceedingsofthe31thInternationalConferenceon MachineLearning,pp.1899‑1907,2014.http://arxiv.org/abs/1405.4273 [7]A.Utsumi,"Acharacter.basedapproachtodistributionalseman.
ticmodels:Exp互oitingkanjicharactersforconstructingjapaneseword vectors,"ProceedingsoftheNi】1thInterna尤ionalConferenceonLan‑
guageResourcesan.dEvaluation,pp.4444‑4450,2014.http://wwwユr㏄ 一
con£org/proceedings/lr㏄2014/pdf/144 ̲Paper.pdf
■■■■■﹂■■■■lJ80σ
﹁■1■■﹂﹁■■■■﹂
[10]
[11]
Z.S.Harris,"Distributionalstructure.,"Word,pp.10(23):146‑162,1954.
G.A.MillerandW.G.Charles,ccContextualcorrelatesof ticsimilarity,"LanguageandCognitiveProcesses,pp.1‑28,
http://eric.ed.gov/ERICWebPortal/recor(IDetai1?accnoニEJ431389 E.Bruni,G.Boleda,M.Baroni,andN.K.Tran,"
nicolor,,,Proce
tationalLinguistics,pp.136‑145, 1015
E.H.且uang,R.Socher,C.D.Manning,andA.Y.Ng,"
seman‑
1991.
Distributionalsemanticsintech‑
edingsofthe50thAnnualMeetingoftheAssociationforCompu‑
2012.http://www.aclweb.org/anthology/P12一
ImprovingWord
RepresentationsviaGlobalConteXtandMultipleWordPrototypes,"Annual M㏄tingoftheAssociationfbrComputa尤ionalLinguistics,pp.873‑882,2012.
http://dl.acm.org/citation.cfm?id=2390524.2390645 [12]M.‑T.Luong,R.Socher,andC.D.Manning,"Betterwordrepresentar
tionswithr㏄ursiveneuralnetworksfbrmorphology,"TheSIGNLLCon‑
ferenceonComputationalNaturalLanguageLearning,pp.104‑113,2013.
http://aclweb.org/anthology/W/W13/W13‑3512.pdf
[13]S.Baker,R.Reichart,andA.Korhonen,"Anunsupervisedmodelforin‑
stanceIevelsubcategoriZationacquisition,,,Proceedingsofthe2014Confer‑
enceonEmpiricalMethodsinNaturalLanguageProcessing,pp.278‑289,2014.
http://www.a,clwel).org/anthology/D14‑1034
[14]F.且ill,R.Reichart,andA.Korhonen,"Simlex‑999:Evaluatingsemanticmodels with(genuine)similarityestimation,"ComputationalLinguistics,pp.665‑695, 2015.http://dx.doi.org/10.1162/COLI̲a̲00237
[15】D.Gerz,1.Vuli6,F.且ill,R.Reichart,andA.Korhonen,"Simverb‑3500:A
large‑scaleevaluationsetofverbsimilarity,"Proceedingsofthe2016Confer‑
enceonEmpiricalMethodsinNaturalLanguageProcessing,pp.2173‑2182,2016.
https://aclweb.org/anthology/D16‑1235
[16]M.FaruquiandC.Dyer,"Communityevaluationandexchangeofwordvec‑
torsatwordvectors.org,,,Proceedingsof52ndAnnualMeetingoftheAssoci‑
ationforComputationalLinguistics:SystemDemonstrations,pp.19‑24,2014.
http://www.aclweb.org/anthology/P14‑5004
[17]G.A.Miller,"Wordnet:Alexicaldatabasefbrenglish,,,Communi‑
cationsoftheAssociationf̀)rComputingMachinery,pp.39‑41,1995.
http://doi.acm.org/10.1145/219717.219748
[18]J.R.Firth,"Asynopsisoflinguistictheory1930‑1955,,,Studiesinlinguisticanal‑
'
ysis,pp.1‑32,1957.
[19]T.Mik)lov,1.Sutskever,KChen,G.S.Corrado,andJ.Dean,"Dis‑
tributedrepresentationsofwordsandphrasesandtheircompositionality,"
AdvancesinNeuralInformationProcessingSystems26,pp.3111‑3119,2013.
http://papers.nips.cc/paper/5021‑distributed‑representations‑of‑words‑and‑
phrases.and‑their‑compositionality.pdf
[20]T.Mikolov,KChen,G.Corrado,andJ.Dean,"Ef丘cientestimationofword
representationsinvectorspace,"InProceOdingsofWorkshopattheInternational ConferenceonI、earningRepresentations,2013.http://arxiv.org/abs/1301・3781 [21]T.Mikolov,W.Yih,andG.Zweig,"Linguisticregularitiesincontinuousspace
wordrepresentations,,,且umanLanguageT㏄hnologies:ConferenceoftheNorth
AmericanChapteroftheAssociationofComputationalLinguistics,Proceedings, pp.746‑751,2013.http://aclweb.org/ar匡thology/N/N13/N13‑1090.pdf
[22]X.Rong,"word2vecparameterlearningexplained,,,vol.abs/1411.2738,,2014.
http://arxiv.org/abs/1411.2738
[23]R.J.PassonneauandB.Carpenter,"Thebenefitsofamodelofannotation,,,
Proceedingsofthe7thLinguisticAnnotationWorkShopandInteroperabilitywith Discourse,pp.187‑195,2013.http://www.aclweb.org/ar曲ology/W13‑2323
[24]D.E.Rumelhart,G.E.Hinton,andR.J.Williams,"Learningrepresentatiensby
back.propagatingerrors,"Neurocomputing:FoundationsofResearch,pp.533‑
536,1986.