This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere. Copyright ©2014 by IEICE
日本語 WordNet 類義語の誤り検出
-コーパス利用の試み-
平尾 拓也
†宮田 光樹
†鈴木 孝彦
‡廣川 佐千男
‡†九州大学大学院システム情報科学府 〒819-0395 福岡市西区元岡 744 番地
‡九州大学情報基盤研究開発センター 〒812-8581 福岡県福岡市東区箱崎 6-10-1
E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp, ‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp
あらまし 日本語 WordNet は自然言語処理において有用なツールであるが、5%の間違いが存在すると公式に認 められている。結果として、言語処理のデータベースとして信頼性の面に疑問が残る。本論文では、日本語 WordNet 内の間違いを抽出するいくつかの手法を提示する。 前半では日本語 WordNet それ単体のみを使用した手法を提示し、その結果を記述する。後半では日本語 WordNet と、外部より準備したコーパスを使用し、構造上の間違いを抽出する手法を提示する。 キーワード シソーラス, WordNet, 日本語 WordNet,
Detection of Error Synonyms in Japanese WordNet
-A trial of using corpus-
Takuya HIRAO
†Kouki MIYATA
†Takahiko SUZUKI
‡Sachio HIROKAWA
‡†Kyushu University Graduate School of Information Science and Electrical Engineering 774, Motooka, Nishi-ku,
Fukuoka, 819-0395 Japan
‡Kyushu University Research Institute for Information Technology 6-10-1, Hakozaki, Higashi-ku, fukuoka, 812-8581
Japan
E-mail: †{2ie14071e, 2ie13089s}@s.kyu-shu-u.ac.jp, ‡{hirokawa, suzuki}@cc.kyushu-u.ac.jp
Abstract Lexical Database the Japanese WordNet is a useful tool in natural language processing. However, it is officially
announced that Japanese WordNet contains 5% errors. In this paper, we discuss error detection methods in the Japanese WordNet.
キーワード Thesaurus, WordNet, Japanese WordNet,
1. は じ め に
日 本 語 WordNet[1,2] は Princeton 大 学 が 開 発 し た WordNet[3]を 用 い た 言 語 デ ー タ ベ ー ス で あ る 。 日 本 語 WordNet は 自 然 言 語 処 理 に お い て 有 用 で あ り 、 様 々 な 実 験 に 使 用 さ れ て い る [4]1。 フ リ ー の Web シ ソ ー ラ ス サ ー ビ ス に お い て 、日 本 語 WordNet は 一 般 的 に 使 用 さ れ て い る 。し か し な が ら 、現 行 の 日 本 語 WordNet は 間 違 い を 5%ほ ど 含 ん で い る と 作 成 者 ら が 認 め て お り [2]、 そ れ ら の 間 違 い が 日 本 語 WordNet の 使 い や す さ に 影 響 を 及 ぼ し て い る 可 能 性 が あ る 。 本 論 文 で は 、わ れ わ れ が 検 証 し た 日 本 語 WordNet の 間 違 い 探 知 手 法 に お い て 議 論 す る 。 間 違 い 探 知 は 日 本 語 WordNet の 間 違 い 修 正 の 第 一 段 階 で あ る 。こ の 手 法 は 、 大 規 模 言 語 デ ー タ ベ ー ス の 作 成 に 有 用 で あ る と 考 え る 。我 々 は 特 に 日 本 語 WordNet の 似 た よ う な 間 違 い 1 Weblio, http://ejje.weblio.jp の 発 見 を 主 眼 に し て お り 、 こ の 間 違 い の こ と を 「 類 義 語 の 間 違 い 」 と 呼 ん で い る 。 英 語 で な い WordNet や WordNet に 似 た 言 語 デ ー タ ベ ー ス の 作 成 と い う 点 に お い て 、 複 数 の プ ロ ジ ェ ク ト が 行 わ れ て い る 。 日 本 語 WordNet や Chinese Open WordNet[5] は 、 ブ ー ト ス ト ラ ッ プ の 段 階 で 、 Princeton WordNet の マ ッ ピ ン グ 手 法 を 用 い て 半 自 動 生 成 さ れ て い る 。ま た 、 Universal WordNet[6] や Babel Net[7] 、 Open Multilingual WordNet[8]と い っ た 、 WordNet の 拡 張 に よ る 統 合 、 多 言 語 概 念 字 句 デ ー タ ベ ー ス の 生 成 の 試 み も な さ れ て い る 。 概 念 と 語 句 、 ま た は 複 数 の 概 念 間 の 関 係 は 、Wikipedia や タ グ 付 け コ ー パ ス の よ う な 様 々 な 資 源 か ら 自 動 的 に 抽 出 す る こ と が 可 能 で あ る 。 そ れ ら に
よ っ て 得 ら れ た 統 合 デ ー タ ベ ー ス の 品 質 は 、 生 成 者 自 身 や 、 ネ ッ ト ワ ー ク コ ミ ュ ニ テ ィ に よ っ て 評 価 さ れ て き た 。 WordNet は 、 オ ン ト ロ ジ ー の ひ と つ と し て み な す こ と が で き る 。多 言 語 WordNet を 生 成 す る 場 合 に は 、言 語 数 に 応 じ た オ ン ト ロ ジ ー 間 の マ ッ ピ ン グ を す る 必 要 が あ る 。 そ の た め 、 オ ン ト ロ ジ ー の 間 違 い の 検 出 と 修 正 、 オ ン ト ロ ジ ー 間 の マ ッ ピ ン グ に 関 す る 研 究 が な さ れ て き た 。 こ れ ら の 研 究 に お い て 、 オ ン ト ロ ジ ー 内 で 分 類 が 間 違 っ て い る も の や 、 冗 長 も し く は 不 適 切 で あ る 、 ま た は 間 違 っ た 関 係 性 を 生 成 さ れ て い る 箇 所 を 修 正 す る 試 み が な さ れ て き た 。 間 違 い 検 出 の 手 法 と し て 、日 本 語 WordNet の み を 使 用 し た 手 法 を 動 詞 に 適 用 し た 場 合 を ベ ー ス ラ イ ン と し て 提 示 す る [9]。ま た 、コ ー パ ス を 用 い た 単 語 を ベ ク ト ル 化 し 、 こ れ ら の コ サ イ ン 類 似 度 に よ っ て 名 詞 の 間 違 い 検 出 の 手 法 と し て 使 用 で き な い か を 議 論 す る 。 本 論 文 で は 、第 2 節 で WordNet と 日 本 語 WordNet の 説 明 、第 3 節 で 本 論 文 の コ ン セ プ ト と WordNet の 構 造 に お け る 「 同 義 語 の 間 違 い 」 の 一 例 を 紹 介 す る 。 第 4 節 で は 間 違 い の 抽 出 法 に 関 す る わ れ わ れ の 手 法 の 説 明 、 第 5 節 で は 手 法 を 用 い た 場 合 の 結 果 の 提 示 を 行 う 。 第 6 節 で は 、 本 手 法 の Princeton WordNet に お け る 応 用 例 と 、 関 心 を 持 っ て い る 別 手 法 に 関 し て の 説 明 、 第 7 節 で word2vec を 用 い た 単 語 の ベ ク ト ル 化 と そ れ ら を 用 い た 間 違 い 検 出 の 実 験 、 第 8 節 に 今 後 の 展 望 と 課 題 を 述 べ る 。
2. WordNet と 日 本 語 WordNet
2.1. Princeton WordNet
Princeton WordNet は 英 語 の 大 規 模 言 語 デ ー タ ベ ー ス で あ る 。 名 詞 、 動 詞 、 形 容 詞 、 副 詞 と い っ た 品 詞 ご と に 、明 確 な コ ン セ プ ト を 持 っ た「 Synset」と い う 認 知 同 義 語 の セ ッ ト に 纏 め ら れ る 。 各 Synset は 固 有 の ID に よ っ て 管 理 さ れ て お り 、Gloss と 呼 ば れ る 、Synset の 簡 単 な 意 味 を 説 明 す る テ キ ス ト が リ ン ク さ れ て い る 。 Synset は 概 念 -意 味 関 係 も し く は 字 句 ト ー ク ン 関 係 で 相 互 リ ン ク を 持 っ て い る 。単 語 が 持 つ 意 味 を Synset に よ っ て グ ル ー プ 化 す る こ と が で き る た め 、 WordNet は シ ソ ー ラ ス と し て 使 用 で き る 。 多 義 で あ る 単 語 が 存 在 す る た め 、 単 語 は 複 数 の Synset に 属 す る こ と が あ る 。2.2. 日 本 語 WordNet
日 本 語 WordNet は Princeton WordNet を 基 に し た 、日 本 語 の 語 彙 デ ー タ ベ ー ス で あ る 。日 本 語 WordNet の プ 2 Wikipedia, http://ja.wikipedia.org ロ ジ ェ ク ト の 目 的 は 、 誰 で も 自 由 に 使 用 可 能 な 大 規 模 日 本 語 デ ー タ ベ ー ス を 提 供 す る こ と で あ る 。 こ の デ ー タ ベ ー ス は 2006 年 か ら 開 発 さ れ て い る 。
日 本 語 WordNet の 構 造 は 、Princeton WordNet に 準 拠 し て い る [1]。し か し 、日 本 語 と 英 語 と い う 言 語 の 違 い が 存 在 す る た め 、日 本 語 WordNet は Princeton WordNet に 含 ま れ て い な い オ リ ジ ナ ル の Synset を 含 ん で い る 。 ま た 、日 本 語 WordNet は 、シ ソ ー ラ ス と し て の 精 度 よ り 多 数 の 概 念 を 包 括 す る こ と に 主 眼 を 置 い て い る 。 現 行 の 日 本 語 WordNet の 規 模 は 以 下 の と お り で あ る 。 ・ 57,238 概 念 ( Synset 数 ) ・ 93,834 語 ( 日 本 語 ) ・ 158,058 語 義 ( 単 語 -synset ペ ア 数 ) 図 1 日 本 語 WordNet の Synset-同 義 語 間 リ ン ク 例 日 本 語 と リ ン ク を 持 つ Synset は 日 本 語 の gloss を 持 っ て い る 。日 本 語 WordNet の カ バ ー 範 囲 の 拡 張 の た め に 、SUMO や Wikipedia、GoiTaikei[10]と い っ た 他 の リ ソ ー ス が 使 用 さ れ て い る 。
2.3. 他 言 語 の WordNet と WordNet の拡 張
Princeton WordNet を 基 に し た 、 様 々 な 言 語 の 言 語 デ ー タ ベ ー ス 作 成 プ ロ ジ ェ ク ト が 存 在 す る 。 一 部 の プ ロ ジ ェ ク ト で は WordNet、Wikipedia2、Wiktionary3及 び そ の 他 の 言 語 資 源 を 用 い て 、 多 言 語 の ご く デ ー タ ベ ー ス を 作 成 し よ う と 試 み て い る 。 既 存 の 言 語 資 源 と 新 し い デ ー タ ベ ー ス 間 の マ ッ ピ ン グ の 正 確 さ は 、 そ れ に よ っ て 出 力 さ れ る デ ー タ ベ ー ス の 整 合 性 の 正 し さ を 証 明 す る 指 標 に な る の で 非 常 に 重 要 で あ る 。新 し い 言 語 の WordNet を 作 成 す る こ と は 、 他 の 言 語 か ら な る 新 し い オ ン ト ロ ジ ー で 表 現 さ れ て い る 、 既 存 の オ ン ト ロ ジ ー か ら マ ッ ピ ン グ で 作 成 す る と み な す こ と が で き る 。 3 Wiktionary, http://ja.wiktionary.org3. 日 本 語 WordNet の 間 違 い
間 違 い の 訂 正 は 、 新 し く 作 成 し た オ ン ト ロ ジ ー や 、 オ ン ト ロ ジ ー 間 の マ ッ ピ ン グ の 整 合 性 の 確 認 に お い て 重 要 で あ る 。日 本 語 WordNet の 現 行 の バ ー ジ ョ ン で は 、 約 5%の 間 違 い が 含 ま れ て い る 。 ま た 、 Chinese Open WordNet も 、 そ れ に 匹 敵 す る エ ラ ー 率 で あ る 。 本 節 の 残 り で は 、 同 義 語 に お け る 間 違 い に お け る 、 エ ラ ー の 種 類 に 焦 点 を 当 て る 。3.1. 同 義 語 の間 違 い
WordNet の 構 造 に お い て 、「 同 義 語 の 間 違 い 」を 、語 wm is sが 属 し て い る synset( S と す る ) の Gloss と 合 致 し な い 語 で あ る と 定 義 す る 。 図 2 で は 、Synset 02651424-v に つ い て 図 示 し て い る 。 こ の Synset は「 泊 め る 」、「 収 容 」、「 宿 る 」、「 持 ち 込 む 」 と い う 4 つ の 同 義 語 を 持 っ て い る 。 図 2 同 義 語 の 間 違 い の 具 体 例 こ の う ち 、「 持 ち 込 む 」 と い う 単 語 は こ の Synset 02651424-v に お い て 同 義 語 の 間 違 い で あ る と い え る 。3.2. 予 備 実 験
我 々 は 日 本 語 WordNet 内 の 間 違 い を 手 動 で チ ェ ッ ク し た 。今 回 対 象 と し た の は 動 詞 で あ る 。理 由 と し て は 、 WordNet の 構 造 内 で の 間 違 い は 、 名 詞 よ り 動 詞 の ほ う が 多 く 報 告 さ れ て い た た め で あ る 。 以 下 は 、 今 回 の 実 験 で 間 違 い を 確 認 し た 際 の 手 順 で あ る 。1)
日 本 語 能 力 検 定(JLPT)に 登 場 す る 単 語 の う ち 、 WordNet に 登 録 さ れ て い る も の を 無 作 為 に 900 語 抽 出 す る 。2)
抽 出 し た 単 語 の 同 義 語 を 含 む Synset を 日 本 語 WordNet か ら 抽 出 す る 。3)
ス ク リ ー ニ ン グ 担 当 者 が す べ て のSynset と 動 詞 と ペ ア 関 係 を チ ェ ッ ク し た 。担 当 者 は そ の 後 、間 違 い の 確 認 用 の リ ス ト を 作 成 し た 。4)
ス ク リ ー ニ ン グ 担 当 と は 別 の チ ェ ッ ク 担 当 者 た ち が 独 立 し て 確 認 を 行 っ た 。 チ ェ ッ ク 担 当 者 全 員 が 間 違 い と 判 断 し たSynset と 単 語 の ペ ア を 最 終 的 な 間 違 い と し て マ ー ク し た 。3.3. 間 違 いの種 類
結 果 と し て 900 単 語 中 、81 語( 9%)が 間 違 い だ と 判 断 さ れ た 。 そ れ ら は 3 つ の エ ラ ー パ タ ー ン に 分 類 さ れ た 。 Synset S 内 の す べ て の 日 本 語 の 同 義 語 を Syn(S)と 表 現 す る 。 ま た 、 Synset S 内 の 間 違 い を mis(S)と 表 現 す る 。 ・ Syn(S)内 の 同 義 語 が 一 つ で な く 、 Syn(S)=mis(S)で あ る 場 合 、 S に は 全 部 型 の 間 違 い が 存 在 し て い る と 呼 称 し た 。・ Syn(S) / mis(S) ≠ φ か つ mis(S) ≠ φ で あ る と き 、 こ の Synset S は 一 部 型 の 間 違 い が 存 在 し て い る と 呼 称 し た 。 ・Syn(S)内 の 同 義 語 が 一 つ し か な く 、Syn(S)=mis(S) で あ る 場 合 、 S に は 単 独 型 の 間 違 い が 存 在 し て い る と 呼 称 し た 。 全 81 個 の 間 違 い の う ち 、 26 個 が 一 部 型 、 27 個 が 全 部 型 、28 個 が 単 独 型 の 間 違 い で あ っ た 。こ の 種 類 を 数 え る 際 、 我 々 は 81 個 の 単 語 と Synset の 間 の リ ン ク を 対 象 と し た 。
4. 間 違 い の 抽 出 方 法
我 々 は 日 本 語 WordNet 単 体 で 間 違 い を 抽 出 す る 方 法 を 試 し た 。 わ れ わ れ の 手 法 は 日 本 語 WordNet 以 外 の 、 限 定 的 な 情 報 し か 持 た な い WordNet 構 造 の デ ー タ ベ ー ス に も 使 用 す る こ と が で き る 。4.1. Synset-同 義 語 間 リンクによる抽 出
は じ め に 提 示 す る 抽 出 手 法 は 、 Synset と 同 義 語 の リ ン ク の み を 用 い た 手 法 で あ る 。 以 降 の 記 述 で は Synset が リ ン ク を 持 っ て い る 単 語 を w と 定 義 す る 。 単 語 w と Synset S に お い て の 、w の 重 複 Synset SC は 以 下 の 式 で 表 現 さ れ る 。 SC(w) = {Sk |w ∈ syn(Sk)} Synset 重 複 は 、 単 語 w と リ ン ク を 持 つ す べ て の Synset-ID に つ い て 定 義 さ れ る 。 図 3 に SC(売 る )を 例 と し て 図 示 す る 。 図 1 で の 単 語 で あ る 商 う , 売 り 買 い , 売 買 , 売 る は 同 じ Synset 002260362-v と 002244956-v の 2 つ に リ ン ク を 持 っ て い る 。 つ ま り 、 SC(商 う ), SC(売 り 買 い ),SC(売 買 ) ,SC(売 る ) は 2 個 あ る い は そ れ 以 上 の 要 素 を 持 っ て い る こ と に な る 。 図 3 SC(売 る )の 図
4.2. Gloss-同 義 語 リンクによる抽 出
二 つ 目 の 手 法 は gloss に 含 ま れ て い る 単 語 を 使 用 す る 。 Synset S に 含 ま れ て い る gloss と 文 例 に 存 在 す る す べ て の 日 本 語 の 単 語 を glossw(S)={w1,w2,…}.と す る 。 単 語 w に お け る gloss-coverage (GC) は 以 下 の 式 で 表 さ れ る 。 GC(w)= {uk| uk ∈ glossw(Sj), Sj ∈ SC(w)} SC(w1) と SC(w2)が 同 じ 要 素 を 持 つ と き 、 GC(w1) と GC(w2)も 同 様 に 同 じ 要 素 を 持 つ こ と は 自 明 で あ る 。 Gloss overlap は Synset overlap と 似 た よ う な 傾 向 を 持 つ 。4.3. 検 証 手 法
1)か ら 4)と い う 順 序 で 、 SC(w)を 用 い た 間 違 い の 抽 出 手 法 を 記 述 し て い く 。1)
抽 出 手 法 を 適 用 す る 対 象 の Synset を リ ス ト 化 す る 。 2) リ ス ト 上の Synset Si に つ い て 、各 ペ ア wk, wj ∈Syn(Si)の Synset Overlap 、 SOL(wj,wk)を 計 算 し て い く 。SOL(wj,wk)=#(SC(wj) ∩ SC(wk))/ #(SC(wj) ∪ SC(wk))
(#(S) は S の 基 数 を 示 す )
3) SOL(Si)の 最小 値 を と る 。
mSOL (Si) = min (SOL (wj,wk)) (for all wj,wk ∈ Si ) 4) mSOL(Si) < γ.で あ る 場 合 、 間 違 い の 可 能 性 が あ る と タ グ 付 け す る 。 γ は 閾 値 で あ る 。 (γ < 1 ) GC(w) を 用 い た 手 法 は 、 SC(w) を そ れ ぞ れ SC(w), SOL(wj,wk), and mSOL(Si) か ら GC(w), GOL(wj,wk) (Gloss Overlap)、 mGOL(Si) (Synset S の gloss overlap 最 小 値 ) に 置 き 換 え た も の と な る 。
4.4. 手 法 の適 用 性
4.3 の 手 法 を 適 用 す る に は 、Synset が 一 定 の 状 態 を 満 た し て い る 必 要 が あ る 。 状 態 4.3 ・ Synset 内 に は 2 つ 以 上 の 単 語 が 登 録 さ れ て い る 必 要 が あ る 。 ・ わ れ わ れ の 手 法 は 単 独 型 の 間 違 い 抽 出 に 使 用 す る こ と が で き な い 。 ・仮 説 が 絶 対 的 な も の で は な い 。た と え ば「 切 る 」と 「 混 ぜ る 」 は Synset 01418667-v (ラ ン ダ ム な 順 序 や 配 置 に な る よ う に 混 ぜ る )で 同 義 語 で あ る が 、他 の Synset で 同 時 に 出 現 す る こ と が 起 こ っ て い な い 。5. 日 本 語 WordNet 内 で の 一 部 型 の 間 違 い
に お け る 結 果
日 本 語 WordNet に は 動 詞 を 表 す Synset が 10,324 個 存 在 し て い る 。 そ の う ち 、 検 証 手 法 の 対 象 と な る の は 3,031 個 で あ っ た 。2 名 の 検 証 者 が そ れ ら の デ ー タ の 間 違 い を 手 動 で チ ェ ッ ク し て い き 、 一 部 型 で あ る か 全 部 型 で あ る か の 確 認 も 行 っ て い っ た 。結 果 と し て 、125 個 の 全 部 型 の 間 違 い と 121 個 の 部 分 型 の 間 違 い が 発 見 さ れ た 。 図 7 は 、一 部 型 の mGOL(S)の Precision、Recall、F 値 を 示 し て い る 。横 軸 は mGOL(S)の 大 き さ を 昇 順 に 並 べ た も の を と っ て い る 。 F 値 は γ =0.0455 の 時 に 最 大 と な っ て い る 。表 1 は 具 体 的 な 数 値 を 示 し て い る 。図 7 の 縦 線 は F 値 が 最 大 と な っ て い る と こ ろ を あ ら わ し て い る 。表 1 F 値 が 最 大 値 を と る と き の デ ー タ 図 7 mGOL(S)の 結 果
6. 詳 細 結 果
6.1. 全 部 型 の間 違 い
mGOL(S)値 の 数 値 が 高 く な れ ば 全 部 型 の 間 違 い は 少 な く な っ て い っ て い る よ う に 見 え る が 、 こ の 手 法 で は 全 部 型 の 抽 出 を う ま く で き て い な い 。 全 部 型 の 間 違 い の 原 因 に つ い て 、 我 々 は 2 種 類 の 分 類 を し て い る 。 1) 以 下 の 条 件 を 同 時 に 満 た す 場 合 ・英 語 の 同 義 語 が Synset 内 に 存 在 し て お り 、そ れ が 一 般 的 に よ く 使 わ れ る も の で あ る (get な ど )。 ・ Synset 内 に 存 在 し て い る 英 語 の 同 義 語 の 数 が 少 な い 。 ・ 英 語 の 同 義 語 の gloss が 一 般 的 に あ ま り 使 わ れ な い も の で あ る 。 ・ 日 本 語 の 同 義 語 が 英 語 か ら 取 ら れ て い る よ う に 推 測 さ れ る 。 2) 日 本 語 の gloss が 誤 訳 さ れ て い る た め 、 日 本 語 の 同 義 語 が マ ッ チ し な い 状 態 に な っ て い る 。 わ れ わ れ の 手 法 で は 2)の 間 違 い は 抽 出 す る こ と が で き な い 。 理 由 と し て は 日 本 語 gloss の み が 間 違 っ て い る た め 、 同 義 語 同 士 の 不 整 合 が 見 ら れ な い こ と が 多 い た め で あ る 。6.2. mSOL(mGOL) の 低 ス コ ア に 対 す る 誤 検 知 の
原 因 推 定
mSOL(S)や mGOL(S)の ス コ ア が 低 く と も 、間 違 い で な い 同 義 語 が 存 在 し て い る 。 最 小 値 が 500 位 以 内 の Synset の う ち 、 人 間 が 間 違 い と 判 断 し な か っ た も の が 392 個 あ る 。 一 定 の 条 件 を 満 た す と 、mGOL(S)や mSOL(S)が 低 く な る と い う 現 象 を 確 認 し て い る 。 説 明 の た め に 、 mSOL(S)の 例 を 挙 げ る 。 条 件 6.2 Synset 内 の 同 義 語 の 数 が 2 つ し か な く 、 同 義 語 が そ れ ぞ れ よ り 多 く の Synset と リ ン ク を 持 っ て い る 場 合 。 こ の 条 件 を 満 た し た 場 合 、mSOL(S)や mGOL(S)が 低 く な る 現 象 が 発 生 す る 。 mSOL(S)が 100 位 以 内 の Synset 中 に 、同 じ 同 義 語 が 繰 り 返 さ れ て い る も の が あ っ た 。 表 2 は 特 に 発 生 し て い た 4 単 語 を 抜 き 出 し た も の で あ る 。 表 2 頻 出 し た 単 語 の 出 現 傾 向 表 2 の 単 語 は 複 数 の 意 味 を 持 つ こ と は 自 明 で あ る 。 「 切 る 」と「 考 え る 」は 多 く の 低 mSOL(S)ス コ ア を 持 っ て お り 、 誤 検 知 を 引 き 起 こ し て い る 。6.3. 高 mSOL(mGOL)値 を持 つ間 違 い
mSOL(S)(mGOL(S)) 値 が 高 い 場 合 で も 間 違 い が 存 在 す る パ タ ー ン が 発 見 さ れ て い る 。mSOL > 0.1 を 満 た す 間 違 い は 29 個 発 見 さ れ て お り 、う ち 25 個 で は SC(w1) ∩ SC(w1) が ひ と つ し か 存 在 し て い な か っ た 。 こ れ は 6.3 と 逆 の 現 象 で あ り 、 Synset 内 に 含 ま れ て い る 同 義 語 の 数 が 少 な い こ と か ら 発 生 し た も の と 考 え ら れ る 。7. ベ ク ト ル を 用 い た 間 違 い 抽 出 法 の 検 証
word2vec[11]を 使 い 、コ ー パ ス 中 の 用 例 に つ い て 単 語 を ベ ク ト ル 化 す る こ と が で き る 。 我 々 は こ れ を 用 い て 日 本 語 WordNet の 間 違 い 抽 出 が 可 能 で は な い か と 考 え た 。青 空 文 庫4の 新 字 新 仮 名 作 品 に 対 し て 形 態 素 解 析 を 行 っ た コ ー パ ス5が 公 開 さ れ て お り 、こ れ を 用 い て 単 語 を ベ ク ト ル 化 し た 。 そ の 後 、動 詞 の Synset に 存 在 す る 単 語 の ペ ア に 対 し て 、生 成 し た ベ ク ト ル を 用 い て コ サ イ ン 類 似 度 を 求 め 、 そ の 数 値 を 先 述 し た mGOL の よ う に 指 標 と し て 用 い た 。 動 詞 に よ る 検 証 結 果 は ベ ー ス ラ イ ン と し た mGOL の 結 果 よ り も や や 低 い F 値 の 推 移 と な っ て い た 。 コ ー パ ス を 調 べ た と こ ろ 、 サ 行 変 格 活 用 で あ る 動 詞 が 名 詞 と 混 同 さ れ て い る こ と が 判 明 し た た め 、 再 度 名 詞 の み を 対 象 と し て 検 証 を 行 っ た 。 名 詞 に よ る 検 証 に 使 用 し た Synset 数 は 約 7000 個 で 、 そ の う ち 間 違 い を 含 ん で い る と 判 断 し た Synset は 161 個 だ っ た 。 結 果 と し て 、 F 値 は 一 部 を 除 い て 0.1 を 超 え る こ と は な く 、 こ の ま ま で は 間 違 い 抽 出 へ の 利 用 は 不 適 切 で あ る 。 な お 、名 詞 に お け る mGOL に お い て も F 値 は ベ ク ト ル を 用 い た 際 と 大 き な 差 は な か っ た 。
8. 課 題 と 今 後 の 展 望
本 論 文 で は 、 WordNet の 構 造 に 存 在 す る 「 同 義 語 の 間 違 い 」の 抽 出 を 目 標 と し て き た 。結 果 と し て 、mGOL は 、日 本 語 WordNet で「 一 部 型 」と 定 義 し た 種 類 の 動 詞 の 間 違 い の 抽 出 に 効 果 を 示 し た 。 最 小 Gloss Overlap を 使 用 す る こ と で 、 313 個 の Synset 中 に 50%の 一 部 型 の 間 違 い を 集 約 す る こ と を 可 能 に し て い る 。 ま た 、 特 別 に 新 し く 情 報 資 源 を 準 備 す る 必 要 が な く 、 日 本 語 WordNet そ れ 単 体 で 手 法 を 実 行 す る こ と が 可 能 で あ る 。 ベ ク ト ル を 用 い た 間 違 い 抽 出 に 関 し て は 、 コ サ イ ン 類 似 度 を 用 い て 類 似 性 を 判 断 し た 。 今 回 の 検 証 で は 間 違 い と そ う で な い も の の 区 別 が つ い て お ら ず 、 課 題 が 残 る 。 第 一 は コ サ イ ン 類 似 度 の 大 き さ が 類 義 語 の 正 し さ と 相 関 関 係 を 持 っ て い る の か を 正 し く 判 断 し な け れ ば な ら な い 。Word2vec で は 、コ サ イ ン 類 似 度 が 大 き け れ ば 語 は 似 た よ う な 意 味 を 持 つ [11]と あ る が 、 す べ て の 類 義 語 が ペ ア と な っ た 際 に コ サ イ ン 類 似 度 が 高 い と は 限 ら な い 。 類 似 性 の 判 定 に は 他 の 分 類 手 法 も 試 す べ き で あ る と 考 え る 。 第 二 に 、 語 の 多 義 性 の 問 題 が あ る 。 今 回 は 単 語 に 対 し て ベ ク ト ル を 抽 出 し た が 、 単 語 の 中 に は 複 数 の 意 味 を 持 つ も の が 存 在 し て お り 、 ベ ク ト ル が 意 味 関 係 の 方 4 青 空 文 庫 , http://www.aozora.gr.jp 向 性 を 含 ん で い る な ら ば 、 多 義 性 を 持 つ 単 語 で あ れ ば 多 義 性 を 持 つ ベ ク ト ル が 出 力 さ れ て い る 可 能 性 が あ る と 考 え る 。 ま た 、 今 回 使 用 し た コ ー パ ス で あ る 青 空 文 庫 は 著 作 権 切 れ の 古 い 作 品 が 多 く 、 Synset 内 の 単 語 が コ ー パ ス 内 に 存 在 し な い と い う 現 象 も 起 こ っ て い る 。 こ れ ら の こ と か ら 、 ベ ク ト ル を 用 い た 検 証 に 関 し て は 改 良 の 余 地 が 多 い と 考 え て い る 。文 献
[1] F. Bond, H. Isahara, S. Fujita, K. Uchimoto, T. Kuribayashi, Enhancing the Japanese WordNet, ALR7 Proc. the 7th Workshop on Asian Language Resources , pp. 1-8 ,Association for Computational Linguistics . pp. 1-8, 2009
[2] NICT Information Analysis Laboratory, National Institute of Information and Communications
Technology, Japanese WordNet,
http://nlpwww.nict.go.jp/wn -ja/index.en.html [3] Princeton University "About WordNet." WordNet.
Princeton University. 2010,
http://wordnet.princeton.edu
[4] K. Miyata, et al., Difficulty and Ambiguity of Verbs -Analysis based on Synsets in Japanese WordNet -, AIT2013, 2013
[5] S. Wang, F. Bond, Building the Chinese Open WordNet (COW): Starting from Core Synsets, Proc. International Joint Conference on Natural Language , pp. 10–18, 2013
[6] G. Melo, G. Weikum, Towards a Universal WordNet by Learning from Combined Evidence, CIKM '09 Proc. 18th ACM conference on Information and knowledge management, pp. 513-522, 2009
[7] R. Navigli, S.P. Ponzetto, BabelNet: Building a Very Large Multilingual Semantic Network, ACL 2010 - 48th Annual Meeting of the Association for Computational Linguistics Proc., pp. 216-225, 201 [8] F. Bond, R. Foster, Linking and Extending an Open
Multilingual WordNet, in Proc. 51st Annual Meeting of the Association for Computational Linguistics , pp. 1352-1362, 2013
[9] T. Hirao, T. Suzuki, K. Miyata, S. Hirokawa, Detection Methods for Misplacement of Synonyms in the Japanese WordNet, International Journal of Computer and Information Science, to appear [10] S. Ikehara, et al., “Nihongo GoiTaikei [Japanese
Lexicon]”, Iwanami Shoten, in Japanese , 1997 [11] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey
Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
5 青 空 文 庫 形 態 素 解 析 デ ー タ 集 , http://aozora-word.hahasoha.net