• 検索結果がありません。

未登録語の配置先推定に適した方法について

ドキュメント内 JAIST Repository (ページ 43-46)

第 5 章 評価実験

5.2 結果および考察

5.2.3 未登録語の配置先推定に適した方法について

スパースネスと多義語の問題を含んだ場合の精度を表5.10しめす. 類似度の比較

235題において, 正解の順位が1位の欄で最も良かったのは, distance23:8%であ る. 次に, cosine18:3%である. 5位の欄で最も良かったのは, distance53:6%であり, 次に,cosine49:8%である. 10位の欄で最も良かったのは,range71:1%である. 次に 徳永とdistance63:0%である.

正解順位が1位の欄において, 最も未登録語に適した類似度は, distanceであると考え られる. スパースの問題と多義語の問題でも最も適した類似度である. しかしdistance, 従来の研究は使われていない.

正解順位が10位の欄において,最も適した類似度は,主成分分析とrangeの組み合わせ である. 従来の研究では, 未登録語の配置先を幾つか提示する方法をとる. 本研究もその 方法に従うならば,正解順位が5位の欄において,distanceを除けば,ほとんど同等な精度 であるが, 10位の欄では, 従来の精度より約10%程度の改善があるため, 最も適した類似 度と考えれる.

区間推定のモデルrange,単語集合が多いノードを未登録語の配置先とする傾向があ る. その傾向があるため, 正解順位の1位の精度があまりよくない. その傾向が生じる理 由は, 単語集合が多いノードほど, ノードの分布区間が広くなるためである. このような失 敗に対して, 各ノード の区間を一定にする対策が必要となる. 他の対策方法として, ノー ド の分布区間を計算する際, ノード は子孫の単語ではなく, ノード に直接属す単語だけを 利用する. このようにすると, 上位ノード の分布区間が広くならないと考えれるが, 2.3節 で述べたように, すべてのノードが未登録語の配置先の候補にならない可能性がある.

類似度の計算において, 浦本の研究のように, ノードは子孫の単語ではなく, ノードに直 接属す単語を利用して類似度の計算をした実験結果(5.11)がある. また, ノードに複数 の単語が属す場合は, 最近隣法を用いて類似度の計算を行なった. rangeの分布区間とTR の値は, 浦本の分類規準抽出のように, ノード の子孫の単語集合を利用して求めた. この 実験では, 未登録語の配置先の候補は全部で29個である. cosinerangeでは, 全体的に 精度が向上している. distanceにおいて精度が下がっている理由は, 最近隣法を用いたこ とで,同点の類似度が多く存在するためである.

正解の順位(最低 32)

類似度

1位 510

baseline 7/235 37/235 75/235

(3.0) (15.7) (31.9)

中山 40/235 112/235 143/235

(17.0) (47.7) (60.9)

徳永 33/235 115/235 148/235

(14.0) (48.9) (63.0)

cosine 43/235 117/235 145/235

(18.3) (49.8) (61.7)

distance 56/235 126/235 148/235

(23.8) (53.6) (63.0)

range 26/235 98/235 134/235

(11.1) (41.7) (57.0)

cosine 42/235 116/235 143/235

(17.9) (49.4) (60.9)

distance 56/235 127/235 148/235

(23.8) (54.0) (63.0)

range 29/235 113/235 167/235

(12.3) (48.1) (71.1)

5.10: 全問題(235)における登録精度 1

正解の順位(最低 29)

類似度

1位 510

cosine 71/235 144/235 156/235

(30.2) (61.3) (66.4)

distance 47/235 79/235 88/235

(20.0) (33.6) (37.4)

range 47/235 120/235 141/235

(20.0) (51.1) (60.0)

cosine 68/235 145/235 161/235

(28.9) (61.7) (68.5)

distance 41/235 71/235 94/235

(17.4) (30.2) (40.0)

range 65/235 153/235 185/235

(27.7) (65.1) (78.7)

5.11: 全問題(235)における登録精度 2

6

ドキュメント内 JAIST Repository (ページ 43-46)

関連したドキュメント