⽇本語Wikificationコーパス の構築に向けて
Davaajav Jargalsaikhan* 岡崎 直観†
松⽥ 耕史† 乾 健太郎†
東北⼤学⼯学部* 東北⼤学⼤学院情報科学研究科†
• Wikipediaを知識ベースとしたEntity Linking
• Entity Linkingとは与えられた⽂章中のメンションを認 識し、知識ベースエントリに対応付ける処理
• 質問応答、情報検索、知識ベース拡充、共参照解析 などに必須
サッカーのワールドカップ(W杯)へ調整を続ける⽇本代表は2⽇、
W杯会場となる神⼾市の神⼾ウイングスタジアムでホンジュラス とのキリン・カップ第2戦に臨む。
2002 FIFA ワールドカップ
2002 FIFAワールドカップは、
2002年5⽉31⽇から6⽉30⽇
にかけて、⽇本と韓国で開催 された第17回⽬で2000年代 最初のFIFAワールドカップ。
サッカーサッカーは、球形のボールを
⽤いて1チーム11⼈の2チーム 間で⾏われるスポーツ競技の ひとつである。
サッカー⽇本代表
サッカー⽇本代表は、公益財団 法⼈⽇本サッカー協会 (JFA) に よって編成される⽇本のサッ カー国家代表チーム
サッカーホン ジュラス代表
Wikificationとは?
⽇本語Wikificationの現状
• 英語版Wikipediaを対象とした研究 [古川ら 14, 中村 ら 15, 林ら 15]
• ⽇本の国⼟、経済、⽂化に関する多くのエンティティは英語 Wikipediaに収録されていない
• ⽇本語Wikipediaには約100万件の記事のうち、⽇本語から英 語への⾔語間リンクは56万しかない
• ⽇本語の固有表現抽出と関連づけたコーパスがない
• BCCWJの⼀部である拡張固有表現タグ付きコーパス [橋本ら 08]の新聞記事を⽤い、⽇本語版Wikipediaを 知識ベースとしたWikificationのデータセットを構築
• 340件の記事、約26,000メンション
<Company>⽇⽴</Company>の担当者は「イメージ を壊したくない」としており、⼯事前にも増して
<Domestic_Region>なにわ</Domestic_Region>の
<Time>夜</Time>で⽬⽴つ存在になりそうだ。
本研究の内容
Entity Linkingはタスク設定が難しい [Ling+ 15]
• 付与対象とする固有表現の意味クラス範囲
• ⼀般名詞を対象に含めるか?
• 全ての固有表現を対象とするか?
• ⼈名、地名、組織名だけで良いのか?
• 固有表現の境界
• 「神⼾ウイングスタジアウム」の神⼾をリンクすべきか?
• リンク可能なエンティティが複数ある場合
• エンティティの特定性
ワールドカップ: ワールドカップ? FIFAワールドカップ? 2002 FIFAワールドカップ?
• メトニミー
ホワイトハウスに
⾏った
ホワイトハウスが 発表した
• 拡張固有表現タグ付きコーパスをベースにすることで、
意味クラス範囲、固有表現の境界等問題を回避
• 最初の試みとして、できるだけ多くの意味クラスに付 与してみる(意味クラスの絞り込みを後回しにする)
• ただし、時間表現、数値表現、アドレス、称号名(さ ん、君)、施設部分名(2階、⻄⼝)に属する表現は 付与対象から外す
• リダイレクトページにはリンクせず、転送先のページ にリンクする
データセット設計⽅針
アメリカにリンクせず、
アメリカ合衆国にリンク
(Wikipedia)
データセット付与⼿順
• brat rapid annotation tool (brat)を使⽤
• ⽇本語Wikipediaのスナップショットから各記事のタイトル、
Wikipedia内部でのID、概要セクションのリード⽂を表⽰
• リンク可能な記事エントリが複数ある場合、特定性の
⾼いものを選ぶ
• Wikipedia記事中のセクションに対応付けたい場合、
そのセクションを含む記事とする
データセット付与⼿順
• 曖昧性回避ページ、カテゴリーページ、WikiMedia ページにはリンクしない。
• しかし、曖昧性回避ページにリンクするしかない場合もある。
例:ハンガリー出⾝の⼥優:地位職業名エヴァ・バルトーク…
(Wikipedia)
データセット付与結果
項⽬ 値
記事数 340
メンション数 25,675
リンク数 19,121
NIL数 6,554
メンションの種類数 7,118 エンティティの種類数 6,008
アノテータ・ペア ⼀致率 アノテータ1とアノテータ2 0.910 アノテータ2とアノテータ3 0.924
データセットの統計情報
アノテーションの一致率 (Cohen’s Kappa)
3⼈の⽇本⼈
⼤学⽣が担当
one-sense-per-discourse 仮定
• one-sense-per-discourse仮定: 322/340記事で成⽴
• 仮定が成⽴しない例:
• 「テキサス州知事時代にブッシュ⽒の厚い信頼を獲得」
⇨ George W. Bush (Wikipedia)
• 「⼀九七七年にブッシュ元⼤統領の選挙参謀」
⇨ George H.W.Bush (Wikipedia)
• 「Vゴールで市原を1-0で下した」
⇨ NIL
• 「市原(観衆=4,479⼈)」
⇨ 市原緑地運動公園臨海競技場 (Wikipedia)
エンティティが付与された割合
よく知られている エンティティは リンクされた割合 が⾼い
カテゴリー名 例 リンク率
プロ競技組織名 読売ジャイアンツ 0.984 都道府県州名 福岡県 0.979 国際組織名 NATO 0.881
……… ……… …
⼈名 鈴⽊宗男 0.592
法⼈名_その他 宇宙開発事業団 0.562 会議名 衆議院本会議 0.551 キャラクター名 ミッキーマウス 0.107
固有表現ネスト が多かったため、
リンクされた割 合が低い
個別的なエンティティのため、Wikipediaのページが存在する保証が
• 意味クラスの絞り込みを検討するため、リンクされやすい/され にくい意味クラスを調査
付与が難しい事例
• 固有表現のネスト
• 「昨年の噴⽕は 洞爺湖温泉街:地名_その他 の背後 に⽕⼝をつ くり、その前は⼭塊の形を変え、さら にその前は昭和新⼭を
⽣んだ。」
• これは洞爺湖温泉の⼀部である街を指しているので”洞爺湖温 泉”にリンクするのは不適切と判断しNIL
• 時間経過によるエンティティの変化
• 「伊藤代表はあいさつで、知事選:イベント名_その他 や札 幌市
⻑選について、「出⾺する候補の政策を検討 し、道⺠の意向 を反映できる候補にしたい」と述 べた。」
• この記事は北海道知事選について述べていて周辺⽂脈から 2003年の北海道知事選を推定できた
• ⼀般にこのようなメンションの特定は難しい
• 同様な問題が地位/職業(元⼤統領)、スポーツイベント NIL
2003年北海道 知事選挙
(Wikipedia)
メンション 𝑚 エンティティ𝑒 確率 𝑝 𝑒 𝑚
⽶
⽶ 0.6416
アメリカ合衆国 0.2444
⽶(映画) 0.0138
Wikification実験⽅法
𝑝 𝑒 𝑚 = 𝑚 が 𝑒 のアンカーとして出現する回数 𝑚 の総出現回数
なお、 の場合は、NILと判定
アメリカ合衆国 米
𝑝 𝑒 𝑚 が最⼤なも のをリンクするエン ティティとする
• [Spitkovskyら 12]の⼿法(CrossWikis)に基づき実験
• 周辺⽂脈を考慮しないものの、かなり強いbaseline⼿法 [Lingら 15]
(Wikipedia) (Wikipedia)
Wikification実験結果
• 正解率は77.28%(22,514件中17,398件正解)
• 失敗する主な原因は周辺の⽂脈を考慮していない事
• 「名古屋:市区町村名で開催の慈善芸能まつり」 ⇨ 正解:“名古屋市” 予測:“名古屋駅”
• 「野⼝は、教科書などを通じて国⺠になじみが深い⼈物だ」
⇨ 正解:“野⼝英世” 予測:“野⼝茂樹”(野球選⼿)
• 別名/リダイレクトの不⾜も失敗する原因
• 「ジャスラックの職員が店に説明にきた」⇨ 正解:“⽇本⾳楽 著作権協会” 予測:NIL
まとめ&今後の課題
• 拡張固有表現タグ付きコーパス [橋本ら 08] の新聞記 事に、⽇本語Wikipediaへのリンクを付与したコーパ スを構築した
• ⼀部の難しい例を除き、ELのアノテーションの⼀致率 は⾼い
• 付与対象の意味クラスを予め絞り込むのは難しい
• ⽂脈を考慮しないベースライン⼿法で8割近い正解率
• 構築したコーパスは、以下のURLで配布