評価情報タグ付きコーパス

第 7 章リンク解析 111

付録 9. A TSUBAKI API

11.3 評価情報タグ付きコーパス

評価情報分析をWISDOMに実装するにあたり，まず評価情報タグ付きコーパスを作成した．このデータは，機械学習の訓練データとして使用したり，性能評価のためのテスト用データとして使用したりすることができる．100個のトピックを選んでコーパスを作成した．コーパスの作成は下記の手順により行った:

1. 既存の検索エンジンを使用してトピックに関するWebページを検索し，上位1,000件のページを収集する．

2. トピックを含んでいる文とその直後の文をタグ付け対象の候補文として列挙し，それらの候補文からランダムに1トピックあたり200文を選択する．

3. 作業者が，選択された各文に対して評価情報をタグ付けする．その際に，タグ付け対象文の前後2 文ずつも参照できるようにして作業を行う．

結果として，100個のトピックについてそれぞれ200文のタグ付けを行い，計20,000文のコーパスを構築した．トピックは「利用物」と「制度・行為」の他，「人・組織」に関わるものを選定した．11.2.1で述べた「出来事」に関するトピックは本タスクでは対象外とした．一覧を下に記す．

11.3 評価情報タグ付きコーパス 175

コーパスを作成した 100 _{個のトピック}

• ^利用物

– 農薬，オール電化，抗がん剤，赤ちゃんポスト，バイオエタノール，カテキン，クローン技術，

海洋深層水，ダイエット食品，食器洗い機，ディズニーランド，還元水，電子タバコ，電子マネー，ファストフード，床暖房，ジェネリック医薬品，ハイブリッド車，ＩＰ電話，ｉＰｏｄ，

イソフラボン，ＬＥＤ電球，レーシック手術，法科大学院，無洗米，原子力発電，ネットオークション，プラズマクラスター，セカンドライフ，ステロイド剤，合成洗剤，地上デジタル放送，Ｔｗｉｔｔｅｒ，ユニバーサル・スタジオ・ジャパン，浄水器，Ｖｉｓｔａ，キシリトール，記憶術，テフロン加工．

• ^{制度・行為}

– 成人年齢，首都機能移転，裁判員制度，消費税，クールビズ，著作権法，死刑制度，ドラフト制度，道路特定財源，緊急地震速報，電子政府，電子投票，高速道路無料化，ＩＯＣ，記者クラブ，終身雇用，介護保険制度，全国学力テスト，特許制度，年金制度，郵政民営化，ら抜き言葉，道州制，ゆとり教育，再販制度，住基ネット，夫婦別姓，日米同盟，国連，サマータイム制，ホワイトカラーエグゼンプション，ワークシェアリング．

• ^人・組織

– 朝日新聞，ビートたけし，村上春樹，イチロー，小沢一郎，ＪＡＳＲＡＣ，日本医師会，自衛隊，日本経団連，京都大学，自民党，ＮＨＫ，成田空港，夏目漱石，手塚治虫，理化学研究所，

坂本竜馬，シーシェパード，石原慎太郎，亀井静香，ソフトバンク，ソニー，スピルバーグ，

スティーブ・ジョブズ，宝塚歌劇団，岡田武史，橋下徹，都市再生機構，舛添要一．

11.3.1 コーパス仕様

評価情報タグ付きコーパスは与えられた文について，評価情報認定をし，評価情報であると認定された場合は，その記述評価を付与するものである．すなわち，「評価保持者」「評価表現」の他，11.2.2で紹介した評価の種類と極性が付与される．参考値として11.2.3で紹介した，評価対象とトピックの関連性についてもタグ付与が一部行われたが，この値は機械学習には利用されず，WISDOMでも表示されないため詳細は省略する．

1. _評価表現: 評価が表明されている文中の箇所．

2. _{評価保持者}: 評価を表明している個人や組織．

3. _{評価タイプ}: 評価の種類．

4. _評価極性: 評価の感情極性(＋か−のどちらか)．

5. _{トピックとの関連性}: 抽出した評価情報がトピックと関連しているかどうか(1か0のどちらか)． 6. _評価対象: 評価される対象．評価保持者によって評価されているモノや行為や性質など．

例えば，「公明党もバイオエタノールの普及を強力に推進している．」という文には，「バイオエタノール」

というトピック（評価対象）に対して次のような評価情報が含まれていると考えられる:

1. 評価表現: 強力に推進している 2. 評価保持者: 公明党

3. 評価タイプ: 採否 4. 極性: ＋

11.3.2 _{タグ付け時の注意事項}

11.3.3 _{コーパスの評価}

人手で構築されたコーパスは，評価情報の自動判定を行うための学習用データおよび，評価用データとして使用されるため，人手による判定が安定したデータである必要がある．一部のデータについて二名の作業者が同じデータについてタグ付けを行い，一致率を計算することで評価情報コーパスの評価を行った．一致率の計算に当たっては，一方の作業者を正解とみなし，もう一方の作業者をシステム側の出力とみなして行った．一致率には次の指標を用いた．

• 評価情報抽出: 被覆率正解に対するシステム側が正しく抽出した評価情報の数の割合

• 評価情報抽出: _精度システム側の出力における正しく抽出された数の割合

• 評価情報抽出: F_値評価情報抽出における被覆率と精度の調和平均

• 関連性: _精度システム側が正しくトピックとの関連性を同定した割合

• 評価保持者: 精度システム側が正しく評価保持者を同定した割合

• 評価極性: 精度システム側が正しく評価極性を同定した割合

• 評価タイプ: _精度システム側が正しく評価タイプを同定した割合

上の指標において，最後の四つの指標に関しては，システム側が正しく評価情報を抽出したものを対象に計算している．評価情報抽出の被覆率と精度は次の基準を用いた．

• 主辞の一致正解の評価表現の主辞と一致していれば，評価表現が正しく抽出されたとみなす．

• 完全一致正解の評価表現と完全に一致していれば，評価表現が正しく抽出されたとみなす．

「主辞の一致」を設けたのには二点理由がある．一つは評価表現の始まる位置は不明瞭な場合が多いからである．例えば修飾表現が連なる場合など，いくつかの指針や基準を設けても，判定に揺れが生じやすいという背景がある．それと関連してもう一つは，評価表現の意味的な中心部分は動詞や形容詞など文の主

辞 (head) になることが多いという点が挙げれられる．評価表現にとってもっとも重要な部分は主辞であ

ることを踏まえ，主辞による一致も評価項目として加えている．表 11.3に結果を示す．評価極性の一致率は高く，極性の判定は比較的容易なのに対し，評価情報の抽出は人間でも判断が揺れやすいことが示されている．

11.4 評価情報の抽出 177

ドキュメント内 WISDOM Web (ページ 187-190)

第 7 章 リンク解析 111