第 7 章 リンク解析 111
付録 9. A TSUBAKI API
11.6 関連研究
表11.4 評価情報抽出の精度 評価表現抽出Recall 0.359 評価表現抽出Precision 0.633 評価表現抽出F-measure 0.458 評価保持者同定一致率 0.662 評価タイプ分類一致率 0.615 評価極性分類一致率 0.858
11.6 関連研究
これまでの評価情報タグ付きコーパスはWeb上の商品レビューやブログ,新聞記事を対象に評価の保 持者や,評価対象,および肯定/否定を表す評価表現といった,評価に関わる言語的な情報をテキスト中 から抽出して構築されている.例えば,レビュー記事やブログ記事から商品に関する評価情報をその構成 要素ごとに抽出するタスクとしては,小林ら [5]や,宮崎ら [7]などがある.新聞記事の中の意見情報に 対してタグ付けされたコーパスには,MPQAコーパス[16] やNTCIR-6 [18], NICIR-7 [14]における意 見コーパスなどが挙げれられる.その他に,意見情報からその情報のトピックを推定,抽出することを目 的としたStoyanovら[15]もある.
我々は「商品Xは購入後三日後に壊れた」のような客観的な記述に含意される評価情報の抽出も視野 に入れて,コーパスの構築,自動抽出を行ってきた.大塚ら[11]が指摘するように,この客観的な評価情 報の抽出も重要な課題になってきている.Nigamら [9]は“The screen is frickin’ broken again!”のよ うな,感情表現と客観的表現の混じった評価情報の自動抽出を行っている.NICIR-7 [14]でも客観的な 評価情報が扱われている.さらに,Inuiら[4]は客観的な評価情報の一つである経験が述べられた文の事 実性や極性判定などを行っている.
もう一点,これまでの研究に対する我々のタスクの特徴の一つとして,比較的広いドメインのトピック を対象にそれぞれのトピックと関連する評価情報を幅広く抽出し,そのトピックの評価につながる情報を 集約することが挙げられる.我々の課題設定に対する従来研究の課題は二点に分けられる.第一点目と して評価対象とトピックとの関係性のあり方に関する議論の必要性が挙げられる.従来研究 [5, 7]では,
「iPodの音質」のようなトピックの属性やトピックとの比較対象の抽出は考慮されている.一方で,前節
で挙げた (16b) のようにトピックが間接的に評価されている評価対象だけではなく,(16c) のようにト
ピックの評価には結びつかない評価対象もある.我々の構築したコーパスではどのような評価対象がト ピックの評価としてみなせるかという点も視野に入れている.もう一点目として多様なトピックを扱うた めに商品レビューや,新聞記事といった閉じられたドメインに限定せず,幅広いトピックを扱ったコーパ スである点も従来研究との違いとして挙げられる.
183
第 12 章
主要・対立・対比文分析
12.1 概要
WISDOMにおける情報内容の分析の一つとして,与えられたトピックに関する関連キーワードおよび
主要・対立・対比文を抽出し,提示するということを行う.関連キーワードおよび主要文とは,与えられ た課題に関するWebページ集合において高頻度に出現する言語表現のことであり,それぞれ名詞句と述 語項構造(文)を指す.対立文とは,主要文に対立,矛盾する文であり,対比文とは主要文に対して対比 されている文である.
たとえば,「合成洗剤」というトピックに対しては「石けん」「汚れ」「環境」などが関連キーワード,
「合成洗剤を使う」「合成洗剤で汚れが落ちる」などが主要文であり,「合成洗剤を使う」に対して「合成洗 剤を使わない」が対立文,「石鹸を使う」が対比文である.このような関連キーワードおよび主要・対立・
対比文の提示により,課題に関してどのような事実,論点があるかを鳥瞰図的に把握することができる.
WISDOMにおいて関連キーワードおよび主要・対立・対比文を表示したスクリーンショットを12.1
に示す.この図においては,左上部に主要・対立・対比文の一覧を表示し,左下部に関連キーワードを表 示している.このような関連キーワード,主要・対立・対比文の提示により,トピックに関してどのよう な事実や意見などがあるかを一覧として見ることができる.一覧には,主要な文だけではなく,それと対 立,対比する文が出現頻度が小さくても抽出される.このように,トピックに強く関連する文をマイナー なものも含めて提示することができるので,トピックの全体的な把握を行いやすいという特徴がある.
関連キーワードの単位は名詞句であるが,以下ではキーワードと呼ぶ.主要・対立・対比文の単位とし ては述語項構造を用いる.述語項構造とはテキスト文書中の「誰が何をどうした」といった文中の単語間 の意味的関係であり,これを単位とした分類,要約,意味解析や,既存知識との比較,整合性検証といっ た論理的分析を行うことで,信頼できる情報を的確に利用者に提示することができるようになると考えて いる.
関連キーワード,主要・対立・対比文の抽出は,入力されたトピックに対して検索エンジンTSUBAKI を用いて得られる1000件のWebページを対象として次のようにして行う.
1. 各ページからキーワード・述語項構造を抽出する
2. キーワードと述語項構造をそれぞれ集約することにより,関連キーワードおよび主要文を得る 3. 主要文に対して,対立・対比文を抽出する
以下の節では,関連キーワード,主要・対立・対比文の抽出についてそれぞれ述べる.
図12.1 WISDOMにおける関連キーワード,主要・対立・対比文表示