第 7 章 リンク解析 111
付録 9. A TSUBAKI API
11.4 評価情報の抽出
11.4 評価情報の抽出 177
178 第11章 評価情報分析
図11.3 評価情報抽出の流れ
象となる文は,トピック語を含んでおり,なおかつサブトピック語の少なくとも1つがその文か2つ前ま での文に含まれているような文である.以下の節では,各処理について説明する.
11.4.2 評価表現の抽出
評価表現の抽出手法としては,条件付き確率場(Conditional Random Field; CRF)により文中の各形 態素に評価表現の開始(B),中間(I),評価表現以外(O)を表すタグを付与する方法 [1]を用いた.これ は固有表現抽出等の情報抽出でよく用いられる方法であるが,ここで抽出対象としている評価表現は文中 の任意の箇所に出現する可能性があるため,このような手法を用いることにした.評価表現の抽出を行 う際に,評価を表すためによく使用される単語の情報は非常に有用であると考えられる.そこで,小林 ら[10]により作成された辞書と,東山ら[3]により作成された辞書を合わせて使用している.小林らの辞 書は「快適」等の,主観的な評価極性語とその極性(肯定,否定,中立)を収集した辞書であり,東山らの 辞書は「がん」や「健康」等の,客観的な記述に用いられるがそれ自身望ましいか,または望ましくない ような極性を有する名詞を収集した辞書である.辞書中に登録されている評価表現の数は合計で15,497 個である.CRFの素性としては,前後2つまでの形態素の出現形,原形,品詞大分類,品詞細分類,評 価極性語辞書中での極性,を使用した.
11.4.3 評価保持者の同定
評価保持者の同定は2つのステップにより行っている.はじめに,与えられた評価表現に対して,その 評価保持者がその著者と同一であるかどうかをSVMを用いて判定する.素性としては,評価表現に含ま れる形態素の出現形,原形,品詞大分類,品詞細分類のunigramやbigramを用いる.もし著者と同一で はないと判定された場合は,CRFを用いてその評価表現が含まれる文中から評価保持者を抽出する.そ の際の素性としては,各形態素の出現形,原形,品詞大分類,品詞細分類を用いる.
11.4 評価情報の抽出 179
11.4.4 評価タイプの分類
評価タイプの分類では,与えられた評価表現が11.2.2節の7種類の評価タイプのいずれであるかを,
pairwise法を用いて多値分類に拡張したSVMを用いて判定する.素性としては,評価表現に含まれる各
形態素の出現形,原形,品詞大分類,品詞細分類,感情極性とそれらの組み合わせを用いる.
11.4.5 評価極性の分類
評価極性の自動分類は,多量のテキスト情報を分析する上で有用な技術であり,これまでに様々な研 究が行われている[17, 12].評価極性分類の代表的なアプローチとして,文書分類で広く用いられている
Bag-of-Words素性を用いた教師あり機械学習を適用する方法がある[13].この方法は,評価表現をそこ
に含まれる単語の集合として表現し,その評価極性を分類する手法である.
しかしながら,評価極性の分類は文書分類とは異なる点がある.一般的に文書分類は単語を素性に使用 して線形分離可能な問題である([2]).例えば,特定の文書カテゴリでよく用いられる単語が多数含まれ ている文書は,そのカテゴリに属する可能性が高いと考えられる.しかし評価極性の分類では,評価極性 の反転がしばしば起こる.「ガン細胞を消滅させる」という評価表現の場合,「ガン細胞」自体は否定的な 意味を持つ単語であるが,「消滅」という単語によりその極性が反転し,全体としては肯定的な意味を持 つ.このように評価極性の分類では肯定的(または否定的)な単語が出現していても,それが評価表現全 体の極性と等しいとは限らないため,評価表現中の個々の単語を独立に扱うのではなく単語間の相互作用 を考慮する必要がある.そこで隠れ変数を持つ条件付き確率場を用いた評価極性分類手法を提案する.提 案手法では評価表現の依存構造木を考え,個々の部分依存構造木に対する評価極性を隠れ変数で表し,隠 れ変数間の相互作用を考慮して評価極性分類を行う.
ใॲཧֶձݚڀใࠂ
અ͕ʮݮΒ͢ʯͱ͍͏จઅʹΔ͜ͱͰධՁۃੑ͕స͠ɼʮෆ҆ετϨεΛݮΒ͢ʯͱ
͍͏෦ґଘߏߠఆͷۃੑΛ࣋ͭͱߟ͑Δ͜ͱ͕Ͱ͖Δɽ·ͨɼʮෆ҆ετϨεΛ ݮΒ͢ޮՌ͕ʯʮෆ҆ετϨεΛݮΒ͢ޮՌ͕͋Δʯͱ͍͏෦ґଘߏͷۃੑߠ ఆͰ͋Δͱߟ͑ΒΕΔɽ͜ͷΑ͏ʹɼධՁදݱͷґଘߏͷ֤෦ʹରͯ͠ධՁۃੑΛ ߟ͑Δ͜ͱ͕Ͱ͖ΔͱࢥΘΕΔɽͦ͜Ͱɼਤ ͷάϥϑͰࣔ͞ΕΔΑ͏ͳ֬ϞσϧΛߟ͑
Δ͜ͱʹ͢ΔɽධՁදݱͷ֤จઅ͕֬มΛ࣋ͭͱߟ͑ΔʢਤͰؙ͍ϊʔυͰද͞Εͯ
͍Δʣɽ͜ͷ֬มɼͦͷจઅΛϧʔτͱ͢Δ෦ґଘߏͷධՁۃੑΛද͢ͷͱ
͢Δɽ͜ͷ֬มɼͦͷจઅʹؚ·ΕΔ୯ޠͷӨڹΛड͚Δ͚ͩͰͳ͘ɼґଘؔʹ
͋Δจઅͷ֬มʹରͯ͠૬ޓʹӨڹΛड͚Δͷͱ͢ΔɽਤͷதͰʮ ʯͱه͞
ΕͨจઅจશମͷϧʔτΛද͢ԾతͳจઅͰ͋Δ͕ɼ͜ͷจઅͷ֬มͷ͕ධՁ දݱશମͷධՁۃੑͷͰ͋Δͱߟ͑Δ͜ͱʹ͢Δ ɽจͷධՁۃੑྨͷͨΊͷҰൠతͳ σʔλͰɼจશମͷධՁۃੑͷΈ͕༩͞Ε͓ͯΓɼจதͷݸʑͷ෦ґଘߏʹର͢
ΔධՁۃੑ༩͑ΒΕ͍ͯͳ͍ͨΊɼจશମͷϧʔτҎ֎ͷ֬ม࣮ࡍʹ؍ଌͰ͖ͳ
͍ӅΕมͱͳΔɽ
͜ͷΑ͏ͳϞσϧΛར༻͢Δ͜ͱʹΑΓɼߠఆతʢ·ͨ൱ఆతʣͳ୯ޠΛؚΉจઅߠ ఆʢ·ͨ൱ఆʣͷۃੑΛ͍࣋ͪ͢ͱ͍͏ใɼΓઌͷจઅʹۃੑΛసͤ͞Δ୯ޠ
ؚ͕·ΕΔ߹ΓݩͱΓઌͷจઅͷۃੑ͕ٯʹͳΓ͍͢ͱ͍ͬͨใΛදݱ͢Δ͜
ͱ͕Ͱ͖Δɽ
࣍ʹɼਤ ͷάϥϑͰද͞ΕΔΑ͏ͳ֬ϞσϧΛৄ͘͠ఆ͍ٛͯ͘͠ɽ ݸͷจઅ͔Β ͳΔධՁදݱΛߟ͑ɼ Λ ൪ͷจઅɼ Λ ൪ͷจઅͷΓઌͱ͢Δɽ·ͨɼ Λ ൪ͷจઅΛϧʔτͱ͢Δ෦ґଘߏͷධՁۃੑΛද֬͢มͱ͠ʢ ʣɼ
Λ͜ͷධՁදݱશମͷධՁۃੑͱ͢Δʢ ʣɽ·ͨ ൪ͷจઅɼจશମͷ ϧʔτΛද͢Ծతͳจઅͱ͢Δɽ ͦΕͧΕ ɼ ɼ ͷྻΛද͢ͷͱ͢Δɽ
ධՁදݱ ͱͦͷґଘߏ ͕༩͑ΒΕͨ߹ͷɼ෦ґଘߏͷධՁۃੑ ͷ֬
Λ࣍ͷΑ͏ʹରઢܗϞσϧͰϞσϧԽ͢Δ
ਤ ͷྫͰϧʔτʹΔจઅ ͔ͭ͠ͳ͍͕ɼධՁදݱʹฒྻߏؚ͕·ΕΔ߹ෳͷจઅ͕ϧʔτʹ
Δ߹͕͋Δɽ
୯ȯĖ ľōűľĤ ԗěë ˵Þ Ôĝ s1
− (root)
s2
−
s3 +
s4 +
s5 + s0
+
ਤ ෦ґଘߏͷධՁۃੑͷྫ
ਤ άϥϑ
͜͜Ͱɼ ϞσϧͷύϥϝʔλͰ͋Δɽ ൪ͷจઅʹ
ؔ͢ΔૉੑؔͰ͋ΓɼҎԼͷΑ͏ʹண͍ͯ͠ΔจઅͷใΛߟྀ͢Δϊʔυ୯Ґͷૉੑ
ͱɼண͍ͯ͠ΔจઅͱͦͷΓઌͷจઅؒͷؔΛߟྀ͢ΔΤοδ୯Ґͷૉੑʹ͚ΒΕ Δͷͱ͢Δ
͜͜Ͱɼ ͱ ͦΕͧΕϊʔυ୯ҐͷૉੑͱΤοδ୯Ґͷૉੑͷఴࣈͷू߹Λ ද͢ͷͱ͢Δɽ
ҎԼͷઅͰɼ͜ͷ֬ϞσϧΛ༻͍ͨධՁۃੑͷྨख๏ɼύϥϝʔλͷਪఆख๏ɼ͓
Αͼ༻ͨ͠ૉੑʹ͍ͭͯઆ໌͢Δɽ ධՁۃੑͷྨ
ධՁදݱ ͱͦͷґଘߏ ͕༩͑ΒΕͨ߹ʹɼධՁۃੑ ΛٻΊΔ͜
ͱΛߟ͑ΔɽຊϞσϧͰɼจશମͷϧʔτͷۃੑʢ ʣΛධՁදݱશମͷۃੑͱΈͳͨ͢
ΊɼԼهͷΑ͏ʹͯ͠ ΛٻΊΔ͜ͱ͕Ͱ͖Δ 図11.4 部分依存構造木の評価極性の例
例として「不安やストレスを減らす効果がある」という評価表現を考えることにする.この文では,「不 安や」や「ストレスを」という文節自体は否定の極性を持つが,それらの文節が「減らす」という文節に 係ることで評価極性が反転し,「不安やストレスを減らす」という部分依存構造木は肯定の極性を持つと 考えることができる.また,「不安やストレスを減らす効果が」や「不安やストレスを減らす効果がある」
という部分依存構造木の極性も肯定である.このように,評価表現の依存構造木の各部分木に対して評価 極性を考えることができる.そこで,図11.4のグラフで示されるような確率モデルを考えることにする.
この確率モデルでは,評価表現の各文節が確率変数を持つものとする(図では丸いノードで表されてい る).この確率変数は,その文節をルートとする部分依存構造木の評価極性を表す.この確率変数は,そ の文節に含まれる単語の影響を受けるだけではなく,依存関係にある文節の確率変数に対しても相互に影 響を受けるものとする.このようなモデルを利用することにより,肯定的(または否定的)な単語を含む
文節は肯定(または否定)の極性を持ちやすいという情報や,係り先の文節に極性を反転させる単語が含 まれる場合は係り元と係り先の文節の極性が逆になりやすいといった情報を表現することができる.
ただし,文の評価極性分類のための一般的なデータでは,文全体の評価極性のみが付与されており,文 中の個々の部分依存構造木に対する評価極性は与えられていないため,文全体のルート以外の確率変数は 実際には観測できない隠れ変数となる.この確率的モデルは隠れ変数を含んでいるが,変数間の依存関係 は木構造となっていてループを含んでいないため,確率伝搬法を用いて効率的に解を計算することができ る.手法の詳しい説明については文献 [8]を参照のこと.
11.4.6 関連度の計算
関連度の計算では,与えられた評価表現が,与えられたトピックにどれだけ関連するかを計算する.あ る評価表現に対して,その評価の対象が何であるかを同定することは重要ではあるが,十分な精度で頑健 にそのような処理を行うのは困難であるため,WISDOMにおける評価情報分析では評価表現のトピック に対する関連度を計算することで,与えられたトピックと関連が深い評価情報を提示するようなアプロー チをとっている.
手法としては,まずSVMを用いて与えられた評価表現がトピックに関連するかしないかを判定する2 値分類器を学習させる.関連度を計算する際には,与えられた評価表現の事例をその分類器で分類し,そ の際の分離平面からの距離を関連度として出力する.素性としては,文中で評価表現とトピック語がどの ような係り受け関係を持っているか,トピック語の含まれる文節の機能語,依存構造木中での評価表現と トピック語との距離等の情報を用いている.
11.4.7 評価表現のクラスタリング
あるトピックについてWeb上から抽出した評価情報はしばしば膨大な量になるため,何らかの方法で 類似した評価をまとめて整理することが望ましい.そこでクラスタリングを用いることにより,類似した 評価情報をまとめる.ここではクラスタリングのアルゴリズムとしては凝集型の階層型クラスタリング法 を使用し,群平均法によりクラス間の距離を測る.事例間の距離は,評価表現に含まれている内容語を用 いて特徴ベクトルを作り(長さは1に正規化する),内積により類似度を定義している.