い性能を示し,トピック「人口問題」では条件d(動詞のみを修飾語に利用する)ときで最も良い 精度を示したが,他のトピックでは提案手法で,つまり自立語すべてを修飾語に利用することで クラスタリング性能の向上につながったことが示された.
条件c(形容詞のみを修飾語に利用する)における性能は,提案手法に比べて全体的に低くなっ ていたが,これは,もとより意見中に出現する形容詞が少なかったためだと考えられる.また,条 件cにおけるF値を取ったときのパラメータβ*18の値は正解データの半分以上が0となっていた ことから,名詞・動詞ペアどうしの類似度計算において修飾語としての形容詞の情報はあまり影 響がないと推測される.
トピック「STAP細胞」においては,実際に抽出された名詞・動詞ペアを分析したところ,修 飾語となった名詞がその意見の観点を直接示しているということが他のトピックより多く見られ た.例えば,「組織体制」という観点が人手で付与された意見では,「組織」や「体制」といった名 詞の修飾語がそのまま含まれていた.また,「STAP細胞」では,条件dの動詞のみを修飾語に利 用する場合でも提案手法より(若干ではあるが)高い性能を示していた.
トピック「人口問題」では,条件dの動詞のみを修飾語に利用するときで最も良い精度を示し た.しかし,6.1.1節で述べたように,「人口問題」では非自立語扱いの動詞が多く抽出されてい たことを踏まえると,観点を特徴づける情報でもないような単語が修飾語になったとしても提案 手法より精度が高くなるとは考えにくい.そこで,「人口問題」において実際に抽出された名詞・
動詞ペアを分析したところ,修飾語には非自立語扱いの動詞はほとんど含まれていなかった.つ まり,「ある」や「なる」といった非自立語扱いの動詞は文末に出現することが多いために名詞を 修飾する(名詞を含む文節に係る)ことがほとんどなく,逆に観点の差異を反映するような動詞 だけが修飾語として抽出されたことが精度の向上に繋がったと考えられる.
先に述べたように,修飾語としての形容詞の情報は名詞・動詞ペア間の類似度計算にあまり影 響を与えないと考えると,トピック「STAP細胞」や「人口問題」では名詞・形容詞・動詞を修 飾語としている提案手法においても条件b,dと同等の性能が示されてもおかしくないはずである.
しかし,実際には条件b,dに比べて提案手法の方が性能が低くなっている.これは,複数の品詞 を修飾語に用いると,異なる品詞の修飾語どうしが干渉し合って意図しない修飾語どうしで不当 に類似度が高くなってしまったことが原因だと考えられる.提案手法では「消費」や「開発」と いったサ変可能名詞*19のような単語が文中でどの品詞で用いられているかを同定しているが,複
*18βの値が小さいほど修飾語の影響が小さくなる
*19名詞の直後に動詞の「する」が付くことで動詞化するもの
合が出てくる.例えば,2つの意見に「消費」という単語が出現したとき,片方の意見では名詞と して,他方の意見では動詞としての機能を担うものと同定されたとしても,名詞と動詞を修飾語 に用いると,同定された品詞に関わらず「消費」という単語どうしの類似度が計算されてしまう.
そのため,修飾語どうしの類似度計算において,修飾語の品詞を考慮するよう計算方法を考案す る必要がある.
一方,トピック「原発」においては,利用する修飾語の品詞による精度の変化が小さい結果と なった.また,このトピックでは,修飾語を利用しない場合(条件a)においても提案手法との精 度に差はあまり見られなかった.この要因としては,6.1.2節で述べたように,修飾語だけでなく 被修飾語(単一名詞を含む)にも観点を特徴づけるような語が含まれていたことが挙げられる.