階層構造を持つ文書からのトピック抽出に関する研 究
著者 大村 政博
URL http://hdl.handle.net/10236/13665
2014年度 修士論文要旨
階層構造を持つ文書からのトピック抽出に関する研究
関西学院大学大学院理工学研究科
人間システム工学専攻 岡留研究室 大村政博
新聞などのような階層構造を持つ文書集合から,常識的なトピックを抽出す るモデルとして,LDAを階層的に拡張した Stacked LDAモデルを提案する.
LDAでは,文書は複数のトピックを含み,トピックは単語の多項分布により表 されるが,Stacked LDAでは,文書は複数のセクションを含み,セクションは トピックの多項分布により表され,トピックは単語の多項分布により表される と仮定する.
複数のセクションの新聞記事を一つの文書とした新聞コーパスを Stacked LDAにより分析する.なお,パラメータ推定は最尤推定により行ない,その計 算は変分ベイズ法で行なう.その結果,直感的な意味合いを持つトピックが抽 出される.この結果は,階層構造を持つ文書集合をStacked LDAにより分析す ると,直観に合うトピックが抽出されることを示唆している.
Stacked LDAの応用例としてtweets分析による社会的感情の分析を行なう.
感情表現に関係した形容詞を含むtweetsを時間単位で区切り,それを1つの文 書とみなしてtweets コーパスを作成する.それをStacked LDAにより分析す ると直観に合う感情を抽出できる.