• 検索結果がありません。

階層構造を持つ文書集合中からのトピック抽出に関 する研究

N/A
N/A
Protected

Academic year: 2022

シェア "階層構造を持つ文書集合中からのトピック抽出に関 する研究"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

階層構造を持つ文書集合中からのトピック抽出に関 する研究

著者 清水 琢也

URL http://hdl.handle.net/10236/00025318

(2)

2015年度 修士論文要旨

階層構造を持つ文書集合中からのトピック抽出に関する研究

関西学院大学大学院理工学研究科

人間システム工学専攻 岡留研究室 清水 琢也

新聞や科学雑誌などの文書は, 例えば, 新聞であれば, 1枚の文書内でスポーツ欄には野球の記事, 政治 欄には国防関連の記事, 文化欄には音楽コンサートの記事, といったように, 潜在的トピック(野球・国防・

音楽コンサート)の一階層上に潜在的セクション(野球・政治・文化)が複数個存在すると考えられる. すな わち, 通常のトピックモデル Latent Dirichlet Allocation (LDA) で考慮している複数個の潜在的トピック の混合だけでなく, 同時に, 複数個の潜在的セクションの混合も考慮する必要がある. また, それらに加え て, 新聞や科学雑誌などの文書は, 前の時刻の記事の内容が現時刻の記事の内容に影響を与えていると考え られるため, 文書の時間発展も考慮する必要がある. 本研究では, このような, 階層構造と時間発展の構造 を持つ文書の集合中からのトピックの抽出を目指す.

前述の目的を果たすために, 本研究では, トピックモデル Pachinko Allocation Model (PAM) および Multiscale Dynamic Topic Model (MDTM) をもとに構築したトピックモデル Dynamic Stacked Topic Model (DSTM) を提案する. ここで,一般的に, トピックモデルとは, 文書中に出現する単語の共起性を利用して, 全文書の単語集合から教師なし学習で単語の多項分布として表現されるトピックを推定するための枠組みで ある.トピックを単語の多項分布として表現するのと同様に, 提案モデルでは, セクションをトピックの多項 分布として表現する. なお, トピックモデルでは, 文書を単語の集合 (bag-of-words) として扱う.

実際に, 提案モデルを用いて 2014 年 1 月 1 日から 2014 年 6 月 30 日までの半年間の新聞記事データ からのトピック抽出を行なった.この実験より, 主に以下のような成果を得た.

l トピック数ごとのパープレキシティ値(言語モデルの評価指標)をその他のモデル (LDA, PAM, MDTM) と 比較すると, 提案モデル DSTM が 1% の有意水準で統計的に有意となる.

l トピックおよびセクションを同時に抽出できる.

l 抽出したトピックを追跡しトピック内の話題の変化を捉えられるだけでなく, 抽出したセクションを追 跡することで, 既存のモデルでは捉えられなかったセクション内の話題の変化も捉えられる.

キーワード

トピックモデル, LDA, PAM, MDTM, DSTM, セクション, 階層構造, 時間発展

参照

関連したドキュメント

  

and Yu, P.S.: An Effective Hash-Based Algorithm for Mining Association Rules, Proc.ACM SIGMOD Conference on Management of Data, pp.175–186 1995.. and Tsur, S.: Dynamic Itemset

elegans 神経細胞ネットワークのコミュ ニティ階層構造(図

The method utilizes Latent Dirichlet Allocation LDA, which is a probabilistic generative model of documents, for extracting latent topics, and introduce a time-filter

以上の手続きで得られた配置を基に階層構造の再構築を行う 本研究では つのブロッ クの統合と つのブロックの つのブロックへの分割を繰り返し適用することとした ブ

The method utilizes Latent Dirichlet Allocation LDA, which is a probabilistic generative model of documents, for extracting latent topics, and introduce a time-filter

問いに対する回答,回答を支持する意見,回答に反対する 意見である.図 1 は IBIS の各要素間の関係を示す.本稿 では IBIS の要素である

【今回の解明に貢献した技術】 マグネシウムの NMR