修 士 論 文 概 要 書 Summary of Master’s Thesis
2
0
0
全文
(2) 提案手法. 1000. 中島らの手法の改良手法. 3.1.. 本稿では中島らの手法[5][6]を改良した著者推定手法を提案する.具 体的には,中島らの手法で文章中における品詞 n-gram の頻度分布を用 いて文体定量化を行ったが,提案手法は文章中における品詞タグ・文字 混合 2-gram の頻度分布を用いて文体定量化を行う.品詞タグ・文字混 合 2-gram とは,文章を文字または品詞タグの羅列に変換した時に,当 該羅列中に存在する 2 個の連続した要素順列を指す.提案手法で行われ る文体相違度計算方法は,中島らの手法で用いられている方法を流用す る. 文章を文字または品詞タグの羅列に変換するために以下の手順をと る.まず,形態素解析器を用いて文章を形態素に分割する.なお,形態 素解析器は Sen[8]を用いている.次に, 「動詞」 「接続詞」 「記号」 「副詞」 「形容詞」「感動詞」の形態素については,文字列をそのまま採用し, これら 6 種類の品詞以外については,品詞タグを用いる.. 多手法併用手法. 3.2.. 当手法は,n 個の著者推定手法𝑚𝑖 (𝑖 = 1, . . , 𝑛)が算出する文体相違度 𝐷𝑖𝑠𝑠𝑖𝑚𝑚𝑖 を併用し,新たな文体相違度 MergeDissim を算出する.当該 文体相違度算出には,著者推定タスクにおける学習データを用いる.ま た,文体相違度計算の対象となる文章𝑝, 𝑞については,文章𝑝を推定対象 文章となるテストデータ中の文章とし,文章𝑞を𝑞 ∈ 𝐷が成り立つ学習デ ータ中の文章であるとする.以上を踏まえ,文章𝑝, 𝑞に対する文体相違 度 MergeDissim の算出は以下の式で行う. 𝑛. 𝑀𝑒𝑟𝑔𝑒𝐷𝑖𝑠𝑠𝑖𝑚(𝑝, 𝑞) = ∑ 𝑎𝑖 i=1. 𝑎𝑣𝑟𝑛 (𝑝, 𝐷) =. 𝐷𝑖𝑠𝑠𝑖𝑚𝑖 (𝑝, 𝑞) − 𝑎𝑣𝑟𝑖 (𝑝, 𝐷) 𝑣𝑟𝑝𝑖 (𝑝, 𝐷). 1 ∑ 𝐷𝑖𝑠𝑠𝑖𝑚𝑛 (𝑝, 𝑑) |𝐷|. (2) (3). 𝑑∈𝐷. 𝑣𝑟𝑝𝑛 (𝑝, 𝐷) = √ ∑(𝐷𝑖𝑠𝑠𝑖𝑚𝑛 (𝑝, 𝑘) − 𝑎𝑣𝑟𝑛 (𝑝, 𝐷)). 2. (4). 𝑑∈𝐷. 事前実験において,𝑚1 を安形らの手法[4],𝑚2 を 3.1 で述べた提案手 法,𝑚3 を松浦らの手法[3]とし,𝑎1 = 1.0, 𝑎2 = 2.0, 𝑎3 = 3.5としたときに, 最も良い著者推定手法となることがわかっている.. 評価実験. 4.. 第 2 節で行った著者推定タスクの評価結果を図 1 及び表 1 に示す. 当該タスクにおける N は 7,620 としている.図 2 は,N=10 から 10,000 までの幾つかを設定した著者推定タスクにおける著者推定処理時間を 示している.なお,これらの著者推定タスクは,提案手法との比較のた め,松浦らの手法,中島らの手法,安形らの手法による結果も取得して いる. 0.9. Mean Top-k Recall. 0.8 0.7 0.6 松浦らの手法 中島らの手法 安形らの手法 提案手法 多手法併用手法. 0.5 0.4 0.3 0. 10. 20. 30. 40. 50. 抽出される候補者数k 図 1 Mean Top-k Recall 評価結果 表 1. MMR PRECIS ON@1. MRR 及び PRECISON@1 の評価結果. 松浦らの 手法. 中島らの 手法. 安形らの 手法. 提案手法. 多手法併 用手法. 0.61. 0.42. 0.62. 0.64. 0.71. 0.57. 0.37. 0.57. 0.59. 0.67. 中島らの手法 松浦らの手法 安形らの手法 提案手法. 100. 著者推定時間(秒). 3.. 10 1 10. 20. 50. 100. 200. 500 1000 2000 5000 10000. 0.1 0.01. 著者候補者数N. 図 2 著者推定処理時間の結果 図 1,表 1 の結果より,提案手法及び多手法併用手法の著者推定精度 が既存の著者推定手法よりも良くなることがわかる.よって,著者推定 精度の低下が懸念される文体類似著者の高頻出の問題に,提案手法及び 多手法併用手法が影響しにくいことがわかる.また,この著者推定タス クは相違話題の文章を用いて行われているため,当該結果で著者推定精 度が高かった提案手法及び多手法併用手法は同一話題文章収集の問題 にも影響しにくいことがわかる.最後に図 2 の結果より,提案手法は既 存手法の中でも著者推定処理時間が短いことがわかる.よって,提案手 法は推定処理時の計算量増加に影響を受けにくいことがわかる.. 5.. まとめ. 本稿では,大規模候補者群に対する著者推定において問題となる「文 体類似著者の高頻出」 「同一話題文章収集困難化」 「推定処理時の計算量 増加」の 3 つに対応すべく,著者推定の評価方法,及び著者推定手法の 提案を行った.評価実験では,提案した著者推定の評価方法によって, 既存手法及び提案手法した 2 つの手法に対する評価を行った.当実験結 果より,提案手法は既存手法よりも高い著者推定精度,または,高速な 著者推定処理を実現できていることがわかった.この結果より,提案し た 2 つの著者推定手法を使い分けることで,大規模候補者群に対する著 者推定の問題に対応できることがわかった.この結果より,提案手法が 大規模候補者群に対する著者推定手法に最も適していることがわかる.. 参考文献 [1] 石川尚季, 西村涼, 渡辺靖彦, 村田真樹, 岡田至弘: “コミュニケー ションサイトに投稿されたメッセージに対する著者の推定”, 信学 技報(NLC) ,Vol.109, No.142, pp.79-84, 2009 [2] 佐藤進也, 原田昌紀, 風間一洋: “文字列出現頻度比較による情報源 間の類似性判定”, 情処研報(DD), Vol.2002, No.28, pp.119-126, 2002 [3] 松浦司, 金田康正: “近代日本文学者 8 人による文章における文字 n-gram の分布を利用した近代日本語文の著者推定”, 計量国語学, Vol.22, No.6, pp.1-9, 2000. [4] 安形輝 : “圧縮プログラムを応用した著者推定”, J. of Library and Information Science, 三田図書館・情報学会, No.54, pp.1-18, 2005. [5] 中島泰, 山名早人: “品詞と助詞の出現パターンを用いた類似著者 の推定とコミュニティ抽出”, DEIM2011, B6-5, 2011. [6] 井上雅翔, 山名早人: “品詞 n-gram を用いた著者推定手法 : 話題に 対する頑健性の評価”, 日本データベース学会論文誌, Vol.10, No.3, pp.7-12, 2012. [7] 田代光輝, 鈴木隆一, 松井くにお, 宇田周平, 折田明子, 三浦麻子, 森尾博昭: “NIFTY-Serve フォーラムの全データの整形”, 第 5 回知 識共有コミュニティワークショップ, 2012 [8] 形態素解析システム Sen, http://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnal yzer/Sen.html (accessed on 2013/01/06).
(3)
関連したドキュメント
17 participants for the former case and 16 participants as for the latter case have said that “I answered according to my actual opinion or situation no matter
これらの点に着目しながら HydLa
[r]
また実際に Slope thresh を 20 に設定し,CUBIC に親 和性を持つ改良型 TCP と CUBIC を競合させると,図 4.(右)のように CUBIC の
私は、 2011 年から 2013 年まで赴任した中国の中等職業学校、 Z
つの観点から考察した。 1 つ目は、ハルの参加における「学び」を単一の実践コミュニテ
論がされていたころには、一律に定められた学習項目を習得することが日本語学習だとい
全員に何らかの微触感が得られた.この事から,具体的 な触感印象を与え る仮想物体を用いるこ