評価実験 - 100,000 人レベルでの著者推定手法の提案

本稿では，第4章で提案した提案手法の評価，および提案手法を用いた 100,000人での著者推定実験を行う．5. 3 節で提案手法の評価についての予備実験を，5. 4 節で100,000 人での著者推定実験の評価を行う．

5. 1 データセット

奥谷ら[24]がTwitter⁴から収集したtweetをデータセットとして用いた．データセットの概要は以下の通りである．

 データ収集期間: 2013年1月～12月

 総収集tweet数: 7,955,714名×最大2,000件

 言語：日本語

本実験で使用するデータセットに含まれるすべてのメッセージには，そのメッセージを投稿したユーザに固有の情報である「ユーザ ID」が付随する．ここで，Twitter を代表とするマイクロブログにおいては，引用やアプリによる投稿など，アカウントを所持するユーザ以外によるメッセージの投稿が頻繁に行われる．我々の手法では，メッセージを記述した人物の文体を特徴量として用いるため，当該ユーザ以外によって投稿されたメッセージは全て除く必要がある．そのため，前処理としてデータセット内のメッセージに含まれるメンション（@username），ハッシュタグ(#hashtag)，他人の文章であるリツイート(RT) をデータセットから除去した．また，各メッセージについて，メッセージに付随するクライアントアプリについての情報から，botによる投稿など，ユーザ以外の文章であると判断したものについては除外を行った．

また，評価実験では形態素解析器として lucene-gosen⁵を利用する．辞書については，

IPAdic⁶のライセンス問題を解決したNAIST-Japanese Dictionary⁷を形態素解析に用いる基本の辞書とする． NAIST-Japanese DictionaryはIPA品詞体系に基づく辞書であるため，

本実験での品詞体系はIPA品詞体系に依存したものとなる．

4 Twitter, https://twitter.com/

5 Lucene-gosen, https://code.google.com/p/lucene-gosen/

6 IPADic legacy, http://sourceforge.jp/projects/ipadic/

7 NAIST-Japanese Dictionary, http://sourceforge.jp/projects/naist-jdic/

5. 2 評価方法

評価対象となる各著者推定手法それぞれについて，2. 2. 2項で説明したPBAの著者推定タスクの流れと同様に実験を行い，各手法で生成したランキングに基づき評価を行う．多くの著者推定手法の評価は，2. 2. 2項で述べた著者推定タスクの手順5において，テストデータ中の文章群の中で文体類似度順位が1 位となる文章の割合である，PRECISION@1 を指標として評価を行ってきた．これは，テストデータ中の各文章に対して著者推定を行うとき，著者推定タスクの手順4で並び替えられる候補者群において 1位となる候補者を推定対象文章の著者であると推定するためである．

井上ら[5]は大規模候補者群に対する著者推定手法評価方法として，文体類似度順位の累積相対度数分布を定量的に評価するMRR及び，正解が上位k件以内に入っていれば1と，

そうでなければ0としてその平均をとるmean top k recallを評価方法として用いた．具体的には，MRRについては式(6)によって算出される．ここで，Qはテストデータ中の文章の著者の集合，𝑁_𝑞は出力される候補者群順列中における候補者の順位である．

M𝑅𝑅 = 1

|𝑄|∑ 1 𝑁_𝑞

𝑞 ∈𝑄

(12)

井上らがMRR及びmean top k recallによる評価方法を用いたのは，著者推定タスクに

おける候補者群の並び替えにおいて，実際の著者が 1 位に順位付けされているかだけでなく，上位に順位付けされているかを評価するためである．これは，誤った推定をしない著者推定手法が存在しない以上，推定結果を実用するためには複数の候補から人手によって選択することが要求されるためである．特に，推定精度低下が顕著となる大規模候補者群に対する著者推定では，人手による確認が要求される．人手による推定を行う際は，複数の推定結果から著者を精査することで，正しい著者推定を行うことができる．しかし，そのためには 2 位以降の上位に正解が含まれていなければならない．よって，大規模候補者群に対する著者推定の評価には，MRRおよびmean top k recallによる評価方法が適しているといえる．そこで，本稿での評価実験ではMRRおよびmean top k recallによる評価を行うこととする．

5. 3 予備実験

本節では，本稿で提案した各提案手法の評価実験を行う．5. 3. 2 項では重み付け文字

n-gramを用いることで，推定精度に与える影響を評価する．さらに，5. 3. 3項では，複数

データセットを用いた文体類似度計算手法が推定精度に与える影響を評価する．また，5. 3.

4項では叫喚フレーズを正規化することで，推定精度に与える影響を評価する．5. 3. 5項で

はk-meansを用いた学習データセット選択手法を用いることで，推定精度に与える影響を

評価する．ここで，1つのデータセットに用いるメッセージ数kはk = 30とした．また，

実験に用いる候補者数は1,000ユーザとしている．

5. 3. 1 データセットを構成するメッセージ数の決定

提案手法において，学習データセットおよびテストデータセットを構成するメッセージ数kについては，k = 30としている．我々が実験に使用するデータセットに含まれるユー

ザ数の8,000,000ユーザのうち， 12.5%である1,000,000ユーザが1週間のうちに30件の

メッセージを投稿していることが表 5 に示されている．そこで，テストデータセットを構成するメッセージ数kをk = 30とすることで，日本語でTwitterを利用しているユーザのうち1割以上の推定が行えると判断したためである．

表 5 投稿されたメッセージ数とユーザ数

ユーザ数

投稿されたメッセージ数

10 30 40 70 80

メッセージを収集するまでにかかった日数

Day 1 766,315 290,595 219,072 107,670 90,510

Day 2 1,148,086 491,507 384,551 228,665 199,898

Day 3 1,433,082 655,587 521,589 324,871 286,507

Day 4 1,656,221 800,506 642,170 409,419 366,372

Day 5 1,835,360 926,463 748,619 483,856 433,938

Day 6 1,989,897 1,039,768 845,229 550,089 494,170

Day 7 2,118,758 1,143,495 936,655 612,526 551,904

5. 3. 2 文体定量化手法との評価

本項では，提案した文体定量化手法が著者推定精度に与える影響についての評価を行う．

ここでは，比較手法として井上ら[5]の品詞タグ・文字混合 n-gram 頻度分布による著者推定手法を用いる．ここで，n-gram頻度分布のnについては，井上らの手法で最良であった n=2 を用いることとする．これに対し，井上ら[5]の品詞タグ・文字混合 n-gram 頻度分布による文体定量化手法のもと，ピアソンの積率相関係数による文体相違度計算を用いた手法，提案手法である文字 {1,2,3}-gram頻度分布のみを用いた場合，および文字 {1,2,3}-gram 頻度分布に重み付けを行った場合のそれぞれの著者推定手法について，比較評価を行う．

MRRについての結果は表 6のようになった．

表 6 文体定量化手法についての評価実験結果（MRR）

手法名文体定量化手法文体相違度計算手法重み付け MRR

提案手法文字 {1,2,3}-gram コサイン類似度あり 0.796

比較手法① 文字 {1,2,3}-gram コサイン類似度なし 0.754

比較手法② 文字 {1,2,3}-gram

ピアソンの積率相関係数

あり 0.632

比較手法③ 文字 {1,2,3}-gram

ピアソンの積率相関係数

なし 0.720

比較手法④ 品詞タグ・文字混

合2-gram[5] コサイン類似度なし 0.616

井上らの手法 [5]

品詞タグ・文字混合2-gram[5]

ピアソンの積率相関係数

なし 0.539

表 6の結果から，推定提案手法である文字 {1,2,3}-gramに対して重み付けを行ったとき

のMRRは0.766と，既存手法である井上らの手法に対し推定精度が向上している．また，

提案手法であるnに比例する重み付け，および文字 {1,2,3}-gramの2つの手法について，

それぞれ精度向上ができていることがわかる．

ここで，比較手法②はピアソンの積率相関係数を用いて重み付け文字 {1,2,3}-gramで特徴量を取得したデータに対し相違度計算を行っているが，重み付けを行っていない比較手法③に比べMRRが低下していることがわかる．そのため，nに比例する重み付けを用いる

場合，ピアソンの積率相関係数は文体相違度計算に不向きであるといえる．理由として，

ピアソンの積率相関係数は文体相違度の計算を行う 2 つのデータセットのどちらかのみに含まれる特徴量についても考慮されている計算式であることが考えられる．ピアソンの積率相関係数においては，各特徴量とデータセット内に含まれるすべての特徴量の平均との差を用いて計算を行う．そのため，一方のデータセット内のみに含まれる特徴量について計算を行うとき，コサイン類似度であればその影響を無視できるが，ピアソンの積率相関係数を用いて計算を行う場合，何らかの相関を示してしまう．提案手法では文字

{1,2,3}-gram を用いて，井上らの手法[5]よりも多様な特徴量を取得しているため，必然的

に片方のデータセットのみに存在する特徴量が多くなっている．そのため，一方のデータセット内のみに含まれる特徴量による文体相違度計算への影響が大きくなったためである．

ここで，重み付き文字 {1,2,3}-gramの重みを各n-gramのn倍としているが，このn倍という重みが妥当であるかについての評価を行う．具体的には，各ユーザの持つ学習データすべてを1つの文書として扱った上で，各特徴量に対してidfによる重みをつけることとする．ここで，実験に用いる候補者数は100ユーザとしている．

表 7 重み付けパラメータについての周辺調査

手法名文体定量化手法文体相違度計算手法重み付け MRR

提案手法文字 {1,2,3}-gram コサイン類似度 n倍 0.906

比較手法① 文字 {1,2,3}-gram コサイン類似度 idf倍 0.839

比較手法② 文字 {1,2,3}-gram コサイン類似度なし 0.872

結果として，提案手法であるn倍の重み付けを行う文体定量化手法を用いるとき，MRR が最も高くなった．また，idf 倍による重み付けを行ったときについては，MRR が重み付けを行わないときより低くなった．これは，本手法では文字 {1,2,3}-gram を用いているため，未知語や造語などが多く特徴量として取得できる．しかし，そういった未知語や造語は時系列の変化，つまり投稿日時の変化に大きく左右される単語が多いため，同一の著者であっても同じ未知語や造語を使い続けることは少ない．そのため，それらの未知語や略語のidf値が大きくなり，推定精度を下げてしまったものと考えられる．

また，各n-gram に対する重みについて，n倍だけではなく，n倍から5n倍までの重み

付けについて比較を行う．ここで，実験に用いる候補者数は1,000ユーザとしている．

ドキュメント内 100,000 人レベルでの著者推定手法の提案 (ページ 31-44)