DEIM Forum 2016 A6-4
Twitter におけるスクリーンネーム変更要因の分析手法の提案
武田
悠佑
†山本
修平
††佐藤 哲司
†††
筑波大学 情報学群 知識情報・図書館学類
〒 305–8550 茨城県つくば市春日 1–2
††
筑波大学大学院 図書館情報メディア研究科
〒 305–8550 茨城県つくば市春日 1–2
E-mail:
†{
ytakeda,yamahei,satoh
}
@ce.slis.tsukuba.ac.jp
あらまし
Twitter ユーザは,自身の名前や趣味,属性に応じたキーワードを含んだスクリーンネームを登録し,様々
な投稿活動をしている.スクリーンネームを変更するユーザも少なからず存在し,このようなユーザの投稿活動はス
クリーンネーム変更前と後で差異があると考えられる.本論文では,スクリーンネームの変更要因を類型化すること
を目的に,スクリーンネームの変更時刻,変更前後でのスクリーンネームの距離,ユーザの時刻ごとの投稿活動を独
立した特徴として用いた分析手法を提案する.収集したツイートデータからスクリーンネームを変更したユーザを抽
出して分析した結果,特徴的なユーザの存在が明らかになったので報告する.
キーワード
Twitter, スクリーンネーム, 投稿活動, ユーザプロファイル
1.
は じ め に
2006年にサービスを開始したTwitter(注1)は,社会的にもそ の利用の定着が進んでいる.Twitterユーザは,自身の興味や 属性に基づいてツイートと呼ばれる140字以内の短い文章の投 稿や,リプライ,リツイートといった様々な投稿活動を行って いる. Twitterユーザは,まず「スクリーンネーム」と呼ばれるユー ザIDをTwitterに登録する.スクリーンネームとは,ユーザ が自身で考案する英数字とアンダーバーから構成される15文 字以下の文字列である.他のユーザの文字列とは異なるユニー ク性が保証されるスクリーンネームは,ユーザのプロフィール ページやリプライの宛先を指定する際など頻繁に用いられる. このため,スクリーンネームには,ユーザの名前や興味,属性, 投稿活動を反映した特徴的なキーワードが含まれていると考え られる.加地ら[1]は,Twitterのアカウント名の文字列と,感 情とパーソナリティというアカウント作成者の心理との関係を アンケート調査により分析し,アカウント作成時の気分によっ てアカウント名の文字列の長さが左右されること,勤勉性が高 い人ほどアカウント名に有意味語を用いないことを示唆してい る.また,これまで筆者らが行った研究[2]では,スクリーン ネームの部分文字列と投稿活動率には何らかの関連があること が示唆されている. ユーザがTwitterを利用する目的の一つには情報の獲得があ り,その達成手段としてユーザは自身の興味に関する情報を発 信する他のアカウントをフォローする.ユーザの持つ属性や興 味を推定し,そのユーザと類似した興味や属性を持つ新たな フォロー先ユーザを推薦することには有用性があると考えられ る.このため,ユーザの属性や興味を推定する研究は近年さか んに行われている. 一方で,ユーザの属性や興味は時間の経過に伴い変化すると (注1):https://twitter.com/ 考えられる.本研究では,スクリーンネームの変更を,ユーザ における属性や興味の変化を推定する際における特徴量として 着目する.Twitterではユーザに,登録後のスクリーンネーム の変更が認められており,スクリーンネームを変更するユーザ は多数存在する.スクリーンネームがユーザの属性や興味,投 稿活動を反映しているとすれば,スクリーンネームの変更は, ユーザにおける変化を反映すると考えられる. 本論文では,スクリーンネーム変更要因の類型化を目的とし た分析手法を提案する.スクリーンネーム変更要因が類型化さ れれば,ユーザの属性や興味の変化の推定において,スクリー ンネーム変更を有効な特徴量として用いることが可能になると 期待される. 本論文の構成を以下に示す.まず2章で本研究に関連する, Twitterを代表とするマイクロブログにおけるユーザプロファ イルに関する研究を紹介する.3章で,スクリーンネームの変 更要因の分析手法について詳述する.4章で,提案した分析手 法による分析の結果を示し,5章ではその考察を行う.6章で 今後の課題と展望を述べる.2.
関 連 研 究
フォロー先ユーザを推薦することを目的にユーザのプロファ イリングを行っている研究は数多く行われている.久米ら[3] は,投稿に含まれるキーワードの偏りをユーザの興味領域とし て用いたユーザ推薦手法を提案している.坪田ら[4]は,相互 フォローとなっているアカウントに対するコミュニケーション の偏りや相互フォローを増やす速度を用いてユーザを特徴付け, コミュニケーションの取りやすいフォロー先ユーザの推薦に用 いている.また,大村[5]は,ユーザのツイートから他の語との 共起関係を基にユーザの興味語を抽出する手法を提案し,それ をユーザ推薦手法において用いることの有効性を確認している. 一方で,フォロー先ユーザの推薦とは異なる目的でユーザの プロファイリングを行う研究もさかんである.土岐ら[6]らは, ツイートのタイムライン上における滞留時間を用いたユーザの興味プロファイルの構成手法を提案しており,ユーザが見落と してしまったコンテンツからユーザにとって興味のあるものを 発見する際に用いることが有効であることを報告している.田 中ら[7]は,ツイートの投稿時間の傾向や生活習慣を表す語の 出現傾向を特徴として用いたユーザの職業推定の手法を提案し ており,ユーザのライフスタイルを考慮することで,投稿内容 やプロフィールのようなマイクロブログ上の明示的な情報だけ ではユーザの職業の推定が困難であるという問題に対して,一 定の解決策を提示できたと述べている.山口ら[8]は,ソーシャ ルストリームから地理的に局所的なイベントを抽出した上で所 在地が未知であるユーザに対して位置の推定を行っており,精 度と効率性という2つの側面から提案手法が有効であることを 示している.西山ら[9]は,自己紹介欄にユーザの属性を表すよ うなキーワードが出現する確率をユーザの投稿を用いて推定す る手法を提案している.この研究では,ユーザの属性を表す著 者属性キーワードをタグ,ユーザの複数の投稿を一つの文書と 見立てた上で,文書に対するタグ推定向けのトピックモデルを 用いている.この手法により,特定の性質を持つキーワードに 対しては,従来より高い精度で推定できることを確認している. また,投稿活動の変化に着目したユーザプロファイリングを 行っている研究として,山口ら[10] [11]は,投稿活動の遷移に 着目したユーザのクラスタリングを行っている.これらの研究 の中で,ユーザの投稿活動は投稿数の多い状態と少ない状態の 2つに大きく分かれ,投稿数の多い状態からは投稿数の少ない 状態へは遷移しにくいこと,投稿数の少ない状態から他の状態 へは遷移しにくいことが明らかにされており,ツイートの投稿 数の遷移パターンとリプライやハッシュタグといったTwitter の機能の利用の割合との関連も示唆している. これらの研究に対して,本研究は,スクリーンネームを特徴 量としてユーザプロファイリングを行う点で異なり,スクリー ンネームの変更に着目し,ユーザの属性や投稿活動の変化につ いて分析を行う点が特徴的である.
3.
スクリーンネーム変更要因分析の手法
本章では,提案するスクリーンネーム変更要因分析の手法に ついて説明する.ユーザが行うスクリーンネームの変更には, 例えば季節の変わり目やクリスマスのような年中行事といった, 一年の特定の時期に起こるイベントをきっかけとするものが考 えられる.本研究ではこのようなきっかけを季節的要因と呼ぶ. また,他にもスクリーンネームの変更には,投稿活動の変化を 他のユーザに示す目的で行われるものもあると考えられる.本 研究ではこのようなきっかけを姿勢変化的要因と呼ぶ. 本論文ではこれらのスクリーンネーム変更要因が存在すると いう仮説を立て,スクリーンネーム変更についての分析を行う ことでその検証を行う. 3. 1節でユーザの投稿活動からスクリー ンネームの変更時刻を抽出する方法を説明した上で,3. 2節で は,ユーザがどのようなスクリーンネーム変更を行うかについ て明らかにすることを目的とする,変更前後のスクリーンネー ムの文字列についての分析手法について説明する.3. 3節では, 季節的要因の検証を目的とする,スクリーンネーム変更時刻に ついての分析手法について述べる.3. 4節では,姿勢変化的要 因の検証を目的とする,スクリーンネーム変更前後のユーザの 投稿活動の変化に関する分析手法を示す. 3. 1 スクリーンネーム変更時刻の抽出 スクリーンネーム変更時刻抽出の概要を図1に示す. Twitter においてユーザは任意の時点で自らのスクリーンネームを変更 することができるため,投稿履歴からユーザがスクリーンネー ムを変更した時点を正確に求めることは困難である.そこで本 研究では,ユーザがそれまで投稿活動に用いていたスクリーン ネームとは異なるスクリーンネームで最初に投稿活動を行った 時刻をスクリーンネームの変更時刻とする.実際には,新しい スクリーンネームで投稿する時点より前に,ユーザはスクリー ンネームを変更しているが,変更の結果が反映されるのは新し いスクリーンネームで投稿された時点である. また,ユーザがあるスクリーンネームを用いていた期間とは, 最初にそのスクリーンネームでの投稿活動が行われた時刻から, それとは異なるスクリーンネームでの投稿活動が最初に行われ た時刻までとする.ここで,データセット内に,新たに異なる スクリーンネームでの投稿活動が確認できなかったスクリーン ネームについては,データセットとなる投稿活動の収集終了時 刻をそのスクリーンネームの使用期間の終点とする. 3. 2 スクリーンネーム変更の傾向分析 スクリーンネーム変更前後それぞれのスクリーンネーム文字 列間の距離の算出と,それぞれのスクリーンネームを用いてい た期間と文字列間距離との関係のグラフ化を行う.これにより, ユーザがスクリーンネームを変更する際にはどの程度元のスク リーンネームと異なるスクリーンネームを考案するのかという ことについての傾向や,元のスクリーンネームを用いていた期 間が長いほど変更後のスクリーンネームは元のそれと類似する のか,といったスクリーンネームの使用期間と文字列間距離と の関係を明らかにする. 以下に具体的な手順を示す.まず,対象とするスクリーン ネーム変更の全てについて,変更前後それぞれのスクリーン ネーム間の編集距離を求める.編集距離とは,一方の文字列を 他方の文字列へと変形するために必要な手順の最低回数である. 例えば,“kitten”と“sitting”という二つの文字列の編集距離 は,以下に示すように3である. (0) kitten (初期状態) (1) sitten (”k”を”s”に置換)(2) sittin (”e”を”i”に置換)
(3) sitting (”g”を挿入して終了) ここで,編集距離はそのまま用いると,2つの文字列の長さの 差を直接的に反映してしまうため,2つの文字列の長い方の値 で編集距離を除すことで正規化を行い,その値を距離とする. 次に,ユーザがスクリーンネームを変更する前のスクリーン ネームを用いていた期間の長さを求め,その値が一定範囲であ るごとにスクリーンネーム変更の集合を作成し,各集合内で求 めておいたスクリーンネーム間の距離の平均値を算出する.こ こで,本論文では一定範囲を1週間ごとの期間とする.そして, 期間の範囲ごとに距離の平均値をプロットしグラフを作成する.
図 1 スクリーンネーム変更時刻抽出イメージ 最後に,スクリーンネーム変更後のスクリーンネームを用いて いた期間についても,同様の手順でグラフを作成する. 3. 3 スクリーンネーム変更の季節的要因分析 スクリーンネーム変更時刻についての分析として,本論文で は,スクリーンネーム変更頻度が特に大きかった期間を抽出す る.抽出された期間が季節的要因として想定されるようなもの であるかを判定することで,季節的要因が存在するかどうかを 検証する. 以下に具体的な手順を示す.まず,分析の対象として1年間 の期間を定め,等間隔に分割し,分割された各期間内に行われ た全ユーザのスクリーンネーム変更の頻度を集計する.集計し たスクリーンネームの変更頻度を時系列順に並べ,線形回帰を 行う.各期間ごとに,変更頻度の実測値から線形回帰による予 測値を引いた値を求め,さらに予測値により除すことで正規化 を行う.ここで求めた値を本論文ではギャップと呼ぶ.ギャップ の値によって,各期間を降順に並べ,上位10件をスクリーン ネーム変更頻度が特に大きかった期間として抽出する. これにより,増加し続けるユーザ数[12]による,スクリーン ネーム変更頻度の全体的な増加を考慮した上で,1年間におい てスクリーンネーム変更が特に多く行われやすいの期間を抽出 する. 3. 4 スクリーンネーム変更の姿勢変化的要因分析 スクリーンネーム変更前後におけるユーザの投稿活動の変化 パターンの傾向を抽出する.これにより,スクリーンネーム変 更にはどのような投稿活動の変化が伴うのかを明らかにし,姿 勢変化的要因の存在を検証する. 以下に具体的な手順を示す.まず,対象とする全てのスク リーンネーム変更について,ユーザが変更前後のスクリーン ネームを用いていた期間をそれぞれ抽出する.ここで,抽出し た期間のどちらかでもが1週間未満であったスクリーンネーム 変更は,変化が適切に検出できていないと考え対象から除外す る.次に,それぞれの期間内における全単位時間ごとにユーザ の投稿活動の特徴量を抽出する.本論文では,ここで抽出する 投稿活動の特徴量として,ツイート数,リプライ数,リツイー ト数,ならびにツイートに含まれるハッシュタグ数,URL数 の5つを用いる.抽出した5つの特徴量のそれぞれに対してス クリーンネーム変更前後で平均値を算出し,有意差検定を行う. 結果からそのスクリーンネーム変更においては5つの特徴量の 内でどれが変化し,変化しなかったかというパターンを求める. 本論文では,ここで,有意差検定としてウェルチのt検定を用 い,有意水準5%で両側検定を行う.このとき,ある特徴量に ついて,スクリーンネーム変更前における平均値,標準偏差, 集合のサイズをx1,s1,n1 変更後における平均値,標準偏差, 集合のサイズをx2,s2,n2とすると,検定統計量t,自由度ν はそれぞれ以下の式(1),(2)で求められる. t =
√
|x1− x2| s2 1 n1 + s2 2 n2 (1) ν ≈(
s21 n1 + s22 n2)
2 s4 1 n2 1·(n1−1) + s42 n2 2·(n2−1) (2) そして自由度νのt分布におけるtの上側のp値がp < 0.05/2 = 0.025を満たしていたとき,その特徴量はスクリーンネームの変 更前後で変化したとみなす.最後に,求めたパターンのそれぞ れに当てはまるスクリーンネーム変更の数を集計し,スクリー ンネーム変更前後における投稿活動の変化の傾向を抽出する.4.
実データを用いた実験
4. 1 データセット分析には,Twitter Search API(注2)を使用して収集した,
2012年5月1日から2013年4月30日までの1年間に日本語 で行われた投稿活動を用いる.ここで,投稿活動とは,ツイー ト,リプライ,リツイートの全てを指すものとする. データセットの概要として,データセット中における,3. 1 節で述べた方法を用いて抽出したスクリーンネーム変更の総頻 度,一度以上投稿活動を行ったユーザの総数,スクリーンネー ムの変更を行ったユーザの数を表1に示す. またスクリーンネームの変更頻度ごとのユーザ数を表2に示 す.スクリーンネームの変更を行うユーザは全体のおよそ7%で (注2):https://dev.twitter.com/docs/api/1/get/search
表 1 データセット概要 スクリーンネーム変更総頻度 2,766,634 総ユーザ数 28,938,906 スクリーンネーム変更ユーザ数 1,997,387 (6.9%) 表 2 スクリーンネーム変更頻度ごとのユーザ数 スクリーンネームの変更頻度 ユーザ数 1 1,536,839 2 304,319 3 89,554 4 33,786 5 14,619 6 7,336 7 4,027 8 2,314 9 1,357 10 902 11 以上 2,334 計 1,997,387 表 3 正規化距離分布の概要 平均値 0.700 標準偏差 0.257 あり,スクリーンネームの変更を行うユーザについても,1度 だけ行うユーザが半数以上であった. 4. 2 スクリーンネーム変更の傾向分析結果 本節では,スクリーンネーム変更の傾向分析の結果を示す. 変更前後のスクリーンネーム間の距離の概要を表3に,分布図 を図2に示す.図2において,縦軸は頻度の常用対数,横軸は 距離であり,距離0.01ごとにその範囲内であったスクリーン ネーム変更の頻度をプロットしている.最も多かったのは距離 が0.99以上1未満の範囲であり,その頻度は386,841であった. 次に,変更前後のスクリーンネーム間の距離と,変更前のス クリーンネームを用いていた期間の長さとの関係を図3に,変 更後のスクリーンネームを用いていた期間の長さとの関係を図 4に,それぞれ示す.図における横軸は,単位を週とする,そ れぞれのスクリーンネームを用いていた期間の長さ,縦軸は, それぞれのスクリーンネームの使用期間の長さがある範囲内で あったスクリーンネーム変更の集合における,変更前後それぞ れのスクリーンネーム文字列間のスクリーンネームの距離の平 均である.図3からは特徴らしい傾向を確認できないが,図4 からは変更後のスクリーンネームを用いる期間が長いほど,そ の文字列は以前のスクリーンネームの文字列と近い距離になる という大まかな傾向を見て取ることができる. 4. 3 スクリーンネーム変更の季節的要因分析の結果 本節では,スクリーンネーム変更の季節的要因分析の結果に ついて示す.対象とする期間はデータセットの収集期間と同じ く2012年5月1日から2013年4月30日までとした.まず, 期間中1日ごとのスクリーンネームの変更頻度と線形回帰の結 果を図5に示す.縦軸は頻度で,横軸は対象期間の始点から日 数となっており,横軸の左端が2012年5月1日,右端が2013 103 104 105 106 0 0.2 0.4 0.6 0.8 1 Frequency
Normalized levenshtein distance 図 2 スクリーンネームの正規化距離分布 0.6 0.65 0.7 0.75 0.8 0 10 20 30 40 50 AVG(Distance)
Number of weeks using former screen name
0.6 0.65 0.7 0.75 0.8 0 10 20 30 40 50 AVG(Distance)
Number of weeks using former screen name
Linear Regression 図 3 変更前のスクリーンネーム使用期間と距離の関係 0.6 0.65 0.7 0.75 0.8 0 10 20 30 40 50 AVG(Distance)
Number of weeks using latter screen name
0.6 0.65 0.7 0.75 0.8 0 10 20 30 40 50 AVG(Distance)
Number of weeks using latter screen name
Linear Regression 図 4 変更後のスクリーンネーム使用期間と距離の関係 年4月30日である.期間中,最もスクリーンネーム変更の頻度 が多かった日付は2013年4月1日であり,その頻度は13,669 であった. スクリーンネーム変更の頻度のギャップが上位10件だった 日付を表4に示す.最もギャップが大きかった日付は2012年6 月21日2013年4月1日は4番目にギャップが大きかった. 4. 4 スクリーンネーム変更の姿勢変化的要因分析結果 本節では,スクリーンネーム変更の姿勢変化的要因分析の結 果について示す.スクリーンネーム変更前後における投稿活動 の変化パターンを抽出した結果を表5に示す.表5において, 左列はパターンの番号を,右列は投稿活動の変化がそのパター ンであったスクリーンネーム変更の頻度を表しており,真ん中 の5列はそのパターンにおいて5つの特徴量のそれぞれについ て変化が認められたかどうかを,左から,ツイートの投稿数, リプライツイートの投稿数,リツイートの投稿数,ツイートに 含まれていたURL数,ツイートに含まれていたハッシュタグ
0 2000 4000 6000 8000 10000 12000 14000 0 50 100 150 200 250 300 350 Frequency Date 0 2000 4000 6000 8000 10000 12000 14000 0 50 100 150 200 250 300 350 Frequency Date Linear Regression 図 5 スクリーンネームの変更頻度の年間推移と回帰直線 表 4 スクリーンネーム変更頻度のギャップ上位 10 件の日付 日付 ギャップ 2012 年 6 月 21 日 0.8167 2012 年 6 月 17 日 0.6071 2013 年 2 月 24 日 0.4902 2013 年 4 月 1 日 0.4241 2013 年 3 月 25 日 0.4118 2013 年 3 月 26 日 0.3227 2013 年 4 月 8 日 0.2920 2012 年 7 月 22 日 0.2897 2013 年 3 月 23 日 0.2872 2012 年 5 月 27 日 0.2868 数という順で,変化していればo,変化していなければxで表 している.最も多くのスクリーンネーム変更が属する変化パ ターンは全ての特徴量において変化が認められないpattern1 であり,その頻度は1,036,690であった.また,最も少ないス クリーンネーム変更が属する変化パターンはリプライツイート の投稿数,ツイートに含まれていたURL数,ツイートに含ま れていたハッシュタグ数という3つの特徴量について変化が認 められたpattern25であり,その頻度は2,991であった. また,各特徴量ごとの変化の有無によってスクリーンネーム 変更を集計した結果を表6に示す.表6において,左列は変化 に着目する特徴量を,上から,ツイートの投稿数,リプライツ イートの投稿数,リツイートの投稿数,ツイートに含まれてい たURL数,ツイートに含まれていたハッシュタグ数という順 で,表しており,真ん中の列はその特徴量において変化が認め られたスクリーンネーム変更の頻度を,右列は,変化が認めら れなかったスクリーンネーム変更の頻度をそれぞれ表している.
5.
考
察
まず,4. 1節で示したように,90%以上というほとんどのユー ザがスクリーンネームの変更を行わず,スクリーンネームの変 更を行ったユーザの内でも75%以上という大部分のユーザが2 度以上のスクリーンネームの変更を行わないということが明ら かになった.このことより,スクリーンネームの変更は概して 頻繁には行われない傾向にあることが判明した. スクリーンネーム変更の傾向分析の結果からは,スクリーン ネームを変更する際は,その文字列を大きく変更するユーザが 多い一方で,僅かにではあるものの,変更後に長く用いられる 表 5 変更前後における投稿活動の変化パターン 変化パターン tw rp rt url tag 変更頻度 pattern 1 x x x x x 1,036,690 pattern 2 o x x x x 109,584 pattern 3 x o x x x 44,418 pattern 4 x x o x x 47,211 pattern 5 x x x o x 31,125 pattern 6 x x x x o 20,304 pattern 7 o o x x x 122,261 pattern 8 o x o x x 64,161 pattern 9 o x x o x 21,103 pattern 10 o x x x o 9,629 pattern 11 x o o x x 8,294 pattern 12 x o x o x 7,704 pattern 13 x o x x o 5,215 pattern 14 x x o o x 15,668 pattern 15 x x o x o 8,434 pattern 16 x x x o o 7,121 pattern 17 o o o x x 53,331 pattern 18 o o x o x 52,072 pattern 19 o o x x o 17,447 pattern 20 o x o o x 36,655 pattern 21 o x o x o 18,713 pattern 22 o x x o o 8,426 pattern 23 x o o o x 5,757 pattern 24 x o o x o 3,173 pattern 25 x o x o o 2,991 pattern 26 x x o o o 8,893 pattern 27 o o o o x 98,155 pattern 28 o o o x o 24,555 pattern 29 o o x o o 19,545 pattern 30 o x o o o 30,902 pattern 31 x o o o o 5,448 pattern 32 o o o o o 186,829 表 6 変更前後における特徴量ごとの変化 特徴量 変化あり 変化なし tw 873,368 1,258,446 rp 657,195 1,474,619 rt 616,179 1,515,635 url 538,394 1,593,420 tag 377,625 1,754,189 スクリーンネームほど変更前のスクリーンネームとの距離が短 くなる傾向があることが確認された.これは,長期間使用する ことを想定したスクリーンネームを考案する際に,ユーザは元 のスクリーンネームに強く引かれてしまうということを示唆し ているのではないかと考えられる. スクリーンネーム変更の季節的要因分析の結果からは,まず, 最もスクリーンネームの変更頻度が多かった日付は2013年4 月1日であることが判明した.これはエイプリルフールという 年中行事と強い関連があると考えられる.また,提案手法にお いて抽出された10件の日付については,年中行事などと結び つけることのできる日付は,ほとんどなかったものの,2013年0 5 10 15 20 25 Frequency Date Tweet Reply Retweet Url Tag 図 6 スクリーンネーム変更前後における投稿活動の変化例 4月1日を抽出することには成功しているほか,教育機関にお ける一般的な新年度の始業の日である2013年4月8日など年 度の変わり目である3月下旬から4月上旬にかけての日付を複 数抽出できていることから,スクリーンネーム変更に季節的要 因は存在し,提案手法によって,季節的要因となり得る特徴的 な時刻を抽出することは部分的にではあるが可能であると示唆 されたと考えられる. スクリーンネーム変更の姿勢変化的要因分析の結果からは, まず,半数近いスクリーンネーム変更において,その前後で ユーザの投稿活動が変化していなかったことが明らかになった. その一方で,何かしらの特徴量において変化が認められたパ ターンとしては,全ての特徴量で変化が認められたというパ ターンに最も多くのスクリーンネーム変更が属していたことも 確認できた.このことは,スクリーンネーム変更前後における 投稿活動は,変化するユーザと変化しないユーザとに比較的両 極端に分かれることを示唆していると考えられ,姿勢変化的要 因の存在も示唆されたと考える.図6にスクリーンネーム変更 前後で投稿活動が変化したユーザの一例を示す.中央付近に破 線で示されたスクリーンネーム変更の前後でユーザの投稿活動 の特徴量が大きく変化していることが確認でき,このユーザの スクリーンネーム変更には投稿活動に対する姿勢の変化が関係 していると考えられる.また表6より,どの特徴量においても, 変化が認められたスクリーンネーム変更よりも変化が認められ なかったスクリーンネーム変更のほうが多いことがわかる一方 で,特徴量ごとに偏りはあり,ツイートに含まれるハッシュタ グ数は比較的変化しづらく,ツイートの投稿数は比較的変化し やすいといった傾向を確認することはできた.
6.
お わ り に
本論文では,スクリーンネーム変更要因の類型化を目的とし て,スクリーンネーム変更について,季節的要因と姿勢変化的 要因の2つの要因を仮定し,スクリーンネーム変更の傾向分析, スクリーンネーム変更の季節的要因分析,スクリーンネーム変 更の姿勢変化的要因分析という3種類の分析について提案し, 実際に分析を行った.具体的には,まず,スクリーンネーム変 更の傾向分析として,変更前後それぞれのスクリーンネーム間 の距離を編集距離を用いて求め,それぞれのスクリーンネーム を用いていた期間との関係の可視化を行った.分析の結果,変 更後のスクリーンネームを用いる期間と変更前後それぞれのス クリーンネームの距離の間に大まかな傾向を確認することがで きた. スクリーンネーム変更の季節的要因分析としては,スクリー ンネーム変更が特に多く行われた時刻を,線形回帰による予測 値に対する実測値の乖離度合いを用いて抽出することを試み た.結果,季節的要因の存在と,提案手法による季節的要因と なり得る特徴的な時刻の抽出が部分的に可能であることが示唆 された. スクリーンネーム変更の姿勢変化的要因分析としては,スク リーンネーム変更の前後における投稿活動の変化を,ツイート の投稿数,リプライツイートの投稿数,リツイートの投稿数, ツイートに含まれていたURL数,ツイートに含まれていたハッ シュタグ数という5つの特徴量の変化でパターン化し,パター ンの傾向の抽出を行った.結果,半分近くのスクリーンネーム 変更についてはその前後における投稿活動の変化が全く認めら れない一方で,投稿活動の特徴量が何かしら変化するパターン としては,全ての特徴量で変化が認められたパターンに最も多 くのスクリーンネーム変更が属することが明らかとなり,姿勢 変化的要因の存在が示唆されたのではないかと考えられた. 今後の課題としては,提案した分析手法の妥当性や有効性の 定量的な評価が挙げられる.謝
辞
本研究は,JSPS科研費25280110の助成を受けたものです. ここに記して謝意を示します. 文 献 [1] 加地 雄一, 関谷 大輝, “メールと Twitter のアカウント作成にお ける個人差 : アカウント名に反映される心理”, 東京家政学院大 学紀要 = Journal of Tokyo Kasei Gakuin University, No.55, pp. 37–42, 2015.[2] 武田 悠佑, 山本 修平, 佐藤 哲司, “スクリーンネームを用いた
ユーザの投稿活動率の推定手法に関する一検討”, 第 7 回 Web イ ンテリジェンスとインタラクション研究会(ARG WI2 No.7), pp. 25–26, 2015. [3] 久米 雄介, 打矢 隆弘, 内匠 逸, “興味領域を考慮した Twitter ユーザ推薦手法の提案と評価”, 研究報告知能システム(ICS), 2015-ICS-179(1), pp. 1–8, 2015. [4] 坪田 啓司, 小林 亜樹, “Twitter にて会話しやすいユーザを推 薦する手法の評価”, 研究報告データベースシステム(DBS), 2013-DBS-158(15), pp. 1–8, 2013. [5] 大村 涼, “Twitter における語の吸引力を用いた興味抽出及び フォローユーザ推薦手法の提案”, 法政大学大学院紀要(情報科 学研究科編), Vol.8, pp. 129–134, 2013. [6] 土岐 真里奈, 牛尼 剛聡, “ソーシャルストリーム閲覧時の振舞い を利用したユーザプロファイル構成手法”, 情報処理学会論文誌 データベース(TOD), Vol.6, No.4, pp. 35–45, 2013. [7] 田中 成典, 中村 健二, 加藤 諒, 寺口 敏生, “マイクロブログの投
稿時間に着目したユーザの職業推定に関する研究”, 情報処理学 会論文誌データベース(TOD), Vol.6, No.5, pp. 71–84, 2013. [8] 山口 祐人, 伊川 洋平, 天笠 俊之, 北川 博之, “ソーシャルメディ アにおけるローカルイベントを用いたユーザ位置推定手法”, 情報 処理学会論文誌データベース(TOD), Vol.6, No.5, pp. 23–37, 2013.
[9] 西山 莉紗, 吉田 一星, 金山 博, “ソーシャルメディア上の発信内
(NL), 2014-NL-216(18), pp. 1–8, 2014.
[10] 山口 裕太郎, 山本 修平, 佐藤 哲司, “マイクロブログにおける投
稿活動遷移に着目したユーザのクラスタリング”, 第 3 回 Web イ ンテリジェンスとインタラクション研究会(ARG WI2 No.3), 2013.
[11] 山口 裕太郎, 山本 修平, 佐藤 哲司, “投稿活動の変化に着目した
マイクロブログユーザの可視化手法の提案”, マルチメディア、分 散協調とモバイルシンポジウム 2013 論文集, pp. 72–79, 2013. [12] 総務省, “平成 27 年版 情報通信白書”, 2015.