• 検索結果がありません。

B4福島達也卒業論文 Fukushima toyolab

N/A
N/A
Protected

Academic year: 2018

シェア "B4福島達也卒業論文 Fukushima toyolab"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

卒業論文

SNS

上での情報拡散の実証

応用数理学科

1W120466-7

(2)

目次

第1章 はじめに 3

1.1 本論文の主旨 . . . 3

1.2 ツイート形態とリツイートの関係性 . . . 3

第2章 データ収集と解析 4 2.1 データ収集と単純解析 . . . 4

2.2 各要素の有無によるリツイート数の違い. . . 8

2.3 ツイート全体に対し各ツイート要素を含むツイートの割合 . . . 11

2.4 各要素の有無でのリツイート数変化の係数算出 . . . 12

2.5 シミュレーション . . . 12

第3章 今後の課題 17

(3)

1

はじめに

1.1

本論文の主旨

近年、人々の生活に深く結びついているTwitterやFacebook等が代表例として挙げられるソーシャル

ネットワークサービス(以下SNS)だが、その大きな特徴としてテレビやニュース等に比べ情報が爆発的

に拡散しやすいという性質を持っている。企業や芸能人は各SNSに置いて、アカウントを開設し広告活

動を行っている。本論文では数あるSNSの中でもTwitterに注目し、より効率的に広告活動を行うため

の指標を作るのが目的である。具体的にはTwitterで発信するツイートの形態が複数ある中でどの形態

が最も情報拡散力が優れているのかを分析した。その結果、画像を含んだツイートが最も情報拡散力が優 れていることが分かった。またこの結果を用いてシミュレーションを行い各要素の情報拡散力の違いを確 認した。

1.2

ツイート形態とリツイートの関係性

ツイートには文字だけではなくハッシュタグ、画像、URLの添付が可能となっている。これらを添付

することで情報拡散力が変化する。一例として、ハッシュタグとURLが添付しているツイートは通常の

ツイートより情報拡散力が優れていることが分かっている[1]。140文字という文字制限があるツイート

でより多くの情報を得るために添付されているURLに人々はアクセスし、そしてそこで得た情報を他人

に共有するためにリツイートするといったプロセスである。しかしこれはアメリカ国内のみのツイート解 析の結果であり日本国内のデータではない。アメリカのツイートの解析では全てCaps lockでツイートす

ると拡散力があがる[1]というデータもあるがこれは日本国内では通用しない。このように国によってツ

(4)

データ収集と解析

2.1

データ収集と単純解析

ツイート形態とリツイート数の関係性を調べるために2016年1月1日から2016年1月15日以内に

日本語のみを使用し100リツイート以上されたツイートをランダムに113個抽出し,どのツイートがハッ

シュタグ、画像、URLが含まれているかを調べた。

表2.1 各要素を含むツイート別のリツイート数のサンプル数、最小値、平均、最大値

全てのツイート ハッシュタグあり 画像あり URLあり

ツイートのサンプル数 113 33 63 43

リツイート数の最小値 111 111 114 111

リツイート数の平均値 453.3 457.4 448.2 392.7

リツイート数の最大値 3572 2264 2264 2264

表2.1を参照すると各形態の最大値が全て2264になっている。それぞれの最大値を計測したツイート

データを抽出したところ同一ツイートであることが判明した。ツイート形態はそれぞれ単独だけではなく 組み合わせてツイートすることが可能なのでツイート形態は3種類ではなく8種類存在する。この8種類

の最小値、平均値、最大値をそれぞれグラフでまとめたものが以下の図2.1、図2.2、図2.3である。(ハッ

(5)

図2.1 各ツイート形態のリツイート数の最小値の変化

(6)
(7)

まずURLの有無を比較する(h0とh1を比較する)と全ての要素を含んでいるツイートを除き、URL

が添付されていると多くリツイート数が減少していることが分かった。これは日本国内でワンクリック詐 欺等が流行しユーザーがこれを警戒して他のユーザーにも拡散しないようにする考えが働いているからだ と考えられる。また、URLのサイトにアクセスしなければ得られない情報はTwitterで140文字以内で

得らる簡潔な情報に比べ、価値が低いと日本人は考えているのではないかとも推測できる。またハッシュ タグに関しても全ての要素を含んでいるツイートを除きリツイート数が減少している。図2.3の各ツイー

ト¥形態のリツイート数の最大値の変化に注目してみるとURLが含んでいるツイートと含んでないツ

イートではリツイート数に大きな差が出ていることがわかる。またどの要素も含まないツイート(すなわ ちh0p0u0のツイート)が最大値の中でも最も大きい3572リツイートを記録しているが、全てのこの形

態のリツイートデータを参照すると、他には2302、1257リツイートも記録しているが他の形態のツイー

(8)

要素が含まれているツイートを抽出しリツイート回数を100ずつに分け、100リツイート毎のツイート数

をまとめた。

図2.4 ハッシュタグ有無でのリツイート数変化

ハッシュタグの有無によるツイート数の変化が顕著に表れているのがわかる。どのリツイート数を比 較してもハッシュタグがある方がツイート数は少ない。一例として100-200リツイートされているにツ

イート数に注目してみると、ハッシュタグがないツイートは33とハッシュタグがあるツイートは16と

およそ2倍の差があるのが図2.4から分かる。また、今回抽出したツイートデータの中でハッシュタグが

含まれているツイートは113ツイート中33ツイートのみであり絶対数が少ないことも判明した。このこ

(9)

図2.5 URL添付有無でのリツイート数変化

次にURLの有無によるツイート数の変化である。100∼200リツイートの間はそれほどの変化はな

いが、それ以外はURLがない方がリツイートされているツイート数は多い。URLはTwitter上では

ニュースを伝えるツイートに多く含まれており今回収集したツイートでもURLが含まれるツイート43

ツイート中23ツイート、つまり53パーセントがニュースに関するツイートだった。ユーザーはニュー

スをTwitterではなく各々のスマートフォンにインストールしてあるニュースアプリなどで確認する為 Twitter上で得たニュースはすでに真新しさがなく拡散意欲が出ないのではないため少ないのではないか

(10)

図2.6 画像添付有無でのリツイート数変化

最後に画像の有無によるツイート数の変化であるが、ハッシュタッグとURLと違い画像の添付がある

方がリツイートされているツイートは多い。画像はワンクリック詐欺などのサイトにアクセスする心配も なく文字以外でも情報が得られるので人々が好んでリツイートするのではないかと推測できる。これらの 解析から、日本国内における100リツイート以上されるツイートの各要素が含まれているツイートとそう

ではないツイートの割合が分かった。実際に海外で行われた調査では画像が添付してあるツイートは添付 していないツイートに比べ2倍リツイートされる可能性が高いという結果が出ており[3]今回の日本のツ

イートの場合は1.5倍程であるので、画像の添付しているツイートのリツイートされやすさにおいては世

(11)

2.3

ツイート全体に対し各ツイート要素を含むツイートの割合

次に100リツイート以上されたツイート全体に対して各要素を含むツイートの割合を算出する。

図2.7 全体のツイートにおける各要素を含んだツイートの割合

図2.7にはぞれぞれの要素を含むツイートの全体のツイートに対しての割合を先程と同様に、100リツ

イートずつに分けてプロットしたものである。例えば100-200リツイートに注目してみると、100-200リ

ツートされたツイートのうち、6割が画像を、5割がハッシュタグを、そして3割がURLを含んでいるツ

イートであった。各プロットから算出した近似二次曲線が描かれているが、この近似二次曲線が全ての要 素において下に凸となっている。これはつまり、今回集めたサンプルが100から200リツイートされるか 900リツイート以上されるかの2極端になっていることが分かった。次に各要素を比較すると前までの解

析結果と同様に、写真が添付されているツイートの割合も他と多いことが分かった。また700以上リツ

イートされているツイートの割合を見てみると、ハッシュタグとURLの割合が一致している。これは2

つのユーザーの使用傾向が似ているもしくは、700以上リツイートされているツイートにおいてハッシュ

タグとURLはセットで使われていることが非常に多いと考えられる。実際に今回収集した700リツイー

ト以上されたツイートでハッシュタグを含んでいたツイート7ツイート中、URLも含んでいたツイート

は4ツイートで57.14パーセント、またハッシュタグのみ含んでいたツイートは1ツイートで14.28パー

(12)

ト数変化の係数を情報拡散係数と定義し、各要素の情報拡散係数を算出する。各要素がないツイート数を 従属変数X,各要素があるツイート数を独立変数Yとおき回帰分析を行う。回帰分析は最小二乗法を用い

ることによって得られる直線の傾きが各要素の情報拡散係数となる。情報拡散係数をαとすると算出す

る式はnをツイートデータの個数、(xi,yi)をi番目のデータ(例えば100-200リツイートされた画像を含 んでいないツイートの総数が25,100-200リツイートされた画像を含んだツイートが46の場合(25,46))

とすれば、

α=

n

n

i=1

xiyi n ∑ i=1 xi n ∑ i=1 yi n n ∑ i=1

x2i −(

n

i=1

xi)2

(2.1)

で求めることができる。そして(2.1)式を用いて各要素の情報拡散係数を求めてまとめたものが以下の表 2.2である。

表2.2 算出した情報拡散係数

ハッシュタグ 画像 URL

係数 0.5177 1.2170 1.0570

この表2.2の係数はその形態のツイートとその形態が含まれてないツイートの比を表している。具体的

にhashtagを例に出して考えると、hashtagの係数は0.5177でありこれはハッシュタグがあるツイート

はハッシュタグがないツイートより0.5177倍多いということである。つまり100リツイート以上されて

いるツイートにおいてハッシュタグがあるツイートはハッシュタグがないツイートより少ないことが数値 的にも分かった。同様に、画像が添付されているツイートはされていないツイートより多いことが分かっ た為あるツイートを拡散したいときは関連する写真を添付すれば100リツイートされる確率は上がるだ

ろう。

2.5

シミュレーション

(13)

を取ったもので、               

∂S(t)

∂t =αS(t)I(t) ∂I(t)

∂t =αS(t)I(t)−γI(t) ∂R(t)

∂t =γI(t)

(2.2)

と表される微分方程式で主に感染症の流行を表すときに使われる。この時α は感染率、γ は回復率を表

している。S(t)は感染する可能性のある人なので1番目の式はS(t)(感染する可能性がある人)がある時

間に変化する量はαS(t)I(t)であることを表している。感染症は一度感染するとその感染症に対し免疫を

得るので同一の感染症には感染しない。Twitterでは一度自分が閲覧したツイートは自分のフォロワーが

リツイートしても再度自分のタイムライン上に表示されないのでSIRモデルとTwitterでの情報拡散は

酷似していると言える。この場合、αはリツイートする確率、γ はそのツイートを見てからタイムライン

から消えるまでの確率と言える。今回のシミュレーションはSをあるツイートを見てない人、Iをそのツ

イートをリツイートした人、Rを既にそのツイートを見てツイートがタイムラインに表示されなくなった

人と仮定し、αは2.4で算出した情報拡散係数を代入しγ を固定して40人のユーザーに対してどのよう

に拡散するかを確認する。また、α=1、γ=25でのシミュレーションを標準的なツイートのデータとする。

γは一般的なツイートが拡散される確率10.8%[4]から算出した。今回のシミュレーションはMATLAB

で(2.1)の微分方程式の解を求めるプログラムを組み、各要素の情報拡散係数をαに代入し解の挙動を図

示しそれを比較する。

(14)

図2.9 ハッシュタグを含んだツイートの情報拡散

(15)
(16)

標準的なツイートの情報拡散とURLを含んだツイートの情報拡散にはそれほど差はないが、ハッシュ

タグまたは画像を含んだツイートとは大きな違いが確認出来る。ハッシュタグを含んだツイートはリツ イートした人は1人しかいなく、最終的にそのツイートを見ることがなかった人が35 名以上もいるこ

とがわかる。また、ハッシュタグを含んだツイートのシミュレーション結果のもう一つの大きな特徴と して、who retweetedの挙動に山ができていないのが確認できる(図2.9)。ハッシュタグを含んだツイー

トの情報拡散係数は0.5177であり標準ツイートの1を大きく下回ってる。このシミュレーションにお

いてαはリツイートする確率であり、仮に最初の1人がリツイートしても次の人がリツイートする確率

は((0.5177)2)×100 = 13.85パーセントでありその確率は非常に低い。この結果、リツイートされたツ

イートが自分のタイムラインに表示されてもそのユーザーはリツイートせず情報の拡散が止まってしまっ たため、山がでなかったと考えられる。そのツイートを見た人も5名ほどであり、情報拡散力が優れてい

るとは言えない。画像を含んだツイートにおいてはリツイートした人は標準と比べて2,3人しか増えてい

ないが、そのツイートを見た人の差は10人ほどである。このシミュレーションで各要素を含むツイート

(17)

3

今後の課題

今回の解析では、ハッシュタグ、画像、URLがツイートに含まれているか否かのみに注目しどれほど

リツイート数が変化するかを解析したが、人がリツイートするかの判断基準には今回取り上げた3つの要

素以外にも、個人のそのツイートの内容に対する関心度も関係している可能性がある。他にも人々がフォ ロワーが100人前後のユーザーがあるツイートを行いそのツイートがリツイートされる確率とフォロワー

が1000人前後いるユーザーのツイートがリツイートされる確率は同じではない可能性もあるのでこれら

(18)

参考文献

[1] Sutton J, Gibson CB, Phillips NE, Spiro ES, League C, Johnson B, Fitzhugh SM, Butts CT, A cross-hazard analysis of terse message retransmission on Twitter, 14794, December 1,2015 [2] 西浦博,稲葉寿, 感染症流行の予測:感染症数理モデルにおける定量的問題, 統計数理第54巻第2号

2006, p462, 2006年2月6日

[3] Dan Zarrela, How to get more Clicks on Twitter, http://danzarrella.com/infographic-how-to-get-more-clicks-on-twitter.html,

図 2.1 各ツイート形態のリツイート数の最小値の変化
図 2.3 各ツイート形態のリツイート数の最大値の変化
図 2.5 URL 添付有無でのリツイート数変化
図 2.6 画像添付有無でのリツイート数変化 最後に画像の有無によるツイート数の変化であるが、ハッシュタッグと URL と違い画像の添付がある 方がリツイートされているツイートは多い。画像はワンクリック詐欺などのサイトにアクセスする心配も なく文字以外でも情報が得られるので人々が好んでリツイートするのではないかと推測できる。これらの 解析から、日本国内における 100 リツイート以上されるツイートの各要素が含まれているツイートとそう ではないツイートの割合が分かった。実際に海外で行われた調査では画像が添付し
+3

参照

関連したドキュメント

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

c 契約受電設備を減少される場合等で,1年を通じての最大需要電

c 契約受電設備を減少される場合等で,1年を通じての最大需要電

とされている︒ところで︑医師法二 0

これからはしっかりかもうと 思います。かむことは、そこ まで大事じゃないと思って いたけど、毒消し効果があ

半減期が10年と長い Kr-85 は、現時点でも 4.4×10 -1 Bq/cm 3 (原子数で 10 8 個/cm 3 )程

   手続内容(タスク)の鍵がかかっていること、反映日(完了日)に 日付が入っていることを確認する。また、登録したメールアドレ

・私は小さい頃は人見知りの激しい子どもでした。しかし、当時の担任の先生が遊びを