• 検索結果がありません。

「人工知能」の表紙に関するTweetの分析(<小特集>「人工知能」表紙問題における議論と論点の整理)

N/A
N/A
Protected

Academic year: 2021

シェア "「人工知能」の表紙に関するTweetの分析(<小特集>「人工知能」表紙問題における議論と論点の整理)"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

人工知能学会では,学会誌名を「人工知能学会誌」か ら「人工知能」に変更するとともに,表紙のデザインを クラウドソーシングによって公募し決定した.その結果, 背景に「日常生活にある人工知能」を人の姿として描く デザインが採用され,本を片手に掃除を行っている女性 型人工知能搭載エージェントが描かれる表紙が掲載され た.しかしながら, ● エージェントが女性型である ● エージェントが腰部あたりからコードにつながれて いる ● 家事労働を行っている ● エージェントの表情が明るいものではない といった観点から女性蔑視につながるとして問題視され た [朝日 14](以降,本件を表紙問題と呼ぶ). それに伴い,Web 上では表紙問題に関する多くの意見 が投稿され話題となった.投稿された記事はジェンダー と人工知能に関するものだけではなく,その内容は多岐 にわたる.本誌編集委員会は, これらの意見を受け止め,今後の改善につなげる とともに,学会が新しい形で社会に発信していき たいという当初のビジョンを見失わず,多くの方 に人工知能の技術や研究を知ってもらえるよう, 新しい試みを続けていく と表明している [松尾 14]. ソーシャルメディアおよびそれを含む Web 全般に関 する事象は,人工知能学会における重要な研究分野の一 つであり,研究者が多数いると同時に,それに関わる技 術・知見が多数ある.例えば,ソーシャルメディアがも つ性質に関する研究 [風間 10, 鳥海 10] や,twitter に関 する分析 [Java 07, Kwak 10, Sakaki 10],Web 上で行 われる対話の研究 [長谷川 14, 稲葉 14],災害時など突発 的な状況下での Web の利用分析 [鍋島 13, 篠田 13] など, その内容は多岐にわたる. 本稿ではソーシャルメディアの一つである twitter*1 のデータを分析することで,「人工知能」の表紙問題が twitter界隈でどのように捉えられ,どのような議論を 生んだのかを明らかにする.まず,2 章ではデータの詳 細について述べ,3 章で Web 上で表紙問題がどのよう に扱われたのか,時系列データを元にその経緯を明らか にする.また,4 章では tweet データから,表紙問題が twitter上でどのように扱われていたかを言語処理技術 を用いて分析する.さらに,5 章では議論がどのように 広がっていったのかを明らかにする. これらの分析が,社会における人工知能に対する認 識と期待を理解するうえでの手掛かりになれば幸いであ る.なお,本稿で述べられている内容は,tweet データ に基づく分析結果であり,人工知能学会としての何らか の主張を述べるものではない. 本稿では,投稿者の個人情報の保護,および意図しな い引用の防止のため,本章では元の tweet をそのまま引 用することは避け,tweet の内容を著者らが解釈・集約 したものを紹介する.ただし,blog やニュースサイトの 記事などのタイトルはそのまま引用する. 「「人工知能」表紙問題における議論と論点の整理」

「人工知能」の表紙に関する Tweet の分析

Analyzing Tweets for Mining Opinions about the Renewal of the Cover

Design of “Artificial Intelligence”

鳥海 不二夫

東京大学大学院工学系研究科

Fujio Toriumi School of Engineering, The University of Tokyo. [email protected]

榊  剛史

(同 上)

Takeshi Sakaki [email protected], http://tksakaki.com

岡崎 直観

東北大学大学院情報科学研究科

Naoki Okazaki Graduate School of Information Sciences, Tohoku University. [email protected], http://www.chokkan.org/

Keywords:

data mining, web analysis, social media, twitter, information diffusion.

(2)

2.分析対象データ

本稿では,twitter のデータを分析することで,人工 知能表紙問題がどのように捉えられていたかを明らかに する.twitter は,140 文字の短い記事(tweet)を投稿 することでコミュニケーションを行う,ミニ blog と呼 ばれるソーシャルメディアサービスの一つであり,日 本でもユーザの多いソーシャルメディアの一つである. twitterのユーザはほかの任意のユーザをフォローする ことによって,当該ユーザが投稿した tweet をタイム ラインと呼ばれる twitter の主ページで確認することが できる.あるユーザをフォローしているユーザを「フォ ロワ」と呼び,フォロワの多いユーザは影響力の強い ユーザであるといえる.また,ほかのユーザの tweet を 「retweet」することで,自分のフォロワに当該 tweet を 伝えることが可能である.この retweet 機能によって, 情報が容易に拡散することが twitter の特徴の一つであ る.また,特定の tweet に対する返信である「リプライ」 や,特定のユーザに言及した tweet「メンション」など の機能があり,これらの機能によって twitter 上でコミュ ニケーションが行われる. 分析にあたり,株式会社ホットリンクの協力により, 2013年 12 月 16 日から 2014 年 01 月 08 日までに twitter 投稿された tweet の中で,「人工知能」というキーワー ドが含まれるものを収集した.以下本稿で用いる tweet データは特に断りのない限りこのデータを指す. 収集した tweet の基礎データは以下のとおりである. 本データには 42 369 人のユーザによる 89 262 tweet が含まれている.このうち,公式 retweet*2が 54 509

tweetであり,全 tweet のうち 61%が retweet であった. また,通常の tweet のうちメンション(@ ユーザ)が 含まれるものは 5 770 tweet であり,通常 tweet 全体の 16.6%である. 次に,twitter 上でいつ「人工知能」の表紙について 話題となっていたかを見るため,図 1 に「人工知能」の 表紙が発表された 2013 年 12 月 25 日以降の 1 日当たり の tweet 数と retweet 数を示す.これより,発表があっ た 25 日以降「人工知能」を含む tweet 数は増加し,27 日にピークを迎え,年明けには概ね収束していることが わかる. 以上を踏まえ,分析は 12 月 25 ~ 31 日のデータを中 心に行うものとする.

3.Web で見る表紙問題の経緯

ここでは,Web 上で本誌「人工知能」についてどのよ うな言及されていたかを,その経緯をまとめる. まず「話題になったサイトは twitter 上でも言及され る」と仮定し,twitter 上で言及数の多かったサイトを 対象として,Web 上で「人工知能」の表紙についてどの ような動きがあったのかを調査した.収集した twitter のデータから URL を含むものを抽出し,tweet または retweetで 100 回以上言及されたサイトを調査対象とす る.さらに,twitter 内部での議論に関しては,100 回 以上 retweet された tweet を対象にどのような経緯で議 論が進んだのかを確認する. 「人工知能」に関する動きは,2013 年 12 月 25 日に人 工知能学会 Web ページに「学会誌名の変更と新しい表 紙デザインのお知らせ*3」という記事が掲載されたこと から始まる.それを受けて,12 月 25 日 18 時 42 分に当 該記事と表紙の写真への URL を含んだ tweet が行われ た.これが確認できる最も初期の tweet である. その後,2013 年 12 月 25 日 20 時 40 分にネットニュー スサイトである ITmedia の記事「人工知能学会誌,表 紙が“萌え”化*4」が掲載され,それに関する tweet が 20 時 49 分に投稿されている.その後しばらくは, twitter上ではこの二つの記事に関する言及が多かった. 表 紙 に 関 す る 批 判 的 な tweet の う ち 最 初 に 多 数 retweetされたものは,26 日 0 時 57 分に投稿された, 学会が性差別をしているように見えることを述べた tweetである.この tweet 自体は当初それほど注目され ていなかったが,26 日 15 時 21 分に 3 万人以上のフォ ロワがいるユーザ A によって retweet されたことがきっ かけで多数の retweet がなされた.同時に,ユーザ A が 行った二つの tweet がそれぞれ 423 回,960 回 retweet された.特に,同日 15 時 40 分に投稿された表紙デザ インにおける問題点を海外の学会誌表紙のケースに置き 換えて説明した tweet は,表紙に関する意見を述べた tweetとしては最も多く retweet されたものの一つであ る.その後,ジェンダーおよび間接的な差別表現につい *2 twitter が提供する機能を使って行われた retweet *3 http://www.ai-gakkai.or.jp/?p=4923 *4 http://www.itmedia.co.jp/news/articles/1312/ 25/news141.html 図 1 tweet 数,retweet 数の日別変化 tweet数 retweet数 tweet 数

(3)

て twitter 上でさまざまな意見が投稿され,26 ~ 27 日 に 100 回以上 retweet された「人工知能」を含む tweet 46件のうち 31 件がジェンダーに関する問題に言及して いた. 26日 18 時頃,一連の tweet が tweet まとめサイト togetterにまとめられた*5.このまとめは 3 000 回以上 twitter上で言及されており,多くの twitter ユーザに「人 工知能」の表紙を知るきっかけを与えた可能性が高い. 同時に,「人工知能」表紙の件に関連した話題も展開 され,表紙の女性は男の娘*6である,という tweet が 2 600回以上 retweet されているほか,他学会の学会誌 表紙にどのようなものがあるかを紹介した tweet が数多 く投稿されており,3 000 回以上 retweet された tweet も存在する. その後,27 日 10 時 24 分に国内の大手掲示板サイト 2ちゃんねる*7にスレッドがつくられ,2 ちゃんねるま とめサイト「痛いニュース」が 27 日 16 時頃に当該スレッ ドへの投稿を元に記事*8を掲載した.当該サイトは 1 日 に 100 万人近いアクセスがあることから,人工知能の表 紙に関する議論が一般へ認知されるきっかけになったと 予想される.これらのまとめサイトはいずれも「表現が 差別的である」という主張に対する疑問が多く,今回の 表紙を問題視する人々を揶や揄ゆするような内容まで見受け られた. また,27 日からは本件に関する個人の blog が話題に のぼり始める.27 日 15 時頃にはてな匿名 blog に投稿 された「人工知能学会表紙批判への反論,を片っ端か ら論破していく*9」以降,2014 年 1 月 1 日の「人工知 能学会の表紙について,会員として調べた/考えたこ と*10」まで 7 件の blog が twitter 上で話題となった.

これらの twitter で URL が 100 件以上投稿された blog は,すべて表紙問題に客観的な視点から問題点を指摘し ており,2 ちゃんねるのまとめサイトとは大きく異なる 点は興味深い.

4.tweet データの分析

4・1 データの前処理・ボットの排除 本章では,収集した tweet データの統計的性質から, twitter上で表紙問題がどのように扱われたかを分析する. tweetデータを扱ううえで,ボット*11による tweet はノイズとなることが多いため,分析するうえでは排除 することが望ましい. ボットの判定手法はいくつかも提案されている [Chu 12, Ghosh 11]が,本稿では簡単化のために ● 同じ内容の tweet を何度も行っているユーザ ● 利用単語に偏りがあるユーザ ● ボットとして登録されているユーザ をボットと判断して,前処理の段階で tweet を排除した. まず,同じ内容の tweet を行っているユーザの排除方 法について述べる.1 ユーザの全 tweet を比較し,全く 同一の tweet については重複 tweet と捉え,このような tweetはまとめて 1 種類の tweet として扱う.あるユー ザが s 種類の tweet を計 t 回 tweet したとき, (1) となるユーザはボットと判断した. 次に,利用単語に偏りがあるユーザは以下のように判 定する.形態素解析*12した単語 w i{i=1, …, n} の出現 回数 Nwiについて,出現確率 P を用いて, (2) (3) なる単語出現エントロピー H*13を用いて単語出現の偏 りを算出した.詳細は割愛するが,H<4.0 となるユーザ については,利用単語に偏りがあるユーザとしてボット と判断し,排除した. 最後に,twitter 上のボットアカウントを収集してい るサイト*14に登録されているアカウントについては, ボットと判断した. ただし,tweet 数が 10 以下のユーザについては,ボッ トかどうかの判断が正確にはできないため,tweet 内容 による判断は行わず,サイトにボットとして登録されて いるもののみをボットと判断した. 以上のようにしてボットを判断した結果,141 ユーザ, 2 723 tweetがボットによるものとして排除された.以 降,本章で使われるデータについては,ボットを排除し たものを用いている. 4・2 主なイベントと tweet 数の関係 twitter上でどのような話題が盛り上がったのかを確 認するため,前章で述べた主な Web 上のイベントと tweet数の変化について見る.図 2 は,Web 上で起きた 表紙問題に関する主なイベントと tweet 数の変化の関係 をプロットしたものである.横軸に時間を,縦軸に 1 時 間当たりの tweet 数を示し,Web 上でイベントが発生し *5 http://togetter.com/li/607736 *6 女装した少年を意味するネットスラング *7 http://hayabusa3.2ch.net/test/read.cgi/news/ 1388059424/ *8 http://blog.livedoor.jp/dqnplus/archives/ 1783385.html *9 http://anond.hatelabo.jp/20131227145434 *10 http://bit.ly/1cP3gRV *11 自動で tweet を行うアカウント *12 文を単語単位に分割し,品詞を判別すること *13 単語出現の偏り具合を表す指標 *14 http://bot.cuppat.net/ u=s t < 0.8 Pi= Nwi n k=1Nwk H=− pilog pi

(4)

た時刻の折れ線上に印をプロットしている.ただし,主 な tweet は 500 回以上 retweet された tweet,主な Web サイトと主な blog は 100 回以上 twitter 上で言及された Webサイトおよび blog 記事である. 図 2 より,人工知能学会 Web ページで表紙変更のお 知らせが行われた 12 月 25 日には,人工知能学会のサイ トおよびそれに言及した tweet によって twitter が盛り 上がり,ITmedia の記事がそれを補強したようである. その後 26 日の日中はそれほど人工知能に言及した tweet はなかったが,15 時過ぎに投稿された tweet がきっか けとなって一気に tweet 数が増加した.さらに twitter のまとめサイトにまとめ記事が投稿された直後にまた tweetが増加したことがわかる.明けて 27 日も tweet とサイトの参照が多くなされており,twitter と関連サイ トによって盛り上がっていることがわかる.27 日の 13 時に 1 時間当たり最大の tweet 数(3 593 回)を記録し, その後の書込み数は減少していく.一方で,blog 記事の 多くは 27 日のピークを超えた後に投稿されている.28 日以降はサイトの参照や retweet の多い tweet が減少し, blog記事の数が増加する.ただし,blog によって tweet 数が増加するという現象は見られない. 以上より,「人工知能」表紙に関する tweet は,当初 人工知能学会などのサイトで紹介された記事が元となっ て行われていたが,その後,表紙に含まれる問題につい て指摘された tweet を元に議論が行われ,まとめサイト によってそれが広まっていったといえる.さらに,個人 blogによる今回の 1 件に関する言及は,概ね twitter 上 での話題が収束に向かったころから盛んになってきたと いえる. 4・3 特 徴 語 の 推 移 今回の会誌「人工知能」の表紙刷新の是非について, twitter上で幅広い意見・批判が寄せられた.今回の事 態において twitter 上で何が起こったのか知ることは, 人工知能研究と社会との関わりを検討するうえでも重 要である.そこでここでは,人工知能の表紙に関連する tweetの投稿内容を分析し,表紙に対する賛否,批判, 反応などを概観する. まず,twitter 上でどのような話題が主な話題となっ たのか,その時間変化を確認するため,1 日ごとに特徴 的に現れた単語を抽出した. 抽出対象となる単語は,全期間を通して 100 回以上出 現した名詞である.名詞の抽出には形態素解析ライブラ リ lucene-gosen*15を用いた.特徴語は,ある 1 日 d に 単語 wiが出現した回数を Nwidとしたときに, (4) (5) (6) によって求められる tfidfwi,dが高い単語とした.ただ し,ここでドキュメント d はある 1 日に現れたすべての tweetとし,|D|は全日数(|D|= 24),|d : d  wi|は単語 wiが出現するドキュメント数(日数)である.なお,得 られた単語の中で「人工知能」および形態素解析の失敗 によって得られた単語は削除した. ところで,retweet は,ほかのユーザに情報を拡散す るために利用される twitter の機能であるが,1 ~ 2 ク リックで行える簡単な作業である.そのため,それほ ど興味がなくても簡単に行うことが可能であり,大量の retweetがあるからといって,その内容が規模に見合う 特徴であるとはいえない.一方,retweet 以外の tweet は, tweetを自分で書く必要があるため retweet する以上の 興味をもって行われていると考えられる.そこで,本稿 では retweet を除いた tweet だけから特徴語を抽出する こととする. 得られた特徴語を表 1 に示す.時間順に見ていくと, まず 25 日の段階では「チェンジ」,「お知らせ」,「会 誌」,「掃除機」といった表紙の変更やその内容に言及 する tweet が多いことがわかる.なお,バーテンダー, CNET,Android は表紙問題とは無関係の話題に関する 図 2 tweet 数,retweet 数の時間変化 tweet数 主な Web サイト 主な tweet 主な blog tfwi, d = Nwid kNwkd idfwi, d = log ¦D¦ ¦ d : d wi¦ tf idfwi, d=tf· idf *15 http://code.google.com/p/lucene-gosen/ twitter まとめサイト 2ちゃんねる まとめサイト 人工知能学会 Web ページ ITmedia 2ちゃんねる

(5)

単語である. 26日になると「性差別」,「蔑視」,「ジェンダー」と いう単語が特徴語に含まれ,表紙に含まれていたジェン ダー的問題点が話題になっていることがわかる.それと ともに,「男の娘」というスラングが特徴語となっており, すでに関連話題が生じていることがわかる. 27日には,2 ちゃんねるのまとめサイトである「痛 いニュース」,「はちま寄稿」が特徴語として入り,この 時期は外部サイトから情報の流入が多かったと考えられ る.さらに,「反論」,「文句」などの特徴語から,なん らかの議論が行われていたと推定される.また,「肛門」, 「大腸」が特徴語として現れているが,これは「日本大 腸肛門病学会」のポスターが学会のポスターとしては極 めて面白いと,話題となったためである.その後,建築 学会や情報処理学会などの表紙も話題となり,さまざま な学会の創意工夫がなされた表紙について話題となって いたが,これらは表紙問題とは直接関係がなく,本件が 話題提供のきっかけとなったことがうかがえる. 28日には,「萌え」,「美少女」という単語が現れ,ジェ ンダーの問題という観点から表紙の少女に対する評価が 含まれた tweet が増加した. 29,30 日には「児童」,「小銃」という単語が入って きているが,これは blog サイト「児童小銃」に,「人工 知能学会の表紙の件*16」というタイトルで blog が掲載 され,twitter 上で話題となったためである.当該 blog では「人工知能」の表紙に関する問題点が指摘されてい た.これ以降,複数の個人 blog で表紙問題について言 及されているのが確認できている. 12月 31 日以降は,再び「ジェンダー」,「フェミニズ ム」といった単語が特徴語となり,表紙に存在するジェ ンダー問題に関する話題が中心に戻ってきている.「解 釈」という特徴語は blog「人工知能学会の表紙のメイド ロボットを考察したら深すぎた*17」に関する tweet に 多く含まれ,個人 blog が議論を先導していることがわ かる.また,特徴語にケーブルや箒といった表紙に含ま れる記号が現れており,表紙絵に隠された意図を解釈し ようという試みがなされている. なお,1 月 5 日以降は,「人工知能がつくったゲーム」 に関する話題が中心となり,「人工知能」表紙に対する 言及は減少しているようである. 以上より,25 日の表紙発表以降,27 ~ 29 日は多数 の tweet が存在し,ジェンダー問題として扱っている tweetもあるが,どちらかといえば 1 トピックとして扱 われ,コミュニケーションのネタとしての側面が強い. 一方で,30 日以降は個人 blog などによる考察や意見が 相次ぎ,twitter 上でもそれらの blog 記事などを受けて, 表紙問題に関してさまざまな側面から議論が行われてい たといえよう. 4・4 話 題 の 推 移 前節では tf-idf によって特徴語の推移を自動抽出した. 本節ではその結果を踏まえ,twitter 上の意見を丁寧に 拾い上げるため,「人工知能」というキーワードを含む tweetのうち,20 回以上 retweet されたものを著者らが 表 1 日別の特徴語(retweet を除く) *17 http://sakedrink.info/2694/artificial-intelligence/ *16 http://d.hatena.ne.jp/rna/20131228/p1

(6)

直接読み,意見・批判の集約を行った*18 収集された tweet の中で,20 回以上 retweet された tweetは 340 種類あり,これらが retweet により全体の 約 3 分の 2(38 452 tweet)を占める.表紙問題以外の 人工知能に関する話題*19に言及している 53 tweet を 分析対象から外し,残りの 287 tweet(retweet 込みで 35 555 tweet)を分析した. この287 tweetにも多種多様な意見が表明されており, そのすべてを限られた紙面上で議論することは難しい. ここでは,表紙に対する直接的な評価や,その理由に関 する議論に着目し,主要な論点を以下の 4 点に集約さ せた. 直接的な賛成 「良いと思う」,「気に入った」など, tweetの文面から発信者が表紙を好意的に捉えている と読み取れる tweet 直接的な否定 「デザインが酷い」,「古臭い」など, tweetの文面から発信者が表紙を否定的に捉えている と読み取れる tweet ジェンダー 表紙が女性蔑視や性差別にあたるとの指 摘,そもそも表紙が女性であること自体を問題視して いるもの,およびこれらの批判に対する反論 奴隷的 描かれているのが女性かどうかは関係なく,人 間が人工知能やロボットを使役しているように解釈で きることへの批判,およびそれらの批判に対する反論 ただし,「ジェンダー」はジェンダーの観点から表紙 を批判する立場と,ジェンダー論による批判に反対する 立場を区別しない*20.「奴隷的」も同様で,表紙を批判 する立場と,批判に反応してさらに批判を行う立場の両 方を含める. 表 2 に,各論点を含む tweet の数(左側が retweet を除いた数字,右側が retweet による重複を含む数字) を示した*21, *22.賛成・否定の tweet 数に着目すると, 1月号の表紙に対して賛成意見が寄せられていたものの, 否定的な意見のほうが盛り上がりを見せていた.さらに 特徴的なのは,表紙の賛否に関する tweet よりも,ジェ ンダーや奴隷に関する言及が多く見受けられたことであ る.これらの論点に言及している tweet を時系列に並 べると,2013 年 12 月 25 日の段階では表紙に対する賛 否両論が寄せられていたが,翌日(12 月 26 日)のある tweetをきっかけにジェンダーや奴隷に関する言及が増 加する.その日のうちに Togetter まとめが作成され,ジェ ンダーや奴隷に関する意見表明が加速した. 表 2 の論点を含まない 150 tweet(retweet 込みで 19 613 tweet)をさらに詳細に分類したものを表 3 に示 した*23.tweet の種類数として最も多かったのは学会 の表紙をきっかけとした別の話題の提供で,35 種類の tweetが 11 431 回 retweet され,他学会の表紙デザイン の面白さ・素晴らしさを紹介する内容が目立った.報道 発表(人工知能学会からの公式発表やメディアによる報 道)やまとめサイトへのリンクの提示が続き,28 tweet (1 854 回 retweet)であった.twitter の投稿は 140 文 字以内という制限があり,今回の事態の背景・経緯を丁 寧に説明することが難しいため,個人が blog 上で騒動 をまとめていたことも特徴的であった.そのほか,今回 の表紙の代替案(パロディを含む)やジェンダーや奴隷 という論点に踏み込まずに,今回の事態に対して冷めた コメントをしている tweet も多数存在した. 以上,今回の表紙問題に関する tweet について,多数 retweetされた tweet を中心に大まかな分類を行った. その結果,本表紙についてジェンダー的問題を指摘した tweet,奴隷的に見えると指摘した tweet が存在し,肯 定的,否定的双方の意見が存在している.一方でほかの サイトからの引用であったり,表紙問題に便乗した話題 表 2 表紙に対する反応の分類(左側の数字は retweet を

除いた種類数,右側の数字は retweet 回数を表す). 表 3 表紙に関するそのほかの話題(左側の数字は retweetを除いた種類数,右側の数字は retweet 回数を表す).

*18 今回分析に用いたデータは,被 retweet 数 20 回以上で 340 tweet,10 回以上で 604 tweet と少なく,教師有り学習などの 自動分析手法を適用するよりは,手作業で分析したほうが効率 が良いと判断した. *19 例えば,人工知能に関するドラマの話や,人工知能にゲーム をつくらせた話など *20 例えば「【悲報】人工知能学会の表紙は女性蔑視?」のよう な投稿では,「悲報」やクエスチョンマークにより投稿者の立場 が不明瞭となる. *21 twitter を利用するユーザ層の偏り,twitter 上で議論されや すい話題の偏り,retweet されやすい言い回しの偏りなどで, tweet数が各論点の支持数を反映するとは限らない.tweet 数は 話題や論点の盛り上がり度合いを表す指標として解釈するほう が自然である. *22 表 2 の各論点は排他的なものではなく,複数の論点を含む tweetが存在することに注意されたい.すなわち,ある tweet がジェンダーと奴隷的であることの両方に言及している場合, 両方の論点に対して tweet 数を加算する. *23 表 2 の分析では,各 tweet に対して一つのカテゴリーを割り 当てるように分類した. tweet数 tweet数 分類カテゴリー 分類カテゴリー

(7)

提供も多く存在し,tweet 数に比べ表紙問題に直接的に 関わる議論はそれほど多くなかった.ただし,これはあ くまでも 20 人以上のユーザに retweet された tweet で あり,個々のユーザ間では議論が行われた可能性もある. 今後は,今回の表紙問題とは直接関係のない tweet を取 り除いたうえで,どのような議論が行われていたかを明 らかにする必要があるだろう.

5.twitter における情報拡散

5・1 ユーザごとの tweet 時間分布 今回の表紙問題について,いつ頃広く認知されるよう になったのか,またいつ tweet を行ったユーザが継続的 な興味をもっていたのかを確認するために,表紙問題に 言及またはretweetを行ったユーザについて分析を行う. まず,いつどの程度のユーザが表紙問題に興味をもっ たのかを調べるため,ユーザの tweet 時間分布を確認し た.図 3 に表紙問題に言及したユーザの tweet 分布を 示す.横軸が日付,縦軸がユーザ ID を示し,ユーザが tweetを行った時間に点をプロットしている.なお,ユー ザ ID は分析期間内の最初に「人工知能」を含む tweet を行った順に付与されている. これより,分析期間内に表紙問題に言及したユーザの ほとんどが 12 月 26 ~ 28 日に最初に tweet を行ってお り,その後も継続して tweet を続けているユーザは少な いことがわかる.この意味で,今回の表紙問題は 12 月 26~ 28 日に話題のピークが来ていたと捉えることがで きる. 特に,27 日に新たに tweet したユーザが極めて多い ことから,多くのユーザが「人工知能」の表紙が変更さ れたニュース記事ではなく,その後のまとめサイトなど の記事を受けて tweet を行っていると推測される. ところで,26 日に初めて tweet したユーザと 27 日に 初めて tweet したを比較すると,その後の tweet 濃度に 差が見られる.早い段階から tweet を行っていたユーザ は継続的に表紙問題について投稿を続け,遅れて入って きたユーザは比較的早い段階で人工知能に関する tweet を行わなくなっている.これは,当初から参入している 表紙問題にいち早くアクセスしたユーザであり,もとも と人工知能やジェンダーに興味をもっていた可能性が高 い.そのため,長期にわたって表紙問題について tweet を行っていたと考えられる.一方,まとめサイトなどか ら入ってきたユーザは,それほど人工知能やジェンダー に興味をもっているわけではないため,その後の動向を 追う傾向は少なかったのではないかと推測される. そこで,表紙問題にいち早く反応したユーザほど長く 本問題に着目し続けていたことを確認するため,最初に 関連 tweet を投稿したタイミングと twitter 上での話題 が一段落した,2014 年 1 月 1 日以降の tweet との関係 を見る.図 4 に,12 月 25 ~ 28 日に最初に関連 tweet を行ったユーザが 2014 年 1 月 1 日以降に関連 tweet を 投稿した割合を示す.この結果から,25 日,26 日に関 連 tweet を行ったユーザはそれ以降に初めて関連 tweet を行ったユーザよりも 1 月 1 日以降も tweet を行う割合 が多いことがわかる.この差は比率の差の検定を行った 結果有意であり,25 ~ 26 日に関連 tweet を行ったユー ザのほうが興味の持続性が長い可能性が高いことが示唆 された. 5・2 tweet の 拡 散 次に,今回の話題に関する tweet が twitter というソー シャルネットワーク上でどのように広がっていったかを 把握することを試みる.情報拡散を把握したいとき,理 想的にはユーザ単位で情報拡散を時間経過に沿って俯瞰 できることが望ましい.しかし,本データは 42 369 ユー ザのネットワークとなるため,個々のユーザに注目しな がら情報拡散を追っていくことは難しい.そこで本稿で は,まずユーザをコミュニティに分割したうえで,コミュ ニティ単位で情報拡散を時間経過に沿って俯瞰していく. § 1 コミュニティへの分割 情報拡散を俯瞰するに先立ち,ユーザ全体をいくつか のコミュニティに分割する.コミュニティへの分割は, ユーザ全体をネットワークと捉えたうえで,コミュニ ティ分割の手法を適用する.また各コミュニティを特徴 付けるために,各コミュニティに特徴的な語(以下,コ 図 3 ユーザごとの tweet 分布 図 4 最初に tweet を投稿したタイミングと 1 月 1 日以降の tweet率 最初に関連 tweet を投稿した日 1 月 1 日以降の tweet 率

(8)

ミュニティ特徴語)を抽出する.具体的な手順は以下の とおり. ネットワークの構築 何らかの関係性によってユーザ間 にリンクを張り,ネットワークを構築する.twitter で用いることができるユーザ間の関係性は,フォロー 関係や retweet 関係などさまざまなものが考えられる が,本研究では,情報拡散への寄与度が高いと考えら れる点,大規模なデータ収集が用意である点から相互 メンション関係を用いる.ここではユーザ A とユーザ Bがお互いにお互いのスクリーンネームを含む tweet を 1 回以上行っている場合に,ユーザ A,ユーザ B 間にリンクを張る.本データセット内の相互メンショ ン関係だけでは量が十分ではなく,また偏っていると 考えられるため,新たにデータを取得しなおした.株 式会社ホットリンクから提供されるデータの制約上, 2012年 1 月から 2013 年 4 月までの間に投稿された tweetから,ユーザごとに直近 1 000 件の投稿を(当 該期間の投稿数が 1 000 件以下のユーザは全投稿)取 得する.この新たな tweet 集合から,相互メンション 関係を抽出し,それを用いてユーザ数 42 369,リン ク数 83 140 のネットワークを構築した. コミュニティの分割 次に構築したネットワークをコ ミュニティに分割する.コミュニティ分割手法とし ては,代表的な手法である Louvain 法を適用する [Blondel 08].結果として,20 971 個のクラスタを取 得することができた. コミュニティ特徴語の抽出 抽出したネットワークを特 徴付けるために,特徴語を抽出する.本研究では,ユー ザの twitter プロフィールに含まれる自己紹介文を用 いる.各ユーザの自己紹介文を収集した後,各コミュ ニティを構成するユーザの自己紹介文を結合し,それ を 1 文書とする.このように生成したコミュニティを 特徴付ける文書集合において,各コミュニティの文書 ごとに語の tf-idf 値を算出する.そして各コミュニティ の文書ごとに,tf-idf 値の上位 20 語を,コミュニティ 特徴語とした. 以上のような手順により,ユーザ集合をコミュニティ に分割したうえで,各コミュニティを特徴付けるための コミュニティ特徴語を抽出した. § 2 コミュニティ間での情報拡散 分割したコミュニティ間での情報拡散を可視化するた めに,図 5 のような情報拡散図を作成した.ここでは, コミュニティに含まれるユーザ数が 100 名を超えている コミュニティのみを用いている.このようなコミュティ は全部で 45 個あり,それらに属する合計ユーザ数は 19751名である.これは全ユーザの 46.6%にあたる. 図 5 において,紙数の関係上,表紙問題が twitter 上 で最も盛り上がった 25 ~ 28 日の 4 日間を対象とし,4 時間単位でコミュニティ間での情報拡散を表現した.一 番上の一列のノードが時間帯を表すノード,それ以外の ノードがコミュニティを表している.コミュニティを表 表 4 代表的なコミュニティの特徴語 図 5 コミュニティ間での情報拡散(期間:12 月 25 日 00:00 ~ 28 日 23:59)

(9)

すノードのラベルは,そのコミュニティの ID である. 時間は左から右に流れており,ある時間帯を表すノード, 例えば「12/16 16」の下に縦に並んでいるノードは,12 月 16 日 16 時 00 分~ 19 時 59 分に投稿された各コミュ ニティのユーザに投稿を表しており,ノードの大きさは その時間帯に行われた retweet の回数を表している.各 時間帯ごとに 300 人以上の投稿があったコミュニティ のみを表示した.各ノード間のエッジは,ある時間帯の 2コミュニティ間で 5 回以上 retweet が発生したことを 意味している.なお,ノードの上下関係は可視化の制約 上生じたものであり,特に意味はない.また各コミュニ ティの特徴を把握するためにサイズの大きいいくつかの コミュニティの特徴語を表 4 に示した. 図 5 に従って順を追っておくと,まず 25 日の 16 時 台に ID 9094 のコミュニティ,20 時台に ID 9205 のコ ミュニティが反応している.表 4 より,ID 9094 はゲー ム好きのユーザが多いコミュニティ(表中の MoE は MMORPG「Master of Epic」の略と推測)と推測され る,同様に ID 9205 は原発問題に関心をもったユーザが 多いコミュニティであるという推測が成り立つ.しかし, ID 9205は最も構成ユーザが多いコミュニティであるた め,原発問題に関心があるユーザだけではなく,それに 付随して研究者や評論家なども含まれてしまっている. ここでは原発問題に関する話題があるユーザに届いたと いうより,26 日 0 時台の段階で最も幅広く情報が拡散 する可能性があるコミュニティに話題が到達したと考え られるだろう.実際,夜をまたいで翌日の昼までそのコ ミュニティ内で話題が拡散している.そして 26 日の 16 時台にはいくつものコミュニティに話題が到達してい る.表 4 より,ID 5018,5260,5947,15139 はそれぞ れ電子工作,IT,ボーカロイド,軍事(WoT はオンラ イン戦車アクション「World of Tanks」と推測)に興味 のあるユーザが多いコミュニティであると推測される. つまり,26 日における 1 回目のピークにおいては最大 のコミュニティである ID 9205 を介して,さまざまなコ ミュニティに話題が波及したと考えられる.表 1 と対比 すると,その際にジェンダー論的な用語に加えて「男の 娘」といったいわゆるネット的な用語が登場したことが わかる.その後夜を挟んで,27 日のお昼過ぎには電子 工作系,IT 系コミュニティにおいて,情報が拡散して いる.表 1 と対比すると,この時間帯の情報拡散はまと めサイトによる影響が大きいと推測される.そして,27 日の 20 時台には ID 2383,SF コミュニティに到達して, そのコミュニティ内で拡散した後,28 日に収束していっ たと考えられる. 今回 twitter 上では,図 2 より,25 日から 28 日深夜 までの間に 2 回ピークが発生している.25 日の間にいく つかのコミュニティで,徐々に話題が拡散していき,26 日の 0 時台に最も大きなコミュニティに到達したことで, そこで情報が幅広く拡散し,さまざまなコミュニティに 話題が拡散していったと考えられる.これが一度目のピー クの要因であると考えられる.また,27 日の二度目のピー クは,前述のように twitter 上での情報拡散よりもまと めサイトによる影響が大きいと推測される.

6.ま  と  め

本稿では,「人工知能」の表紙問題について,twitter でどのように扱われていたかを分析を行った.外部サイ トとの比較,話題の時系列変化,話題に参加したユーザ の変化を中心に分析を行い,表紙問題が twitter 上でど のような広がりを見せたのかを俯瞰的に示した. 今回の分析では,十分に深いレベルまで掘り下げる ことはできず,表面的な事実を述べるに留まった.今後 さらに深いレベルの分析を行うとともに,人工知能関係 者以外が人工知能についてどのような意見をもっている か,など本データからさまざまな情報を発見することを 目的とし,分析を継続する予定である. なお,1 月 9 日には朝日新聞に表紙問題について掲 載され,さらに朝日新聞の英語版をもとにした記事が BBCニュースにも掲載され,新たな議論を呼んでいた と推測される.一般紙に掲載されたことの影響がどのよ うなものであったかについても,今後追跡調査を行う. 謝 辞 本稿執筆に当たり,twitter のデータをご提供いただ いた株式会社ホットリンクに感謝する.また,本稿執筆 に当たりさまざまなご意見をいただいた電気通信大学篠 田孝祐助教に感謝する.

◇ 参 考 文 献 ◇

[朝日 14] 朝日新聞 2014 年 1 月 9 日:「女性ロボットの表紙めぐり “炎上”人工知能学会誌,デザイン一新で」(2014)

[Blondel 08] Blondel, V. D., Guillaume, J.-L., Lambiotte, R. and Lefebvre, E.: Fast unfolding of communities in large networks,

J. Statistical Mechanics: Theory and Experiment, Vol. 2008, No.

10, p. 10008(2008)

[Chu 12] Chu, Z., Gianvecchio, S., Wang, H. and Jajodia, S.:

Detecting Automation of Twitter Accounts: Are You a Human,

Bot, or Cyborg? (2012)

[Ghosh 11] Ghosh, R., Surachawala, T. and Lerman, K.:

Entropy-based classification of ‘retweeting’ activity on twitter, arXiv

preprint arXiv: 1106.0346 (2011) [長谷川 14] 長谷川貴之,鍜治伸裕,吉永直樹,豊田正史:オンライ ン上の対話における聞き手の感情の予測と喚起,人工知能学会 論文誌,Vol. 29, No. 1, pp. 90-99 (2014) [稲葉 14] 稲葉通将,神園彩香,高橋健一: Twitter を用いた非タス ク指向型対話システムのための発話候補文獲得,人工知能学会 論文誌,Vol. 29, No. 1, pp. 21-31 (2014)

[Java 07] Java, A., Song, X., Finin, T. and Tseng, B.: Why we twitter: Understanding microblogging usage and communities,

Proc. 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web

Mining and Social Network Analysis, pp. 56-65, ACM (2007)

[風間 10] 風間一洋,今田美幸,柏木啓一郎:ブログ空間の情報伝播 ネットワーク特性の定量化,人工知能学会論文誌,Vol. 25, No. 3,

(10)

[Kwak 10] Kwak, H., Lee, C., Park, H. and Moon, S.: What is twitter, a social network or a news media?, Proc. 19th Int Conf.

on World wide web, pp. 591-600, ACM (2010)

[松尾 14] 松尾 豊,栗原 聡:「人工知能」の表紙に対する意見や議 論に関して,http://www.ai-gakkai.or.jp/(2014) [鍋島 13] 鍋島啓太,渡邉研斗,水野淳太,岡崎直観,乾健太郎:訂

正パターンに基づく誤情報の収集と拡散状況の分析,自然言語 処理,Vol. 20, No. 3, pp. 461-484 (2013)

[Sakaki 10] Sakaki, T., Okazaki, M. and Matsuo, Y.: Earthquake shakes twitter users: Real-time event detection by social sensors, Proc. 19th Int. Conf. on World wide web, pp. 851-860,

ACM (2010) [篠田 13] 篠田孝祐,榊 剛史,鳥海不二夫,風間一洋,栗原 聡,野田 五十樹,松尾 豊:東日本大震災時における Twitter の活用状況 とコミュニケーション構造の分析,知能と情報,Vol. 25, No. 1, pp. 598-608 (2013) [鳥海 10] 鳥海不二夫,山本仁志,諏訪博彦,岡田 勇,和泉 潔,橋本康 弘:大量 SNS サイトの比較分析,人工知能学会論文誌, Vol. 25, No. 1, pp. 78-89 (2010) 2014年 2 月 6 日 受理 鳥海 不二夫(正会員) 2004年,東京工業大学大学院理工学研究科機械制御 システム工学専攻博士課程修了.同年,名古屋大学 大学院情報科学研究科助手,2007 年同助教,2012 年東京大学大学院工学系研究科准教授.エージェン トベースシミュレーション,人工市場,ソーシャル メディアなどの研究に従事.電子情報通信学会,日 本社会情報学会系会員.博士(工学). 榊  剛史(正会員) 2004年東京大学工学部電子情報工学科卒業.2006 年同大学院修士課程修了.2013 年 12 月同大学院博 士課程修了.東京大学工学系研究科研究員.専門は, 人工知能,自然言語処理,Web マイニング,社会ネッ トワーク分析.博士(工学). 岡崎 直観(正会員) 2007年東京大学大学院情報理工学系研究科電子情報 学専攻博士課程修了.同年,東京大学大学院情報理 工学系研究科特別研究員.2011 年より,東北大学大 学院情報科学研究科准教授.自然言語処理,テキス トマイニングの研究に従事.情報処理学会,ACL 各 会員.博士(情報理工学).

著 者 紹 介

参照

関連したドキュメント

はある程度個人差はあっても、その対象l笑いの発生源にはそれ

問についてだが︑この間いに直接に答える前に確認しなけれ

題護の象徴でありながら︑その人物に関する詳細はことごとく省か

Instagram 等 Flickr 以外にも多くの画像共有サイトがあるにも 関わらず, Flickr を利用する研究が多いことには, 大きく分けて 2

 

三洋電機株式会社 住友電気工業株式会社 ソニー株式会社 株式会社東芝 日本電気株式会社 パナソニック株式会社 株式会社日立製作所

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

 放射能に関する記事も多くあった。 「文部科学省は 20