「人工知能」の表紙に関するTweetの分析(<小特集>「人工知能」表紙問題における議論と論点の整理)

(1)

1．は　じ　め　に

人工知能学会では，学会誌名を「人工知能学会誌」から「人工知能」に変更するとともに，表紙のデザインをクラウドソーシングによって公募し決定した．その結果，背景に「日常生活にある人工知能」を人の姿として描くデザインが採用され，本を片手に掃除を行っている女性型人工知能搭載エージェントが描かれる表紙が掲載された．しかしながら， ● エージェントが女性型である ● _{エージェントが腰部あたりからコードにつながれて} いる ● 家事労働を行っている ● エージェントの表情が明るいものではないといった観点から女性蔑視につながるとして問題視された [朝日 14]（以降，本件を表紙問題と呼ぶ）．それに伴い，Web 上では表紙問題に関する多くの意見が投稿され話題となった．投稿された記事はジェンダーと人工知能に関するものだけではなく，その内容は多岐にわたる．本誌編集委員会は，これらの意見を受け止め，今後の改善につなげるとともに，学会が新しい形で社会に発信していきたいという当初のビジョンを見失わず，多くの方に人工知能の技術や研究を知ってもらえるよう，新しい試みを続けていくと表明している [松尾 14]．ソーシャルメディアおよびそれを含む Web 全般に関する事象は，人工知能学会における重要な研究分野の一つであり，研究者が多数いると同時に，それに関わる技術・知見が多数ある．例えば，ソーシャルメディアがもつ性質に関する研究 [風間 10, 鳥海 10] や，twitter に関する分析 [Java 07, Kwak 10, Sakaki 10]，Web 上で行われる対話の研究 [長谷川 14, 稲葉 14]，災害時など突発的な状況下での Web の利用分析 [鍋島 13, 篠田 13] など，その内容は多岐にわたる．本稿ではソーシャルメディアの一つである twitter＊1 のデータを分析することで，「人工知能」の表紙問題が twitter界隈でどのように捉えられ，どのような議論を生んだのかを明らかにする．まず，2 章ではデータの詳細について述べ，3 章で Web 上で表紙問題がどのように扱われたのか，時系列データを元にその経緯を明らかにする．また，4 章では tweet データから，表紙問題が twitter上でどのように扱われていたかを言語処理技術を用いて分析する．さらに，5 章では議論がどのように広がっていったのかを明らかにする．これらの分析が，社会における人工知能に対する認識と期待を理解するうえでの手掛かりになれば幸いである．なお，本稿で述べられている内容は，tweet データに基づく分析結果であり，人工知能学会としての何らかの主張を述べるものではない．本稿では，投稿者の個人情報の保護，および意図しない引用の防止のため，本章では元の tweet をそのまま引用することは避け，tweet の内容を著者らが解釈・集約したものを紹介する．ただし，blog やニュースサイトの記事などのタイトルはそのまま引用する．「「人工知能」表紙問題における議論と論点の整理」

「人工知能」の表紙に関する Tweet の分析

Analyzing Tweets for Mining Opinions about the Renewal of the Cover

Design of “Artificial Intelligence”

鳥海　不二夫

東京大学大学院工学系研究科

Fujio Toriumi School of Engineering, The University of Tokyo. [email protected]

榊　　剛史

（同　上）

Takeshi Sakaki [email protected], http://tksakaki.com

岡崎　直観

東北大学大学院情報科学研究科

Naoki Okazaki Graduate School of Information Sciences, Tohoku University. [email protected], http://www.chokkan.org/

Keywords:

data mining, web analysis, social media, twitter, information diffusion.

(2)

2．分析対象データ

本稿では，twitter のデータを分析することで，人工知能表紙問題がどのように捉えられていたかを明らかにする．twitter は，140 文字の短い記事（tweet）を投稿することでコミュニケーションを行う，ミニ blog と呼ばれるソーシャルメディアサービスの一つであり，日本でもユーザの多いソーシャルメディアの一つである． twitterのユーザはほかの任意のユーザをフォローすることによって，当該ユーザが投稿した tweet をタイムラインと呼ばれる twitter の主ページで確認することができる．あるユーザをフォローしているユーザを「フォロワ」と呼び，フォロワの多いユーザは影響力の強いユーザであるといえる．また，ほかのユーザの tweet を「retweet」することで，自分のフォロワに当該 tweet を伝えることが可能である．この retweet 機能によって，情報が容易に拡散することが twitter の特徴の一つである．また，特定の tweet に対する返信である「リプライ」や，特定のユーザに言及した tweet「メンション」などの機能があり，これらの機能によって twitter 上でコミュニケーションが行われる．分析にあたり，株式会社ホットリンクの協力により， 2013年 12 月 16 日から 2014 年 01 月 08 日までに twitter 投稿された tweet の中で，「人工知能」というキーワードが含まれるものを収集した．以下本稿で用いる tweet データは特に断りのない限りこのデータを指す．収集した tweet の基礎データは以下のとおりである．本データには 42 369 人のユーザによる 89 262 tweet が含まれている．このうち，公式 retweet＊2_{が 54 509}

tweetであり，全 tweet のうち 61％が retweet であった．また，通常の tweet のうちメンション（@ ユーザ）が含まれるものは 5 770 tweet であり，通常 tweet 全体の 16.6％である．次に，twitter 上でいつ「人工知能」の表紙について話題となっていたかを見るため，図 1 に「人工知能」の表紙が発表された 2013 年 12 月 25 日以降の 1 日当たりの tweet 数と retweet 数を示す．これより，発表があった 25 日以降「人工知能」を含む tweet 数は増加し，27 日にピークを迎え，年明けには概ね収束していることがわかる．以上を踏まえ，分析は 12 月 25 ～ 31 日のデータを中心に行うものとする．

3．Web で見る表紙問題の経緯

ここでは，Web 上で本誌「人工知能」についてどのような言及されていたかを，その経緯をまとめる．まず「話題になったサイトは twitter 上でも言及される」と仮定し，twitter 上で言及数の多かったサイトを対象として，Web 上で「人工知能」の表紙についてどのような動きがあったのかを調査した．収集した twitter のデータから URL を含むものを抽出し，tweet または retweetで 100 回以上言及されたサイトを調査対象とする．さらに，twitter 内部での議論に関しては，100 回以上 retweet された tweet を対象にどのような経緯で議論が進んだのかを確認する．「人工知能」に関する動きは，2013 年 12 月 25 日に人工知能学会 Web ページに「学会誌名の変更と新しい表紙デザインのお知らせ＊3_{」という記事が掲載されたこと} から始まる．それを受けて，12 月 25 日 18 時 42 分に当該記事と表紙の写真への URL を含んだ tweet が行われた．これが確認できる最も初期の tweet である．その後，2013 年 12 月 25 日 20 時 40 分にネットニュースサイトである ITmedia の記事「人工知能学会誌，表紙が“萌え”化＊4_{」が掲載され，それに関する tweet} が 20 時 49 分に投稿されている．その後しばらくは， twitter上ではこの二つの記事に関する言及が多かった．表紙に関する批判的な tweet のうち最初に多数 retweetされたものは，26 日 0 時 57 分に投稿された，学会が性差別をしているように見えることを述べた tweetである．この tweet 自体は当初それほど注目されていなかったが，26 日 15 時 21 分に 3 万人以上のフォロワがいるユーザ A によって retweet されたことがきっかけで多数の retweet がなされた．同時に，ユーザ A が行った二つの tweet がそれぞれ 423 回，960 回 retweet された．特に，同日 15 時 40 分に投稿された表紙デザインにおける問題点を海外の学会誌表紙のケースに置き換えて説明した tweet は，表紙に関する意見を述べた tweetとしては最も多く retweet されたものの一つである．その後，ジェンダーおよび間接的な差別表現につい＊2 twitter が提供する機能を使って行われた retweet ＊3 http://www.ai-gakkai.or.jp/?p=4923 ＊4 http://www.itmedia.co.jp/news/articles/1312/ 25/news141.html 図 1　tweet 数，retweet 数の日別変化 tweet数 retweet数 tweet 数

(3)

て twitter 上でさまざまな意見が投稿され，26 ～ 27 日に 100 回以上 retweet された「人工知能」を含む tweet 46件のうち 31 件がジェンダーに関する問題に言及していた． 26日 18 時頃，一連の tweet が tweet まとめサイト togetterにまとめられた＊5_{．このまとめは 3 000 回以上} twitter上で言及されており，多くの twitter ユーザに「人工知能」の表紙を知るきっかけを与えた可能性が高い．同時に，「人工知能」表紙の件に関連した話題も展開され，表紙の女性は男の娘＊6_{である，という tweet が} 2 600回以上 retweet されているほか，他学会の学会誌表紙にどのようなものがあるかを紹介した tweet が数多く投稿されており，3 000 回以上 retweet された tweet も存在する．その後，27 日 10 時 24 分に国内の大手掲示板サイト 2ちゃんねる＊7_{にスレッドがつくられ，2 ちゃんねるま} とめサイト「痛いニュース」が 27 日 16 時頃に当該スレッドへの投稿を元に記事＊8_{を掲載した．当該サイトは 1 日} に 100 万人近いアクセスがあることから，人工知能の表紙に関する議論が一般へ認知されるきっかけになったと予想される．これらのまとめサイトはいずれも「表現が差別的である」という主張に対する疑問が多く，今回の表紙を問題視する人々を揶や揄ゆするような内容まで見受けられた．また，27 日からは本件に関する個人の blog が話題にのぼり始める．27 日 15 時頃にはてな匿名 blog に投稿された「人工知能学会表紙批判への反論，を片っ端から論破していく＊9_{」以降，2014 年 1 月 1 日の「人工知} 能学会の表紙について，会員として調べた／考えたこと＊10_{」まで 7 件の blog が twitter 上で話題となった．}

これらの twitter で URL が 100 件以上投稿された blog は，すべて表紙問題に客観的な視点から問題点を指摘しており，2 ちゃんねるのまとめサイトとは大きく異なる点は興味深い．

4．tweet データの分析

4･1　データの前処理・ボットの排除本章では，収集した tweet データの統計的性質から， twitter上で表紙問題がどのように扱われたかを分析する． tweetデータを扱ううえで，ボット＊11_{による tweet} はノイズとなることが多いため，分析するうえでは排除することが望ましい．ボットの判定手法はいくつかも提案されている [Chu 12, Ghosh 11]が，本稿では簡単化のために ● 同じ内容の tweet を何度も行っているユーザ ● 利用単語に偏りがあるユーザ ● _{ボットとして登録されているユーザ} をボットと判断して，前処理の段階で tweet を排除した．まず，同じ内容の tweet を行っているユーザの排除方法について述べる．1 ユーザの全 tweet を比較し，全く同一の tweet については重複 tweet と捉え，このような tweetはまとめて 1 種類の tweet として扱う．あるユー ザが s 種類の tweet を計 t 回 tweet したとき， （1）となるユーザはボットと判断した．次に，利用単語に偏りがあるユーザは以下のように判定する．形態素解析＊12_{した単語 w} i{i＝1, …, n} の出現 回数 Nwiについて，出現確率 P を用いて， （2）（3） なる単語出現エントロピー H＊13_{を用いて単語出現の偏} りを算出した．詳細は割愛するが，H<4.0 となるユーザ については，利用単語に偏りがあるユーザとしてボットと判断し，排除した．最後に，twitter 上のボットアカウントを収集しているサイト＊14_{に登録されているアカウントについては，} ボットと判断した．ただし，tweet 数が 10 以下のユーザについては，ボットかどうかの判断が正確にはできないため，tweet 内容による判断は行わず，サイトにボットとして登録されているもののみをボットと判断した．以上のようにしてボットを判断した結果，141 ユーザ， 2 723 tweetがボットによるものとして排除された．以降，本章で使われるデータについては，ボットを排除したものを用いている． 4･2　主なイベントと tweet 数の関係 twitter上でどのような話題が盛り上がったのかを確認するため，前章で述べた主な Web 上のイベントと tweet数の変化について見る．図 2 は，Web 上で起きた表紙問題に関する主なイベントと tweet 数の変化の関係をプロットしたものである．横軸に時間を，縦軸に 1 時間当たりの tweet 数を示し，Web 上でイベントが発生し＊5 http://togetter.com/li/607736 ＊6 女装した少年を意味するネットスラング＊7 http://hayabusa3.2ch.net/test/read.cgi/news/ 1388059424/ ＊8 http://blog.livedoor.jp/dqnplus/archives/ 1783385.html ＊9 http://anond.hatelabo.jp/20131227145434 ＊10 http://bit.ly/1cP3gRV ＊11 自動で tweet を行うアカウント＊12 文を単語単位に分割し，品詞を判別すること＊13 単語出現の偏り具合を表す指標＊14 http://bot.cuppat.net/ u＝s t < 0.8 Pi＝ Nwi n k＝1Nwk H＝− pilog pi

(4)

た時刻の折れ線上に印をプロットしている．ただし，主な tweet は 500 回以上 retweet された tweet，主な Web サイトと主な blog は 100 回以上 twitter 上で言及された Webサイトおよび blog 記事である．図 2 より，人工知能学会 Web ページで表紙変更のお知らせが行われた 12 月 25 日には，人工知能学会のサイトおよびそれに言及した tweet によって twitter が盛り上がり，ITmedia の記事がそれを補強したようである．その後 26 日の日中はそれほど人工知能に言及した tweet はなかったが，15 時過ぎに投稿された tweet がきっかけとなって一気に tweet 数が増加した．さらに twitter のまとめサイトにまとめ記事が投稿された直後にまた tweetが増加したことがわかる．明けて 27 日も tweet とサイトの参照が多くなされており，twitter と関連サイトによって盛り上がっていることがわかる．27 日の 13 時に 1 時間当たり最大の tweet 数（3 593 回）を記録し，その後の書込み数は減少していく．一方で，blog 記事の多くは 27 日のピークを超えた後に投稿されている．28 日以降はサイトの参照や retweet の多い tweet が減少し， blog記事の数が増加する．ただし，blog によって tweet 数が増加するという現象は見られない．以上より，「人工知能」表紙に関する tweet は，当初人工知能学会などのサイトで紹介された記事が元となって行われていたが，その後，表紙に含まれる問題について指摘された tweet を元に議論が行われ，まとめサイトによってそれが広まっていったといえる．さらに，個人 blogによる今回の 1 件に関する言及は，概ね twitter 上での話題が収束に向かったころから盛んになってきたといえる． 4･3　特徴語の推移今回の会誌「人工知能」の表紙刷新の是非について， twitter上で幅広い意見・批判が寄せられた．今回の事態において twitter 上で何が起こったのか知ることは，人工知能研究と社会との関わりを検討するうえでも重要である．そこでここでは，人工知能の表紙に関連する tweetの投稿内容を分析し，表紙に対する賛否，批判，反応などを概観する．まず，twitter 上でどのような話題が主な話題となったのか，その時間変化を確認するため，1 日ごとに特徴的に現れた単語を抽出した．抽出対象となる単語は，全期間を通して 100 回以上出現した名詞である．名詞の抽出には形態素解析ライブラリ lucene-gosen＊15_{を用いた．特徴語は，ある 1 日 d に} 単語 wiが出現した回数を Nwidとしたときに，（4）（5）（6） によって求められる tfidfwi,dが高い単語とした．ただ し，ここでドキュメント d はある 1 日に現れたすべての tweetとし，｜D｜は全日数（｜D｜＝ 24），｜d : d  wi｜は単語 wiが出現するドキュメント数（日数）である．なお，得られた単語の中で「人工知能」および形態素解析の失敗によって得られた単語は削除した．ところで，retweet は，ほかのユーザに情報を拡散するために利用される twitter の機能であるが，1 ～ 2 クリックで行える簡単な作業である．そのため，それほど興味がなくても簡単に行うことが可能であり，大量の retweetがあるからといって，その内容が規模に見合う特徴であるとはいえない．一方，retweet 以外の tweet は， tweetを自分で書く必要があるため retweet する以上の興味をもって行われていると考えられる．そこで，本稿では retweet を除いた tweet だけから特徴語を抽出することとする．得られた特徴語を表 1 に示す．時間順に見ていくと，まず 25 日の段階では「チェンジ」，「お知らせ」，「会誌」，「掃除機」といった表紙の変更やその内容に言及する tweet が多いことがわかる．なお，バーテンダー， CNET，Android は表紙問題とは無関係の話題に関する図 2　tweet 数，retweet 数の時間変化 tweet数主な Web サイト主な tweet 主な blog tfwi, d ＝ Nwid kNwkd idfwi, d ＝ log ¦D¦ ¦ d : d wi¦ tf idfwi, d＝tf· idf ＊15 http://code.google.com/p/lucene-gosen/ twitter まとめサイト２ちゃんねるまとめサイト人工知能学会 Web ページ ITmedia ２ちゃんねる

(5)

単語である． 26日になると「性差別」，「蔑視」，「ジェンダー」という単語が特徴語に含まれ，表紙に含まれていたジェンダー的問題点が話題になっていることがわかる．それとともに，「男の娘」というスラングが特徴語となっており，すでに関連話題が生じていることがわかる． 27日には，2 ちゃんねるのまとめサイトである「痛いニュース」，「はちま寄稿」が特徴語として入り，この時期は外部サイトから情報の流入が多かったと考えられる．さらに，「反論」，「文句」などの特徴語から，なんらかの議論が行われていたと推定される．また，「肛門」，「大腸」が特徴語として現れているが，これは「日本大腸肛門病学会」のポスターが学会のポスターとしては極めて面白いと，話題となったためである．その後，建築学会や情報処理学会などの表紙も話題となり，さまざまな学会の創意工夫がなされた表紙について話題となっていたが，これらは表紙問題とは直接関係がなく，本件が話題提供のきっかけとなったことがうかがえる． 28日には，「萌え」，「美少女」という単語が現れ，ジェンダーの問題という観点から表紙の少女に対する評価が含まれた tweet が増加した． 29，30 日には「児童」，「小銃」という単語が入ってきているが，これは blog サイト「児童小銃」に，「人工知能学会の表紙の件＊16_{」というタイトルで blog が掲載} され，twitter 上で話題となったためである．当該 blog では「人工知能」の表紙に関する問題点が指摘されていた．これ以降，複数の個人 blog で表紙問題について言及されているのが確認できている． 12月 31 日以降は，再び「ジェンダー」，「フェミニズム」といった単語が特徴語となり，表紙に存在するジェンダー問題に関する話題が中心に戻ってきている．「解釈」という特徴語は blog「人工知能学会の表紙のメイドロボットを考察したら深すぎた＊17_{」に関する tweet に} 多く含まれ，個人 blog が議論を先導していることがわかる．また，特徴語にケーブルや箒といった表紙に含まれる記号が現れており，表紙絵に隠された意図を解釈しようという試みがなされている．なお，1 月 5 日以降は，「人工知能がつくったゲーム」に関する話題が中心となり，「人工知能」表紙に対する言及は減少しているようである．以上より，25 日の表紙発表以降，27 ～ 29 日は多数の tweet が存在し，ジェンダー問題として扱っている tweetもあるが，どちらかといえば 1 トピックとして扱われ，コミュニケーションのネタとしての側面が強い．一方で，30 日以降は個人 blog などによる考察や意見が相次ぎ，twitter 上でもそれらの blog 記事などを受けて，表紙問題に関してさまざまな側面から議論が行われていたといえよう． 4･4　話題の推移前節では tf-idf によって特徴語の推移を自動抽出した．本節ではその結果を踏まえ，twitter 上の意見を丁寧に拾い上げるため，「人工知能」というキーワードを含む tweetのうち，20 回以上 retweet されたものを著者らが表 1　日別の特徴語（retweet を除く）＊17 http://sakedrink.info/2694/artiﬁcial-intelligence/ ＊16 http://d.hatena.ne.jp/rna/20131228/p1

(6)

直接読み，意見・批判の集約を行った＊18_．収集された tweet の中で，20 回以上 retweet された tweetは 340 種類あり，これらが retweet により全体の約 3 分の 2（38 452 tweet）を占める．表紙問題以外の人工知能に関する話題＊19_{に言及している 53 tweet を} 分析対象から外し，残りの 287 tweet（retweet 込みで 35 555 tweet）を分析した．この287 tweetにも多種多様な意見が表明されており，そのすべてを限られた紙面上で議論することは難しい．ここでは，表紙に対する直接的な評価や，その理由に関する議論に着目し，主要な論点を以下の 4 点に集約させた．直接的な賛成　「良いと思う」，「気に入った」など， tweetの文面から発信者が表紙を好意的に捉えていると読み取れる tweet 直接的な否定　「デザインが酷い」，「古臭い」など， tweetの文面から発信者が表紙を否定的に捉えていると読み取れる tweet ジェンダー　表紙が女性蔑視や性差別にあたるとの指摘，そもそも表紙が女性であること自体を問題視しているもの，およびこれらの批判に対する反論奴隷的　描かれているのが女性かどうかは関係なく，人間が人工知能やロボットを使役しているように解釈できることへの批判，およびそれらの批判に対する反論ただし，「ジェンダー」はジェンダーの観点から表紙を批判する立場と，ジェンダー論による批判に反対する立場を区別しない＊20_{．「奴隷的」も同様で，表紙を批判} する立場と，批判に反応してさらに批判を行う立場の両方を含める．表 2 に，各論点を含む tweet の数（左側が retweet を除いた数字，右側が retweet による重複を含む数字）を示した＊21, ＊22_{．賛成・否定の tweet 数に着目すると，} 1月号の表紙に対して賛成意見が寄せられていたものの，否定的な意見のほうが盛り上がりを見せていた．さらに特徴的なのは，表紙の賛否に関する tweet よりも，ジェンダーや奴隷に関する言及が多く見受けられたことである．これらの論点に言及している tweet を時系列に並べると，2013 年 12 月 25 日の段階では表紙に対する賛否両論が寄せられていたが，翌日（12 月 26 日）のある tweetをきっかけにジェンダーや奴隷に関する言及が増加する．その日のうちに Togetter まとめが作成され，ジェンダーや奴隷に関する意見表明が加速した．表 2 の論点を含まない 150 tweet（retweet 込みで 19 613 tweet）をさらに詳細に分類したものを表 3 に示した＊23_{．tweet の種類数として最も多かったのは学会} の表紙をきっかけとした別の話題の提供で，35 種類の tweetが 11 431 回 retweet され，他学会の表紙デザインの面白さ・素晴らしさを紹介する内容が目立った．報道発表（人工知能学会からの公式発表やメディアによる報道）やまとめサイトへのリンクの提示が続き，28 tweet （1 854 回 retweet）であった．twitter の投稿は 140 文字以内という制限があり，今回の事態の背景・経緯を丁寧に説明することが難しいため，個人が blog 上で騒動をまとめていたことも特徴的であった．そのほか，今回の表紙の代替案（パロディを含む）やジェンダーや奴隷という論点に踏み込まずに，今回の事態に対して冷めたコメントをしている tweet も多数存在した．以上，今回の表紙問題に関する tweet について，多数 retweetされた tweet を中心に大まかな分類を行った．その結果，本表紙についてジェンダー的問題を指摘した tweet，奴隷的に見えると指摘した tweet が存在し，肯定的，否定的双方の意見が存在している．一方でほかのサイトからの引用であったり，表紙問題に便乗した話題表 2 表紙に対する反応の分類（左側の数字は retweet を

除いた種類数，右側の数字は retweet 回数を表す）．表 3 表紙に関するそのほかの話題（左側の数字は retweetを除いた種類数，右側の数字は retweet 回数を表す）．

＊18 今回分析に用いたデータは，被 retweet 数 20 回以上で 340 tweet，10 回以上で 604 tweet と少なく，教師有り学習などの自動分析手法を適用するよりは，手作業で分析したほうが効率が良いと判断した．＊19 例えば，人工知能に関するドラマの話や，人工知能にゲームをつくらせた話など＊20 例えば「【悲報】人工知能学会の表紙は女性蔑視？」のような投稿では，「悲報」やクエスチョンマークにより投稿者の立場が不明瞭となる．＊21 twitter を利用するユーザ層の偏り，twitter 上で議論されやすい話題の偏り，retweet されやすい言い回しの偏りなどで， tweet数が各論点の支持数を反映するとは限らない．tweet 数は話題や論点の盛り上がり度合いを表す指標として解釈するほうが自然である．＊22 表 2 の各論点は排他的なものではなく，複数の論点を含む tweetが存在することに注意されたい．すなわち，ある tweet がジェンダーと奴隷的であることの両方に言及している場合，両方の論点に対して tweet 数を加算する．＊23 表 2 の分析では，各 tweet に対して一つのカテゴリーを割り当てるように分類した． tweet数 tweet数分類カテゴリー分類カテゴリー

(7)

提供も多く存在し，tweet 数に比べ表紙問題に直接的に関わる議論はそれほど多くなかった．ただし，これはあくまでも 20 人以上のユーザに retweet された tweet であり，個々のユーザ間では議論が行われた可能性もある．今後は，今回の表紙問題とは直接関係のない tweet を取り除いたうえで，どのような議論が行われていたかを明らかにする必要があるだろう．

5．twitter における情報拡散

5･1　ユーザごとの tweet 時間分布今回の表紙問題について，いつ頃広く認知されるようになったのか，またいつ tweet を行ったユーザが継続的な興味をもっていたのかを確認するために，表紙問題に言及またはretweetを行ったユーザについて分析を行う．まず，いつどの程度のユーザが表紙問題に興味をもったのかを調べるため，ユーザの tweet 時間分布を確認した．図 3 に表紙問題に言及したユーザの tweet 分布を示す．横軸が日付，縦軸がユーザ ID を示し，ユーザが tweetを行った時間に点をプロットしている．なお，ユーザ ID は分析期間内の最初に「人工知能」を含む tweet を行った順に付与されている．これより，分析期間内に表紙問題に言及したユーザのほとんどが 12 月 26 ～ 28 日に最初に tweet を行っており，その後も継続して tweet を続けているユーザは少ないことがわかる．この意味で，今回の表紙問題は 12 月 26～ 28 日に話題のピークが来ていたと捉えることができる．特に，27 日に新たに tweet したユーザが極めて多いことから，多くのユーザが「人工知能」の表紙が変更されたニュース記事ではなく，その後のまとめサイトなどの記事を受けて tweet を行っていると推測される．ところで，26 日に初めて tweet したユーザと 27 日に初めて tweet したを比較すると，その後の tweet 濃度に差が見られる．早い段階から tweet を行っていたユーザは継続的に表紙問題について投稿を続け，遅れて入ってきたユーザは比較的早い段階で人工知能に関する tweet を行わなくなっている．これは，当初から参入している表紙問題にいち早くアクセスしたユーザであり，もともと人工知能やジェンダーに興味をもっていた可能性が高い．そのため，長期にわたって表紙問題について tweet を行っていたと考えられる．一方，まとめサイトなどから入ってきたユーザは，それほど人工知能やジェンダーに興味をもっているわけではないため，その後の動向を追う傾向は少なかったのではないかと推測される．そこで，表紙問題にいち早く反応したユーザほど長く本問題に着目し続けていたことを確認するため，最初に関連 tweet を投稿したタイミングと twitter 上での話題が一段落した，2014 年 1 月 1 日以降の tweet との関係を見る．図 4 に，12 月 25 ～ 28 日に最初に関連 tweet を行ったユーザが 2014 年 1 月 1 日以降に関連 tweet を投稿した割合を示す．この結果から，25 日，26 日に関連 tweet を行ったユーザはそれ以降に初めて関連 tweet を行ったユーザよりも 1 月 1 日以降も tweet を行う割合が多いことがわかる．この差は比率の差の検定を行った結果有意であり，25 ～ 26 日に関連 tweet を行ったユーザのほうが興味の持続性が長い可能性が高いことが示唆された． 5･2　tweet の拡散次に，今回の話題に関する tweet が twitter というソーシャルネットワーク上でどのように広がっていったかを把握することを試みる．情報拡散を把握したいとき，理想的にはユーザ単位で情報拡散を時間経過に沿って俯瞰できることが望ましい．しかし，本データは 42 369 ユーザのネットワークとなるため，個々のユーザに注目しながら情報拡散を追っていくことは難しい．そこで本稿では，まずユーザをコミュニティに分割したうえで，コミュニティ単位で情報拡散を時間経過に沿って俯瞰していく． § 1　コミュニティへの分割情報拡散を俯瞰するに先立ち，ユーザ全体をいくつかのコミュニティに分割する．コミュニティへの分割は，ユーザ全体をネットワークと捉えたうえで，コミュニティ分割の手法を適用する．また各コミュニティを特徴付けるために，各コミュニティに特徴的な語（以下，コ図 3　ユーザごとの tweet 分布図 4　最初に tweet を投稿したタイミングと 1 月 1 日以降の tweet率最初に関連 tweet を投稿した日 1 月 1 日以降の tweet 率

(8)

ミュニティ特徴語）を抽出する．具体的な手順は以下のとおり．ネットワークの構築　何らかの関係性によってユーザ間にリンクを張り，ネットワークを構築する．twitter で用いることができるユーザ間の関係性は，フォロー関係や retweet 関係などさまざまなものが考えられるが，本研究では，情報拡散への寄与度が高いと考えられる点，大規模なデータ収集が用意である点から相互メンション関係を用いる．ここではユーザ A とユーザ Bがお互いにお互いのスクリーンネームを含む tweet を 1 回以上行っている場合に，ユーザ A，ユーザ B 間にリンクを張る．本データセット内の相互メンション関係だけでは量が十分ではなく，また偏っていると考えられるため，新たにデータを取得しなおした．株式会社ホットリンクから提供されるデータの制約上， 2012年 1 月から 2013 年 4 月までの間に投稿された tweetから，ユーザごとに直近 1 000 件の投稿を（当該期間の投稿数が 1 000 件以下のユーザは全投稿）取得する．この新たな tweet 集合から，相互メンション関係を抽出し，それを用いてユーザ数 42 369，リンク数 83 140 のネットワークを構築した．コミュニティの分割　次に構築したネットワークをコミュニティに分割する．コミュニティ分割手法としては，代表的な手法である Louvain 法を適用する [Blondel 08]．結果として，20 971 個のクラスタを取得することができた．コミュニティ特徴語の抽出　抽出したネットワークを特徴付けるために，特徴語を抽出する．本研究では，ユーザの twitter プロフィールに含まれる自己紹介文を用いる．各ユーザの自己紹介文を収集した後，各コミュニティを構成するユーザの自己紹介文を結合し，それを 1 文書とする．このように生成したコミュニティを特徴付ける文書集合において，各コミュニティの文書ごとに語の tf-idf 値を算出する．そして各コミュニティの文書ごとに，tf-idf 値の上位 20 語を，コミュニティ特徴語とした．以上のような手順により，ユーザ集合をコミュニティに分割したうえで，各コミュニティを特徴付けるためのコミュニティ特徴語を抽出した． § 2　コミュニティ間での情報拡散分割したコミュニティ間での情報拡散を可視化するために，図 5 のような情報拡散図を作成した．ここでは，コミュニティに含まれるユーザ数が 100 名を超えているコミュニティのみを用いている．このようなコミュティは全部で 45 個あり，それらに属する合計ユーザ数は 19751名である．これは全ユーザの 46.6％にあたる．図 5 において，紙数の関係上，表紙問題が twitter 上で最も盛り上がった 25 ～ 28 日の 4 日間を対象とし，4 時間単位でコミュニティ間での情報拡散を表現した．一番上の一列のノードが時間帯を表すノード，それ以外のノードがコミュニティを表している．コミュニティを表表 4　代表的なコミュニティの特徴語図 5　コミュニティ間での情報拡散（期間：12 月 25 日 00:00 ～ 28 日 23:59）

(9)

すノードのラベルは，そのコミュニティの ID である．時間は左から右に流れており，ある時間帯を表すノード，例えば「12/16 16」の下に縦に並んでいるノードは，12 月 16 日 16 時 00 分～ 19 時 59 分に投稿された各コミュニティのユーザに投稿を表しており，ノードの大きさはその時間帯に行われた retweet の回数を表している．各時間帯ごとに 300 人以上の投稿があったコミュニティのみを表示した．各ノード間のエッジは，ある時間帯の 2コミュニティ間で 5 回以上 retweet が発生したことを意味している．なお，ノードの上下関係は可視化の制約上生じたものであり，特に意味はない．また各コミュニティの特徴を把握するためにサイズの大きいいくつかのコミュニティの特徴語を表 4 に示した．図 5 に従って順を追っておくと，まず 25 日の 16 時台に ID 9094 のコミュニティ，20 時台に ID 9205 のコミュニティが反応している．表 4 より，ID 9094 はゲーム好きのユーザが多いコミュニティ（表中の MoE は MMORPG「Master of Epic」の略と推測）と推測される，同様に ID 9205 は原発問題に関心をもったユーザが多いコミュニティであるという推測が成り立つ．しかし， ID 9205は最も構成ユーザが多いコミュニティであるため，原発問題に関心があるユーザだけではなく，それに付随して研究者や評論家なども含まれてしまっている．ここでは原発問題に関する話題があるユーザに届いたというより，26 日 0 時台の段階で最も幅広く情報が拡散する可能性があるコミュニティに話題が到達したと考えられるだろう．実際，夜をまたいで翌日の昼までそのコミュニティ内で話題が拡散している．そして 26 日の 16 時台にはいくつものコミュニティに話題が到達している．表 4 より，ID 5018，5260，5947，15139 はそれぞれ電子工作，IT，ボーカロイド，軍事（WoT はオンライン戦車アクション「World of Tanks」と推測）に興味のあるユーザが多いコミュニティであると推測される．つまり，26 日における 1 回目のピークにおいては最大のコミュニティである ID 9205 を介して，さまざまなコミュニティに話題が波及したと考えられる．表 1 と対比すると，その際にジェンダー論的な用語に加えて「男の娘」といったいわゆるネット的な用語が登場したことがわかる．その後夜を挟んで，27 日のお昼過ぎには電子工作系，IT 系コミュニティにおいて，情報が拡散している．表 1 と対比すると，この時間帯の情報拡散はまとめサイトによる影響が大きいと推測される．そして，27 日の 20 時台には ID 2383，SF コミュニティに到達して，そのコミュニティ内で拡散した後，28 日に収束していったと考えられる．今回 twitter 上では，図 2 より，25 日から 28 日深夜までの間に 2 回ピークが発生している．25 日の間にいくつかのコミュニティで，徐々に話題が拡散していき，26 日の 0 時台に最も大きなコミュニティに到達したことで，そこで情報が幅広く拡散し，さまざまなコミュニティに話題が拡散していったと考えられる．これが一度目のピークの要因であると考えられる．また，27 日の二度目のピークは，前述のように twitter 上での情報拡散よりもまとめサイトによる影響が大きいと推測される．

6．ま　　と　　め

本稿では，「人工知能」の表紙問題について，twitter でどのように扱われていたかを分析を行った．外部サイトとの比較，話題の時系列変化，話題に参加したユーザの変化を中心に分析を行い，表紙問題が twitter 上でどのような広がりを見せたのかを俯瞰的に示した．今回の分析では，十分に深いレベルまで掘り下げることはできず，表面的な事実を述べるに留まった．今後さらに深いレベルの分析を行うとともに，人工知能関係者以外が人工知能についてどのような意見をもっているか，など本データからさまざまな情報を発見することを目的とし，分析を継続する予定である．なお，1 月 9 日には朝日新聞に表紙問題について掲載され，さらに朝日新聞の英語版をもとにした記事が BBCニュースにも掲載され，新たな議論を呼んでいたと推測される．一般紙に掲載されたことの影響がどのようなものであったかについても，今後追跡調査を行う．謝　辞本稿執筆に当たり，twitter のデータをご提供いただいた株式会社ホットリンクに感謝する．また，本稿執筆に当たりさまざまなご意見をいただいた電気通信大学篠田孝祐助教に感謝する．

◇　参　考　文　献　◇

[朝日 14] 朝日新聞 2014 年 1 月 9 日：「女性ロボットの表紙めぐり “炎上”人工知能学会誌，デザイン一新で」（2014）

[Blondel 08] Blondel, V. D., Guillaume, J.-L., Lambiotte, R. and Lefebvre, E.: Fast unfolding of communities in large networks,

J. Statistical Mechanics: Theory and Experiment, Vol. 2008, No.

10, p. 10008（2008）

[Chu 12] Chu, Z., Gianvecchio, S., Wang, H. and Jajodia, S.:

Detecting Automation of Twitter Accounts: Are You a Human,

Bot, or Cyborg? （2012）

[Ghosh 11] Ghosh, R., Surachawala, T. and Lerman, K.:

Entropy-based classification of ‘retweeting’ activity on twitter, arXiv

preprint arXiv: 1106.0346 （2011） [長谷川 14] 長谷川貴之，鍜治伸裕，吉永直樹，豊田正史：オンライン上の対話における聞き手の感情の予測と喚起，人工知能学会論文誌，Vol. 29, No. 1, pp. 90-99 （2014） [稲葉 14] 稲葉通将，神園彩香，高橋健一： Twitter を用いた非タスク指向型対話システムのための発話候補文獲得，人工知能学会論文誌，Vol. 29, No. 1, pp. 21-31 （2014）

[Java 07] Java, A., Song, X., Finin, T. and Tseng, B.: Why we twitter: Understanding microblogging usage and communities,

Proc. 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web

Mining and Social Network Analysis, pp. 56-65, ACM （2007）

[風間 10] 風間一洋，今田美幸，柏木啓一郎：ブログ空間の情報伝播ネットワーク特性の定量化，人工知能学会論文誌，Vol. 25, No. 3,

(10)

[Kwak 10] Kwak, H., Lee, C., Park, H. and Moon, S.: What is twitter, a social network or a news media?, Proc. 19th Int Conf.

on World wide web, pp. 591-600, ACM （2010）

[松尾 14] 松尾豊，栗原聡：「人工知能」の表紙に対する意見や議論に関して，http://www.ai-gakkai.or.jp/（2014） [鍋島 13] 鍋島啓太，渡邉研斗，水野淳太，岡崎直観，乾健太郎：訂

正パターンに基づく誤情報の収集と拡散状況の分析，自然言語処理，Vol. 20, No. 3, pp. 461-484 （2013）

[Sakaki 10] Sakaki, T., Okazaki, M. and Matsuo, Y.: Earthquake shakes twitter users: Real-time event detection by social sensors, Proc. 19th Int. Conf. on World wide web, pp. 851-860,

ACM （2010） [篠田 13] 篠田孝祐，榊剛史，鳥海不二夫，風間一洋，栗原聡，野田五十樹，松尾豊：東日本大震災時における Twitter の活用状況とコミュニケーション構造の分析，知能と情報，Vol. 25, No. 1, pp. 598-608 （2013） [鳥海 10] 鳥海不二夫，山本仁志，諏訪博彦，岡田勇，和泉潔，橋本康弘：大量 SNS サイトの比較分析，人工知能学会論文誌， Vol. 25, No. 1, pp. 78-89 （2010） 2014年 2 月 6 日　受理鳥海　不二夫（正会員） 2004年，東京工業大学大学院理工学研究科機械制御システム工学専攻博士課程修了．同年，名古屋大学大学院情報科学研究科助手，2007 年同助教，2012 年東京大学大学院工学系研究科准教授．エージェントベースシミュレーション，人工市場，ソーシャルメディアなどの研究に従事．電子情報通信学会，日本社会情報学会系会員．博士（工学）．榊　　剛史（正会員） 2004年東京大学工学部電子情報工学科卒業．2006 年同大学院修士課程修了．2013 年 12 月同大学院博士課程修了．東京大学工学系研究科研究員．専門は，人工知能，自然言語処理，Web マイニング，社会ネットワーク分析．博士（工学）．岡崎　直観（正会員） 2007年東京大学大学院情報理工学系研究科電子情報学専攻博士課程修了．同年，東京大学大学院情報理工学系研究科特別研究員．2011 年より，東北大学大学院情報科学研究科准教授．自然言語処理，テキストマイニングの研究に従事．情報処理学会，ACL 各会員．博士（情報理工学）．

「人工知能」の表紙に関するTweetの分析(<小特集>「人工知能」表紙問題における議論と論点の整理)

1．は じ め に