SNS における炎上リスク分析と対策システムの開発
Risk Analysis and Monitoring System against SNS Flaming
山下晃弘
1中村拓哉
2川村秀憲
3鈴木恵二
3Akihiro Yamashita
1, Takuya Nakamura
2, Hidenori Kawamura
3and Keiji Suzuki
3 1東京工業高等専門学校
1
National Institute of Technology Tokyo College
2株式会社調和技研
2
Chowagiken Corporation
3北海道大学
3Hokkaido University
Abstract: While user population of SNS is increasing recently, SNS risks such as flaming or leak of
personal information have become social issue. In this research, we investigated the process of SNS flaming or information leaking, and we implemented some prototype systems in order to management such risks by oneself. This paper reports our approach and outcomes of the investigation of SNS risks. Additionally, we introduce the SNS monitoring and risk management systems.
1.はじめに
Twitter や Facebook などの SNS を発端としたイン ターネット上での炎上は,2010 年頃から頻度が上昇 し,2013 年には特に注目が集まった[1].2014 年度に おいても,炎上の発生は収まっておらず,新聞やテ レビニュースで取り上げられる事態に至ることも少 なくない.スマートフォンやタブレット端末の急速 な普及により,いつでもどこでも SNS を利用できる 環境が整ったことが背景の一つと考えられる. ICT 総研のレポート[2]によれば,2014 年末におけ る日本の SNS 利用者数は 6,023 万人であり,2016 年 末には 6,870 万人まで増加して,SNS 利用率はネッ トユーザ全体の 66.5%に達する予想である.同調査 によれば,SNS 利用率のうち,LINE 48%,ツイッタ ー 41.9%,Facebook 39.9%であると報告している.ま た,SNS 上で誹謗中傷を受けたユーザは 10%以上に 上っており,SNS 利用におけるリスクの実態を表し た調査結果であるといえる. SNS 利用による炎上等によって,個人情報がネッ ト上にさらされた場合,それを完全に抹消すること は事実上不可能である.標的とされた個人は,進学, 就職,結婚といった社会生活の根底を脅かされかね ない.このようなリスクは,Web の匿名性や SNS の 秘匿性の過信,スマホの普及で実生活とWeb が密接 に結びつくことも要因の一つと考えられる. そこで筆者らは,SNS 利用における情報流出や炎 上のメカニズムを分析し,そのプロセスや特徴につ いて研究を行ってきた.また,SNS 利用者に対して, 投稿内容の拡散や批判的コメントの状況をリアルタ イムに監視し,意図しない情報の流出や異常な情報 拡散に対してユーザに警告を発信するシステムの開 発にも取り組んできており,すでにプロトタイプ版 による実証実験も行っている.本研究では,SNS 利 用における活動が炎上に至る可能性や,それによっ て意図しない情報が流出する可能性を SNS 利用にお けるリスクと捉えることで,リスクの可視化や軽減 にむけたマネジメントを実現する仕組みの構築が目 的である.本稿では,炎上等のリスク対策を実現す る仕組みとして,これまで得られた調査結果と,開 発した対策システムについて報告する.2.関連研究
鈴木ら[3]は,SNS 等 Web 上の公開情報に推論を適 用し,ハイパーグラフモデルによって秘密情報抽出 の可能性を議論している.課題意識は本研究と共通 する部分であり,推論から秘密情報を取得する方法 は興味深い.また,安藤ら[4]は,本研究と同様のモ チベーションで複数の SNS 上のデータから個人特 定の可能性について議論している.SNS の個人属性 に着目した研究として,Twitter のつぶやき履歴か 人工知能学会研究会資料 SIG-KBS-B402-05ら所在地を推定する研究[5][6]や,年齢,性別等のグ ラフィック属性を推定する研究[7][8]等が代表的で ある.またインターネット上の匿名性に言及した特 集記事[9]では,実名を使わないことと匿名性,仮名 性に言及し,たとえ実名ではない ID やニックネー ムであっても,ある行動が同一人物によるものと推 測できる(リンク可能性)場合は匿名性が失われる 可能性があることに触れている.SNS 利用者が匿名 と勘違いした状況において,意図しない領域で個人 が同定され情報がリンクすれば,炎上やネットスト ーカーへのリスクは拡大する. 我々は,このようなSNS 利用の実態とリスクの存 在に対し,個人が適切に自身のプライバシーリスク を把握し,適切な管理と利用をサポートする環境作 りについて検討を行ってきた.本論文ではその取り 組みについて紹介する.
3.SNS 利用実態の調査
筆者らは SNS 利用者の意識調査を把握するための アンケートを実施した.東京工業高等専門学校に通 う 1 年生 204 名を対象に 2014 年 5 月に実施し,無記 名方式とした.対象者の年齢は 15~16 歳である. まず,アンケート対象者のスマートフォン所持率 は,iPhone が 46.1%,Android 端末が 38.7%となった. また,PC での利用も含めた SNS の利用率は 93.1% であった.その上で,SNS 利用者に対しその利用状 況を尋ねた結果を図 1~3 に示す.まず,図 1 は利用 している SNS の詳細である.LINE の利用率は 8 割 を超えており,次いで Twitter, Google+, Youtube, ニ コニコ動画の利用率は約半数と高い結果となった. 図 2 は Twitter の利用者に対し,繋がっている相手を 尋ねた結果である.ほとんどが同級生や中学校時代 の同級生と回答している一方で,半数以上は直接会 ったことのないネット上の知り合いと回答している. ここには掲載しないが,同様の質問を LINE につい ても尋ねたところ,15%が会ったことのないネット 上の知り合いと繋がっており,ネット上での交友関 係を広げるツールとして利用している場合も多いこ とが明らかとなった.また,図 3 は,Twitter の公開 状況,および Twitter でのジオタグを付加した投稿の 状況について尋ねた結果である.ここで着目すべき は,「気にしていない」と答えたユーザが Twitter 公 開状況については 16%,ジオタグ付加については 30%存在していたことである.これらのユーザはご く親しいユーザとのコミュニケーションツールとし て Twitter を利用しており,それらのコミュニケーシ ョン内容が外部にさらされている意識が低いことが 明らかとなった. 図1 各 SNS の利用状況のアンケート結果① 付加しない 67% たまに付加して投 稿する 3% 気にしていない 30% ジオタグの 付加状況 公開している 63% 公開していない 21% 気にしていない 16% Twitterの 公開状況 図3 各 SNS の利用状況のアンケート結果③ 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% L INE T w itt e r F ac ebo ok Goog le + mix i GRE E mob ag e ハン ゲーム Am eba In st ag ram P in te re st T u mb lr V in e Y ou T u be ニ コ ニ コ 動画 前略 プ ロフ ブ ロ グ 利用し て いな い アカウントを所持し利用しているSNS 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 同じ ク ラ ス の同級生 違うク ラ ス の同級生 東京高専の違う学年の学生 他高専の学生 中学校の同級生 家族・ 親族 会っ たこと のあ る 知人 会っ たこと のな いネ ット 上の知り合い 有名 人・芸能人 Twitterで繋がっている人 図2 各 SNS の利用状況のアンケート結果②4.炎上とプライバシー
SNS 上での炎上は,一般的に不適切な発言の投稿 が発端となり,その発言者の個人情報が何らかの方 法で第三者によって暴かれ,Web 上に晒されていく ことで拡大する.そのプロセスには複数のユーザが 関与している場合が多く,詳細に分析することで, SNS 上のプライバシー情報の発見経路や,顕在化の 知見を得ることができる. 筆者らは,SNS から発生した 60 件の炎上事例を 詳細に調査し,その内容や炎上の広がりについて分 析を行った[10].表 1 は事例のうちいくつかをまと めたものである.炎上の発生件数は,2011 年頃から 発生し,一度 2012 年ごろにピークを迎えて減少した 後,2013 年度にはさらに多くの炎上事例が発生して いる.また,炎上の内容を調査した結果,①他人へ の誹謗中傷にあたる投稿(2 件)②犯罪行為を暴露す る投稿(交通違反,窃盗,器物損壊,未成年の飲酒・ 喫煙など 34 件),③職務の問題行為に関する投稿 (業務に関するいたずら暴露,客に対する誹謗中傷, 守秘義務違反など 16 件),④その他問題行為関する 投稿(カンニング,他人のプライバシー侵害など 7 件),の 4 つのタイプに分類された.内訳としては, 特に犯罪行為を暴露する投稿と,職場の問題行為に 表2 近年の炎上事例のまとめ 発生時期 媒体 業種 概要 2011 年 1 月 Twitter ホテル 本人が勤務するホテルのレストランに,有名サッカー選手と芸能人が 来店したことをツイート.本人は過去にも同様のツイートを繰り返し ていた.ホテルの支配人が謝罪し,ホームページ上にお詫びを掲載. 2011 年 12 月 Twitter 大学生 某国立大学の学生が「iPod ゲット.忘れ物からパクった(笑)」と発言 し,炎上 2012 年 2 月 Twitter 飲食業 「頭痛と吐き気がやばくて動けないんだけど疑われて無理やりシフト 入れと言われたので肉鍋にゲロ吐いてきます. 」とツイートし炎上 2012 年 5 月 Twitter 病院 「今日すごい事実発覚!鹿島ア◯トラーズの選手のカルテ発見!住所も電話番号もわかるー…!」とツイートし炎上 2012 年 12 月 Twitter フリーター 「マツモトキヨシで化粧品を万引きするミッション成功!! 」とツイー トし炎上. 2013 年 1 月 Twitter 専門学校生 「あ,そゆいえば今日暇だたけ佐藤寿人のカルテ見てみた♪♪♪住所とか 電話番号とか」と, 医療専門学校生が日本代表 FW 佐藤寿人のカルテ を研修先の病院で見たことを暴露.専門学校は学生を処分し,ホーム ページにおわびを掲載 図4 炎上のプロセスとその対策モデル関する投稿が多かった. 一方で,炎上原因となる発言の投稿を発端として それが拡散し炎上に至るまでのプロセスを分析し, それぞれ時系列に,原因となる発言前の「正常な状 態」,問題発言の「発見フェーズ」,複数の閲覧者に よる「拡散フェーズ」,「本人特定フェーズ」と定義・ 分類した.それぞれのフェーズ毎に,それが炎上に 至るのを防ぐための防止策についても検討を行い, 対応付けた.図 1 は結果のまとめである.本研究は, このような分析結果に基づいて,第三者が取得可能 な情報を推定し,利用者の適切な対策や管理をサポ ートするシステムの実現がゴールである.
5.SNS からの情報流出リスク管理
SNS 上で保持される個人情報はサービス毎に異な る.事例分析においても複数の情報源がリンクした 際にプライバシーが露呈し,本人が意図しない情報 が晒される結果となる場合が多かった.第 3 者によ る情報の紐づけが可能となる要因はいくつか考えら れるが,筆者らの調査によれば,多くの場合,SNS ア カウント名の類似性などの断片的情報から,推測さ れることが原因であった.一方で,同姓同名や類似 アカウントを持つ全く関係ないユーザの情報が同一 人物として紐づけられ,誤った情報の拡散や炎上の 可能性も十分に考えられる.そのような可能性は考 慮しつつも,断片的な情報源が紐づけられる可能性 を事前に評価して認識することは重要である. そこで本研究では,複数の SNS を使うユーザに対 し第三者がそれらを結びつけられる可能性を検討し た.本論文では特に利用者の多い Twitter(以下 TW) と Facebook(以下 FB)について,主として①TW 条 で FB アカウントを明示しているユーザにおける両 アカウント名の類似性,②TW 上で FB アカウントを 明示していないユーザにおける FB アカウント発見 の可能性,に関する実験を行った.本節ではその結 果について報告する.実験には予め開発したクロー ラによって収集した TW アカウントデータ 55,226 件 を用いた. TW アカウントを入力として FB アカウントを収 集する場合,(1) TW アカウント上で自分の FB アカ ウントを公開しているユーザ(FB 明示)(2) TW アカ ウント名と同じ FB アカウント名を使用しているユ ーザ(TW と FB で一致)(3) TW アカウントに対し, "_"を除去または"."に置き換えることで FB アカウン トと一致したユーザ(TW に変更を加えて FB と一 致)に場合分けし,TW アカウントに対し FB アカウ ント(ただし TW ユーザ本人のものとは限らない) を収集した.ただし,FB ページが見つかったものは 除外した. この結果,全アカウント数 55,226 件中, それぞれ 5,237,6,425,8,643 アカウントが該当した.4.1 TW 上で FB アカウントを公開してい
るユーザにおける両アカウント名の類似性
TW アカウントには 140 文字以内の自己紹介文があ り,そこに自発的に自身の FB アカウントを記載する ユーザがいる一方で,全く個別に利用していながらア カウント名や自己紹介文の類似性からから FB アカウ ントを特定され,漏洩に発展する場合も考えられる. 本節では,前述の分類のうち,FB 明示のユーザにつ いて,両アカウント名の類似性を考察した.アカウント 名の類似性評価には,編集距離(レーベンシュタイン距 離)D(𝑐1, 𝑐2)を導入する.編集距離D(𝑐1, 𝑐2)は文字の挿 入や削除,置換によって,文字列𝑐1を文字列𝑐2に変形す るのに必要な手順の最小回数として与えられる.ただ し,𝑐1と𝑐2の文字列の長さが異なる場合,単純な編集距 離では直感と異なるため,本研究では,正規化編集距離 D𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒(𝑐1, 𝑐2) = D(𝑐1, 𝑐2) max( 𝑙𝑒𝑛𝑔𝑡ℎ(𝑐1), 𝑙𝑒𝑛𝑔𝑡ℎ(𝑐2) ) を用いた. 図5 は,得られた FB アカウント名と,TW ユーザ 名およびスクリーンネーム(@で始まる文字列)を,正 規化編集距離で比較した結果である. 評価は小文字に統一して計算を行った.また,"_" や"."などの区切り文字を除去した結果も合わせて掲 載する.この結果から,区切り文字を残した場合で も全体の 18.2%,除去した場合には 55.4%が同一と みなせるアカウント名を利用しており,約半数のユ ーザはほぼ同一文字列を TW と FB のアカウント名 に利用していることが明らかとなった. 0 0.2 0.4 0.6 0.8 1 0 20 40 60 80 100 正規化編集距離 全体に占める割合[%] 小文字に統一 小文字に統一+ 区切 り文字の除去 図 5 FB の利用を明示している TW ユーザにお けるアカウント名の類似性4.2 FB 公開・発見状況に対する TW 利用状況
4.1 節の結果を踏まえ,TW では実名を公開しない ものの,FB と同一又は非常に類似したアカウント名 を使用している場合の調査を実施した.収集した TW アカウントに対し,前述の通り(1)FB 明示,(2) TW と FB で一致,(3) TW に変更を加えて FB と一 致,と場合分けを行い,TW のフォロワー数を比較 した.結果を図 6 に示す.その結果,FB アカウント を明示しているユーザは,フォロワー数が多い傾向 があることが明らかとなった.4.4 TW からの FB アカウントの発見
前節までの検証において,TW と FB が一致するア カウントが確認できた際に,それが本当に同一人物で あるかは評価していない.本節では,この問題について 定性的な考察を加える.この実験では4.1 節で示した 3 つの場合分けそれぞれから無作為に100 件のアカウン トを抽出し,TW および FB の内容を目視による閲覧 で判定を行った.このとき,(ステップ 1) アカウント 名および氏名,TW の自己紹介,TW,と FB それぞれの プロフィール画像,URL,基本データ等のプロフィー ル情報から同一人物または同一人物ではないと判定を 試みる.(ステップ 2) ステップ 1 では判定できず,TW とFB のタイムライン(本人の投稿等)を閲覧して同一 人物と判定,または同一人物ではないと判定を試みる (ステップ 3) ステップ 1,2 では判定できず,TW のフ ォロー・フォロワー,FB の友達関係を閲覧することで 同一人物または同一人物ではないと判定を試みる.ス テップ1,2,3 いずれの方法でも判定不可,という場合分 けを行った.表3 はその結果である. 「TW と FB で一致」で 22 人,「TW に変更を加えて FB と一致」で 17 人は,同一人物と思われる FB アカ ウントを発見した.「TW に変更を加えて FB と一致」 を加えると多少発見率は下がるが,簡単な操作でアカ ウントが同一人物候補として発見されてしまうことは リスクとなり得る. また,本人の FB アカウントが発見され,かつ TW は匿名性を確保して活動しているユーザのうち, 「TW と FB で一致」から 8 人,「TW に変更を加え て発見」から 3 人は実名等の情報を FB から得るこ とができた.さらに,この中の 4 人は TW のアカウ ント設定でプロテクトをかけており,TW からは個 人情報を公開しないように活動しているにも関わら ず,簡単な操作により FB 上での実名の情報が得ら れてしまうという,きわめてリスクの高い状態にあ ると判断できる.5.炎上対策システムの実装
5.1 モニタリングツール「まもっチャオ」の開発
「まもっチャオ」は,本研究の成果を踏まえ,筆者らが 中心となり(株)調和技研と共同で開発したソーシャル モニタリングツールである[11].情報のリアルタイム性 を重視し,不適切投稿の監視や情報の拡散監視につい ては 5 分間隔でのチェックを実現する仕組みを構築し た.現在は,主に炎上事例の舞台となることが多い, Twitter と 2 チャンネルの書き込みデータをバックグ ラウンドで常時監視し,ユーザが設定したNG ワード や個人情報が発見された場合には,直ちにアラートを 送信する機能実装している.また,単純な辞書マッチン グでのNG ワード検出だけではなく,学習アルゴリズ ムによる文脈解析によって危険と判断した書き込みに はアラートを送信する機能も実装している(図7). 実装のプラットフォームとしては,Web アプリケー ション版とiPhone アプリ版の 2 種類を開発し,2013 年より運用している.Web アプリケーション版は,主 に大量のアルバイトや社員を抱える企業や団体を想定 し,ソーシャルリスクからの社員の保護と社内管理を 目的として開発したツールである.企業によって,社員 の個人情報だけではなく,内部情報が外部に流出する 表3 TW アカウントからの FB アカウントの発見 「TWとFBで一致」 ステップ1 ステップ2 ステップ 3 本人であると判定 17 5 0 本人でないと判定 60 5 0 不明と判定 23 13 13 「TWに変更を加え てFBと一致」 ステップ1 ステップ2 ステップ 3 本人であると判定 16 1 0 本人でないと判定 72 2 1 不明と判定 12 9 8 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 10未満 100未満 1000未満 10000未満 10000以上 TWフォロア数 全体 FB明示 TWとFBで一致 TWに変更を加えて発見 図6 TW フォロアー数の差異ことを防ぐために,一括管理でのNG ワード登録機能 と管理者による状況把握の機能を実装している.一方 でiPhone アプリは個人利用を想定し,SNS の利用状 態の健全性や,個人情報が意図しない形で流出してい ないかをモニタリングするツールである. 本ツール構築に際し,多数のアルバイトを抱える企 業や,顧客サービスを提供する企業等,多数の企業にヒ アリングを実施し,プロトタイプの使用に関する評価 を実施中である.現時点で得られた定性的な評価によ れば,不適切な投稿に対するフィルタや,拡散状況の可 視化に対する社会的なニーズは強く,特に炎上に至ら ない間での対処を行うためにもリアルタイム性は重要 である.リアルタイム性を確保しつつ,使い勝手の良い システムへの改善が今後の課題の一つである.一方で, 本システムは 2013 年度より日本プロサッカーリーグ (J リーグ)の選手にも実際に利用して頂いている.J リーグでは,SNS によるサポータとの積極的な交流を 推進しており,不適切発言の防止は重要課題である.ま た,サッカーくじ等の関係から,スタメン情報や試合会 場への移動が想定される発言も問題発言として検知し たいというニーズを頂き,専用のカスタマイズを加え ている. 本システムに関しては2013 年 12 月 5 日にテレビ北 海道の報道番組で取り上げられたほか,多数のメディ アで紹介頂いた.
6.終わりに
気軽に利用できるSNS 上では,つい個人的な発言を しがちである.メディアに発展する炎上はごく一部で あるが,潜在的にはSNS を利用する大部分のユーザが, ネットストーカーなどの第三者によって想定を超えた 情報漏えいに晒される可能性が否定できない. 筆者らの研究は,拡大するSNS 利用の中で,本人が 正しくその利用の実態を把握し,現状でどのようなリ スクを抱えているのかを可視化する技術開発が目標で ある.具体的なシステム開発も行ってきた結果,莫大な 情報源からのデータクローニング技術や,リアルタイ ムなビッグデータ処理技術など,解決しなければなら ない課題も多いことが分かった.筆者らの取り組みは, まずはそれらの基礎となるリスク管理モデルを確立し, 総合的なサービス提供に向けた第一歩である.新しく 魅力的な機能やサービスが日々生み出される一方で, 多様化するSNS サービスを個人の立場から俯瞰し,安 心安全を担保して適切なコミュニケーション環境を保 守する仕組みの構築を実現していきたい.参考文献
[1] 平成 26 年度情報通信白書, 総務省,2014 [2] 2014 年度 SNS 利用動向に関する調査,ICT 総研, http://www.ictr.co.jp/report/20140821000067.html [3] 鈴木遼, 他:推論による情報漏えい防止のためのハイ パーグラフモデル, 電子情報通信学会論文誌.D, 情 報システム J95-D84, pp812-824, 2012. [4] 安藤寿英, 他:複数 SNS サイトにおける発信情報分 析による個人特定の可能性の検証, 第 11 回情報科学 技術フォーラム, 2011.[5] Z. Cheng, et al. You are where you tweet: A content-based approach to geo-locating twitter users. In CIKM’10, 2010. [6] J. Eisenstein, et al. A latent variable model for geographic
lexical variation. In EMNLP 2010, 2010.
[7] D. Rao, et al. Classifying latent user attributes in twitter. In Proc. of the 2nd international workshop on Search and mining usergenerated contents, pp. 37–44, 2010.
[8] J. D. Burger, et al. Discriminating gender on twitter. In EMNLP2011, pp. 1301–1309, 2011. [9] 折田 明子, ソーシャルメディアと匿名性, 人工知能 学会誌, Vol.27, No.1, pp.59-66, 2012 [10] 山形聖志, 川村秀憲, 鈴木恵二:SNS 炎上の分 析に基づく炎上対策方法の研究, 人工知能学会研究 会資料, SIG-KBS-B303, pp.13-18, 2014. [11] ソーシャルモニタリングツール「まもっチャオ」 http://www.chowagiken.co.jp/wp-content/uploads/2013/11/leaflet_ver01.00.pdf 図7 ソーシャルモニタリングツール「まもっチ ャオ」iPhone アプリの利用画面