Twitter データを利用した
「新型コロナウィルス」関連語句の分析
峰
滝
和
典
要旨 2020年5月21日から30日の期間,「新型コロナウィルス」に関する Twitter のツィー トデータを取得して,テキストマイニングを行った。その結果,緊急事態宣言の解除がもた らした影響について Twitter のツィートデータ上どのようにとらえられているかが分かっ た。経済活動の再開に関するツィートが多い一方, 後半以降新たな感染者の発生に関する ツィートが既に増加していることがわかった。Abstract The purpose of this research is to analyze the effects of lifting the state of emergency by collecting data of tweets in Twitter related to COVID19. The Japanese government lifted it for Osaka, Kyoto and Hyogo on 21 May, for other prefectures on 25 May, 2020. This research was conducted from 21 to 30 May 2020. The results of text mining imply that tweets of the restart of economic activities can be observed through this period, and on other hand tweets which concern the emerge of infected persons by COVID19 have already increased in the second half of this period.
キーワード Twitter ,新型コロナウィルス,テキストマイニング,共起ネットワーク,階 層的クラスター分析
1.は じ め に
Twitter が社会に大きな影響力を持っているのはこの一カ月(注1)でも,5 月8日「#検 察庁法改正案に抗議します」というハッシュタグを付けた抗議が短時間で大量に拡散した ケースや,米 Twitter 社が5月29日,暴力を賛美する内容を禁止する利用規定に違反した として,トランプ大統領によるツィートの上に警告をかぶせ,クリックしないと表示され ないようにしたケースから伺える。 Twitter 社はエンドポイントへのアクセスを検討している開発者や研究者向けにスタン ドアローンアプリケーション用申請フォームを作成している。「公益の利益をサポートす ること」を目的としたアプリケーションのみがその対象となり,プライバシーや倫理に関 する懸念には十分に配慮しなければならない。Twitter Japan(2020)は,「Twitter は5月12日(米国時間)新型コロナウィルス感
染症(以下,COVID19)に関連する真偽に論議のある内容や誤解を生じる情報を含んだ ツィートについて,追加のコンテクストや情報を表示する新たなラベルと警告メッセージ を導入します」と述べ,内容によって人々を混乱させたり,誤解を生じさせる可能性のあ るツィートに対して適切な対応をとるという。これは,2020年3月23日,公式アカウント で,新型コロナウイルス感染症( COVID19)に関連する誤情報やデマなどが含まれる ツィートに削除を要請すると発表したことに続く対応である。
これまで Twitter の API(Application Programming Interface)は,Twitter 社に 申請して認められると利用することが可能であった。桐村喬(2019)によると,API 仕様
変更はこれまでにもなされてきているという。2018年8月には大幅な API の大幅な仕様 変更がなされ,それまで利用可能であった,User streams API や Site streams API が
廃止された(桐村喬(2019))。研究を継続していく上で,Twitter の API 利用環境は変化 していくことには注意しなければならない。
本稿を執筆するにあたって著者も Twitter 社に API 利用の申請し応諾されて研究を開 始した。Twitter Developer Platform 上で,コンシューマー API キー,コンシューマー
API シークレットキー,アクセストークン,アクセストークンシークレットキーを取得し た。 ツィート取得にはリクエスト制限がかけられている。15分で180リクエストである。
2020年5月21日から5月30日まで継続してツィートを取得するためには,スクリプトを作 動させるための物理的な環境を整備する必要があつた(桐村喬(2019))。
新型コロナウィルスと Twitter に関する研究論文はまだ日本では見当たらないが海外で は既に発表されている。Kouzy R. et al.(2020)は COVID19 に関する誤情報がどの程 度広がっているかを検証したものである。COVID19 感染に関する673ツィートのうち, 153ツィート(24.8%)が誤情報を含んでおり,107ツィート(17.4%)が未確認情報を含 んでいるという。誤情報率が高いのはインフォマールな個人 / グループのツィートで誤情 報率は33.8%であることが述べられている。 Abd-Alrazaq et al.(2020)は約280,000ツィートを収集して,ツィートをトピックスご とに整理して感情分析を行っている。トピックスは12種類あり,中国,アウトブレイク, 肉食,生物兵器開発,COVID19 による死者,COVID19 に対する恐怖とストレス,旅 行の禁止・警告,経済損失,パニック的買占め,人種差別の増加,マスクの着用,検疫対 象であり,そのなかでフォロワー数が最も多かったのがアウトブレイク,「いいね」の数 が最も多かったものが経済損失,リツィート数が最も多かったものが肉食,そしてリンク シェアが最も多かったものが中国となっている。また感情分析の結果,12トピックスのう ち10項目がプラス,COVID19 による死者と人種差別の増加がマイナスとなっている。 災害時の Twitter 利用に関しては多数の先行研究がある。三浦麻子(2012)は東日本大 震災時の Twitter でのコミュニケーションについて分析している。 三浦麻子(2012)は Twitter のログ分析を通して大災害に際する人間の情報行動の特徴を示した。ユーザは自 らの抱く強い不安感情を多く開示し,また自らの得た多くの情報を他者と共有しようとし ていたという(三浦麻子(2012))。 須田剛裕・小嶋和徳・伊藤慶明・石亀昌明・鳥海不二夫(2013)は東日本大震災時に Twitter に投稿された約3億の Tweet データにおいて,リツィート数などを使って情報の拡散状況 とデマにつながりやすいキーワードを分析結果を特徴量としたクラスタリングを行うこと で,デマ情報かどうかを推定する試みを行みている。高頻度にリツィートしているツィー トしているリツィートしているパースト検出によって着目すべきリツィートの絞り込みを 行い, リツィートの深さ情報と感情感性を用いてクラスタリングを行い,デマの推定を 行っている。 今回の新型コロナウィルスについても Twitter データを用いた分析結果が発表されてい る。NTT データは,WEB サイト「イマツイ」にて,2 月から5月連休明けまでの期間で 新型コロナウイルスに関する人々の意識がどのように変化していったかについて,Twitter 全量データから分析している。 自粛に関する話題量を調査した結果,2 月から4月中旬ま で一貫して「自粛すべき」の話題が多かったものの,4 月中旬に一度「自粛すべきではな
い」が上回り,4 月下旬から GW にかけて「自粛すべきではない」の話題量が増加して いったという。
2.テキストマイニングによる Twitter のツィートデータの分析
今回用いる Twitter のツィートデータは,2020年5月21日に大阪府・京都府・兵庫県の 緊急事態宣言解除決定の日から開始した。引き続き5月25日は緊急事態宣言が全国におい て解除された。 緊急事態宣言の解除が Twitter 上でどのように取り上げられているのかを見ることが本 稿の目的である。 Twitter のツィートデータには,リプライやリツィートのデータも含まれる。自動的に リツィートを行うリツィート bot も含まれる。同じツィートの文章が繰り返し出てきては, あたかもそれに使用されている言葉が Twitter 内の多数意見とみなされてしまう危険性が あるので本稿では排除した。その結果,参考表にあるようなツィート数が実際に取得され たものである。総計20万ツィート超である。先述したリクエスト制限のために全数調査とはなっていない。python library の Tweepy を用いてツィート・データを取得している。 ツィートデータ取得後,テキストマイニングを用いるとで,出語数,単語間の関係性を 分析した。テキストマイニングとは,テキストを単語やフレーズなどの単位に分割し,そ れらの出現頻 度や共起関係(同時出現)などを集計し,データ解析やデータマイニングの 手法で定量的に 解析する分析ツールである。共起ネットワークと階層的クラスター分析を 用いて,単語間の関係を可視化した。形態素解析によって文章を単語に分割するわけであ るが,本稿ではテキストマイニングのためのフリーソフトの KH Coder によって自動的に 行った。 共起ネットワークでは「距離」を「edge」と呼ぶ。edge は線で表現される。抽出語は node と呼ばれ円で表現され,node は edge によって結ばれる。egde の計測には Jaccard
係数を用いた。 階層的クラスター分析とは,全対象の類似度を計算し,最も類似度の高いものから順次 グルーピングし,最終的に1つのクラスターになるまで繰り返す。結びつきの階層構造を 明確にする。クラスターの分け方については,ward 法を用いた。 表1から表10が2020年5月21日から5月30日までの出語数上位150を掲載している。 5 月21日から5月27日間,‘経済’ が出語数上位20位に入ってる。緊急事態宣言解除によって,
経済活動への関心が高まっていることが伺える。5月25日には,‘安倍’ の出語数ランキン グが5位に上昇したのも緊急事態宣言解除の記者会見の報道によるところが大きいと思わ れる。5 月27日以降,‘北九州’ が,27日13位,28日10位,29日11位,30日6位と急上昇し てのいるのは北九州でのクラスター発生が反映されているものと思われる。‘ブルー’,‘イ ンパルス’,‘感謝’ の注目度合いが高まっているのは,医療関係者への感謝を示すブルーイ ンパルスの飛行に関心が寄せられているものと推察する。29日に‘亜’ と‘塩素’ が20位以 内に入っているのは,「次亜塩素酸水」の安全性が話題となっていることを示している。 30日に‘電通’ が20位内に入ったのは給付金業務が電通に再委託されていたことの報道を受 けた結果だと思われる。 図1から図10は期間内の日々の共起ネットワークを掲載している。ネットワークの可可 視化を目的としているため,最低出語頻度300以上,上位100位の単語に絞って図示してい る。node の大きさは出後頻度の多さを示している。edge で結ばれているのは,共起関係 があることを示している。‘ウイルス’ という node と‘経済’ という node が5月21日から 23日にかけて,同じネットワークにありかつ距離が近い。21日には,‘安倍 ’ ,‘政府 ’ ,‘関 西’,‘大阪’,‘京都’,‘兵庫’,‘神戸’ が比較的密度が高いネットワークを形成している。5月 21日には大阪府・京都府・兵庫県で緊急事態宣言解除が決定されており,そのことがネッ トワーク図にも反映していると考える。22日には,‘大阪’,‘新規’,‘患者’,‘病院’ がネット ワークを形成している。23日には,‘大阪’,‘陽性’,‘患者’,‘神奈川’,‘東京’,‘北海道’ が ネットワークを形成している。28日には,‘感染’ が最大規模の node となり,‘北九州’,‘東 京’,‘新た’,‘確認’ といった node が‘感染’ に次ぐ大きさとなり,ネットワークを形成し ている。22日以降,徐々に感染に関するツィートが増え,ネットワークを形成しているこ とが伺える。 図11から図20は,階層クラスター分析の結果である。単語と単語の関係性がどのような クラスターを経て全体に繋がっているのかを示している。 例えば5月30日の階層クラスター分析(図20)をみると,‘全国’,‘県庁’,‘大都市’,‘所 在地’ が一つのまとまりとなって比較的少ないステップで全体に繋がっていることがわか る。‘効果’,‘塩素’,‘亜’ も同様である。‘医療’,‘機関’,‘患者’,‘病院’,‘新聞’,‘県内’,‘大 阪’,‘陽性’,‘新規’,‘ウィルス’,‘東京’,‘ネット’,‘情報’,‘状況’,‘経済’,‘危機’,‘北九州’, 福岡’ も大きなクラスターを形成しており,それぞれ重層的に全体と繋がっている。これ らは新型コロナウィルスの感染と経済活動に関する語句が多く含まれると考える。
表1 抽出語 上位150(2020/5/21) 出現回数 抽出語 22,133 コロナ 21,251 新型 9,400 ウイルス 9,084 感染 2,395 対策 2,156 影響 2,130 拡大 1,705 東京 1,688 支援 1,645 日本 1,385 医療 1,374 緊急 1,194 事態 1,136 確認 1,106 宣言 1,053 対応 1,032 経済 989 防止 986 検査 951 再開 929 情報 889 解除 847 新た 802 世界 799 営業 796 中国 767 死亡 757 関連 747 マスク 745 発表 723 ワクチン 720 検討 693 状況 691 中止 676 自粛 652 政府 646 職員 645 介護 611 死者 599 コロナ 580 お願い 578 有効 548 可能 547 公開 547 予防 542 生活 534 開催 533 休業 531 最大 528 お知らせ 出現回数 抽出語 527 厚 514 給付 505 必要 501 子ども 499 活性 493 患者 474 企業 469 大阪 464 負担 462 考慮 461 界面 459 学校 455 効果 453 病院 444 延期 432 予定 421 研究 414 多い 413 開発 409 施設 404 国内 403 消毒 393 米 392 事業 389 対象 388 更新 379 神奈川 377 外出 374 利用 369 関係 365 活動 364 急増 364 要請 363 陽性 362 マップ 359 社会 352 詳細 350 開始 349 ロード 349 県内 342 発生 338 緩和 338 危機 336 実施 331 ママ 331 治療 330 申請 319 相談 317 臨時 316 症状 出現回数 抽出語 312 知事 312 流行 310 レモン 309 韓国 306 新規 300 協力 300 質問 300 除去 298 国民 298 肺炎 297 放送 296 安倍 287 従事 283 会見 283 時事 283 専門 282 全国 281 接触 279 免疫 277 抗体 274 皆様 273 日本人 272 学生 269 少ない 267 アメリカ 267 評価 266 機関 266 決定 265 北海道 259 安全 259 継続 252 リスク 250 良い 249 理解 248 疾患 246 自分 246 動画 246 特別 244 話 243 風邪 242 早い 241 飲食 241 調査 241 変更 237 終息 235 埼玉 234 英 234 会議 234 配信 233 サイト
表2 抽出語 上位150(2020/5/22) 出現回数 抽出語 9,400 ウイルス 1,705 東京 1,645 日本 1,385 医療 1,241 コロナ 1,108 ウィルス 1,032 経済 929 情報 847 新た 802 世界 796 中国 747 マスク 723 ワクチン 693 状況 675 新聞 652 政府 646 職員 621 コロナ 611 死者 578 有効 548 可能 531 最大 505 必要 501 子ども 499 活性 493 患者 474 企業 469 大阪 459 学校 455 効果 453 病院 414 多い 404 国内 392 事業 392 米 389 対象 379 神奈川 363 陽性 359 社会 351 詳細 349 県内 338 危機 318 新型 317 臨時 316 症状 312 緊急 312 知事 309 韓国 306 新規 298 国民 出現回数 抽出語 298 肺炎 297 安倍 283 時事 283 専門 282 全国 279 免疫 277 抗体 274 皆様 273 日本人 272 学生 269 少ない 267 アメリカ 266 機関 265 北海道 259 安全 252 リスク 250 良い 248 疾患 246 自分 246 動画 246 特別 243 風邪 239 早い 235 埼玉 234 英 233 サイト 233 米国 230 男性 230 理由 229 外国 229 無い 227 自宅 220 大統領 219 首相 217 女性 216 新着 215 最少 215 小池 213 重症 210 新しい 209 ブラジル 209 医師 208 制度 208 怖い 207 海外 206 不安 203 センター 202 会社 202 高い 200 地域 出現回数 抽出語 196 ネット 192 ご覧 191 都内 190 環境 190 集団 189 最新 186 大学 186 段階 184 店舗 181 大会 180 期間 177 日銀 176 イベント 173 大変 171 インフルエンザ 168 東洋 167 体制 165 電子 164 個人 163 家庭 163 記者 163 千葉 161 委員 160 業界 159 お客様 156 ライブ 155 政策 154 テレビ 154 無料 152 詳しい 152 日常 151 家族 151 中小 150 規模 150 公式 149 現場 149 時点 148 政治 148 独自 147 スーパー 147 警察 146 データ 146 産業 145 強い 145 明らか 144 健康 144 政権 144 洗剤 143 下記 143 方法
表3 抽出語 上位150(2020/5/23) 出現回数 抽出語 8,950 ウイルス 2,582 日本 1,519 東京 1,419 コロナ 1,331 ウィルス 1,157 マスク 1,129 世界 1,084 安倍 1,051 中国 996 医療 956 国民 941 経済 908 活性 785 情報 765 政権 748 コロナ 747 政府 743 理由 741 海外 736 死者 702 状況 655 米 646 効果 642 患者 637 メディア 623 ワクチン 597 新聞 593 大阪 492 新規 478 社会 468 多い 468 良い 458 病院 445 学校 429 新型 427 ブラジル 426 陽性 403 症状 385 少ない 384 県内 371 国内 371 自分 369 最大 368 専門 359 神奈川 348 職員 345 肺炎 339 リスク 335 アメリカ 332 期間 出現回数 抽出語 329 最少 313 全国 312 早い 306 北海道 303 レンタカー 289 危機 287 対象 282 免疫 279 重症 277 企業 277 無い 273 高い 264 日本人 262 女性 261 埼玉 257 データ 251 医師 249 規模 248 都内 247 マラリア 245 洗剤 244 子ども 243 ネット 240 新着 239 事業 239 知事 228 武漢 227 地域 223 大統領 221 韓国 221 機関 220 抗体 219 家庭 219 風邪 216 新しい 215 米国 213 サイト 211 個人 211 全面 211 怖い 204 トランプ 204 総理 202 動画 200 最新 198 政治 197 インフルエンザ 189 債務 189 大手 187 都市 186 新興 出現回数 抽出語 182 バス 181 人間 180 時点 180 病床 180 方法 177 会社 177 子供 177 集団 177 男性 176 皆様 176 最多 175 首相 174 時事 173 産業 171 臨時 170 学生 170 無料 167 テレビ 167 沖縄 167 写真 166 外国 166 厚生 164 お客様 164 大きい 163 自宅 159 欧米 157 アルゼンチン 157 センター 156 市長 156 労働省 152 ライブ 150 中心 149 千葉 146 先生 146 府知事 145 キャンペーン 145 低い 144 悪い 143 現場 142 自転車 142 南米 141 感じ 141 段階 139 状態 139 内閣 138 週間 138 責任 138 被害 137 衛生 136 WHO
表4 抽出語 上位150(2020/5/24) 出現回数 抽出語 11,576 ウイルス 3,159 東京 2,333 日本 2,175 コロナ 2,163 マスク 1,652 政府 1,550 ウィルス 1,456 医療 1,213 経済 1,189 世界 1,158 状況 1,136 中国 1,102 北海道 1,099 死者 944 安倍 942 全面 921 患者 844 情報 808 コロナ 798 良い 771 多い 747 クロ 719 新聞 653 ワクチン 637 社会 622 国民 612 新規 609 陽性 589 大阪 559 米 554 病院 538 高い 529 新型 517 海外 516 通気 505 素材 499 首都 497 政権 494 効果 489 早い 479 機関 469 神奈川 467 リスク 463 国内 457 メディア 450 免疫 446 自分 431 肺炎 429 企業 429 理由 出現回数 抽出語 427 武漢 425 都内 422 学校 409 県内 390 症状 389 方針 365 首相 365 少ない 365 専門 362 地域 349 最大 349 動画 340 経路 337 医師 332 アメリカ 326 高齢 325 全国 312 ブラジル 312 重症 312 日本人 311 都県 307 無い 303 インフルエンザ 300 千葉 296 新着 294 埼玉 291 風邪 289 危機 287 会社 287 時事 287 福岡 281 厚生 280 個人 278 サイト 278 韓国 278 怖い 275 米国 272 期間 270 総理 268 事業 264 対象 263 新しい 262 政治 261 本部 257 最新 252 労働省 249 集団 248 抗体 247 自宅 244 テレビ 出現回数 抽出語 242 香港 241 ネット 236 研究所 232 お客様 228 匿名 227 データ 222 低い 217 院内 217 皆様 217 女性 215 環境 210 京都 207 男性 206 外国 205 札幌 202 知事 202 臨時 202 臨床 201 大きい 199 時点 198 制度 198 都市 197 細胞 194 現場 194 世界中 193 イベント 192 学生 192 人間 192 静岡 191 課題 191 職員 188 店舗 186 委員 185 状態 183 悪い 183 大学 183 段階 179 大統領 179 様式 178 場所 177 原因 177 北九州 175 方法 174 各国 174 写真 173 センター 173 子ども 172 イン 172 子供 171 保険
表5 抽出語 上位150(2020/5/25) 出現回数 抽出語 13,166 ウイルス 3,381 日本 2,099 コロナ 1,974 東京 1,608 安倍 1,570 ウィルス 1,501 政府 1,479 マスク 1,399 首相 1,324 医療 1,279 世界 1,240 中国 1,233 情報 1,190 経済 1,124 死者 1,010 米 968 新た 950 ワクチン 945 状況 770 可能 761 必要 760 全国 724 コロナ 714 社会 703 患者 687 国民 673 事業 656 全面 652 多い 613 新聞 569 企業 543 北海道 537 抗体 523 政権 521 国内 519 海外 502 緊急 498 人工 497 自分 490 病院 474 総理 474 保健所 473 肺炎 468 大阪 460 良い 456 新型 442 本部 436 方針 432 独自 431 少ない 出現回数 抽出語 426 神奈川 417 新着 417 早い 416 専門 415 結核 414 歴史 411 リスク 409 理由 407 新規 406 対象 406 特別 402 学校 395 陽性 393 機関 390 新しい 385 症状 382 闘い 381 県内 381 戦略 374 韓国 368 野球 364 サイト 359 皆様 358 高い 355 米国 353 背景 346 臨時 345 無い 340 インフルエンザ 340 地域 339 プロ 339 記者 337 安全 337 最新 337 西村 335 アメリカ 334 動画 331 期間 330 ブラジル 324 会社 322 重症 317 メディア 316 危機 307 効果 307 詳細 307 政治 304 ネット 302 テレビ 298 埼玉 289 福岡 出現回数 抽出語 288 個人 286 危険 286 都内 286 日本人 285 委員 279 不安 276 段階 274 晋 272 最大 272 子ども 271 モデル 270 イベント 269 学生 265 世界中 265 怖い 258 医師 258 現場 257 スポーツ 256 規模 248 基準 246 大臣 246 風邪 245 武漢 242 データ 241 責任 240 千葉 240 予算 239 免疫 237 有効 236 首都 235 大会 235 知事 233 大変 232 様式 230 時点 230 治験 230 北九州 227 お客様 222 健康 217 ライブハウス 217 皆さん 217 時事 216 課題 215 不要 208 店舗 207 時代 206 各国 205 外国 204 国際 204 市内
表6 抽出語 上位150(2020/5/26) 出現回数 抽出語 13,191 ウイルス 4,019 日本 1,716 東京 1,661 中国 1,606 コロナ 1,502 ウィルス 1,442 マスク 1,437 医療 1,367 世界 1,277 安倍 1,264 経済 1,139 情報 1,138 死者 1,116 政府 1,001 首相 891 状況 864 ワクチン 771 米 768 多い 752 企業 709 コロナ 699 国民 648 患者 636 新聞 607 全国 597 社会 550 事業 512 ブラジル 509 学校 502 国内 469 病院 468 海外 466 少ない 463 政治 456 新しい 455 効果 454 アメリカ 451 専門 446 新型 437 臨時 433 総理 428 北九州 423 大阪 410 症状 407 陽性 405 リスク 402 メディア 401 保健所 398 良い 397 自分 出現回数 抽出語 393 抗体 375 危機 370 対象 362 皆様 361 新規 356 肺炎 354 会社 351 サイト 343 米国 342 免疫 339 インフルエンザ 337 機関 335 韓国 335 神奈川 333 北海道 332 期間 332 理由 331 事務 328 県内 325 政権 324 早い 323 WHO 322 アジア 322 予算 321 高い 315 大学 315 動画 306 現場 301 パチンコ 301 無い 300 武漢 297 局長 293 全面 292 記者 288 新着 287 最新 287 歴史 286 保険 280 様式 278 データ 276 地域 275 日本人 274 課題 268 お客様 266 テレビ 266 欧米 258 段階 255 自宅 252 陰謀 252 人工 出現回数 抽出語 250 知事 248 戦略 247 個人 246 埼玉 245 新報 243 治験 242 匿名 239 アルコール 239 高齢 239 時代 239 福岡 237 電子 235 ネット 234 医師 234 子ども 233 方針 231 ビル 230 ゲイツ 229 クイズ 229 医事 229 重症 228 時事 226 店舗 225 背景 224 イベント 224 悪い 221 怖い 219 結核 213 国際 213 風邪 212 打撃 209 厚生 208 集団 207 闘い 207 内容 206 家庭 206 政策 205 殺人 205 体制 203 大会 201 女性 199 市内 198 通常 197 ホームページ 197 時点 195 最大 194 学生 193 ドット 191 大臣 189 詳しい
表7 抽出語 上位150(2020/5/27) 出現回数 抽出語 13,627 ウイルス 2,672 日本 2,087 コロナ 1,908 東京 1,679 情報 1,491 ウィルス 1,455 医療 1,294 政府 1,291 マスク 1,280 中国 1,175 予算 1,162 世界 1,073 北九州 1,068 経済 1,052 死者 1,031 大阪 930 職員 890 状況 798 安倍 733 陽性 719 患者 708 コロナ 670 韓国 667 新聞 666 兵庫 665 国民 662 加西 661 企業 655 事業 652 知事 634 米 593 社会 591 多い 582 医師 560 前提 527 ワクチン 494 病院 482 学校 476 アメリカ 470 国内 442 臨時 428 首相 425 新型 418 新規 411 会社 404 全国 402 県内 393 自分 393 都内 391 肺炎 出現回数 抽出語 390 大村 384 危機 379 専門 378 武漢 377 症状 373 パチンコ 365 リスク 355 対象 353 地域 350 サイト 348 海外 347 皆様 343 ネット 343 機関 342 最大 341 新しい 341 良い 340 日本人 339 メディア 334 集団 331 抗体 331 総額 328 政治 327 米国 322 効果 317 早い 316 規模 313 テレビ 309 データ 304 政権 300 動画 299 センター 297 市内 294 少ない 293 政策 290 最新 288 女性 287 現場 286 免疫 282 歳出 278 個人 275 愛知 275 市長 273 お客様 270 期間 266 無い 265 北海道 263 業界 260 大学 256 首都 出現回数 抽出語 254 神奈川 251 高い 250 福岡 248 動物 246 インフルエンザ 245 国際 245 店舗 244 重症 241 経路 240 都知事 239 市民 239 自治体 238 スーパー 237 家族 235 男性 235 理由 231 方針 229 詳しい 228 スポーツ 228 学生 226 怖い 223 子ども 223 無料 222 京都 216 ブラジル 216 大会 212 一般 212 需要 212 小池 208 総理 208 電子 207 時点 207 自宅 206 シティ 205 イベント 198 災害 198 福島 196 年度 193 内容 192 トランプ 191 千葉 190 埼玉 189 地方 188 外国 188 被害 187 大手 183 事態 183 人口 183 方法 182 市場
表8 抽出語 上位150(2020/5/28) 出現回数 抽出語 13,250 感染 11,790 ウイルス 3,182 対策 2,834 確認 2,414 東京 2,225 拡大 2,141 新た 2,069 影響 1,924 日本 1,699 北九州 1,447 マスク 1,445 コロナ 1,442 医療 1,325 再開 1,312 ウィルス 1,297 情報 1,198 防止 1,183 対応 1,181 解除 1,148 死亡 1,076 検査 1,016 支援 1,007 宣言 1,004 世界 961 死者 948 営業 946 発表 933 患者 901 自粛 880 大阪 879 状況 877 政府 827 韓国 815 可能 811 経済 787 コロナ 779 専門 764 中国 763 会議 729 連続 704 予防 698 病院 658 要請 652 発生 628 給付 626 職員 600 知事 587 アメリカ 584 陽性 577 外出 出現回数 抽出語 574 中止 541 関連 536 生活 531 休業 528 新聞 520 施設 518 開催 505 県内 498 安倍 487 実施 485 関係 473 予定 469 議事 463 必要 452 多い 451 治療 450 国内 449 米 447 従事 445 決定 439 新規 438 延期 436 国民 436 新型 432 都内 425 福岡 424 全国 405 利用 403 ワクチン 399 質問 394 感謝 392 首都 390 企業 390 症状 384 接触 382 活動 378 公開 376 社会 375 安全 374 北海道 373 肺炎 371 速報 368 流行 367 収束 365 協力 364 学校 359 作成 352 調査 348 事業 345 消毒 出現回数 抽出語 343 時事 340 センター 334 自分 333 愛知 327 効果 324 高校生 309 重症 308 危機 308 緊急 306 増加 299 神奈川 298 コメント 297 ブルー 297 集団 295 検討 292 予算 291 期間 290 検証 290 米国 289 研究 289 着用 288 皆様 288 制限 287 早い 286 話 281 詳細 278 崩壊 277 経路 277 良い 276 導入 275 臨時 273 海外 271 ネット 271 開始 271 国家 271 相談 270 インパルス 270 政権 270 短縮 270 無い 266 サイト 264 首相 262 看護 262 変更 261 報道 260 リスク 260 減少 260 市民 259 ソウル 259 機関
表9 抽出語 上位150(2020/5/29) 出現回数 抽出語 12,072 感染 12,007 ウイルス 3,227 確認 3,165 対策 2,980 東京 2,766 医療 2,411 対応 2,213 拡大 2,128 影響 2,120 新た 1,961 北九州 1,899 ブルー 1,868 インパルス 1,840 会議 1,787 専門 1,766 感謝 1,690 従事 1,564 塩素 1,556 日本 1,552 亜 1,497 コロナ 1,469 飛行 1,296 ウィルス 1,276 再開 1,205 情報 1,163 有効 1,161 宣言 1,150 防止 1,147 敬意 1,111 検査 1,092 議事 1,020 経済 1,006 マスク 947 発表 942 政府 923 営業 883 支援 862 世界 835 状況 822 関係 817 調査 800 解除 794 中国 771 消毒 727 コロナ 711 作成 674 患者 670 中止 663 利用 643 自粛 出現回数 抽出語 632 安倍 616 効果 615 官房 598 死亡 593 新規 592 給付 572 大阪 560 開催 554 休業 549 新聞 544 皆様 533 関連 528 連続 524 可能 519 自衛隊 511 評価 508 予防 504 開示 495 知事 491 予定 488 生活 487 病院 483 多い 483 都心 474 必要 473 韓国 458 活動 457 ブラジル 456 長官 453 発生 442 航空 436 実施 428 企業 426 死者 419 市長 419 施設 416 新型 397 米 394 要請 391 ワクチン 391 延期 387 技術 387 陽性 385 全国 377 治療 374 良い 367 製品 366 上空 363 アメリカ 359 報道 出現回数 抽出語 357 最大 357 肺炎 355 都内 354 国内 353 会見 352 社会 352 流行 351 国民 347 現時点 343 方々 330 福岡 329 学校 328 機構 320 トランプ 318 開発 318 増加 317 協力 317 発言 317 労働 314 首相 313 決定 312 会社 312 外出 308 サイト 308 開始 308 早い 306 機関 306 目的 305 基盤 304 議論 303 記録 301 危機 301 公開 301 速報 298 研究 298 事業 294 内閣 293 リスク 292 安全 292 変更 291 緊急 290 自由 288 政権 286 自分 286 販売 285 気持ち 284 話 283 時事 280 無い 279 悪化
表10 抽出語 上位150(2020/5/30) 出現回数 抽出語 11,228 ウイルス 1,975 東京 1,536 日本 1,433 医療 1,397 コロナ 1,298 北九州 1,228 マスク 1,205 ウィルス 928 世界 909 経済 896 専門 849 中国 843 政府 842 情報 780 状況 769 議事 724 業務 709 米 691 電通 646 全国 629 患者 626 コロナ 556 陽性 553 安倍 546 死者 525 多い 523 トランプ 486 新聞 480 病院 451 大阪 449 塩素 447 亜 420 半数 405 国内 400 企業 397 効果 394 大統領 390 ネット 387 危機 378 新規 356 アメリカ 351 ワクチン 351 新型 345 少ない 342 大都市 338 県内 335 県庁 330 学校 327 良い 323 会社 出現回数 抽出語 321 所在地 318 福岡 317 国民 316 機関 316 政権 314 肺炎 311 海外 310 自分 302 リスク 302 症状 299 首相 298 早い 294 皆様 294 社会 278 無い 275 随意 274 韓国 272 ブルー 264 ブラジル 259 無料 258 千葉 254 女性 253 システム 251 インパルス 247 神奈川 245 北海道 244 都内 240 お客様 238 サイト 237 理由 233 重症 232 埼玉 228 新しい 226 最新 226 米国 221 インフルエンザ 220 愛知 220 医師 219 期間 217 高い 216 映画 214 男性 214 臨時 213 事業 212 抗体 203 アルコール 202 技術 201 動画 199 日 198 集団 出現回数 抽出語 198 知事 197 個人 196 免疫 189 現場 186 現時点 186 地域 183 センター 183 テレビ 183 陰性 180 時点 180 制度 180 武漢 178 お金 178 時事 178 怖い 176 沖縄 173 風邪 172 市民 168 対象 167 イベント 167 メトロ 167 岡山 167 概要 167 通常 166 政治 164 賞与 164 大会 163 政策 160 厚生 159 家族 156 経路 155 ホーム 155 時代 154 低い 154 予算 152 団体 151 国際 151 子ども 150 状態 150 都心 149 強い 149 西村 149 大きい 148 労働省 147 人間 147 日本人 146 大学 145 方針 144 データ 144 当局
図1 共起ネットワーク(2020/5/21)
図3 共起ネットワーク(2020/5/23)
図5 共起ネットワーク(2020/5/25)
図7 共起ネットワーク(2020/5/27)
図9 共起ネットワーク(2020/5/29)
図13 階層的クラスター分析(2020/5/23) 図12 階層的クラスター分析(2020/5/22) 図11 階層的クラスター分析(2020/5/21)
図17 階層的クラスター分析(2020/5/27) 図16 階層的クラスター分析(2020/5/26) 図15 階層的クラスター分析(2020/5/25) 図14 階層的クラスター分析(2020/5/24)
3.結び:今後の課題
抽出語の分析,共起ネットワーク,階層的クラスター分析を行った結果,Twitter のツィー ト上,緊急事態宣言解除後,経済活動の再開に対する期待を感じる反面,新たな感染者の 出現に関する関心の高まりが観測できた。 本稿のテキストマイニングでは,抽出語分析においては単純にツィートのなかに表れる 新型コロナウィルスに関連する語句の頻度がわかる。共起ネットワークでは新型コロナ 図18 階層的クラスター分析(2020/5/28) 図20 階層的クラスター分析(2020/5/30) 図19 階層的クラスター分析(2020/5/29)ウィルスに関するツィート上で,どの語句とどの語句が同時に用いられる頻度が高いかと いうことがネットワーク図で可視化される。階層クラスター分析では,ネットワーク図で 表される新型コロナウィルス関連語句のまとまりがどの程度の階層を経て全体に繋がるの かが可視化される。各分析とも時系列の推移をみることで,新型コロナウィルスに関する 話題の変遷がわかる。 本稿は,「新型コロナウィルス」に関するツィート分析の準備段階に書かれたものであ る。今後継続して,Twitter からツィートを継続的に取得して,分析を深めたい。それと
同時に,KH Coder によるテキストマイニング以外に,python を用いて,MeCab など他 の形態素解析を試みることで今回の結果を検証したいと考える。 また,ツィートをカテゴリー別に分けて感性分析を行なうことも今後の課題としたい。 謝 辞 本稿の分析では樋口耕一氏が作成された KH Coder を用いてテキストマイニングを行った。感謝の 意を示したい。 (注1)本稿執筆時点の2020年5月下旬。 参 考 文 献 須田剛裕・小嶋和徳・伊藤慶明・石亀昌明・鳥海不二夫(2013)「震災時におけるツイッターのトレ ンドワードと拡散情報を利用したデマ推定の一考察」 情報処理学会第75回全国大会 桐村喬(2019)『ツイッターの空間分析』(古今書院) 樋口耕一(2020)『社会調査のための計量テキスト分析 ―内容分析の継承と発展を目指して― 第2 版』,ナカニシヤ出版 三浦麻子(2012)「東日本大震災とオンラインコミュニケーションの社会心理学 ―そのときツイッ ターでは何が起こったか―」電子情報通信学会誌 VOL.95 No.3, 2012
Abd-Alrazaq Alaa, Dari Alhuwail, Mowafa Househ, Mounir Hamdi, Zubair Shah,“Top Con-cerns of Tweeters During the COVID19 Pandemic: Infoveillance Study”, Jounal of Medical Internet Research, 2020 vol. 22 iss. 4
Kouzy Ramez, Joseph Abi Jaoude, Afif Kraitem, Molly B El Alam, Basil Karam, Elio Adib, Jabra Zarka, Cindy Traboulsi, Elie W Akl, Khalil Baddour(2020),“Coronavirus Goes Viral: Quantifying the COVID19 Misinformation Epidemic on Twitter”, Cureus. 2020 March
Twitter Japan(2020),“COVID19に関して誤解を与える情報への取り組みをアップデート” https://blog.twitter.com/ja_jp/topics/company/2020/Covid19Misinfo.html
ツィート取得数 日付 26,626 5月21日 20,501 5月22日 21,648 5月23日 27,422 5月24日 28,956 5月25日 27,951 5月26日 27,991 5月27日 24,139 5月28日 25,220 5月29日 22,436 5月30日 参考表 2020年5月21日から同年5月30日までに,“新型コロナ”というワードで検索したツィート 取得数(リプライ,リツィートは除く)