ツイートのマイニング - ケーススタディの解説

5.4 ケーススタディの解説

5.4.4 ツイートのマイニング

本ケーススタディでは，Twitter Search APIから投稿日時，テキスト，プロフィール文をメタデータとして取得し，json形式で保存する．表13は，jsonの各項目のコンテ

図15: コンテンツの理解を支援する3軸

キストを解説したものである．

テキストマイニングとは，文章を単語や文節で区切り，それらの出現の頻度や共出現の相関，出現傾向，時系列などを解析することで有用な情報を取り出す分析方法である．大島ら[89]と藤澤ら[90]は，情報検索におけるテキストマイニングの利用は，散らばる情報の共有やユーザの想起支援，比較対象の発見に有効であると指摘する．

本研究では，ツイートに対して文書検索やウェブページ検索，文書クラスタリングといった情報検索において重要な技術とされるキーワード抽出を行うことによって，読む文書の選択や文書間の関係の把握をサポートすることをねらう[91]．ここでは，文章における意味合い構成する役割を持つ名詞・動詞・形容詞・形容動詞をキーワードとして抽出する．マイニング結果の例を表15に記す．

さらに，本稿3.8.3小節で述べた「コンテンツに関する倫理的問題への対処」として，

Twitter上のユーザの特定につながる「@ユーザ名」を削除する．

(*補足a)

ネガポジ判定とは，ある文章が否定的な情報を持つか，肯定的な文章を持つかを判定することである．このネガポジ判定によって得られた感情を視覚的に表現することによって，本テーマに対する社会意識の直感的な把握を可能にする．本ケーススタディでは，株式会社XINGの言語解析API[92]を用いて，ネガポジの値を判定する．

(*補足b)

表13: jsonの要素の解説

要素意味記述ルール

content ツイートの本文

keyword ツイートの本文から抽出したキー

ワード

文章中から名刺・形容詞・形容動詞・動詞（基本形）を取得

negaposi ネガポジ判定 -1:ネガティブ, 0:感情なし, 1:ポジ

ティブ(*補足a)

icon 主観/客観の立場の分類配列[0]は，アイコンの種類（0:ピクトグラム，1:怪獣）．配列[1]はアイコンの向き(*補足b)

station 駅名 (*補足c)

stationcode 駅のコード表14を参照

elevator 単語「エレベーター」の有無 0:なし，1:あり(*補足d)

escalator 単語「エスカレーター」の有無 0:なし，1:あり(*補足d)

kaidan 単語「階段の有無」 0:なし，1:あり(*補足d)

omutsu 単語「おむつの有無」 0:なし，1:あり(*補足d)

norikae 単語「乗り換えの有無」 0:なし，1:あり(*補足d)

nagasa contentを200pxの幅の吹き出しで表示する場合の高さ

単位[px]

date 投稿された日時 yy-mm-dd h:m:s

ユーザのプロフォール文から，育児に関わるキーワードの有無でベビーカー利用者か一般利用者かを判別する．育児に関わるキーワードは，ユーザのプロフィール文に頻出する語句の観察結果より，以下のように設定した．

「育児中，育児，ママ，まま，ベビ，育休，息子，娘，むすこ，むすめ，子育て，こそだて，ベビタン」

(*補足c)

本ケーススタディでは，山手線沿線の駅名が含まれるツイートを抽出する．ここでは，「◯◯駅」と記載されるものを扱う．

(*補足d)

ここでは，鉄道駅校内図のバリアフリー要素として掲載されている，「エレベーター」

「エスカレーター」「階段」「多目的トイレ」に加えて，移動の目的になる「乗り換え」

という語句を含むツイートに，タグ付けを行う．

表14: 駅名コードコード駅名コード駅名

1 大崎 16 駒込

2 品川 17 巣鴨

3 田町 18 大塚

4 浜松町 19 池袋

5 新橋 20 目白

6 有楽町 21 高田馬場

7 東京 22 新大久保

8 神田 23 新宿

9 秋葉原 24 代々木

10 御徒町 25 原宿

11 上野 26 渋谷

12 鶯谷 27 恵比寿

13 日暮里 28 目黒

14 西日暮里 29 五反田

15 田端

ドキュメント内原田真喜子 (ページ 82-85)