5.4 ケーススタディの解説
5.4.4 ツイートのマイニング
本ケーススタディでは,Twitter Search APIから投稿日時,テキスト,プロフィール 文をメタデータとして取得し,json形式で保存する.表13は,jsonの各項目のコンテ
70
図15: コンテンツの理解を支援する3軸
キストを解説したものである.
テキストマイニングとは,文章を単語や文節で区切り,それらの出現の頻度や共出現 の相関,出現傾向,時系列などを解析することで有用な情報を取り出す分析方法であ る.大島ら[89]と藤澤ら[90]は,情報検索におけるテキストマイニングの利用は,散 らばる情報の共有やユーザの想起支援,比較対象の発見に有効であると指摘する.
本研究では,ツイートに対して文書検索やウェブページ検索,文書クラスタリングと いった情報検索において重要な技術とされるキーワード抽出を行うことによって,読 む文書の選択や文書間の関係の把握をサポートすることをねらう[91].ここでは,文章 における意味合い構成する役割を持つ名詞・動詞・形容詞・形容動詞をキーワードと して抽出する.マイニング結果の例を表15に記す.
さらに,本稿3.8.3小節で述べた「コンテンツに関する倫理的問題への対処」として,
Twitter上のユーザの特定につながる「@ユーザ名」を削除する.
(*補足a)
ネガポジ判定とは,ある文章が否定的な情報を持つか,肯定的な文章を持つかを判定 することである.このネガポジ判定によって得られた感情を視覚的に表現することに よって,本テーマに対する社会意識の直感的な把握を可能にする.本ケーススタディ では,株式会社XINGの言語解析API[92]を用いて,ネガポジの値を判定する.
(*補足b)
表13: jsonの要素の解説
要素 意味 記述ルール
content ツイートの本文
keyword ツイートの本文から抽出したキー
ワード
文章中から名刺・形容詞・形容動 詞・動詞(基本形)を取得
negaposi ネガポジ判定 -1:ネガティブ, 0:感情なし, 1:ポジ
ティブ(*補足a)
icon 主観/客観の立場の分類 配列[0]は,アイコンの種類(0:ピ クトグラム,1:怪獣).配列[1]は アイコンの向き(*補足b)
station 駅名 (*補足c)
stationcode 駅のコード 表14を参照
elevator 単語「エレベーター」の有無 0:なし,1:あり(*補足d)
escalator 単語「エスカレーター」の有無 0:なし,1:あり(*補足d)
kaidan 単語「階段の有無」 0:なし,1:あり(*補足d)
omutsu 単語「おむつの有無」 0:なし,1:あり(*補足d)
norikae 単語「乗り換えの有無」 0:なし,1:あり(*補足d)
nagasa contentを200pxの幅の吹き出し で表示する場合の高さ
単位[px]
date 投稿された日時 yy-mm-dd h:m:s
ユーザのプロフォール文から,育児に関わるキーワードの有無でベビーカー利用者か 一般利用者かを判別する.育児に関わるキーワードは,ユーザのプロフィール文に頻 出する語句の観察結果より,以下のように設定した.
「育児中,育児,ママ,まま,ベビ,育休,息子,娘,むすこ,むすめ,子育て,こ そだて,ベビタン」
(*補足c)
本ケーススタディでは,山手線沿線の駅名が含まれるツイートを抽出する.ここで は,「◯◯駅」と記載されるものを扱う.
(*補足d)
ここでは,鉄道駅校内図のバリアフリー要素として掲載されている,「エレベーター」
「エスカレーター」「階段」「多目的トイレ」に加えて,移動の目的になる「乗り換え」
という語句を含むツイートに,タグ付けを行う.
72
表14: 駅名コード コード 駅名 コード 駅名
1 大 崎 16 駒 込
2 品 川 17 巣 鴨
3 田 町 18 大 塚
4 浜松町 19 池 袋
5 新 橋 20 目 白
6 有楽町 21 高田馬場
7 東 京 22 新大久保
8 神 田 23 新 宿
9 秋葉原 24 代々木
10 御徒町 25 原 宿
11 上 野 26 渋 谷
12 鶯 谷 27 恵比寿
13 日暮里 28 目 黒
14 西日暮里 29 五反田
15 田 端