• 検索結果がありません。

1 Twitter Twitter Twitter 2. 1 Xu [3] Twitter Twitter Twitter Twitter iphone iphone iphone Twitter Xu [3] Twitter Xu [5] Web Web Web Web

N/A
N/A
Protected

Academic year: 2021

シェア "1 Twitter Twitter Twitter 2. 1 Xu [3] Twitter Twitter Twitter Twitter iphone iphone iphone Twitter Xu [3] Twitter Xu [5] Web Web Web Web"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2015 G8-5

Twitter ユーザに向けた

コミュニケーション支援のための言い換え表現の抽出

下吉 珠奈

洋平

††

筑波大学 情報学群 知識情報・図書館学類

〒 305–8550 茨城県つくば市春日 1–2

††

筑波大学 図書館情報メディア系

〒 305–8550 茨城県つくば市春日 1–2

E-mail:

[email protected],

††

[email protected]

あらまし

本研究では,

「かたい」ツイートを「やわらかい」ツイートへ言い換えられるような,言い換え表現のペア

の抽出を試みる.まず,

「かたい」表現と「やわらかい」表現をペアにして抽出するために,イベント単位で収集した

ツイート集合を,ニュース系ツイート群と非ニュース系ツイート群に分類して,言い換えコーパスを構築する.コー

パスからの言い換え表現の抽出には,頻出名詞に着目し,サ変名詞と一般名詞のあとにつづく n-gram (n=3

∼9) のフ

レーズを,それぞれのツイート群から獲得し,言い換え表現のペアを抽出する.18 のイベントを対象とした実験の結

果,販売促進や催し物の開催案内など,イベントごとの目的に応じた言い換え表現を抽出できることが確認できた.

キーワード

Twitter,コミュニケーション支援,言い換え

1.

は じ め に

1. 1 本研究の概要 本研究では,Twitter(注1)において,「かたい」ツイートを「や わらかい」ツイートに言い換えるために,「かたい」表現と「や わらかい」表現のペアの抽出に取り組む. 近年,Twitterを使用した販売促進を主な目的とした企業ア カウントが増加してきている.そのような企業アカウントの中 でも,「やわらかい」表現のツイートをするアカウントは,ユー ザが特に興味ない商品の販売促進をしていても,親しまれる傾 向にある.本研究では,このようにユーザにとって親しみやす いツイートを,「やわらかい」ツイートとする. その一方で,「かたい」文章を用いた企業アカウントによる ツイートは,そのツイート内容に関心を持つユーザの目にしか 留まらない.さらに,「かたい」ツイートでは,リアクションも とりづらいと考えられ,Twitterを用いて販売促進を行う意義 がなくなってしまうと考えられる.本研究では,このようなツ イートを,「かたい」ツイートとする. このように「やわらかい」ツイートがTwitterユーザに親し みやすいものであるにも関わらず,企業アカウントを運営して いるユーザすべてが,一般ユーザにとって親しみやすいような, 「やわらかい」ツイートができるとは限らない.そのため,「か たい」ツイートを「やわらかい」ツイートに言い換える自動変 換機が必要となる. 本研究では,「かたい」ツイートを「やわらかい」ツイート へ言い換えることができるような表現を抽出することにより, Twitterユーザ間のコミュニケーション支援につながると考え る.そこで,トピック単位で収集したツイート集合を対象とし て,ニュース系ツイートと非ニュース系ツイートに分類し,「か (注1):https://twitter.com たい」表現と「やわらかい」表現が対になったような言い換え 表現のペアを抽出する. 1. 2 背 景 近年,Twitterの利用者の増加に伴い,企業アカウント数も 増加している.企業アカウントは販売促進を目的としたツイー トが多く,Twitterは新たな市場として企業から注目を浴びて いると考えられる. 企業アカウントの中でも,特徴が目立つアカウントや,面白 いツイートをするアカウントはフォロワー数も多く,人気が高 い.Twitterにおけるユーザは,「面白いからフォローすべき」 (注2)と考えていることからもわかるように,その企業が扱って いる商品や事業に興味がない場合であっても,フォロー,リツ イート,リプライなどのリアクションを気軽に行う傾向がある. また,Twitterは本来会話メディア[4]であると認識されてい ることから,企業アカウントも顧客であるユーザと会話をしな いことには,ユーザに興味を持ってもらい,販売を促進するこ とができない.実際に,Twitter上で繰り広げられた会話を図 1(注 3)に示した.この会話では,電化製品等を取り扱っている 一企業(注 4)のアカウントが,「暑いし,ジュース飲んでる」とい う旨のたわいないツイートをし,それに対してユーザがリプラ イをし,それにまた企業のアカウントがリプライをし,最終的 に販売促進につながっている.つまり,会話をして,コミュニ ケーションが広がるとともに,商品の紹介ができている.その 一方で,「かたい」表現を用いた公式アカウントによるツイート は,読み流されてしまう傾向にある.すなわち,関心を持たな いユーザからは注目を得られず,何かしらのリアクションも行 われないため,Twitterを用いた販売促進の意義が薄い.その (注2):http://matome.naver.jp/odai/2137905274433219701 (注3):https://twitter.com/SHARP JP/status/472244703849508864 に 対するやりとりの一部 (注4):http://www.sharp.co.jp

(2)

図 1 企業アカウントとのコミュニケーションの一例 ため,「やわらかい」表現のツイートを用いる企業アカウントの 方が,販売促進には適している. しかし,企業アカウントを運営しているユーザすべてが,一 般ユーザにとって親しみやすい,「やわらかい」ツイートができ るとは限らない.そのため,「かたい」ツイートを「やわらかい」 ツイートに言い換える自動変換機が必要となってくる. 本研究では,Twitter上の「かたい」ツイートを「やわら かい」ツイートに言い換えできるような表現のペアを抽出し, Twitter上のコミュニケーションを支援する手法を提案する. 本論文の構成は以下の通りである.2章は,言い換えに関す る先行研究と本研究の位置づけについて紹介する.3章は,本 研究で提案する言い換え処理の概要と,「かたい」,「やわらかい」 ツイートの定義に関する調査について述べる.4章は,18件の イベントを対象とした,言い換え表現の抽出に関する実験の結 果について述べる.最後に,5章で,本研究についてまとめる.

2.

関 連 研 究

本研究では,ツイートをニュース系ツイートと,非ニュース 系ツイートに分類し,それぞれのツイート群における表現を対 応させるコーパスを作成して,言い換える手法に焦点を当てて 研究を進める.本章では,言い換えのためのコーパス作成に関 する研究と,Twitterにおけるコミュニケーションに必要とな る言い換えや表現に関連する研究について紹介する. 2. 1 言い換えのためのコーパス作成に関する研究 Xuら[3]は,Twitterを用いて大規模な言い換えコーパスを 自動的に収集し,Twitter特有のくだけた表現を,意味を保っ たまま,文法的に正しい表現(正規化された表現)に言い換え る手法を提案している.Twitterからデータを得ることで,略 語のようなTwitterにおいてよく使用される正規化されていな い表現も,言い換え表現として収集できる.彼らの言い換えシ ステムは,最新の略語や外来語の言い換えも可能とし,正規化 されていない文に対する言語処理に適している. 彼らは,言い換え表現のデータを収集するため,多くのユー ザが同じ内容についてつぶやく“イベント”に着目した.イベン トに着目してパラレルコーパスを作成することで,同じドメイ ン内での多様なツイートが抽出でき,効率よくコーパスを作成 できる.たとえば,同じ携帯電話の話題でも,「今日iPhone壊 れたー」という日常的なツイートを除いて,「今日新しいiPhone が発売される!楽しみ!」というような,「iPhoneの発売」と いう日付と関連性のあるイベントに着目した方が,ノイズや語 彙の重複を減らすことができ,多様で類似した表現を抽出でき る.ツイートは短く自己完結するものであるため,同じ固有表 現を含み,同じ日付につぶやかれたツイートは,同じイベント について言及している可能性が高くなる. 本研究では,ニュース系ツイートと非ニュース系ツイートの 分類を利用することにより,Twitter特有の「やわらかい表現」 への言い換え表現を抽出する.言い換え表現の抽出には,Xu らの手法[3]を参考にして,イベントに基づいてツイートを収 集し,イベントごとにツイートを「かたい」ツイートと「やわ らかい」ツイートに分類し,それらが対になるようなコーパス を作成することで,同じトピックについての多様な言い回しを 反映した言い換え表現を取得する.なお,本研究の目的は,「か たい」表現から「やわらかい」表現への言い換えであるため, Twitter特有の表現を正規化するXuらの手法とは言い換えの 方向が逆になる点に注意されたい. また,岩越ら[5]は,Webと携帯端末向けの新聞記事の対応 コーパスから言い換え表現のペアを抽出している.この研究で は,Web新聞記事(Web記事)が数百文字で書かれる一方で, 携帯端末向けの新聞記事(携帯記事)が数十文字という特徴に 着目し,文短縮を目的とした言い換えの抽出を行っている.記 事のペアの対応付けは,携帯記事に含まれる名詞と,Web記事 の見出しや本文との一致数の計算を,一日単位で行い,対応づ けている.また,対応づけた記事の中で,文単位の対応付けを 行っており,最も多く名詞がマッチしたもので対応付ける.さ らに,文単位で対応づけられたコーパスから,言い換え表現の ペアを抽出する.文単位で対応づけられたパラレルコーパスか らの言い換え表現の抽出には,文末の単語に着目しており,言 い換えのもとになる単語を候補集合としてあらかじめ抽出する. その後,候補集合の単語を文末に含む携帯記事中の文と対応す るWeb記事中の文を抽出し,言い換えパターンを抽出をする. 言い換えパターンの言語的性質は,以下の点に着目している. (1) 単語内部では分岐数が少なく,単語が終了すると分岐 数が増加 (2) 出現頻度が多い (3) 文字列の長さが適切 本研究でも,この手法を踏まえ,頻出名詞に基づき言い換え 表現を対応付け,文末に現れる適切な長さの表現を抽出する. 2. 2 Twitter 上のコミュニケーションに必要な言い換え Twitterにおけるやわらかいツイートにおいては,140文字 以内の簡潔な表現が望まれることから,サ変名詞をうまく活用 している傾向がある.佐藤ら[7]は,Twitterと同様に簡潔な携 帯記事において,体現止めや助詞が文末にくることが多いこと に着目し,Web記事を短縮する言い換えを抽出する研究を行っ た.たとえば,携帯記事とWeb記事とで,以下の文のペアが 対応づけられているとする. 自衛隊の派遣を表明(携帯) 自衛隊を今週末から派遣することを明らかにした(Web) この対応文から,文末に注目し,「明らかにした表明」と

(3)

いう言い換えパターンを抽出する. また,風間ら[6]は,Twitter特有のコミュニケーション表現 が文末に出現しやすい事,文末記号の違いによってその前に出 現する文字列に違いがある事に注目し,「なう」や「わず」と言っ たTwitter特有のコミュニケーション表現を自動抽出する方法 を提案した.コミュニケーション表現候補を絞り込む方法とし て,文末ひらがな2-gramと文末記号との組合わせを基準とし て前に一文字ずつ伸長していき,n-gram確率を利用すること で表現として区切りとなる点を決定している.Twitter特有の コミュニケーション表現には,あいさつを表現するものと,「な う」や「わず」といった時制を表現するものが含まれている. 本研究では,これらの研究を踏まえて,イベントごとに特 徴的なサ変名詞と一般名詞に後続し,文末に向けて出現する n-gramを,言い換え表現として抽出する.

3.

「かたい」ツイートから「やわらかい」ツイー

トへの言い換え

3. 1 「かたい」ツイートから「やわらかい」ツイートへの言 い換え表現の抽出 本研究では,2. 1節でも紹介したXuらの研究[3]を踏まえ, イベントに着目してツイートを収集することにより,言い換え 可能な多様な表現を,以下の手順で抽出する. Step1 : イベントごとのツイートの収集 Step2 : ニュース系ツイートと非ニュース系ツイートの分類 Step3 : 頻出名詞に着目した言い換え表現の抽出 以下でそれぞれのステップについて,詳しく説明する. 3. 1. 1 イベントごとのツイートの収集 イベントは,Twitterのホットワード(注5)や,ニュースサイ ト(注 6)から収集する.また,特定の日付に起こったイベントに 限定する.たとえば,「iPhone6の発売(2014/9/19)」や「2014 年FIFAワールドカップ開催(2014/6/12)」などのイベントを 対象とする.特定の日付のイベントに限定することで,同じイ ベントについて言及しているツイートの選別を効率的に行うこ とができる.イベントごとのツイートは,イベント特有のクエ リとその日付を用いて収集する.なお,RTなどで完全重複し ているツイートは,除外する. 3. 1. 2 ニュース系ツイートと非ニュース系ツイートの分類 「かたい」ツイートを「やわらかい」ツイートへ言い換える ためには,「かたい」表現と「やわらかい」表現を対の形で抽出 する必要がある.そのため,言い換え表現を抽出する前に,ツ イートを「かたい」ツイートと「やわらかい」ツイートに分類 する.本研究では,ツイートを,「かたい」表現が比較的多く含 まれると考えられるニュース系ツイートと,「やわらかい」表現 が比較的多く含まれると考えられる非ニュース系ツイートに分 類し,それらが対になるようにして言い換え表現を抽出する. 分類の詳細は4. 2. 2節にて説明する. (注5):http://tr.twipple.jp/hotword/ (注6):http://www.itmedia.co.jp 3. 1. 3 頻出名詞に着目した言い換え表現の抽出 本研究では,2. 2節でも紹介した,佐藤ら[7]と風間ら[6]の 手法を参考にし,文末表現,イベントに特徴的なサ変名詞,一 般名詞に着目して言い換え表現を抽出する.イベントに特徴的 なサ変名詞と一般名詞は,イベントごとのツイートから,出現 頻度がそれぞれ上位5件以内で,かつそれぞれの品詞ごとの出 現総数の1%を超える2文字以上のものを用いる.また,サ変 名詞,一般名詞の後につづくn-gram (n=3∼9)を対象として, 言い換え表現を抽出する.詳細は4. 2. 3節にて述べる. 3. 2 「かたい」ツイートと「やわらかい」ツイートの定義に 関する調査 本研究において,「かたい」ツイートとは,親しみにくいよう なツイートで,「やわらかい」ツイートとは,Twitter特有の表 現を積極的に活用することで親しみやすいと感じられるツイー トを指す.本節では,このような「やわらかい」ツイートなら びに「かたい」ツイートについて,複数の実験参加者により一 貫した定義が与えられるか調査した結果について述べる. 3. 2. 1 目 的 「かたい」,「やわらかい」の定義が不安定であり,なにをもっ て人がツイートを「かたい」,「やわらかい」と感じるのかが分 からない状態であると,一貫した言い換え表現の抽出は難しい. 本研究では,複数の実験参加者にツイートを判別させることに より,判別されたツイートがどのような特徴を持つか知り,「か たい」,「やわらかい」ツイートについて明確に定義する. 3. 2. 2 データと方法 ツイートを20のイベントについて,各5件ずつ収集し,合 計100件のツイートを人手で収集した.この100件のツイート を用いて,実験参加者には,「かたい」,「やわらかい」の基本的 な定義を示した上で,ツイート100件を「かたい」,「やわらか い」,「どちらでもない」のいずれかに判別させた.実験参加者 は,男性1名,女性3名の計4名に協力を依頼した.回答には Googleドキュメント エディタのアンケートフォーム(注 7)を用 いた. 3. 2. 3 結 果 アンケートの集計をもとに回答者の判別の一致度(κ係数) [1] を求めた.κ値は0.61 ( substantial /かなり一致[2] )となり, 4人の意見はかなり一致したことが分かる.判別が一致しなかっ たツイートは,以下のような特徴が見られた. 語尾に「!」や「;」がつく 助詞が省略されている 「らしい」といった伝聞,推測の表現  これらの特徴を,やわらかいツイートの定義に反映すること により,「やわらかい」ツイートと「かたい」ツイートを定義し た.最終的な定義を図2に示す.しかし,伝聞,推測の表現に ついては,やわらかいツイートに含まれるかどうかは文脈に依 存する傾向が見られたことから,定義には含まないことにした. (注7):http://www.google.com/forms/about/

(4)

図 2 「かたい」ツイートと「やわらかい」ツイートの定義

4.

実験:イベントごとに収集したツイートから

の言い換え表現の抽出

本章では,18件のイベントに対し,言い換え表現の抽出を試 みることで,どのような言い換え表現が獲得できるか考察する. 4. 1 目 的 イベントを手がかりとして収集したツイートを,ニュース系 ツイートと,非ニュース系ツイートに分類することで,かたい 表現とやわらかい表現を区別して獲得できるか検証する.また, イベントのタイプをポジティブ,ネガティブ,中立の3種類に 分類し,獲得できる言い換え表現の違いについて考察する. 4. 2 実 験 方 法 本実験では,以下の 3つのステップで実験を進める. Step1 : イベントごとのツイートの収集 Step2 : ニュース系ツイートと非ニュース系ツイートの分類 Step3 : 頻出名詞に着目した言い換え表現の抽出 それぞれのステップを,以下の節にて説明していく. 4. 2. 1 イベントごとのツイートの収集 イベントは,2012年∼2014年の期間で,大きな事件や,物事 が起き,Twitterでそのことについてたくさんつぶやかれてい ると判断されるイベントを抽出した.イベントは多様なトピッ クを網羅するように,人手で選定する.また,選定したイベン トを,ポジティブ,ネガティブ,中立の3種類に分類する.以 下にイベントの一覧を示す.括弧内は,イベントの略称を表す. (1) ポジティブなイベント 東京オリンピック開催決定(olympic) 羽生結弦優勝(hanyu) 海月姫映画化決定(kurage) 巨人交流戦優勝(kyojin) 新監督にアギーレ氏(aguirre) 錦織圭優勝(nishikori) ノーベル物理学賞受賞(nobel) 流行語大賞決定(ryuko) はやぶさ2打ち上げ(hayabusa) (2) ネガティブなイベント 御嶽山噴火(ontake) 菅原文太死去(sugawara) (3) 中立のイベント アートアクアリウム開催初日(art) 土用丑の日(unagi)

• iPhone 6 Plus発売(iphone)

花子とアン最終回(hanako) • NARUTO最終回(naruto) ポケットモンスター オメガルビー発売(omega) • Wii U発売(wiiu) イ ベ ン ト は ,18件 選 定 し た .ま た ,イ ベ ン ト の 日 付 の 00:00∼24:00の間にツイートされている,イベント名を含むツ イートを収集した.収集したツイートの合計件数は,957,314 件である.イベント名とその日付,イベントごとのツイート件 数については,表1に詳細を示す(注 8).なお, 10万件以上該当 するツイートが存在する4つのイベント(2「東京オリンピッ ク開催決定」,4「NARUTO最終回」,7「菅原文太死去」, 11「御岳山噴火」)については,10万件を上限としたランダム サンプリングにより選択している. 表 1 18 件のイベントとツイート件数 番号 日付 イベント名 タイプ 件数(件) 1 2013/9/8 olympic ポジティブ 100,000 2 2014/3/28 hanyu ポジティブ 8,738 3 2014/4/17 kurage ポジティブ 14,889 4 2014/6/22 kyojin ポジティブ 19,270 5 2014/7/24 aguirre ポジティブ 37,070 6 2014/10/5 nishikori ポジティブ 27,771 7 2014/10/7 nobel ポジティブ 80,766 8 2014/12/1 ryuko ポジティブ 90,916 9 2014/12/3 hayabusa ポジティブ 62,317 10 2014/9/27 ontake ネガティブ 100,000 11 2014/12/1 sugawara ネガティブ 100,000 12 2014/7/11 art 中立 4,560 13 2014/7/29 unagi 中立 28,676 14 2014/9/19 iphone 中立 62,162 15 2014/9/27 hanako 中立 31,867 16 2014/11/10 naruto 中立 100,000 17 2014/11/21 omega 中立 55,903 18 2012/12/8 wiiu 中立 32,409 合計 957,314 ツイートの収集日時と,検索クエリに関しては,表2にまと める.イベントをクエリとするだけではデータの収集が不十分 に感じたものや,ノイズを多く含んでしまうイベントに関して は,and検索やor検索,除外キーワードを用いてツイートを 収集した.たとえば,除外キーワードとして,「olympic」につ いては,「福島」,「フクイチ」を,「hayabusa」については,「分 離」,「切り離し」を,「naruto」については,「表紙」を設定した. これらの収集したツイートには,リツイートや完全に重複し ているツイートが多く含まれている.重複したツイートが多い データは,多様な言い換え表現を得ることに適していない.従っ て,完全に重複しているツイートは,1件を残して除外した. 4. 2. 2 ニュース系ツイートと非ニュース系ツイートの分類 本実験では,「かたい」表現を抽出するために,報道機関に よって記述されたものを中心としたツイートを,「かたい」ツ (注8):Twitter データ提供:株式会社 NTT データ

(5)

表 2 収 集 条 件 番号 日付 クエリ 1 ク エ リ 2 (and 検索) ク エ リ 3 (or 検索) 1 2013/9/8 東京オリンピック 2 2014/3/28 羽生 世界選手権 3 2014/4/17 海月姫 映画 4 2014/6/22 巨人 交流戦 5 2014/7/24 アギーレ 監督 6 2014/10/5 錦織 優勝 7 2014/10/7 ノーベル物理学賞 8 2014/12/1 流行語大賞 9 2014/12/3 はやぶさ 2 打ち上 はやぶさ2 10 2014/9/27 御嶽山 噴火 11 2014/12/1 菅原文太 12 2014/7/11 アートアクアリウム 13 2014/7/29 土用丑の日 うなぎ 14 2014/9/19 iPhone 6 Plus 15 2014/9/27 花子とアン 16 2014/11/10 NARUTO ナルト 17 2014/11/21 オメガルビー 18 2012/12/8 Wii U イートとみなし,「ニュース系ツイート」と呼ぶ.また,それと 対になる「やわらかい」表現を抽出するためには,ニュース系 ツイート以外のツイート全てを「やわらかい」ツイートとみな し,「非ニュース系ツイート」と呼ぶ.ニュース系ツイートをす るアカウントを「ニュース系アカウント」,非ニュース系ツイー トをするアカウントを「非ニュース系アカウント」と呼ぶ. ニュース系アカウントと,非ニュース系アカウントを識別す るために,ユーザ名(user-screen name)と名前(user-name)

を利用する.Twitterでは,アカウント一つ一つにユーザ名

(user-screen name)と名前(user-name)が付与されており,

これらはアカウントの識別に利用される(注 9)

また,ユーザ名(user-screen name)と名前(user-name)だ けでは,分類がおおまかなものとなってしまうため,ツイート 本文の情報と,ハッシュタグを用いた分類も行う.ハッシュタ グとは,ツイートにカテゴリをつけて検索しやすくするため, ツイートに#xxxと入れるタグのようなものである(注 10) 具体的には,以下の手続きにより,ニュース系ツイートと, 非ニュース系ツイートを分類する. (1) アカウントを用いたニュース系ツイートの分類

名前(user-name)に,「NEWS, News, news,ニュース, 新聞,情報」を含むアカウントが発信するツイートを,ニュー ス系ツイートに分類

ユーザ名(user-screen name)に,「NEWS, News, news」 を含むアカウントが発信するツイートを,ニュース系ツイート に分類 (2) ツイート本文を用いたニュース系ツイートの分類 (注9):https://support.twitter.com/articles/100990-signing-up-with-twitter (注10):https://support.twitter.com/articles/20170159-#whatis 本文に,「読売新聞,朝日新聞,毎日新聞,産経新聞,日 本経済新聞,AFP,時事,共同通信」と「http://」を含むツ イートを,ニュース系ツイートに分類 本文に,「サンケイスポーツ,日刊スポーツ,スポーツニッ ポン,スポーツ報知,デイリースポーツ」を含むツイートを, ニュース系ツイートに分類

本文に,ハッシュタグ「#news, #News, #NEWS」を

含むツイートを,ニュース系ツイートに分類 (3) 非ニュース系ツイートの選別 本文に「キタ,キタ(半角),#2ch」を含むツイートを 発信しているアカウントが発信しているツイートを,すべて非 ニュース系ツイートに分類 • (1), (2)に含まれないものを,非ニュース系ツイートに 分類

「NEWS, News, news,ニュース」を本文に含むツイー トは,非ニュース系ツイートから削除 商用アカウントのツイートはかたい表現が多いことか ら,非ニュース系ツイートで,15件以上投稿しているユーザ名 (user-screen name)のアカウントが発信するツイートは,非 ニュース系ツイートから削除 以上の手続きにより,ニュース系と非ニュース系に分類され たツイートの件数を,表3に示す. 表 3 ニュース系アカウントと非ニュース系アカウントのツイート件数 番号 イベント名 ニュース(件) 非ニュース(件) 1 olympic 283 51,707 2 hanyu 347 2,092 3 kurage 306 3,607 4 kyojin 895 6,824 5 aguirre 651 5,835 6 nishikori 655 9,413 7 nobel 2,256 16,515 8 ryuko 1,901 31,503 9 hayabusa 3,054 20,304 10 ontake 3,900 23,000 11 sugawara 3,027 29,728 12 art 117 2,216 13 unagi 186 17,950 14 iphone 1,080 21,343 15 hanako 344 16,760 16 naruto 604 61,248 17 omega 410 21,710 18 wiiu 1,261 18,316 合計 21,247 360,071 4. 2. 3 頻出名詞に着目した言い換え表現の抽出 本研究では,イベントの持つ特徴的な名詞の周辺には,言い 換え表現が出現するという知見に基づき,イベントごとに出現 頻度の多いサ変名詞と一般名詞に着目して,言い換え表現を抽 出する.抽出方法は以下の通りである. (1) イベントごとのツイートから,はてなキーワード(注11) (注11):http://d.hatena.ne.jp/keyword/

(6)

Wikipedia(注 12)の見出し語を登録して辞書を拡張した形態素解 析器MeCab(注13)を用いて,2文字以上のサ変名詞と一般名詞 を抽出し,出現頻度がそれぞれ上位5件以内で,かつそれぞれ の品詞ごとの出現総数の1%を超えるものを選定 (2) (1)で抽出した,サ変名詞,一般名詞それぞれの後に 続く,n-gram (n=3∼9)のフレーズをニュース系ツイートと非 ニュース系ツイートからそれぞれ抽出 (3) 非ニュース系ツイートから,ニュース系ツイートと重 複しているフレーズを削除 (4) n-gram (n=3∼9) の出現頻度が4 回以下のフレーズ を削除 (5) ニュース系ツイートと非ニュース系ツイートから抽出 したそれぞれのフレーズに対して,フレーズ周辺の文脈に基づ き分布類似度[8]を計算して,類似度が閾値を超えたペアを,か たいフレーズとやわらかいフレーズのペアとして抽出 (6) 抽出したペアに対して,Twitter特有の表現や文末表 現[6]を手がかりとして,図2のやわらかいツイートの定義を 満たすやわらかいフレーズを含むものを絞り込む (7) 抽出結果において頻出するかたいフレーズを対象とし て,やわらかいフレーズとして適切な言い換え表現が抽出でき ているか確認 4. 3 結 果 サ変名詞,一般名詞に後続するn-gram (n=3∼9)として抽 出した言い換え表現の例を,それぞれ表4と表5に示す.ただ し,かたいフレーズの表現は一部正規化してある. 4. 4 考 察 本節では,イベントごとの言い換え表現の特徴と,サ変名詞 と一般名詞により抽出した言い換え表現の違い,かたいツイー トとやわらかいツイートを分けるために,ニュース系ツイート を利用した言い換えの有効性について考察する. 4. 4. 1 言い換え表現の特徴 まず,4. 2. 1節で分類したポジティブ,ネガティブ,中立の イベントに関して獲得できた言い換え表現について考察する. (1) ポジティブなイベントについての考察 ニュース系ツイートは,イベントに関して報道している ツイートが多く,かたい表現が抽出できた. 非ニュース系ツイートは,「決定」,「優勝」,「受賞」,「打ち 上がった」,「発表」されたイベントに関してのお祝いツイート が多く見られ,語尾を伸ばした表現や,顔文字表現,「!」など の感嘆符が沢山含まれる表現,サ変名詞や一般名詞の後に続く n-gram (n=3∼9)から言い換えを抽出することが可能であった. (2) ネガティブなイベントについての考察 「sugawara」は,有名人の訃報に悲しんだり,驚いたりす るツイートが非ニュース系ツイートから多く見られた.ニュー ス系ツイートからは,訃報の報道に関するツイートが多く見ら れ,両者からは,「死去⇔亡くなった」というような,表層的に は違うが,意味が同じである言い換え表現が抽出できた. (注12):http://ja.wikipedia.org/wiki/メインページ (注13):http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html 表 4 サ変名詞に続く n-gram (n=3∼9) から抽出した言い換え表現 番 号 イベント名 かたいフレーズ やわらかいフレーズ 1 olympic 決定 し まし た 決定 お め で と ー ! ! 2 hanyu 優勝 を 果たし ま し た 優勝 ! ! 3 kurage 主演 で 映画 化 主演 で 実写映画 化 です ! ! やっ た ー 4 kyojin 交流 戦 優勝 おめでとう ! 交流 戦 優勝 o ( ‘· ω ·´ ) o 5 aguirre 監督 アギーレ 氏 に 決定 監督 アギーレ か ? 6 nishikori 優勝 優勝 おめでとう ( ≧∇≦) 7 nobel 受賞 おめでとう ござい ま す 受賞 で すっ て ! おめでと う ござい ます ! 8 ryuko 発表 ! 発表 さ れ た www 9 hayabusa 成功 し まし た 成功 ! ! ! 10 ontake 噴火 し た 噴火 し まし た ( ( ( ; °Д 11 sugawara お祈り いたし ます お祈り 致し ます m ( ) m 12 art 開催 開催 。 一足 先 に 作品 を ご 紹介 ! 13 unagi なし 14 iphone 発売 さ れ た 発売 開始 ! ! 15 hanako 放送 後 に ツイッター 放送 中 ! 】 【 BS プレミア ム 】 連続テレビ小説   花 子とアン 16 naruto 完結 し まし た 完結 ! ! ! ! ! 17 omega 発売 前夜 発売 まで あと 1 日 なう ! 18 wiiu なし 「ontake」は,事件性が強いイベントであったため,非 ニュース系ツイートでも,報道機関の文章を引用したツイート が多かった.そのため,非ニュース系ツイートに,「やわらかい」 表現が少なかったが,噴火やその動画に対する恐怖などの表現 が見られたことから,言い換え表現を抽出できた. (3) 中立なイベントについての考察 中立なイベントは,様々なトピックが含まれており,「発売」に 関するイベントや,催し物の「開催」に関するイベント,「最終 回」を迎えたイベント,「食事」に関するイベントがある.これ らのトピックについて,それぞれ考察していく. 「発売」のイベントの「iphone」に関しては,「発売した」 という旨のツイートをやわらかくするような言い換えが収集 された.「omega」に関しては,サ変名詞「発売」から「発売 前夜発売 まであと1日なう!」と言った,販売促進に使えそ うな言い換え表現を抽出できた.また,「omega」の一般名詞に 着目すると,ニュース系ツイートは販売促進のツイートが多かっ た一方で,非ニュース系ツイートは「ゲームを購入したよー!」 という報告ツイートが多く,内容が一致しないことが多かった. 「開催」に関するイベント「art」については,イベント 名「アートアクアリウム」という一般名詞の後に続く表現から は,開催案内に有用な言い換え表現を抽出できた.その一方 で,サ変名詞に関しては,ニュース系ツイートと非ニュース系 ツイートとで内容が被ることが少なかった. 「最終回」を迎えたイベントのうち,「naruto」に関して は,最終回であることについての表現が多く,言い換え表現が 抽出できた.しかし,最終回についてのツイートが少なかった 「hanako」に関しては,ニュース系ツイートと非ニュース系ツ

(7)

表 5 一般名詞に続く n-gram (n=3∼9) から抽出した言い換え表現 番 号 イベント名 かたいフレーズ やわらかいフレーズ 1 olympic 東京オリンピック 開催 決定 ! 東京オリンピック 決まっ た ん だ ー ! 2 hanyu 世界選手権 初 優勝 世界選手権 初 優勝 キタ ━ ━━━ ( °∀ ° ) ━━━━!! 3 kurage 『 海月 姫 』 実写 映画化決 定 海月 姫 映画 化 すん の ! 4 kyojin 巨人 2 年 ぶり 2 度目 の 交流 戦 V 巨人 交流 戦 優勝 だ ! 5 aguirre アギーレ 氏 に 決定 アギーレ さん に 決まっ た 6 nishikori 錦織 、 初 の 2 週 連続 優勝 錦織 2 週 連続 優勝 ! ! ! 7 nobel ノーベル物理学賞 、 日本人 3 人 に ノーベル物理学賞 に 日本人 3 人 が 受賞 ! 8 ryuko 流行語大賞 の 2 語 発表 流行語大賞 が 発表 ! 9 hayabusa 打ち上げ 成功 打ち上げ 成功 ! 10 ontake 動画 が 怖 すぎる 動画 が やば すぎる ! 11 sugawara 菅原文太 さん 死去 菅原文太 亡くなっ た の ! ! ! 12 art アクアリウム 2 0 1 4 」 開 催 アクアリウム が オープン し まし た よー ! パチ パチパ チ 13 unagi 「 土用の丑の日 」 に うな ぎ を 食べる 土用の丑の日 だ から うなぎ ! !

14 iphone iPhone 6 Plus が 登場 。 iPhone 6 Plus 発売 ! !

15 hanako 『 花子とアン 』 が 2 7 日 で 最終回 花子とアン 最終 回 だ ! 16 naruto 「 ナルト 」 連載 完結 ナルト 終わっ ちゃっ た な ? 17 omega ルビー 数量限定 特典 ルビー げ っと だ ぜ ! 18 wiiu セット を 買う セット を 買っ て き た ! イートとでツイート内容が異なり,サ変名詞に関しては,適切 な言い換え表現を抽出できなかった. 「食事」に関するイベント「unagi」は,一般名詞に着目 すると,「土用丑の日」に続く「うなぎを食べる」という趣旨の ツイートを抽出できた.一方で,サ変名詞に着目した際には, 表現に揺れが大きく,言い換え表現を抽出できなかった. 4. 4. 2 サ変名詞と一般名詞での抽出表現の違い 次に,サ変名詞と一般名詞との後に続く,n-gram (n=3∼9) のフレーズの傾向の違いについて考察する. サ変名詞は,漢字の二文字熟語であることが多く,「か たい」表現である.しかし,サ変名詞に後続するフレーズは, 「かたい」表現と「やわらかい」表現がうまく混在しており,特 に文末表現に着目すると,顔文字などの「やわらかい」表現が うまく抽出できる.たとえば,「お祈り いたします。お祈り 致しますm( )m」などが挙げられる. 一般名詞に後続するフレーズは,言い換え表現の語彙を 広げることができることが分かる.たとえば,御嶽山噴火のイ ベントについて「動画」に後続するn-gram (n=3∼9)を見た ときに,「動画が 怖すぎる動画が やばすぎる!」といような 言い換え表現があげられる. 4. 4. 3 ニュース系ツイートを利用した言い換えの有効性 ニュース系ツイートと非ニュース系ツイートを利用した「か たい」表現と「やわらかい」表現の抽出の有効性について考察 する. ポジティブとネガティブなイベントに関しては,ニュー ス系ツイートには,報道されたような「かたい」表現のツイー トが多く見られ,非ニュース系ツイートには,報道とそれに対 するユーザのリアクション付きのツイートが多く見受けられた. そのため,イベントに合った顔文字や,言い換え表現が抽出で きた.特に,ネガティブな顔文字や,深刻な言い回しの表現が うまく抽出できた.したがって,ポジティブあるいはネガティ ブな反応を伴うイベントに対しては,ニュース系ツイートの利 用は有効であったと言える. 中立なイベントに関しては,「販売促進」,「催し物への客 寄せ」などの目的のため,商業アカウントによるツイートが多 いため,ノイズが多くなることから,言い換え表現を抽出する ことは難しい.しかし,提案手法を利用することで,販売促進 や開催案内に有用な表現を抽出できることを確認した.ただし, 言い換え表現のバリエーションは,「ポジティブ」,「ネガティブ」 なイベントと比べると,少なくなった.

5.

お わ り に

近年,企業によるTwitterを利用した販売促進やキャンペー ンが目立つようになってきた.そうした企業アカウントの中で, 「やわらかい」表現のツイートをするアカウントは,Twitter ユーザから親しまれており,ユーザが普段なら興味を持たない 内容のツイートでも,フォローやRT等のリアクションをとる 傾向にある.その一方で,「かたい」表現を用いた企業アカウ ントによるツイートは,そのツイート内容に関心を持つユーザ の目にしか留まらず,リアクションもとりづらいと考えられ, Twitterを用いて販売促進を行う意義が薄い.本研究では,こ のような「かたい」ツイートを「やわらかい」ツイートへ言い 換えられるように,言い換え表現のペアの抽出を試みた. Twitterにおいては,ツイートをイベントごとに収集するこ とにより,イベントについての多様な言い換え表現を抽出する ことができる.本研究では「かたい」表現と「やわらかい」表 現をペアにして抽出するために,イベント単位で収集したツ イート集合を,ニュース系ツイート群と非ニュース系ツイート 群に分類して,頻出する一般名詞とサ変名詞に後続するn-gram (n=3∼9)のフレーズを,それぞれのツイート群から獲得し,言 い換え表現のペアを抽出した. また,2012年から2014年の期間に起きたイベントを18件 選択し,957,314件のツイートを収集し,ポジティブ,ネガティ ブ,中立の3種類に分け,言い換え可能な多様な表現が獲得で きるか,イベントごとの特徴を確認した.実験の結果,ポジ ティブあるいはネガティブなイベントでは,Twitterユーザの リアクションを反映した,顔文字や感嘆符を含んだやわらかい フレーズへの言い換え表現や,「死去亡くなった」というよ うな,表層的には似ていないが,意味は同じ言い換え表現を抽 出できた.一方,中立なイベントについては,表現のバリエー ションは少ないものの,提案手法により,販売促進や開催案内 に使えるようなやわらかいフレーズへの言い換え表現を抽出で きることを確認した.

(8)

今後の課題としては,本研究の成果を利用した,やわらかい 表現へのツイートの言い換えサービスの公開などが挙げられる.

本研究の一部は,科学研究費補助金基盤研究C(課題番号 24500291),基盤研究B(課題番号25280110)ならびに萌芽 研究(課題番号25540159)の助成を受けて遂行された. 文 献

[1] Jacob Cohen. A Coefficient of Agreement for Nomi-nal Scales. Educational and Psychological Measurement,

Vol. 20, No. 1, pp. 37–46, 2003.

[2] J. Richard Landis and Gary G. Koch. The Measurement of Observer Agreement for Categorical Data. Biometrics, Vol. 33, pp. 159–174, 1977.

[3] Wei Xu, Alan Ritter, and Ralph Grishman. Gathering and Generating Paraphrases from Twitter with Application to Normalization. In Proceedings of the 50th Annual

Meet-ing of the Association for Computational LMeet-inguistics (ACL 2012), pp. 121–128, Jeju Island, Korea, July 2012.

[4] イスラエルシェル. ビジネス・ツイッター: 世界の企業を変えた 140 文字の会話メディア. 日経 BP 社, 1984. [5] 岩越守孝, 増田英孝, 中川裕志. Web と携帯端末向けの新聞記事 の対応コーパスからの文末言い換え抽出. 自然言語処理, Vol. 12, No. 5, pp. 157–184, 2005. [6] 風間千明, 関洋平. Twitter 特有のコミュニケーション表現の抽 出. 第 6 回データ工学と情報マネジメントに関するフォーラム (DEIM2014), pp. E6–3, 2014. [7] 佐藤大, 岩越守孝, 増田英孝, 中川裕志. Web 記事と携帯端末向 け記事からの文末サ変名詞の言い換えパターンの抽出. 言語処理 学会第 10 回年次大会発表論文集, pp. 496–499, 2004. [8] 柴田知秀, 黒橋禎夫. 超大規模ウェブコーパスを用いた分布類似度 計算. 言語処理学会 第 15 回年次大会 発表論文集, pp. 705–708, 2009.

図 1 企業アカウントとのコミュニケーションの一例 ため, 「やわらかい」表現のツイートを用いる企業アカウントの 方が,販売促進には適している. しかし,企業アカウントを運営しているユーザすべてが,一 般ユーザにとって親しみやすい, 「やわらかい」ツイートができ るとは限らない.そのため, 「かたい」ツイートを「やわらかい」 ツイートに言い換える自動変換機が必要となってくる. 本研究では, Twitter 上の「かたい」ツイートを「やわら かい」ツイートに言い換えできるような表現のペアを抽出し, Twitt
図 2 「かたい」ツイートと「やわらかい」ツイートの定義 4. 実験:イベントごとに収集したツイートから の言い換え表現の抽出 本章では, 18 件のイベントに対し,言い換え表現の抽出を試 みることで,どのような言い換え表現が獲得できるか考察する. 4
表 2 収 集 条 件 番号 日付 クエリ 1 ク エ リ 2 (and 検索) ク エ リ 3(or 検索) 1 2013/9/8 東京オリンピック 2 2014/3/28 羽生 世界選手権 3 2014/4/17 海月姫 映画 4 2014/6/22 巨人 交流戦 5 2014/7/24 アギーレ 監督 6 2014/10/5 錦織 優勝 7 2014/10/7 ノーベル物理学賞 8 2014/12/1 流行語大賞 9 2014/12/3 はやぶさ 2 打ち上 はやぶさ2 10 2014/9/27 御嶽
表 5 一般名詞に続く n-gram (n=3 ∼9) から抽出した言い換え表現 番 号 イベント名 かたいフレーズ やわらかいフレーズ 1 olympic 東京オリンピック 開催 決定 ! 東京オリンピック 決まっ たん だ ー ! 2 hanyu 世界選手権 初 優勝 世界選手権 初 優勝 キタ ━ ━━━ ( °∀ ° ) ━━━━!! 3 kurage 『 海月 姫 』 実写 映画化決 定 海月 姫 映画 化 すん の ! 4 kyojin 巨人 2 年 ぶり 2 度目 の 交流 戦 V 巨人 交流

参照

関連したドキュメント

サーバー費用は、Amazon Web Services, Inc.が提供しているAmazon Web Servicesのサーバー利用料とな

12―1 法第 12 条において準用する定率法第 20 条の 3 及び令第 37 条において 準用する定率法施行令第 61 条の 2 の規定の適用については、定率法基本通達 20 の 3―1、20 の 3―2

関東 テレビ神奈川 取材 海と日本プロジェクト連携 関東 新潟放送 取材 海と日本プロジェクト連携 関西 化学と教育 67巻4号 報告書. 関西 白陵高等学校 生物部 twitter

「海洋の管理」を主たる目的として、海洋に関する人間の活動を律する原則へ転換したと

Facebook→https://m.f acebook.com/KGBbr oadcast Twitter→https://twitt er.com/KGBbroadc ast 関西学院大学で唯一 の放送団体。アナウ ンス、

教職員用 平均点 保護者用 平均点 生徒用 平均点.