C-DSD48.dvi

(1)

特集論文「知的対話システム」

Twitter

を用いた非タスク指向型対話システムの

ための発話候補文獲得

Candidate Utterance Acquisition Method for Non-task-oriented Dialogue

Sys-tems from Twitter

稲葉通将

Michimasa Inaba

広島市立大学 Hiroshima City University

[email protected]

神園彩香

Sayaka Kamizono

株式会社リョービシステムサービス Ryobi System Service

[email protected]

高橋健一

Kenichi Takahashi

広島市立大学 Hiroshima City University

[email protected]

keywords:non-task-oriented, utterance generation, dialogue system Summary

Recently, computerized dialogue systems are studied actively. Non-task-oriented dialogue systems that handle domain-free dialogues like chats are expected be applied in various fields, but many challenges still exist in devel-oping them. This paper addresses the problem of utterance generation for non-task-oriented dialogue systems. We search twitter data by topic words and acquire sentences. The sentences are filtered by rules and scored on the ba-sis of training data. We acquire the sentences which have a high score as utterances. The results of an experiment demonstrate that the proposed method can generate appropriate utterances with a high degree of accuracy.

1. はじめに

近年，チケット予約や道案内など，特定のタスク達成を目的としたタスク指向型対話システムだけでなく，タスク達成を目的とせず，雑談など対話そのものを目的とする非タスク指向型対話システムの研究も活発になりつつある．非タスク指向型対話システムは，対話によって人に癒しを与えたり，ロボットなどに組み込むことで，人に親近感や安心感を与えるなど，様々な応用が期待されている．そこで我々は，対話を盛り上げ，ユーザが楽しいと感じる対話が可能な対話システムの実現を目指している．しかし現状では，人間と自然な対話が可能な非タスク指向型対話システムの実現には課題が多い．本研究では，その課題の1つである発話生成を対象とする．稲葉らは複数の発話候補から，状況に応じて適切な発話を統計的手法を用いて選択し，対話を行う手法として統計的応答手法を提案した[稲葉12]．ここでは，発話選択の性能評価に問題を限定するため，実験で用いた発話はすべて人手で作成していた．しかし，人手による発話作成のコストは非常に大きいことや，あらかじめ発話を人手で作成する場合，発話候補にない話題は扱えず，対話中の話題は限定されたものになることから，発話生成は自動で行えることが望ましい．また，非タスク指向型対話システムの研究では，対話中の発話はSWBD-DAMSLタグ[Jurafsky 97]などの発話の種類のタグ(発話行為タグ)を用いて管理・分析されることがしばしば行われる．例えば，徳久らによる非タスク指向型対話に発話行為タグと修辞構造を表すタグを付与し，発話の種類と対話の盛り上がりの関係を分析した研究[徳久06]や，南らと目黒らによる発話行為タグを用いて非タスク指向型対話システムの対話制御を行った研究[南12,目黒12]などがある．これらの研究結果を非タスク指向型対話システムに応用するためには，発話行為タグから任意の話題に関する発話を生成する手法が必要であるが，そのような手法はこれまでに提案されていない．ただし，発話に対して適切な発話行為タグを付与する研究は進められており[Stolcke 00,磯村09b]，任意の話題に関する発話を生成する手法が提案できれば，発話行為タグから任意の話題に関する発話を生成することが可能となる．そこで，本研究では発話自動生成を目的とし，Twitter から発話として使用可能な文を自動獲得する手法を提案する．発話生成にTwitterを用いる利点としては，話し

(2)

言葉で書かれている場合が多いこと，広範囲にわたる話題をカバーしていること，APIが公開されているため容易に大量のデータが取得可能なこと，などが挙げられる．一方で，スパムツイートや，誤字脱字，意味的・文法的に誤っている文などノイズとなるものも多く含まれており，発話として使用するのに不適切なデータも多い．本研究では，そのようなデータをルールによるフィルタリングと点数付けにより排除し，対話システムが発話としてそのまま使用可能な文の獲得手法を提案する．なお，本研究ではユーザの発言に対して対話システムがどのような応答を返すべきかという対話戦略・対話管理については対象とせず．発話の生成のみを扱う．

2.

3. 発話獲得手法

3·1 概要本節では，Twitterデータから発話文を自動獲得する手法について述べる．本手法は，任意の話題語を入力とし，その話題語に関する発話を出力するものである．本研究では，汎用性の高い発話生成を目指し，下記の条件全てを満たす発話を正解発話と定義する．また，表 1に正解発話と不正解発話の例を示す． •入力された話題語に関する発話であること •日本語として適切であり，意味の通じる発話であること •その発話だけで意味・意図が理解できること •使用できる時間や空間が限定されている発話ではないことこのうち，3点目の「その発話だけで意味・意図が理解できること」は汎用性の高い発話が生成されることが望ましいことから設けた条件である．例えば，表1の5は，その発話だけでは何に関して似ているのか，ということが不明なためこの条件に反している．よって，不正解発話と判定されている．4点目の「使用できる時間や空間が限定されている発話ではないこと」は発話の使用に際して，時間的・空間的制約が存在する発話は使用機会が少なく，望ましくないことから設けた条件である．表1 の6は，雨の降っている時間・場所でないと使用できない発話であるため，不正解発話と判定されている．提案手法では，まず入力された話題語でTwitterデータを検索し，話題語を含む文を抽出する．話題語は複数

(3)

表 1 Twitter から取得した文の例 ID 話題語文判定 1 読書読書の睡眠導入効果はすごい正解 2 テニステニスの硬球って、意外と硬くないですよ正解 3 ワイン栗きんとんにワインは合わない正解 4 カラオケカラオケは本パート歌ってるよりも合の手歌ってるほうが楽しい正解 5 猫の手すごく猫の手に似てる不正解 6 読書雨も降ってるから今日はお家で大人しく読書不正解 7 アメリカそういうとこがアメリカはいいよね不正解 8 ワインワインよりいいね不正解の単語からなる語でも良い．抽出した文には，前処理としてルールに基づいたフィルタリングを行う．次に各文を教師データに基づいて点数付けし，その点数がしきい値以上の文を獲得する．最後に，後処理として語尾の変形を行い，発話として使用できる形で出力する．提案手法の基本的なアイデアは，Twitterを用いることにより，容易に大量のデータが入手できるという利点を生かし，発話として使用不可能な文を厳しい基準によって排除し，使用可能な文を精度よく獲得するというものである．したがって，フィルタリングルールは使用可能な文をも排除してしまう可能性のあるルールであっても，使用不可能な文を排除するために有効なルールであれば採用する．また，点数付けについては，点数の増減に関して非対称な手法により行う．点数は文中に含まれる語に基づいて計算する．その際，不適切な語が含まれていた場合は点数を大きく下げる．一方で，適切な単語が含まれていても点数の上昇には上限を設ける．つまり，点数は上がりにくく下がりやすいものにすることで，少しでも使用不可能な可能性のある文を積極的に排除する． 3·2 Twitterからの文抽出本節では，次節で述べる点数付け対象となる文の取得手順について説明する．まず，入力された話題語でTwitterデータを検索し，話題語を含むツイート(リツイート，リプライを含む)を全て抽出する．ただし，URLを含むツイートは除外する．次に，ツイートを句点および記号で文単位に分割し，その中で以下の条件をすべて満たす文のみを取得する． •話題語を含んでいる文 •単語数が6以上30未満の文 •「@」(ユーザー名)を含まない文ここで，フィルタリングルールの設定のため，上記の条件を満たす文について正解発話・不正解発話の判定を行い，不正解発話に分類される文に共通する特徴を調査した．調査は後述する教師データの作成と同時並行で行った．調査の結果から，以下のAからGのフィルタリングルールを設定した．なお，フィルタリングルールには品詞情報を使用するものがあるが，本論文では形態素解析にMeCab[Kudo 05]を使用した．ルールA. 話題語と名詞が連続している文話題語と名詞が連続している場合，話題とはあまり関係ない文が多く抽出されたために設けるルールである．例えば話題語を「アメリカ」としてTwitter データを検索すると，「アメリカザリガニ」に関する文も抽出される．しかし，対話における話題が「アメリカ」の場合に「アメリカザリガニ」について話すことは多くの場合適切ではないと思われる．また，話題語を「ANA」としてTwitterデータを検索すると「NIRVANA」に関する文も抽出される．ここで，「ANA」を名詞と指定して形態素解析を行うと∗2，多くの場合，残りの部分は意味の無い語(今回の場合は「NIRV」)となり，（未知語のため)名詞と判断される．したがって，「NIRVANA」の形態素解析結果は「名詞+名詞(話題語)」となり，「NIRVANA」に関する文は除外される．ルールB. 人名，代名詞が含まれている文人名に関しては，有名人以外の人名が含まれている場合，代名詞は，表1の7のように先行詞が同一文中に含まれない場合に，その発話だけで意味・意図が理解できない文が多く抽出されたため設けたルールである．具体的には，品詞が名詞-固有名詞-人名，および名詞-代名詞である単語が含まれていた文を除外する．なお，判定はあくまで品詞のみで行い，先行詞が含まれるか否かや，人名が有名人か否かの判定は行わない．ルールC. 先頭の単語の品詞が助詞，助動詞，接続詞の文ルールD. 末尾の単語の品詞が助詞-格助詞，助詞-係助詞，助詞-接続助詞，助詞-並列助詞，名詞(名詞-形容動詞語幹は除く)の文ルールCとDは，記号によりツイートの分割を行ったことによる，文の途中で不適切な分割が起こったものを除外するためのルールである．例えば話題語が「ボウリング」で，「二次会でボウリングは…やっ ∗2 MeCab ではこのような制約付き解析が可能

(4)

ぱしんどいなぁ」というツイートから取得される文は「二次会でボウリングは」となる．これは，この発話だけで意味・意図が理解できないことから不正解発話であるが，本ルールにより文末が助詞-係助詞のため，除外される．ルールE. 文末以外に助詞-終助詞が含まれている文助詞-終助詞が文末以外に出現した文には，句点と読点の打ち間違えや，句点の打ち忘れ，および誤字と思われるミスが多く見られたため，それらを除外するために本ルールを設ける．具体的には，品詞が助詞-終助詞である単語よりも後に，助詞-終助詞以外の品詞が存在する文を除外する．ルールF. 時間を特定する語，数値が含まれている文表1の6のように「今日」や「明日」などの時間を特定する語が含まれている文は，極めて限定された時間でしか使用できない文であることが多かったため設けるルールである．また，数値も日付などを指定する際に多く使われていたため，数値が含まれている文は除外する．ルールG. 不十分な比較が含まれている文表1の8のような比較対象が存在しない文を除外するために設けるルールである．具体的には，「方/ が」もしくは「ほう/が」が含まれている文において，「より」が含まれていない文は除外する(「/」は単語の区切りを表す)．逆に，「より」が含まれている文において，「方/が」もしくは「ほう/が」が含まれていないものは除外する．提案手法では，取得した文を上記のルールを用いてフィルタリングし，除外されなかった文を次節で説明する手法により点数付けする． 3·3 文の点数付け § 1 助詞以外の単語の点数本節では，文の点数付け手法について説明する．前節で述べたルールによるフィルタリングを行なっても，除外できない不正解発話は存在する．そこで，文中の単語の点数(重要度)を教師データから学習し，その点数を用いて文を点数付けする．そして，文の点数の低いものを除外する．教師データには3·1節で述べた基準にしたがって人手で判定を行った複数の正解発話と不正解発話を用いる．本手法では，正解発話と不正解発話では出現する単語の分布が異なると仮定し，正解発話中に出現しやすい単語には高い点数を，逆に不正解発話に出現しやすい単語には低い点数を付与する．例えば，「降る」という単語は天候を述べる際に使用されることが多い．さらに，Twitter では現在の状況を投稿することが広く行われていることから，「降る」は現在の天候を述べる際に使用される場合が多いと考えられる．そういった内容が含まれている場合，表1の6のように，使用できる時間・空間が限定された発話となる．したがって，「降る」という単語は不正解発話に出現しやすいと考えられる．単語の点数には，その単語が正解発話の総単語数に占める割合と不正解発話の総単語数に占める割合の比を用いる．ただし，単語は表層形ではなく基本形に直したものを用いる．単語wの点数x_wの計算式を以下に示す．

xw=_freqfreqwcorrect allcorrect

÷ freqwincorrect

freqallincorrect

(1) 式中のfreq_w_correctは教師データにおいて，単語wの正解発話全体における出現回数，freq_all_correctは正解発話全体の総単語数，freq_w_incorrect は単語wの不正解発話全体における出現回数，freq_all_incorrect は不正解発話全体の総単語数である．したがって，点数が0に近ければ近いほど不正解発話に出現しやすい単語であることを示し，1.0より大きければ大きいほど正解発話に出現しやすい単語であることを示す．ただし，教師データにおける出現回数がn回未満の場合，点数は付与しない．実験ではn = 5を用いた．また， 1文中に同一の単語が2個以上含まれる場合，そのうちの1個にだけ点数を付与し，それ以外は付与しない．話題語に関しても点数を付与しない． § 2 助詞の点数助詞の点数については，助詞単体では点数付けの意義が小さいと考え，助詞とその前後の単語の品詞を用いた 3-gramを用いる．また，助詞が文頭および文末にある場合にも点数を計算できるようにするため，文の先頭と末尾にシンボル「BOS」と「EOS」を付加し，これらを用いて3-gramとする．例えば「コーヒー/美味しい/ね」という文の助詞-終助詞「ね」の点数は「形容詞-自立,ね, EOS」から計算する．助詞の点数は他の品詞と同様に式(1)により，教師データにおける3-gramの出現回数を用いて計算する．ただし，連続する助詞が存在する場合，それらを連結して1 つの助詞とみなして計算する．例えば「台所/に/は/不要」では，助詞である「に」と「は」が連続しているので，「名詞-一般,には,名詞-形容動詞語幹」とする．また，話題語は他の単語と区別して扱う．「台所/に/は/不要」で話題語が「台所」であった場合，3-gramは「話題語,には,名詞-形容動詞語幹」となる． § 3 文の点数文の点数は，以下の式により計算する． SentenceScore = w∈W fα(xw) fα(xw) = xw (xw< α) α (xw≥ α) ここで，W は点数が付与された文中の単語の集合を表し，wは各単語を表す．また，x_wは教師データから計算

(5)

表 2 文の点数の計算例 1 単語点数付け対象単語の点数ココア - -は話題,は,副詞-助詞類接続 1.08 とてもとても 7.84 美容 - -に名詞-一般,に,形容詞-自立 2.69 良い良い 6.73 らしいらしい 4.25 よ助動詞,よ, EOS 2.64 表 3 文の点数の計算例 2 単語点数付け対象単語の点数とりあえずとりあえず 0.14 ココア - -に話題,に,動詞-自立 0.12 入れ入れる 0.81 て動詞-自立,て,動詞-非自立 0.22 みみる 0.34 まします 0.20 たた 0.27 されるwの点数である．αは点数の上限を決定するパラメータである．実験ではα＝1.4とした．文の点数は，単語の点数がαより小さい場合はそのまま掛け合わされ，単語の点数がα以上の場合，αが掛け合わされることにより計算される．このように，本手法では単語の点数に上限を与えることにより，文の点数が下がりやすく上がりにくい点数付けを行う．表2に「ココアはとても美容に良いらしいよ」(話題語：ココア)の点数付けの例を示す．この例では，「ココア」は話題語のため，「美容」は教師データにおける出現回数が 5回未満であったため，それぞれ点数が付与されていない．単語の点数に着目すると，1.40点以上が5つと1.08 点が1つなので，この文の点数は，1.405× 1.08 = 5.81 となる．また，表3に「とりあえずココアに入れてみました」(話題語：ココア)の点数付けの例を示す．この例では1.40点以上の点数が付与された単語は存在しない．したがって，単語の点数はそのまま掛け合わされ，文の点数は0.14 × 0.12 × 0.81 × 0.22 × 0.34 × 0.20 × 0.27 = 5.50 × 10−5_となる．文の点数付けの結果，点数がしきい値以下の文を除外する．実験ではしきい値は1.0を用いた．しきい値は経験的に決定した． 3·4 語尾の変形最後に，発話文として使用可能な形にするため，文の語尾を変形する．語尾はですます調(例：ラーメンはおいしいです)よりも，「∼ですよね」「∼ますよね」「∼でしょうか」のような語りかけ調(例：ラーメンはおいしいですよね)の方が，ユーザに親近感を与え，対話も盛り上がりやすいと考えられる．したがって，語尾は可能な限り語りかけ口調に変形する．ただし，語りかけ口調にすると日本語として不自然になる場合もあるため，ですます調にも変形する．語尾の変形ルールはヒューリスティックに決定した．まず，変形の必要がない文末と，丁寧語に置き換えるだけで変形が完了する文末を文末パターンとして用意し，文が文末パターンにマッチするかどうかを確認する．マッチした場合は下記の(1)，マッチしなかった場合は(2)の各ルールにより語尾を変形する． (1) あらかじめ用意した文末パターンとマッチした場合 a 文末が「です」「ますね」「ですよね」など，変形の必要がない場合は変形を行わない． b 文末が「だね」「だよな」「なのか」など，丁寧語に変形すれば良い場合，パターンマッチによる変形ルール「だね → ですね」「だよな → ですよね」「なのか → でしょうか」などを用いて変形する． (2) 文末パターンとマッチしなかった場合，文末から順に単語の基本形とその品詞を確認する a 文末から見て最初に「好き」「嫌い」以外の名詞，形容詞，副詞がある場合，「[名詞/形容詞/副詞] +ですよね」に変形．ただし，文末が「か」および「？」の場合は「[名詞/形容詞/副詞] +でしょうか」に変形． b 文末から見て最初に「好き」「嫌い」がある場合，「[好き/嫌い]+なんですよね」に変形．ただし，文末が「か」および「？」の場合は「[好き/ 嫌い] +なんでしょうか」に変形． c 文末から見て最初に「思う」以外の「動詞+ ませ」および「動詞+ん」がある場合，「動詞の連用形+ません」に変形．ただし，文末が「か」および「？」の場合は「動詞の連用形+ませんか」に変形． d 文末から見て最初に「思い+ませ」および「思わ+ん」がある場合，「思い+ません」に変形．ただし，文末が「か」および「？」の場合は「思い+ませんか」に変形． e 文末から見て最初に「ない」がある場合，「ない+ですよね」に変形．ただし，文末が「か」および「？」の場合は「ない+でしょうか」に変形． f 文末から見て最初に「らしい」「べき」「だけ」「のみ」「たい」「つもり」がある場合，「[らしい/ べき/だけ/のみ/たい/つもり] +です」に変形．ただし，文末が「か」および「？」の場合は「[らしい/べき/だけ/のみ/たい/つもり] +でしょうか」に変形．

(6)

例えば「読書は電車の中が一番はかどるなぁ」という文を上記のルールに基づいて語尾を変形すると，まず，文末パターンにマッチせず，文末から見て最初に「はかどる」という動詞があるため，「読書は電車の中が一番はかどりますよね」と変形される．

4. 評価実験

4·1 実験概要提案手法の発話獲得性能の評価のため，実験を行った．本実験では，予め収集したTwitterデータを用いて，適切に発話候補が獲得できることを確認する．性能比較のため，SVMを用いた実験も行った．以下では，使用したデータ，および実験設定について述べる． 4·2 使用データ実験で使用したTwitterのデータは，2010年1月1日から2010年12月31日までに収集した日本語のツイート約15億件である．このデータを用いて，教師データの作成と発話候補の獲得を行った．教師データは任意の話題語でTwitterデータを検索し，ツイート中の話題語を含む文について正解発話と不正解発話の判定を行うことで作成した．判定対象はツイートを句点および記号で分割し，その中で話題語を含んでいた文である．ここでは，3·2節で述べたような文中の単語数による制限やフィルタリングルールの使用は行わなかった．また，同一文が複数存在した場合は1つにまとめ，重複が無いようにした．作成した教師データにおける話題語の種類は59，正解発話数は1866個，不正解発話数は6581個の計8447個である．話題語は判定者が無作為に選んだものであり，話題語ごとの発話数も一定ではない．教師データ中で最も発話数が多い話題語は「読書」で2358個，2番目が「カラオケ」で929個，3番目が「旅行」で925個である．また，「イタリア」(287個) や「ピカチュウ」(11個)など固有名詞も含まれている．ただし，教師データ作成時に用いた話題語には，次節で述べる性能評価のために使用した話題語と同一の語，および同義語は含まれていない． 4·3 実験設定話題語は2010年のGoogle年間検索ランキング∗3における，ランキングカテゴリ9項目の各上位3件，計25 個∗4を用いた．表4に実験で使用した話題語を示した．なお，アルファベットの大文字・小文字については区別せずに扱った．獲得した発話候補文の正解・不正解判定は大学生3名が個別に行った．判定基準は教師データ作成時と同じく ∗3 https://sites.google.com/site/japanzgeist/ ∗4 項目間で 2 件重複あり 表 4 実験で使用した話題語

YouTube Yahoo Facebook

かぼちゃ大根ゴーヤ ANA JAL au ユニクロ Gap H&M iPad Xperia 楽天銀行ワールドカップはやぶさスカイツリーハートロッカー告白アバター岡村隆史板野友美大島優子ニコニコ動画 3·1節で述べたものとした．なお，表4には多義性がある語が含まれているが，語義の同定は，対話システムがどのような応答するかを最終決定する応答手法が扱うべきタスクであると考え，発話は話題語のいずれかの語義に関するものであればよいものとした．これは，対話中にユーザの出した話題が多義語であった時，それがどの語義についてのことなのかを応答手法が認識できなければ，仮に語義別の発話生成が可能だったとしても，結局どの語義についての発話を使用すれば良いのかは判断できないからである．逆に，応答手法によって語義の同定が行えるのであれば，発話の生成が語義別に行われていなくても，応答手法によって適切な語義についての発話が選択可能である．また，語尾の変形誤りの影響を考慮するため，評価者には語尾の変形前の文と変形後の文の両方を提示し，変形後の文では不正解発話であるが，語尾が適切に変形できていた場合に正解発話となるものは「変形誤り」と判定させた．最終的に性能評価に用いる各発話候補文の判定結果は3名の多数決により決定した．3名の評価者の判定が全て異なった場合には，3名とは別の評価者1名が再評価を行い，その判定を実験に用いた．3名の評価のκ値(正解・不正解・変形誤りの3段階評価)は0.82であり，かなりの一致がみられることを確認した．性能比較のため，以下の手法による発話文の獲得も行った． (1) 点数付けのみ (2) SVM (3) フィルタリング+ SVM このうち，(1)は3·2節で述べたルールによるフィルタリングを行わずに，3·3節で述べた点数付けを行ったものである．(2)はSVMを用いて点数付けを行ったものである．(3)は提案手法と同様のフィルタリングを行った後，提案手法の点数付けの代わりにSVMを用いたものである．SVMの実装はLIBSVM[Chang 11]を用いた． LIBSVMには事後確率の推定手法が実装されており，点数として正解発話クラスに所属する事後確率を用いた． SVMの学習に用いたデータは，提案手法で点数付けに用いた教師データと同一とし，素性は提案手法において

(7)

表 5 実験結果手法正解率(1) 正解率(2) 提案手法 95.8 % 96.4 % 点数付けのみ 88.2 % 90.4 % SVM 79.6 % 85.6 % フィルタリング+ SVM 84.4 % 88.6 % 点数付け対象となる要素(助詞以外の単語の基本形，助詞とその前後の品詞の3-gram)とした．カーネルは線形カーネルを用いた． 4·4 結果表5に各話題語について，文の点数上位20件，計500 発話の評価結果を示す．表中の正解率(1)は変形誤りを不正解発話として計算した場合，正解率(2)は変形誤りを正解発話として計算した場合の正解発話の割合である．表中の「提案手法」と「点数付けのみ」の正解率(1)および(2)を比較すると，ともに提案手法の方が優れていることが確認できる．ここから，ルールによるフィルタリング手法の有効性が確認できた．また，「提案手法」と「フィルタリング+ SVM」を比較した場合でも，提案手法の方が正解率は高い．よって，点数付け手法についても有効性が確認できた．同様に「SVM」よりも「提案手法」のほうが正解率が高い結果となった．なお，「提案手法」と最も正解率が近かった「点数付けのみ」の正解率 (2)について比率の差の検定を行った結果，有意水準1 % で有意であった．よって，提案手法とその他の全ての比較手法との間に有意差があることを確認した．以上のことから，提案手法の有効性が示された．表6に各話題語に関して，文の点数が1位となった発話の一部を示した．また，表7に話題語がFacebookの場合における，文の点数上位5件を示した．ここから，話題語に関する発話が正しく獲得できていることがわかる．獲得された発話は，例えば以下のように，ユーザが話題転換を行った際の応答に使用可能である． (発話使用例1) ユーザ : そういえば，最近ハートロッカーっていう映画見ましたよシステム :ハートロッカーって題名だけ聞くと青春ロックムービーってイメージですよねまた，システムが対話を主導する場合にも使用可能である．その際，獲得された発話をそのまま使用しても問題ないが，以下のように接続詞などを適宜補えば，より自然な対話が可能になると思われる．どのように接続詞を補うかという点については，今後の検討課題である． (発話使用例2) システム : TwitterやFacebookは足跡機能がないから気軽なんですよねユーザ :確かに，Mixiだと誰かの日記を見たらコメントしなきゃいけないような圧力がありますよねシステム : (でも，)facebookは日本人には合わない様な気もするんですよねユーザ :実名や顔写真を載せるのは抵抗がありますしねシステム : (それに，)facebookよりmixiの方が使い勝手が良いんですよねその他，ユーザに話題語に関する意見を求められた時や，ユーザが話題語に関する意見を発言した際に，システム側の意見を発言する際などにも使用可能である．一方で，表6において話題語が「かぼちゃ」で獲得された発話は，対話中で「かぼちゃ」が話題になっていることに加え，「ハロウィン」も話題になっていないと使用することは難しい．その他にも，話題語が「iPad」で獲得された発話は「（電子）書籍」が話題となっていることが必要である．本研究では使用時の制約が少ない発話の生成を目指したが，このように話題語以外の話題の制約は存在する．したがって，獲得された発話を利用する際には，その発話中に含まれる話題語以外の語に関しても注意を払う必要がある．また，表8には話題語がFacebookの場合における，文の点数がしきい値以下だった発話の一部を示した．順位が6031位や29739位の発話のように，点数が低い発話であっても正解発話の条件を満たしていると考えられる文は含まれている．ただし，これは少しでも不正解の可能性のある文を積極的に排除した結果である．また，点数も1.0付近から0に近い値まで広く分布していることが分かる．表9に，実験で使用した教師データから計算された単語の点数を示した．「さて」は「さて，少し読書をして寝る」のように少し先の予定を投稿する際によく使用される．このように「さて」を含むツイートから獲得された発話は，使用時に時間的な制約がある場合が多いため，低い点数となったと考えられる．「結局」は「結局，読書には使えなかった」のように，直前の文を踏まえた形で使われる場合が多い．このような場合，語の省略が起こることは多く，その発話だけで意味・意図が理解できない発話となるため点数は低くなったと考えられる．一方で，「こと」や「する」のように，発話中で使用されていても問題ないと思われるような語でも，低い点数となっている単語は存在する．「話題,は,形容詞-自立」「素晴らしい」「異常」は「読書は素晴らしい(話題語/は/形容詞-自立)」「読書のコストパフォーマンスは異常」などのように，時間的・空間的制約が少なく，話題語に関する感想・意見を述べた文によく含まれていた．また，省略が起こっていたとしても一文で意味・意図が理解できる文が多かった(例えば，「読書は素晴らしい」は「読書は”時間と場所を選ばないのが”素晴らしい」という文の一部が省略されたものだったとしても問題ない)ために，点数は高くなったと思われる．

(8)

表 6 各話題語において文の点数が 1 位の発話の例

話題語人手評価発話

Youtube 不正解本当はOPのyoutube貼ったりするのもダメなんですよね

かぼちゃ正解ハロウィンの季節は素敵な絵とかかぼちゃのお菓子とかいっぱいでいいですよね

ANA 正解 ANAよりJALの方がマイレージの使い勝手がいい気がしますよねユニクロ正解ユニクロはよっぽどサイズに不安がある場合以外は通販が便利ですよ

iPad 正解日本の書籍読むのはiPadよりSONYのリーダーの方がいいんですねワールドカップ正解サッカーのワールドカップにもパラリンピック的なのがあるんですねハートロッカー正解ハートロッカーって題名だけ聞くと青春ロックムービーってイメージですよね岡村隆史正解改めて岡村隆史のポテンシャルは高いと思いますニコニコ動画正解ニコニコ動画って、利用者は女性の割合が高い気がするんですよ表 7 話題語が Facebook の場合の獲得発話例順位点数人手評価発話 1 25.00 正解 Facebookの掲示板って英語使うのが基本なんでしょうか 2 23.68 正解 TwitterやFacebookは足跡機能がないから気軽なんですよね 3 22.06 正解 facebookは日本人には合わない様な気もするんですよね 4 20.66 正解 facebookよりmixiの方が使い勝手が良いんですよね

5 19.61 正解 TwitterもFacebookもYoutubeもなくても、外に楽しい世界がありますよね

6 18.74 正解 facebookの情報って検索可能な場所にないのでしょうか 7 18.64 正解日本ではFacebookよりTwitterのほうがポピュラーなんですよ 8 17.70 正解英語使わないとfacebookの良さがわかりづらくなりますよね 9 16.92 正解 facebookは運営方針が凄いのだと思いますよ 10 16.18 正解 facebookはシンプルなmixiだと思えばいいんですよ表 8 話題語が Facebook の場合の点数がしきい値以下の発話例順位点数発話

3712 1.00 mixiだけ、GREEだけ、facebookだけです

6031 0.50 Twitterのユーザを奪うのはFacebookじゃない気がします 12125 0.10 FaceBookもやってんのでしょうか 15203 0.05 リストなどまだ良く分からないんだけど、 Facebookと同時に更新できるのはイイですよね 20343 0.01 facebookとかする気なくなったから全部twitterに流れチャンですよね 29739 1.00 × 10−3 facebook重くてちゃんと使ってみようって気になれないですよね 34366 1.00 × 10−4 FacebookやTwitterしてたのは棚に上げて忘れてみますよね

36327 1.00 × 10−5 もう、twitterとfacebookとblog、mixiに勝るすべてのデバイスを手に入れますよね

36985 1.00 × 10−6 眠くなってきたので、Facebookにアカウントを作ってみますよね

37229 1.00 × 10−7 ブログ、mixi、twitterとやってきたけど、

Facebookもやらんとガラパゴスになってしまうのでしょうか

37342 1.03 × 10−12 facebookをほとんど使っていなくて幽霊アカウント状態になっているので、

(9)

表 9 単語の点数例単語点数さて 0.01 結局 0.27 こと 0.29 する 0.40 ひどい 0.99 感覚 1.08 ある 2.95 話題,は,形容詞-自立 4.92 素晴らしい 24.49 異常 27.99 4·5 考察 § 1 獲得発話数表10には，提案手法による獲得発話数を示した．なお，最大獲得発話数と最小獲得発話数における括弧内は対応する話題語である．対話システムが多様な応答を行うためには，発話候補は多いことが望ましい．実験では，点数の上位20位までの評価を行ったが，それよりも下位の発話が使用可能であるかは必ずしも明らかではない．そこで，各話題語について獲得された発話において，文の点数の下位10件，計250発話の評価を行った．その結果，正解率(1)は89.6 %，正解率(2)は95.2 %であり，正解率(2)については表5で示した上位20件を評価した場合と比べると少し低下するものの，ほぼ同等の結果となった．したがって，順位にかかわらず，獲得した発話が応答候補として利用できる可能性が示唆された．ただし，同表に示したように，提案手法によって獲得された発話数は話題語によって大きく差が出る結果となった(獲得発話数の標準偏差σ = 4884.7)．本手法はTwitter データを用いているため，Twitterで話題となりにくい語に関しては獲得できる発話数も小さくなる．そのような話題語に関する発話をより多く獲得したい場合には，クエリ拡張を行う，使用するTwitterデータを増やすなどの対策が必要である．しかしながら，雑談のような非タスク指向型対話において，ある1つの話題に関することしか話してはいけないという状況は考え辛い．獲得できた発話数が少なければ，早めの話題転換を行ったり，対話中に新たに出現した語を次の話題とし，話を展開させればよい．また，ユーザと対話を行う際，1話題あたりどの程度の発話数が必要であるかは明らかではないが，本実験で獲得できた発話数が100未満だった話題語は「岡村隆史(20個)」と「板野友美(93個)」の2つのみであり，ほとんどの話題語では多数の発話を獲得することが可能であった．なお，この2つの話題語を含むツイート数を調査したところ，「岡村隆史」は5847個，「板野友美」は18054個であった．本実験で獲得発話数が最大だった表 10 提案手法による獲得発話数話題語あたりの平均獲得発話数 3055.8 最大獲得発話数 25033 (iPad) 最小獲得発話数 20 (岡村隆史) 「iPad」が2791335個であることを考えると，獲得発話数が小さかった主な原因はTwitterでの言及数が少ないためだったといえる． § 2 フィルタリングルール提案したフィルタリングルールの有効性についても調査を行った．実験においてフィルタリングルールを用いていない「点数付けのみ」と「SVM」によって獲得した発話988個(1000個のうち12個が重複)に対し，各ルールをそれぞれ個別に適用した結果，および全ルールを同時に適用した結果を表11に示す．表の除外発話内正解率は，各ルールで除外された発話における正解発話の割合である．つまり，この割合が小さいほど効率よく不正解発話を除外できているということになる．表より，全ルールを適用した場合，988個中579個(58.6%)が除外された．また，除外された発話数が少なかったルールCとルールD を除くと，最も効率の良く不正解発話を除外できたルールはルールA(話題語と名詞が連続している文)で，除外発話内正解率は68.1%であった．よって，このルールが提案手法の正解率向上に大きく寄与していることがわかる．これは話題語が「au」の場合に「audio-technica」に関する発話が除外できるというような，他の単語中に話題語が含まれてしまうことがある話題語の場合に特に効果的であった．一方，最も効率の悪かったルールはルールG(不十分な比較が含まれている文)であった．ただし，除外発話内正解率は89.9%であり，提案手法の正解率の方が高いことから，ルールGも提案手法の性能向上に有効であることが確認できた．ここで，ルールCとルールDは除外された発話の総数が少なく有効性が確認できなかったため，追加実験を行った．話題語を「iPad」とし，「点数付けのみ」の手法で生成された点数が1.0より大きい発話について，各ルールを適用した．ここでそれぞれのルールで除外された発話について，点数上位30件をこれまでと同様に3名で判定した．結果を表12に示す．表より，先頭の単語の品詞により除外を行うルールCは非常に効率よく不正解発話を除外できていることが確認できた．一方，末尾の単語の品詞により除外を行うルールDは，変形誤りと判定された発話を多く除外できていることが確認できる．ルールDで除外された発話のうち，文の点数が最も高かった発話は「iPadって、病院関係でも気軽に使えそうな気がするにゃもね」であり，語尾を変形すると「iPadって、病院関係でも気軽に使えそうな気がするにゃもねですよね」となり，変形誤りと判定された．このようなほとんど出現しない語尾の場合，形態素解析誤りが高頻度で発生するため，語尾変形ルールの改善による対応は難しい(この

(10)

表 11 各フィルタリングルールで除外された発話の内訳ルール正解数不正解数変形誤り数除外発話数(合計) 除外発話内正解率ルールA 175 68 14 257 68.1% ルールB 163 24 11 198 82.3% ルールC 0 3 0 3 0.0% ルールD 1 2 0 2 33.3% ルールE 31 6 8 45 68.9% ルールF 85 20 7 112 75.9% ルールG 71 7 1 79 89.9% 全ルール適用 453 96 30 579 78.2% 表 12 フィルタリングルール追加実験ルール正解数不正解数変形誤り数ルールC 1 29 0 ルールD 3 9 18 例の場合，「ゃもね」が名詞と判定された)．したがって，このルールDによるフィルタリングは変形誤りを防止するという観点から有効であるといえる．以上より，提案手法で用いた全ルールが有効であることを確認できた． § 3 教師データ教師データのサイズの妥当性についても調査を行った．教師データ内における出現回数がしきい値(n = 5)未満であり，点数が付与されなかった単語がどの程度存在したのかを調査した．実験において，提案手法により点数付けを行った文(フィルタリングルールを適用しても除外されなかった文)は653593文であった．ここで出現した単語は102616種類であったが，そのうちの30.3%である31048種類について点数が付与されなかった．しかし，総単語数で見た場合，総単語数10543971個のうち，点数が付与されなかった単語は109607個(1.0%)であり， 99%の単語について点数が付与できていたことを確認した．これは，文の点数付けを行う際，ほとんどの単語に点数が付与され，文の点数計算に使用できる事を意味する．したがって，教師データのサイズは十分であったことが示唆された． § 4 不正解発話の原因提案手法によって生成された発話の誤りの原因について調査したところ，以下が見られた． •誤字・脱字が存在する場合提案手法により「Xperiaってなんだと思ったら Do-CoMoの新しいスマトーフォンなのでしょうか」という発話が生成されたが，発話中の「スマトーフォン」は「スマートフォン」が正しい．4·4節の提案手法で獲得した500発話のうち，この発話のみに誤字・脱字が存在した．この問題の解決のためには，誤字・脱字の検出・訂正手法[荒木02]を用いるなどして対処する必要がある． •一文では意味・意図が不明な場合 4·4節の提案手法で獲得した500発話のうち，16 発話が一文では意味・意図が不明であった．例えば，提案手法により「ANAだと国内線でも言いますよね」という発話が生成された．しかし，この発話単体では何を言うのか，ということが読み取れないため不正解発話と判定された．この問題は名詞句の省略により発生していることから，ゼロ照応解析などにより，省略されている語を補う，もしくはゼロ代名詞が存在するか否かを判定し，その文を除去することが必要である． •語尾の変形に失敗した場合 4·4節の提案手法で獲得した500発話のうち，4 発話が語尾の変形に失敗していた．例えば，提案手法により「iPadって、ベッド以外で使う事ですよね」という発話が生成された．この発話は語尾の変形前は「iPadって、ベッド以外で使う事がねえな」であり，「iPadって、ベッド以外で使う事がないですよね」と変形できていたら正解発話であった∗5．語尾変形のルールはヒューリスティックに決定したものであり，このように適切に対応できないものも存在する．したがって，語尾変形ルールのさらなる拡充・修正や，新たなフィルタリングルールによって除外するなどの対策が必要である．なお，フィルタリングルールの失敗により不正解となった発話は確認できなかった．ただし，このことはフィルタリングルールが完璧だったことを意味するわけではなく，不正解発話数が少なかったためであると考えられる．したがって，そういった例が発見された際には，ルールの拡充や修正が必要であると思われる．

5. ま

と

め

本研究では，非タスク指向型対話システムの発話の自動生成を目的とし，Twitterデータから任意の話題語に ∗5 文中の「ねえ」は助動詞と判定されたため，使用した語尾変 形ルールでは正しく変形できない．

(11)

関する発話を生成する手法を提案した．提案手法は，まずTwitterデータを任意の話題語で検索し，取得した文をルールによりフィルタリングを行う．次に，文に点数付けし，点数がしきい値以上の文を発話として獲得する．実験の結果，発話として使用可能な発話が高精度で生成可能であることを確認した．今後は，提案手法により生成した発話と，稲葉らが提案した発話選択法[稲葉12]を用いて対話システムを実装し，実際にユーザと対話することにより評価を行う予定である．その際，定量的な評価法[磯村09a,稲葉11] を用いた自然な対話が可能かどうかの評価だけではなく，楽しい対話が可能かといった主観的な評価も行う予定である．

♦

参考文献

♦

[Chang 11] Chang, C.-C. and Lin, C.-J.: LIBSVM: a library for sup-port vector machines, ACM Transactions on Intelligent Systems and Technology (TIST), Vol. 2, No. 3, p. 27 (2011)

[Goldstein 00] Goldstein, J., Mittal, V., Carbonell, J., and Kantrowitz, M.: Multi-document summarization by sentence extraction, in Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization-Volume 4, pp. 40–48 (2000)

[Hu 07] Hu, M., Sun, A., and Lim, E.-P.: Comments-oriented blog summarization by sentence extraction, in Proceedings of the six-teenth ACM conference on Conference on information and knowl-edge management, pp. 901–904 (2007)

[Huang 07] Huang, J., Zhou, M., and Yang, D.: Extracting chatbot knowledge from online discussion forums, in Proceedings of IJCAI, pp. 423–428 (2007)

[Jurafsky 97] Jurafsky, D., Shriberg, E., and Biasca, D.: Switchboard SWBD-DAMSL shallow-discourse-function annotation coders man-ual, Draft 13, University of Colorado, Boulder Institute of Cognitive Science Technical Report, pp. 97–102 (1997)

[Kudo 05] Kudo, T.: Mecab: Yet another part-of-speech and morpho-logical analyzer, http://mecab.googlecode.com/ (2005)

[McGlashan 04] McGlashan, S., Burnett, D., Carter, J., Danielsen, P., Ferrans, J., Hunt, A., Lucas, B., Porter, B., Rehor, K., and Tryphonas, S.: Voice extensible markup language (voicexml) version 2.0, W3C Recommendation (2004)

[Polifroni 00] Polifroni, J. and Seneff, S.: Galaxy-II as an architecture for spoken dialogue evaluation, in Proceedings of the Second Inter-national Conference on Language Resources and Evaluation (2000) [Reiter 97] Reiter, E. and Dale, R.: Building applied natural language generation systems, Natural Language Engineering, Vol. 3, No. 1, pp. 57–87 (1997)

[Ritter 10] Ritter, A., Cherry, C., and Dolan, B.: Unsupervised mod-eling of twitter conversations, In Proc. NAACL-HLT, pp. 172–180 (2010)

[Seneff 98] Seneff, S., Hurley, E., Lau, R., Pao, C., Schmid, P., and Zue, V.: Galaxy-II : A reference architecture for conversational sys-tem development, in Fifth International Conference on Spoken Lan-guage Processing, pp. 931–934 (1998)

[Stolcke 00] Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Ess-Dykema, C. V., and Meteer, M.: Dialogue act modeling for automatic tagging and recog-nition of conversational speech, Computational linguistics, Vol. 26, No. 3, pp. 339–373 (2000)

[Teufel 97] Teufel, S. and Moens, M.: Sentence extraction as a clas-sification task, in Proceedings of the ACL, Vol. 97, pp. 58–65 (1997) [Wallace 09] Wallace, R.: The anatomy of ALICE, Parsing the Turing

Test, pp. 181–210 (2009)

[Weizenbaum 66] Weizenbaum, J.: ELIZA-a computer program for the study of natural language communication between man and ma-chine, Communications of the ACM, Vol. 9, No. 1, pp. 36–45 (1966)

[磯村 09a] 磯村直樹, 鳥海不二夫, 石井健一郎：HMM による非タスク指向型対話システムの評価, 電子情報通信学会論文誌 D, Vol. 92, No. 4, pp. 542–551 (2009) [磯村 09b] 磯村直樹, 鳥海不二夫, 石井健一郎：対話エージェント評価におけるタグ付与の自動化, 電子情報通信学会論文誌 A, Vol. 92, No. 11, pp. 795–805 (2009) [稲葉 11] 稲葉通将, 鳥海不二夫, 石井健一郎：語の共起情報を用いた非タスク指向型対話エージェントの評価, 電子情報通信学会論文誌 D, Vol. 94, No. 1, pp. 48–58 (2011) [稲葉 12] 稲葉通将, 平井尚樹, 鳥海不二夫, 石井健一郎：非タスク指向型対話エージェントのための統計的応答手法, 電子情報通信学会論文誌 D, Vol. 95, No. 6, pp. 1390–1400 (2012) [荒木 02] 荒木哲郎, 池原悟, 佐藤政伸, 榮代正男：マルコフ連鎖モデルを用いた日本語文の置換型, 挿入型及び脱落型誤りの検出・訂正法の改善, 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理, Vol. 85, No. 1, pp. 66–78 (2002)

[柴田 09] 柴田雅博, 冨浦洋一, 西口友美：雑談自由対話を実現するための WWW 上の文書からの妥当な候補文選択手法, 人工知能学会論文誌, Vol. 24, No. 6, pp. 507–519 (2009) [小澤 12] 小澤俊介, 岡本昌之, 長野伸一, 長健太, 松原茂樹：外出行動前のユーザへの情報提供を目的とした Web からのアドバイス文抽出, 情報処理学会論文誌, Vol. 53, No. 1, pp. 105–116 (2012) [徳久 06] 徳久良子, 寺嶌立太：雑談における発話のやりとりと盛り上がりとの関連, 人工知能学会論文誌, Vol. 21, No. 2, pp. 133–142 (2006) [南 12] 南泰浩, 東中竜一郎, 堂坂浩二, 目黒豊美, 森啓, 前田英作：対話行為タイプ列 Trigram による行動予測確率に基づく

POMDP対話制御, 電子情報通信学会論文誌 A, Vol. 95, No. 1, pp.

2–15 (2012) [目黒 12] 目黒豊美, 東中竜一郎, 堂坂浩二, 南泰浩：聞き役対話の分析および分析に基づいた対話制御部の構築, 情報処理学会論文誌, Vol. 53, No. 12, pp. 2787–2801 (2012) 〔担当委員：徳久良子〕 2013年4月26日受理著者紹介稲葉通将（正会員） 2012年名古屋大学大学院情報科学研究科博士後期課程修了，同年広島市立大学大学院情報科学研究科助教，現在に至る．対話システム，対話処理に関する研究に従事．(博士 (情報科学))．電子情報通信学会，情報処理学会，IEEE各会員．神園彩香 2013年広島市立大学情報科学部知能工学科卒業．同年株式会社リョービシステムサービス入社．在学中は主に対話システムの研究に従事高橋健一（正会員） 1977年名古屋工業大学工学部情報工学科卒．1979年同大大学院工学研究科修士課程了．同年名古屋工業大学工学部助手．同大講師，助教授を経て，1994年広島市立大学情報科学部教授．現在，同大大学院情報科学研究科所属．知識処理，エージェント，ｅ‐ラーニング等の研究に従事．工学博士．IEEE，電子情報通信学会，情報処理学会，各会員．

C-DSD48.dvi

Twitter

を用いた非タスク指向型対話システムの

ための発話候補文獲得

Candidate Utterance Acquisition Method for Non-task-oriented Dialogue

Sys-tems from Twitter

稲葉 通将

神園 彩香

高橋 健一

1.

は じ め に

2.

関 連 研 究

3.

発 話 獲 得 手 法

4.

評 価 実 験

5.

ま

と

め

♦

参 考 文 献

♦

稲葉通将

神園彩香

高橋健一

はじめに

関連研究

発話獲得手法

評価実験

参考文献