• 検索結果がありません。

C-DSD48.dvi

N/A
N/A
Protected

Academic year: 2021

シェア "C-DSD48.dvi"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)



特集論文 「知的対話システム」

Twitter

を用いた非タスク指向型対話システムの

ための発話候補文獲得

Candidate Utterance Acquisition Method for Non-task-oriented Dialogue

Sys-tems from Twitter

稲葉 通将

Michimasa Inaba

広島市立大学 Hiroshima City University

[email protected]

神園 彩香

Sayaka Kamizono

株式会社リョービシステムサービス Ryobi System Service

[email protected]

高橋 健一

Kenichi Takahashi

広島市立大学 Hiroshima City University

[email protected]

keywords:non-task-oriented, utterance generation, dialogue system Summary

Recently, computerized dialogue systems are studied actively. Non-task-oriented dialogue systems that handle domain-free dialogues like chats are expected be applied in various fields, but many challenges still exist in devel-oping them. This paper addresses the problem of utterance generation for non-task-oriented dialogue systems. We search twitter data by topic words and acquire sentences. The sentences are filtered by rules and scored on the ba-sis of training data. We acquire the sentences which have a high score as utterances. The results of an experiment demonstrate that the proposed method can generate appropriate utterances with a high degree of accuracy.

1.

は じ め に

近年,チケット予約や道案内など,特定のタスク達成 を目的としたタスク指向型対話システムだけでなく,タ スク達成を目的とせず,雑談など対話そのものを目的と する非タスク指向型対話システムの研究も活発になりつ つある.非タスク指向型対話システムは,対話によって 人に癒しを与えたり,ロボットなどに組み込むことで,人 に親近感や安心感を与えるなど,様々な応用が期待され ている.そこで我々は,対話を盛り上げ,ユーザが楽し いと感じる対話が可能な対話システムの実現を目指して いる. しかし現状では,人間と自然な対話が可能な非タスク 指向型対話システムの実現には課題が多い.本研究では, その課題の1つである発話生成を対象とする. 稲葉らは複数の発話候補から,状況に応じて適切な発 話を統計的手法を用いて選択し,対話を行う手法として 統計的応答手法を提案した[稲葉12].ここでは,発話選 択の性能評価に問題を限定するため,実験で用いた発話 はすべて人手で作成していた.しかし,人手による発話 作成のコストは非常に大きいことや,あらかじめ発話を 人手で作成する場合,発話候補にない話題は扱えず,対 話中の話題は限定されたものになることから,発話生成 は自動で行えることが望ましい. また,非タスク指向型対話システムの研究では,対話 中の発話はSWBD-DAMSLタグ[Jurafsky 97]などの発 話の種類のタグ(発話行為タグ)を用いて管理・分析され ることがしばしば行われる.例えば,徳久らによる非タ スク指向型対話に発話行為タグと修辞構造を表すタグを 付与し,発話の種類と対話の盛り上がりの関係を分析し た研究[徳久06]や,南らと目黒らによる発話行為タグを 用いて非タスク指向型対話システムの対話制御を行った 研究[南12,目黒12]などがある.これらの研究結果を非 タスク指向型対話システムに応用するためには,発話行 為タグから任意の話題に関する発話を生成する手法が必 要であるが,そのような手法はこれまでに提案されてい ない.ただし,発話に対して適切な発話行為タグを付与 する研究は進められており[Stolcke 00,磯村09b],任意 の話題に関する発話を生成する手法が提案できれば,発 話行為タグから任意の話題に関する発話を生成すること が可能となる. そこで,本研究では発話自動生成を目的とし,Twitter から発話として使用可能な文を自動獲得する手法を提案 する.発話生成にTwitterを用いる利点としては,話し

(2)

言葉で書かれている場合が多いこと,広範囲にわたる話 題をカバーしていること,APIが公開されているため容 易に大量のデータが取得可能なこと,などが挙げられる. 一方で,スパムツイートや,誤字脱字,意味的・文法的 に誤っている文などノイズとなるものも多く含まれてお り,発話として使用するのに不適切なデータも多い.本 研究では,そのようなデータをルールによるフィルタリ ングと点数付けにより排除し,対話システムが発話とし てそのまま使用可能な文の獲得手法を提案する. なお,本研究ではユーザの発言に対して対話システム がどのような応答を返すべきかという対話戦略・対話管 理については対象とせず.発話の生成のみを扱う.

2.

関 連 研 究

タスク指向型対話システムにおける発話生成は,ルー ルベース方式が主流である.ルールベース方式は,発話生 成ルールを用いる発話生成法である.ルールベース方式を 採用した例としてはVoiceXML[McGlashan 04]がある. VoiceXMLは音声対話システムのための対話シナリオを 記述するための言語であり,対話システムの発話は記述 したルールにしたがって生成される.また,音声対話シ ステムアーキテクチャGALAXY[Seneff 98, Polifroni 00] において,発話生成部に使われるGENESIS[Reiter 97] もその1つである.GALAXYは,対話制御部の出力を Semantic Frameと呼ばれる意味の構造で受け取り,それ を発話生成ルールによって発話文に変換することで発話 生成を行う. ルールベース方式の問題点は,発話生成ルールの作成 は人手で行う必要があり,作成コストが極めて大きい点 である.ただし,タスク指向型対話システムにおいては 扱う対話の内容が限定されているため,用意しなければ ならない発話生成ルールが比較的少量ですむ場合も多く, 適用例は多い. 非タスク指向型対話システムにおいても,ルールベー ス方式は使われている.例えば,ELIZAや[Weizenbaum 66]やA.L.I.C.E.[Wallace 09]がルールベース方式を採用 している.しかし,非タスク指向型対話システムの場合, 対話の内容が限定されないため用意しなければならない 発話生成ルールの数が多く,作成コストが大きな問題に なる. また,発話の生成を行わず,あらかじめ収集した対話 ログ中の発話をそのまま対話システムの発話として利用 する手法もある.この手法を採用した対話システムとし てはJabberwacky∗1が挙げられる.Jabberwackyは大規 模な対話ログのデータベースから,ユーザの発言に類似 した発言を検索し,その発見した発言に対する応答をシ ステムの応答として用いている.この手法の課題は,質の 高い対話ログをいかに大量に収集するかという点にある. ∗1 http://www.jabberwacky.com 近年では,本研究と同じくWebデータを用いた非タス ク指向型対話システムの研究も行われており,掲示板にお ける投稿のペアを対話データとして獲得する手法[Huang 07]や,Twitter上におけるやりとりを用いた対話モデル の構築[Ritter 10]などの研究が行われている.Web上の データを用いて対話を行う手法も提案されている[柴田 09].これは,対話中の話題に関連するWebページを収 集し,そこからユーザの発話に対して適切な文を応答と して提示するというものである.ただし,この手法はど の文を応答に使用するかという応答選択に関するもので あり,文自体の適切さは考慮していない. また,対話システムの研究ではないが,Web上から文 抽出を行う手法としては,ユーザに対するアドバイス文 を抽出する手法[小澤12]がある.ただし,これはアド バイス文抽出に特化した素性を用いた手法であり,発話 生成にそのまま応用することは困難である. その他,文抽出の研究は自動要約の分野で活発に行わ れている[Teufel 97, Goldstein 00, Hu 07]が,これらは 文章の要約を行うという観点から意味的に重要な文の抽 出を目指しており,本研究とは抽出対象とする文の性質 が大きく異なる.

3.

発 話 獲 得 手 法

3·1 概 要 本節では,Twitterデータから発話文を自動獲得する手 法について述べる.本手法は,任意の話題語を入力とし, その話題語に関する発話を出力するものである. 本研究では,汎用性の高い発話生成を目指し,下記の 条件全てを満たす発話を正解発話と定義する.また,表 1に正解発話と不正解発話の例を示す. 入力された話題語に関する発話であること 日本語として適切であり,意味の通じる発話である こと その発話だけで意味・意図が理解できること 使用できる時間や空間が限定されている発話ではな いこと このうち,3点目の「その発話だけで意味・意図が理解 できること」は汎用性の高い発話が生成されることが望 ましいことから設けた条件である.例えば,表1の5は, その発話だけでは何に関して似ているのか,ということ が不明なためこの条件に反している.よって,不正解発 話と判定されている.4点目の「使用できる時間や空間 が限定されている発話ではないこと」は発話の使用に際 して,時間的・空間的制約が存在する発話は使用機会が 少なく,望ましくないことから設けた条件である.表1 の6は,雨の降っている時間・場所でないと使用できな い発話であるため,不正解発話と判定されている. 提案手法では,まず入力された話題語でTwitterデー タを検索し,話題語を含む文を抽出する.話題語は複数

(3)

表 1 Twitter から取得した文の例 ID 話題語 文 判定 1 読書 読書の睡眠導入効果はすごい 正解 2 テニス テニスの硬球って、意外と硬くないですよ 正解 3 ワイン 栗きんとんにワインは合わない 正解 4 カラオケ カラオケは本パート歌ってるよりも合の手歌ってるほうが楽しい 正解 5 猫の手 すごく猫の手に似てる 不正解 6 読書 雨も降ってるから今日はお家で大人しく読書 不正解 7 アメリカ そういうとこがアメリカはいいよね 不正解 8 ワイン ワインよりいいね 不正解 の単語からなる語でも良い.抽出した文には,前処理と してルールに基づいたフィルタリングを行う.次に各文 を教師データに基づいて点数付けし,その点数がしきい 値以上の文を獲得する.最後に,後処理として語尾の変 形を行い,発話として使用できる形で出力する. 提案手法の基本的なアイデアは,Twitterを用いること により,容易に大量のデータが入手できるという利点を 生かし,発話として使用不可能な文を厳しい基準によっ て排除し,使用可能な文を精度よく獲得するというもの である.したがって,フィルタリングルールは使用可能 な文をも排除してしまう可能性のあるルールであっても, 使用不可能な文を排除するために有効なルールであれば 採用する. また,点数付けについては,点数の増減に関して非対 称な手法により行う.点数は文中に含まれる語に基づい て計算する.その際,不適切な語が含まれていた場合は 点数を大きく下げる.一方で,適切な単語が含まれてい ても点数の上昇には上限を設ける.つまり,点数は上が りにくく下がりやすいものにすることで,少しでも使用 不可能な可能性のある文を積極的に排除する. 3·2 Twitterからの文抽出 本節では,次節で述べる点数付け対象となる文の取得 手順について説明する. まず,入力された話題語でTwitterデータを検索し,話 題語を含むツイート(リツイート,リプライを含む)を全 て抽出する.ただし,URLを含むツイートは除外する. 次に,ツイートを句点および記号で文単位に分割し,そ の中で以下の条件をすべて満たす文のみを取得する. 話題語を含んでいる文 単語数が6以上30未満の文 「@」(ユーザー名)を含まない文 ここで,フィルタリングルールの設定のため,上記の 条件を満たす文について正解発話・不正解発話の判定を行 い,不正解発話に分類される文に共通する特徴を調査し た.調査は後述する教師データの作成と同時並行で行っ た.調査の結果から,以下のAからGのフィルタリング ルールを設定した.なお,フィルタリングルールには品 詞情報を使用するものがあるが,本論文では形態素解析 にMeCab[Kudo 05]を使用した. ルールA. 話題語と名詞が連続している文 話題語と名詞が連続している場合,話題とはあま り関係ない文が多く抽出されたために設けるルール である.例えば話題語を「アメリカ」としてTwitter データを検索すると,「アメリカザリガニ」に関する 文も抽出される.しかし,対話における話題が「ア メリカ」の場合に「アメリカザリガニ」について話 すことは多くの場合適切ではないと思われる.また, 話題語を「ANA」としてTwitterデータを検索する と「NIRVANA」に関する文も抽出される.ここで, 「ANA」を名詞と指定して形態素解析を行うと∗2,多 くの場合,残りの部分は意味の無い語(今回の場合 は「NIRV」)となり,(未知語のため)名詞と判断さ れる.したがって,「NIRVANA」の形態素解析結果 は「名詞+名詞(話題語)」となり,「NIRVANA」に 関する文は除外される. ルールB. 人名,代名詞が含まれている文 人名に関しては,有名人以外の人名が含まれてい る場合,代名詞は,表1の7のように先行詞が同一 文中に含まれない場合に,その発話だけで意味・意図 が理解できない文が多く抽出されたため設けたルー ルである.具体的には,品詞が名詞-固有名詞-人名, および名詞-代名詞である単語が含まれていた文を除 外する.なお,判定はあくまで品詞のみで行い,先 行詞が含まれるか否かや,人名が有名人か否かの判 定は行わない. ルールC. 先頭の単語の品詞が助詞,助動詞,接続詞の文 ルールD. 末尾の単語の品詞が助詞-格助詞,助詞-係助 詞,助詞-接続助詞,助詞-並列助詞,名詞(名詞-形 容動詞語幹は除く)の文 ルールCとDは,記号によりツイートの分割を 行ったことによる,文の途中で不適切な分割が起こっ たものを除外するためのルールである.例えば話題 語が「ボウリング」で,「二次会でボウリングは…やっ ∗2 MeCab ではこのような制約付き解析が可能

(4)

ぱしんどいなぁ」というツイートから取得される文 は「二次会でボウリングは」となる.これは,この 発話だけで意味・意図が理解できないことから不正 解発話であるが,本ルールにより文末が助詞-係助詞 のため,除外される. ルールE. 文末以外に助詞-終助詞が含まれている文 助詞-終助詞が文末以外に出現した文には,句点と 読点の打ち間違えや,句点の打ち忘れ,および誤字 と思われるミスが多く見られたため,それらを除外 するために本ルールを設ける.具体的には,品詞が 助詞-終助詞である単語よりも後に,助詞-終助詞以 外の品詞が存在する文を除外する. ルールF. 時間を特定する語,数値が含まれている文 表1の6のように「今日」や「明日」などの時間 を特定する語が含まれている文は,極めて限定され た時間でしか使用できない文であることが多かった ため設けるルールである.また,数値も日付などを 指定する際に多く使われていたため,数値が含まれ ている文は除外する. ルールG. 不十分な比較が含まれている文 表1の8のような比較対象が存在しない文を除外 するために設けるルールである.具体的には,「方/ が」もしくは「ほう/が」が含まれている文において, 「より」が含まれていない文は除外する(「/」は単語 の区切りを表す).逆に,「より」が含まれている文に おいて,「方/が」もしくは「ほう/が」が含まれてい ないものは除外する. 提案手法では,取得した文を上記のルールを用いてフィ ルタリングし,除外されなかった文を次節で説明する手 法により点数付けする. 3·3 文 の 点 数 付 け § 1 助詞以外の単語の点数 本節では,文の点数付け手法について説明する.前節 で述べたルールによるフィルタリングを行なっても,除外 できない不正解発話は存在する.そこで,文中の単語の 点数(重要度)を教師データから学習し,その点数を用い て文を点数付けする.そして,文の点数の低いものを除 外する.教師データには3·1節で述べた基準にしたがっ て人手で判定を行った複数の正解発話と不正解発話を用 いる. 本手法では,正解発話と不正解発話では出現する単語 の分布が異なると仮定し,正解発話中に出現しやすい単 語には高い点数を,逆に不正解発話に出現しやすい単語 には低い点数を付与する.例えば,「降る」という単語は天 候を述べる際に使用されることが多い.さらに,Twitter では現在の状況を投稿することが広く行われていること から,「降る」は現在の天候を述べる際に使用される場合 が多いと考えられる.そういった内容が含まれている場 合,表1の6のように,使用できる時間・空間が限定さ れた発話となる.したがって,「降る」という単語は不正 解発話に出現しやすいと考えられる. 単語の点数には,その単語が正解発話の総単語数に占 める割合と不正解発話の総単語数に占める割合の比を用 いる.ただし,単語は表層形ではなく基本形に直したも のを用いる.単語wの点数xwの計算式を以下に示す.

xw=freqfreqwcorrect allcorrect

÷ freqwincorrect

freqallincorrect

(1) 式中のfreqwcorrectは教師データにおいて,単語wの正 解発話全体における出現回数,freqallcorrectは正解発話 全体の総単語数,freqwincorrect は単語wの不正解発話 全体における出現回数,freqallincorrect は不正解発話全 体の総単語数である.したがって,点数が0に近ければ 近いほど不正解発話に出現しやすい単語であることを示 し,1.0より大きければ大きいほど正解発話に出現しや すい単語であることを示す. ただし,教師データにおける出現回数がn回未満の場 合,点数は付与しない.実験ではn = 5を用いた.また, 1文中に同一の単語が2個以上含まれる場合,そのうち の1個にだけ点数を付与し,それ以外は付与しない.話 題語に関しても点数を付与しない. § 2 助詞の点数 助詞の点数については,助詞単体では点数付けの意義 が小さいと考え,助詞とその前後の単語の品詞を用いた 3-gramを用いる.また,助詞が文頭および文末にある場 合にも点数を計算できるようにするため,文の先頭と末 尾にシンボル「BOS」と「EOS」を付加し,これらを用 いて3-gramとする.例えば「コーヒー/美味しい/ね」と いう文の助詞-終助詞「ね」の点数は「形容詞-自立,ね, EOS」から計算する. 助詞の点数は他の品詞と同様に式(1)により,教師デー タにおける3-gramの出現回数を用いて計算する.ただ し,連続する助詞が存在する場合,それらを連結して1 つの助詞とみなして計算する.例えば「台所/に/は/不要」 では,助詞である「に」と「は」が連続しているので,「名 詞-一般,には,名詞-形容動詞語幹」とする.また,話題 語は他の単語と区別して扱う.「台所/に/は/不要」で話題 語が「台所」であった場合,3-gramは「話題語,には,名 詞-形容動詞語幹」となる. § 3 文の点数 文の点数は,以下の式により計算する. SentenceScore =  w∈W fα(xw) fα(xw) =  xw (xw< α) α (xw≥ α) ここで,W は点数が付与された文中の単語の集合を表 し,wは各単語を表す.また,xwは教師データから計算

(5)

表 2 文の点数の計算例 1 単語 点数付け対象 単語の点数 ココア - -は 話題,は,副詞-助詞類接続 1.08 とても とても 7.84 美容 - -に 名詞-一般,に,形容詞-自立 2.69 良い 良い 6.73 らしい らしい 4.25 よ 助動詞,よ, EOS 2.64 表 3 文の点数の計算例 2 単語 点数付け対象 単語の点数 とりあえず とりあえず 0.14 ココア - -に 話題,に,動詞-自立 0.12 入れ 入れる 0.81 て 動詞-自立,て,動詞-非自立 0.22 み みる 0.34 まし ます 0.20 た た 0.27 されるwの点数である.αは点数の上限を決定するパラ メータである.実験ではα1.4とした. 文の点数は,単語の点数がαより小さい場合はそのま ま掛け合わされ,単語の点数がα以上の場合,αが掛け 合わされることにより計算される.このように,本手法 では単語の点数に上限を与えることにより,文の点数が 下がりやすく上がりにくい点数付けを行う. 表2に「ココアはとても美容に良いらしいよ」(話題語: ココア)の点数付けの例を示す.この例では,「ココア」は 話題語のため,「美容」は教師データにおける出現回数が 5回未満であったため,それぞれ点数が付与されていな い.単語の点数に着目すると,1.40点以上が5つと1.08 点が1つなので,この文の点数は,1.405× 1.08 = 5.81 となる.また,表3に「とりあえずココアに入れてみま した」(話題語:ココア)の点数付けの例を示す.この例 では1.40点以上の点数が付与された単語は存在しない. したがって,単語の点数はそのまま掛け合わされ,文の 点数は0.14 × 0.12 × 0.81 × 0.22 × 0.34 × 0.20 × 0.27 = 5.50 × 10−5となる. 文の点数付けの結果,点数がしきい値以下の文を除外 する.実験ではしきい値は1.0を用いた.しきい値は経 験的に決定した. 3·4 語 尾 の 変 形 最後に,発話文として使用可能な形にするため,文の 語尾を変形する.語尾はですます調(例:ラーメンはお いしいです)よりも,「∼ですよね」「∼ますよね」「∼で しょうか」のような語りかけ調(例:ラーメンはおいしい ですよね)の方が,ユーザに親近感を与え,対話も盛り上 がりやすいと考えられる.したがって,語尾は可能な限 り語りかけ口調に変形する.ただし,語りかけ口調にす ると日本語として不自然になる場合もあるため,ですま す調にも変形する. 語尾の変形ルールはヒューリスティックに決定した.ま ず,変形の必要がない文末と,丁寧語に置き換えるだけ で変形が完了する文末を文末パターンとして用意し,文 が文末パターンにマッチするかどうかを確認する.マッ チした場合は下記の(1),マッチしなかった場合は(2)の 各ルールにより語尾を変形する. (1) あらかじめ用意した文末パターンとマッチした場合 a 文末が「です」「ますね」「ですよね」など,変 形の必要がない場合は変形を行わない. b 文末が「だね」「だよな」「なのか」など,丁 寧語に変形すれば良い場合,パターンマッチに よる変形ルール「だね → ですね」「だよな → で すよね」「なのか → でしょうか」などを用いて 変形する. (2) 文末パターンとマッチしなかった場合,文末から 順に単語の基本形とその品詞を確認する a 文末から見て最初に「好き」「嫌い」以外の名 詞,形容詞,副詞がある場合,「[名詞/形容詞/副 詞] +ですよね」に変形.ただし,文末が「か」 および「?」の場合は「[名詞/形容詞/副詞] +で しょうか」に変形. b 文末から見て最初に「好き」「嫌い」がある場 合,「[好き/嫌い]+なんですよね」に変形.ただ し,文末が「か」および「?」の場合は「[好き/ 嫌い] +なんでしょうか」に変形. c 文末から見て最初に「思う」以外の「動詞+ ませ」および「動詞+ん」がある場合,「動詞の 連用形+ません」に変形.ただし,文末が「か」 および「?」の場合は「動詞の連用形+ません か」に変形. d 文末から見て最初に「思い+ませ」および「思 わ+ん」がある場合,「思い+ません」に変形. ただし,文末が「か」および「?」の場合は「思 い+ませんか」に変形. e 文末から見て最初に「ない」がある場合,「な い+ですよね」に変形.ただし,文末が「か」 および「?」の場合は「ない+でしょうか」に 変形. f 文末から見て最初に「らしい」「べき」「だけ」 「のみ」「たい」「つもり」がある場合,「[らしい/ べき/だけ/のみ/たい/つもり] +です」に変形.た だし,文末が「か」および「?」の場合は「[ら しい/べき/だけ/のみ/たい/つもり] +でしょうか」 に変形.

(6)

例えば「読書は電車の中が一番はかどるなぁ」と いう文を上記のルールに基づいて語尾を変形すると, まず,文末パターンにマッチせず,文末から見て最 初に「はかどる」という動詞があるため,「読書は電 車の中が一番はかどりますよね」と変形される.

4.

評 価 実 験

4·1 実 験 概 要 提案手法の発話獲得性能の評価のため,実験を行った. 本実験では,予め収集したTwitterデータを用いて,適 切に発話候補が獲得できることを確認する.性能比較の ため,SVMを用いた実験も行った. 以下では,使用したデータ,および実験設定について 述べる. 4·2 使 用 デ ー タ 実験で使用したTwitterのデータは,2010年1月1日 から2010年12月31日までに収集した日本語のツイー ト約15億件である.このデータを用いて,教師データの 作成と発話候補の獲得を行った. 教師データは任意の話題語でTwitterデータを検索し, ツイート中の話題語を含む文について正解発話と不正解 発話の判定を行うことで作成した.判定対象はツイート を句点および記号で分割し,その中で話題語を含んでい た文である.ここでは,3·2節で述べたような文中の単 語数による制限やフィルタリングルールの使用は行わな かった.また,同一文が複数存在した場合は1つにまと め,重複が無いようにした.作成した教師データにおけ る話題語の種類は59,正解発話数は1866個,不正解発 話数は6581個の計8447個である.話題語は判定者が無 作為に選んだものであり,話題語ごとの発話数も一定で はない.教師データ中で最も発話数が多い話題語は「読 書」で2358個,2番目が「カラオケ」で929個,3番目 が「旅行」で925個である.また,「イタリア」(287個) や「ピカチュウ」(11個)など固有名詞も含まれている. ただし,教師データ作成時に用いた話題語には,次節で 述べる性能評価のために使用した話題語と同一の語,お よび同義語は含まれていない. 4·3 実 験 設 定 話題語は2010年のGoogle年間検索ランキング∗3にお ける,ランキングカテゴリ9項目の各上位3件,計25 個∗4を用いた.表4に実験で使用した話題語を示した.な お,アルファベットの大文字・小文字については区別せ ずに扱った. 獲得した発話候補文の正解・不正解判定は大学生3名 が個別に行った.判定基準は教師データ作成時と同じく ∗3 https://sites.google.com/site/japanzgeist/ ∗4 項目間で 2 件重複あり 表 4 実験で使用した話題語

YouTube Yahoo Facebook

かぼちゃ 大根 ゴーヤ ANA JAL au ユニクロ Gap H&M iPad Xperia 楽天銀行 ワールドカップ はやぶさ スカイツリー ハートロッカー 告白 アバター 岡村隆史 板野友美 大島優子 ニコニコ動画 3·1節で述べたものとした.なお,表4には多義性があ る語が含まれているが,語義の同定は,対話システムが どのような応答するかを最終決定する応答手法が扱うべ きタスクであると考え,発話は話題語のいずれかの語義 に関するものであればよいものとした.これは,対話中 にユーザの出した話題が多義語であった時,それがどの 語義についてのことなのかを応答手法が認識できなけれ ば,仮に語義別の発話生成が可能だったとしても,結局 どの語義についての発話を使用すれば良いのかは判断で きないからである.逆に,応答手法によって語義の同定 が行えるのであれば,発話の生成が語義別に行われてい なくても,応答手法によって適切な語義についての発話 が選択可能である. また,語尾の変形誤りの影響を考慮するため,評価者 には語尾の変形前の文と変形後の文の両方を提示し,変 形後の文では不正解発話であるが,語尾が適切に変形で きていた場合に正解発話となるものは「変形誤り」と判 定させた.最終的に性能評価に用いる各発話候補文の判 定結果は3名の多数決により決定した.3名の評価者の 判定が全て異なった場合には,3名とは別の評価者1名 が再評価を行い,その判定を実験に用いた.3名の評価 のκ値(正解・不正解・変形誤りの3段階評価)は0.82で あり,かなりの一致がみられることを確認した. 性能比較のため,以下の手法による発話文の獲得も行 った. (1) 点数付けのみ (2) SVM (3) フィルタリング+ SVM このうち,(1)は3·2節で述べたルールによるフィル タリングを行わずに,3·3節で述べた点数付けを行った ものである.(2)はSVMを用いて点数付けを行ったもの である.(3)は提案手法と同様のフィルタリングを行った 後,提案手法の点数付けの代わりにSVMを用いたもの である.SVMの実装はLIBSVM[Chang 11]を用いた. LIBSVMには事後確率の推定手法が実装されており,点 数として正解発話クラスに所属する事後確率を用いた. SVMの学習に用いたデータは,提案手法で点数付けに 用いた教師データと同一とし,素性は提案手法において

(7)

表 5 実験結果 手法 正解率(1) 正解率(2) 提案手法 95.8 % 96.4 % 点数付けのみ 88.2 % 90.4 % SVM 79.6 % 85.6 % フィルタリング+ SVM 84.4 % 88.6 % 点数付け対象となる要素(助詞以外の単語の基本形,助 詞とその前後の品詞の3-gram)とした.カーネルは線形 カーネルを用いた. 4·4 結 果 表5に各話題語について,文の点数上位20件,計500 発話の評価結果を示す.表中の正解率(1)は変形誤りを 不正解発話として計算した場合,正解率(2)は変形誤り を正解発話として計算した場合の正解発話の割合である. 表中の「提案手法」と「点数付けのみ」の正解率(1)お よび(2)を比較すると,ともに提案手法の方が優れてい ることが確認できる.ここから,ルールによるフィルタ リング手法の有効性が確認できた.また,「提案手法」と 「フィルタリング+ SVM」を比較した場合でも,提案手 法の方が正解率は高い.よって,点数付け手法について も有効性が確認できた.同様に 「SVM」よりも「提案手 法」のほうが正解率が高い結果となった.なお,「提案手 法」と最も正解率が近かった「 点数付けのみ」の正解率 (2)について比率の差の検定を行った結果,有意水準1 % で有意であった.よって,提案手法とその他の全ての比 較手法との間に有意差があることを確認した.以上のこ とから,提案手法の有効性が示された. 表6に各話題語に関して,文の点数が1位となった発 話の一部を示した.また,表7に話題語がFacebookの場 合における,文の点数上位5件を示した.ここから,話 題語に関する発話が正しく獲得できていることがわかる. 獲得された発話は,例えば以下のように,ユーザが話 題転換を行った際の応答に使用可能である. (発話使用例1) ユーザ : そういえば,最近ハートロッカーっていう映 画見ましたよ システム :ハートロッカーって題名だけ聞くと青春ロッ クムービーってイメージですよね また,システムが対話を主導する場合にも使用可能で ある.その際,獲得された発話をそのまま使用しても問 題ないが,以下のように接続詞などを適宜補えば,より 自然な対話が可能になると思われる.どのように接続詞 を補うかという点については,今後の検討課題である. (発話使用例2) システム : TwitterやFacebookは足跡機能がないから 気軽なんですよね ユーザ :確かに,Mixiだと誰かの日記を見たらコメン トしなきゃいけないような圧力がありますよね システム : (でも,)facebookは日本人には合わない様 な気もするんですよね ユーザ :実名や顔写真を載せるのは抵抗がありますしね システム : (それに,)facebookよりmixiの方が使い勝 手が良いんですよね その他,ユーザに話題語に関する意見を求められた時 や,ユーザが話題語に関する意見を発言した際に,シス テム側の意見を発言する際などにも使用可能である.一 方で,表6において話題語が「かぼちゃ」で獲得された 発話は,対話中で「かぼちゃ」が話題になっていること に加え,「ハロウィン」も話題になっていないと使用する ことは難しい.その他にも,話題語が「iPad」で獲得さ れた発話は「(電子)書籍」が話題となっていることが必 要である.本研究では使用時の制約が少ない発話の生成 を目指したが,このように話題語以外の話題の制約は存 在する.したがって,獲得された発話を利用する際には, その発話中に含まれる話題語以外の語に関しても注意を 払う必要がある. また,表8には話題語がFacebookの場合における,文 の点数がしきい値以下だった発話の一部を示した.順位 が6031位や29739位の発話のように,点数が低い発話 であっても正解発話の条件を満たしていると考えられる 文は含まれている.ただし,これは少しでも不正解の可 能性のある文を積極的に排除した結果である.また,点 数も1.0付近から0に近い値まで広く分布していること が分かる. 表9に,実験で使用した教師データから計算された単 語の点数を示した.「さて」は「さて,少し読書をして寝 る」のように少し先の予定を投稿する際によく使用され る.このように「さて」を含むツイートから獲得された発 話は,使用時に時間的な制約がある場合が多いため,低 い点数となったと考えられる.「結局」は「結局,読書に は使えなかった」のように,直前の文を踏まえた形で使 われる場合が多い.このような場合,語の省略が起こる ことは多く,その発話だけで意味・意図が理解できない 発話となるため点数は低くなったと考えられる.一方で, 「こと」や「する」のように,発話中で使用されていても 問題ないと思われるような語でも,低い点数となってい る単語は存在する.「話題,は,形容詞-自立」「素晴らしい」 「異常」は「読書は素晴らしい(話題語/は/形容詞-自立)」 「読書のコストパフォーマンスは異常」などのように,時 間的・空間的制約が少なく,話題語に関する感想・意見 を述べた文によく含まれていた.また,省略が起こって いたとしても一文で意味・意図が理解できる文が多かっ た(例えば,「読書は素晴らしい」は「読書は”時間と場所 を選ばないのが”素晴らしい」という文の一部が省略さ れたものだったとしても問題ない)ために,点数は高く なったと思われる.

(8)

表 6 各話題語において文の点数が 1 位の発話の例

話題語 人手評価 発話

Youtube 不正解 本当はOPのyoutube貼ったりするのもダメなんですよね

かぼちゃ 正解 ハロウィンの季節は素敵な絵とかかぼちゃのお菓子とか いっぱいでいいですよね

ANA 正解 ANAよりJALの方がマイレージの使い勝手がいい気がしますよね ユニクロ 正解 ユニクロはよっぽどサイズに不安がある場合以外は通販が便利ですよ

iPad 正解 日本の書籍読むのはiPadよりSONYのリーダーの方がいいんですね ワールドカップ 正解 サッカーのワールドカップにもパラリンピック的なのがあるんですね ハートロッカー 正解 ハートロッカーって題名だけ聞くと青春ロックムービーって イメージですよね 岡村隆史 正解 改めて岡村隆史のポテンシャルは高いと思います ニコニコ動画 正解 ニコニコ動画って、利用者は女性の割合が高い気がするんですよ 表 7 話題語が Facebook の場合の獲得発話例 順位 点数 人手評価 発話 1 25.00 正解 Facebookの掲示板って英語使うのが基本なんでしょうか 2 23.68 正解 TwitterやFacebookは足跡機能がないから気軽なんですよね 3 22.06 正解 facebookは日本人には合わない様な気もするんですよね 4 20.66 正解 facebookよりmixiの方が使い勝手が良いんですよね

5 19.61 正解 TwitterもFacebookもYoutubeもなくても、外に楽しい世界がありますよね

6 18.74 正解 facebookの情報って検索可能な場所にないのでしょうか 7 18.64 正解 日本ではFacebookよりTwitterのほうがポピュラーなんですよ 8 17.70 正解 英語使わないとfacebookの良さがわかりづらくなりますよね 9 16.92 正解 facebookは運営方針が凄いのだと思いますよ 10 16.18 正解 facebookはシンプルなmixiだと思えばいいんですよ 表 8 話題語が Facebook の場合の点数がしきい値以下の発話例 順位 点数 発話

3712 1.00 mixiだけ、GREEだけ、facebookだけです

6031 0.50 Twitterのユーザを奪うのはFacebookじゃない気がします 12125 0.10 FaceBookもやってんのでしょうか 15203 0.05 リストなどまだ良く分からないんだけど、 Facebookと同時に更新できるのはイイですよね 20343 0.01 facebookとかする気なくなったから全部twitterに流れチャンですよね 29739 1.00 × 10−3 facebook重くてちゃんと使ってみようって気になれないですよね 34366 1.00 × 10−4 FacebookやTwitterしてたのは棚に上げて忘れてみますよね

36327 1.00 × 10−5 もう、twitterとfacebookとblog、mixiに勝るすべてのデバイスを手に入れますよね

36985 1.00 × 10−6 眠くなってきたので、Facebookにアカウントを作ってみますよね

37229 1.00 × 10−7 ブログ、mixi、twitterとやってきたけど、

Facebookもやらんとガラパゴスになってしまうのでしょうか

37342 1.03 × 10−12 facebookをほとんど使っていなくて幽霊アカウント状態になっているので、

(9)

表 9 単語の点数例 単語 点数 さて 0.01 結局 0.27 こと 0.29 する 0.40 ひどい 0.99 感覚 1.08 ある 2.95 話題,は,形容詞-自立 4.92 素晴らしい 24.49 異常 27.99 4·5 考 察 § 1 獲得発話数 表10には,提案手法による獲得発話数を示した.な お,最大獲得発話数と最小獲得発話数における括弧内は 対応する話題語である. 対話システムが多様な応答を行うためには,発話候補 は多いことが望ましい.実験では,点数の上位20位まで の評価を行ったが,それよりも下位の発話が使用可能で あるかは必ずしも明らかではない.そこで,各話題語に ついて獲得された発話において,文の点数の下位10件, 計250発話の評価を行った.その結果,正解率(1)は89.6 %,正解率(2)は95.2 %であり,正解率(2)については 表5で示した上位20件を評価した場合と比べると少し 低下するものの,ほぼ同等の結果となった.したがって, 順位にかかわらず,獲得した発話が応答候補として利用 できる可能性が示唆された. ただし,同表に示したように,提案手法によって獲得さ れた発話数は話題語によって大きく差が出る結果となっ た(獲得発話数の標準偏差σ = 4884.7).本手法はTwitter データを用いているため,Twitterで話題となりにくい語 に関しては獲得できる発話数も小さくなる.そのような 話題語に関する発話をより多く獲得したい場合には,ク エリ拡張を行う,使用するTwitterデータを増やすなどの 対策が必要である.しかしながら,雑談のような非タス ク指向型対話において,ある1つの話題に関することし か話してはいけないという状況は考え辛い.獲得できた 発話数が少なければ,早めの話題転換を行ったり,対話 中に新たに出現した語を次の話題とし,話を展開させれ ばよい.また,ユーザと対話を行う際,1話題あたりど の程度の発話数が必要であるかは明らかではないが,本 実験で獲得できた発話数が100未満だった話題語は「岡 村隆史(20個)」と「板野友美(93個)」の2つのみであ り,ほとんどの話題語では多数の発話を獲得することが 可能であった.なお,この2つの話題語を含むツイート 数を調査したところ,「岡村隆史」は5847個,「板野友美」 は18054個であった.本実験で獲得発話数が最大だった 表 10 提案手法による獲得発話数 話題語あたりの平均獲得発話数 3055.8 最大獲得発話数 25033 (iPad) 最小獲得発話数 20 (岡村隆史) 「iPad」が2791335個であることを考えると,獲得発話 数が小さかった主な原因はTwitterでの言及数が少ない ためだったといえる. § 2 フィルタリングルール 提案したフィルタリングルールの有効性についても調 査を行った.実験においてフィルタリングルールを用いて いない「点数付けのみ」と「SVM」によって獲得した発 話988個(1000個のうち12個が重複)に対し,各ルール をそれぞれ個別に適用した結果,および全ルールを同時 に適用した結果を表11に示す.表の除外発話内正解率は, 各ルールで除外された発話における正解発話の割合であ る.つまり,この割合が小さいほど効率よく不正解発話を 除外できているということになる.表より,全ルールを適 用した場合,988個中579個(58.6%)が除外された.ま た,除外された発話数が少なかったルールCとルールD を除くと,最も効率の良く不正解発話を除外できたルー ルはルールA(話題語と名詞が連続している文)で,除外 発話内正解率は68.1%であった.よって,このルールが 提案手法の正解率向上に大きく寄与していることがわか る.これは話題語が「au」の場合に「audio-technica」に 関する発話が除外できるというような,他の単語中に話 題語が含まれてしまうことがある話題語の場合に特に効 果的であった.一方,最も効率の悪かったルールはルー ルG(不十分な比較が含まれている文)であった.ただし, 除外発話内正解率は89.9%であり,提案手法の正解率の 方が高いことから,ルールGも提案手法の性能向上に有 効であることが確認できた. ここで,ルールCとルールDは除外された発話の総 数が少なく有効性が確認できなかったため,追加実験を 行った.話題語を「iPad」とし,「点数付けのみ」の手法で 生成された点数が1.0より大きい発話について,各ルー ルを適用した.ここでそれぞれのルールで除外された発 話について,点数上位30件をこれまでと同様に3名で判 定した.結果を表12に示す.表より,先頭の単語の品詞 により除外を行うルールCは非常に効率よく不正解発話 を除外できていることが確認できた.一方,末尾の単語 の品詞により除外を行うルールDは,変形誤りと判定さ れた発話を多く除外できていることが確認できる.ルー ルDで除外された発話のうち,文の点数が最も高かった 発話は「iPadって、病院関係でも気軽に使えそうな気が するにゃもね」であり,語尾を変形すると「iPadって、病 院関係でも気軽に使えそうな気がするにゃもねですよね」 となり,変形誤りと判定された.このようなほとんど出 現しない語尾の場合,形態素解析誤りが高頻度で発生す るため,語尾変形ルールの改善による対応は難しい(この

(10)

表 11 各フィルタリングルールで除外された発話の内訳 ルール 正解数 不正解数 変形誤り数 除外発話数(合計) 除外発話内正解率 ルールA 175 68 14 257 68.1% ルールB 163 24 11 198 82.3% ルールC 0 3 0 3 0.0% ルールD 1 2 0 2 33.3% ルールE 31 6 8 45 68.9% ルールF 85 20 7 112 75.9% ルールG 71 7 1 79 89.9% 全ルール適用 453 96 30 579 78.2% 表 12 フィルタリングルール追加実験 ルール 正解数 不正解数 変形誤り数 ルールC 1 29 0 ルールD 3 9 18 例の場合,「ゃもね」が名詞と判定された).したがって, このルールDによるフィルタリングは変形誤りを防止す るという観点から有効であるといえる. 以上より,提案手法で用いた全ルールが有効であるこ とを確認できた. § 3 教師データ 教師データのサイズの妥当性についても調査を行った. 教師データ内における出現回数がしきい値(n = 5)未満 であり,点数が付与されなかった単語がどの程度存在し たのかを調査した.実験において,提案手法により点数 付けを行った文(フィルタリングルールを適用しても除 外されなかった文)は653593文であった.ここで出現し た単語は102616種類であったが,そのうちの30.3%で ある31048種類について点数が付与されなかった.しか し,総単語数で見た場合,総単語数10543971個のうち, 点数が付与されなかった単語は109607個(1.0%)であり, 99%の単語について点数が付与できていたことを確認し た.これは,文の点数付けを行う際,ほとんどの単語に 点数が付与され,文の点数計算に使用できる事を意味す る.したがって,教師データのサイズは十分であったこ とが示唆された. § 4 不正解発話の原因 提案手法によって生成された発話の誤りの原因につい て調査したところ,以下が見られた. 誤字・脱字が存在する場合 提案手法により「Xperiaってなんだと思ったら Do-CoMoの新しいスマトーフォンなのでしょうか」と いう発話が生成されたが,発話中の「スマトーフォ ン」は「スマートフォン」が正しい.4·4節の提案 手法で獲得した500発話のうち,この発話のみに誤 字・脱字が存在した.この問題の解決のためには,誤 字・脱字の検出・訂正手法[荒木02]を用いるなどし て対処する必要がある. 一文では意味・意図が不明な場合 4·4節の提案手法で獲得した500発話のうち,16 発話が一文では意味・意図が不明であった.例えば, 提案手法により「ANAだと国内線でも言いますよ ね」という発話が生成された.しかし,この発話単 体では何を言うのか,ということが読み取れないた め不正解発話と判定された.この問題は名詞句の省 略により発生していることから,ゼロ照応解析など により,省略されている語を補う,もしくはゼロ代 名詞が存在するか否かを判定し,その文を除去する ことが必要である. 語尾の変形に失敗した場合 4·4節の提案手法で獲得した500発話のうち,4 発話が語尾の変形に失敗していた.例えば,提案手 法により「iPadって、ベッド以外で使う事ですよね」 という発話が生成された.この発話は語尾の変形前 は「iPadって、ベッド以外で使う事がねえな」であ り,「iPadって、ベッド以外で使う事がないですよね」 と変形できていたら正解発話であった∗5.語尾変形 のルールはヒューリスティックに決定したものであ り,このように適切に対応できないものも存在する. したがって,語尾変形ルールのさらなる拡充・修正 や,新たなフィルタリングルールによって除外する などの対策が必要である. なお,フィルタリングルールの失敗により不正解となっ た発話は確認できなかった.ただし,このことはフィル タリングルールが完璧だったことを意味するわけではな く,不正解発話数が少なかったためであると考えられる. したがって,そういった例が発見された際には,ルール の拡充や修正が必要であると思われる.

5.

本研究では,非タスク指向型対話システムの発話の自 動生成を目的とし,Twitterデータから任意の話題語に ∗5 文中の「ねえ」は助動詞と判定されたため,使用した語尾変 形ルールでは正しく変形できない.

(11)

関する発話を生成する手法を提案した.提案手法は,ま ずTwitterデータを任意の話題語で検索し,取得した文 をルールによりフィルタリングを行う.次に,文に点数 付けし,点数がしきい値以上の文を発話として獲得する. 実験の結果,発話として使用可能な発話が高精度で生成 可能であることを確認した. 今後は,提案手法により生成した発話と,稲葉らが提 案した発話選択法[稲葉12]を用いて対話システムを実 装し,実際にユーザと対話することにより評価を行う予 定である.その際,定量的な評価法[磯村09a,稲葉11] を用いた自然な対話が可能かどうかの評価だけではなく, 楽しい対話が可能かといった主観的な評価も行う予定で ある.

参 考 文 献

[Chang 11] Chang, C.-C. and Lin, C.-J.: LIBSVM: a library for sup-port vector machines, ACM Transactions on Intelligent Systems and Technology (TIST), Vol. 2, No. 3, p. 27 (2011)

[Goldstein 00] Goldstein, J., Mittal, V., Carbonell, J., and Kantrowitz, M.: Multi-document summarization by sentence extraction, in Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization-Volume 4, pp. 40–48 (2000)

[Hu 07] Hu, M., Sun, A., and Lim, E.-P.: Comments-oriented blog summarization by sentence extraction, in Proceedings of the six-teenth ACM conference on Conference on information and knowl-edge management, pp. 901–904 (2007)

[Huang 07] Huang, J., Zhou, M., and Yang, D.: Extracting chatbot knowledge from online discussion forums, in Proceedings of IJCAI, pp. 423–428 (2007)

[Jurafsky 97] Jurafsky, D., Shriberg, E., and Biasca, D.: Switchboard SWBD-DAMSL shallow-discourse-function annotation coders man-ual, Draft 13, University of Colorado, Boulder Institute of Cognitive Science Technical Report, pp. 97–102 (1997)

[Kudo 05] Kudo, T.: Mecab: Yet another part-of-speech and morpho-logical analyzer, http://mecab.googlecode.com/ (2005)

[McGlashan 04] McGlashan, S., Burnett, D., Carter, J., Danielsen, P., Ferrans, J., Hunt, A., Lucas, B., Porter, B., Rehor, K., and Tryphonas, S.: Voice extensible markup language (voicexml) version 2.0, W3C Recommendation (2004)

[Polifroni 00] Polifroni, J. and Seneff, S.: Galaxy-II as an architecture for spoken dialogue evaluation, in Proceedings of the Second Inter-national Conference on Language Resources and Evaluation (2000) [Reiter 97] Reiter, E. and Dale, R.: Building applied natural language generation systems, Natural Language Engineering, Vol. 3, No. 1, pp. 57–87 (1997)

[Ritter 10] Ritter, A., Cherry, C., and Dolan, B.: Unsupervised mod-eling of twitter conversations, In Proc. NAACL-HLT, pp. 172–180 (2010)

[Seneff 98] Seneff, S., Hurley, E., Lau, R., Pao, C., Schmid, P., and Zue, V.: Galaxy-II : A reference architecture for conversational sys-tem development, in Fifth International Conference on Spoken Lan-guage Processing, pp. 931–934 (1998)

[Stolcke 00] Stolcke, A., Ries, K., Coccaro, N., Shriberg, E., Bates, R., Jurafsky, D., Taylor, P., Martin, R., Ess-Dykema, C. V., and Meteer, M.: Dialogue act modeling for automatic tagging and recog-nition of conversational speech, Computational linguistics, Vol. 26, No. 3, pp. 339–373 (2000)

[Teufel 97] Teufel, S. and Moens, M.: Sentence extraction as a clas-sification task, in Proceedings of the ACL, Vol. 97, pp. 58–65 (1997) [Wallace 09] Wallace, R.: The anatomy of ALICE, Parsing the Turing

Test, pp. 181–210 (2009)

[Weizenbaum 66] Weizenbaum, J.: ELIZA-a computer program for the study of natural language communication between man and ma-chine, Communications of the ACM, Vol. 9, No. 1, pp. 36–45 (1966)

[磯村 09a] 磯村 直樹, 鳥海 不二夫, 石井 健一郎:HMM による非 タスク指向型対話システムの評価, 電子情報通信学会論文誌 D, Vol. 92, No. 4, pp. 542–551 (2009) [磯村 09b] 磯村 直樹, 鳥海 不二夫, 石井 健一郎:対話エージェン ト評価におけるタグ付与の自動化, 電子情報通信学会論文誌 A, Vol. 92, No. 11, pp. 795–805 (2009) [稲葉 11] 稲葉 通将, 鳥海 不二夫, 石井 健一郎:語の共起情報を 用いた非タスク指向型対話エージェントの評価, 電子情報通信学 会論文誌 D, Vol. 94, No. 1, pp. 48–58 (2011) [稲葉 12] 稲葉 通将, 平井 尚樹, 鳥海 不二夫, 石井 健一郎:非タス ク指向型対話エージェントのための統計的応答手法, 電子情報通 信学会論文誌 D, Vol. 95, No. 6, pp. 1390–1400 (2012) [荒木 02] 荒木 哲郎, 池原 悟, 佐藤 政伸, 榮代 正男:マルコフ連 鎖モデルを用いた日本語文の置換型, 挿入型及び脱落型誤りの検 出・訂正法の改善, 電子情報通信学会論文誌. D-II, 情報・システ ム, II-パターン処理, Vol. 85, No. 1, pp. 66–78 (2002)

[柴田 09] 柴田 雅博, 冨浦 洋一, 西口 友美:雑談自由対話を実現 するための WWW 上の文書からの妥当な候補文選択手法, 人工 知能学会論文誌, Vol. 24, No. 6, pp. 507–519 (2009) [小澤 12] 小澤 俊介, 岡本 昌之, 長野 伸一, 長 健太, 松原 茂樹:外 出行動前のユーザへの情報提供を目的とした Web からのアド バイス文抽出, 情報処理学会論文誌, Vol. 53, No. 1, pp. 105–116 (2012) [徳久 06] 徳久 良子, 寺嶌 立太:雑談における発話のやりとりと 盛り上がりとの関連, 人工知能学会論文誌, Vol. 21, No. 2, pp. 133–142 (2006) [南 12] 南 泰浩, 東中 竜一郎, 堂坂 浩二, 目黒 豊美, 森 啓, 前田 英 作:対話行為タイプ列 Trigram による行動予測確率に基づく

POMDP対話制御, 電子情報通信学会論文誌 A, Vol. 95, No. 1, pp.

2–15 (2012) [目黒 12] 目黒 豊美, 東中 竜一郎, 堂坂 浩二, 南 泰浩:聞き役対話 の分析および分析に基づいた対話制御部の構築, 情報処理学会論 文誌, Vol. 53, No. 12, pp. 2787–2801 (2012) 〔担当委員:徳久 良子〕 2013年4月26日 受理 著 者 紹 介 稲葉 通将(正会員) 2012年 名古屋大学大学院情報科学研究科博士後期課程修 了,同年広島市立大学大学院情報科学研究科助教,現在に 至る.対話システム,対話処理に関する研究に従事.(博士 (情報科学)).電子情報通信学会,情報処理学会,IEEE各 会員. 神園 彩香 2013年 広島市立大学情報科学部知能工学科卒業.同年株 式会社リョービシステムサービス入社.在学中は主に対話 システムの研究に従事 高橋 健一(正会員) 1977年名古屋工業大学工学部情報工学科卒.1979年同大 大学院工学研究科修士課程了.同年名古屋工業大学工学部 助手.同大講師,助教授を経て,1994年広島市立大学情報 科学部教授.現在,同大大学院情報科学研究科所属.知識 処理,エージェント,e‐ラーニング等の研究に従事.工 学博士.IEEE,電子情報通信学会,情報処理学会,各会員.

表 1 Twitter から取得した文の例 ID 話題語 文 判定 1 読書 読書の睡眠導入効果はすごい 正解 2 テニス テニスの硬球って、意外と硬くないですよ 正解 3 ワイン 栗きんとんにワインは合わない 正解 4 カラオケ カラオケは本パート歌ってるよりも合の手歌ってるほうが楽しい 正解 5 猫の手 すごく猫の手に似てる 不正解 6 読書 雨も降ってるから今日はお家で大人しく読書 不正解 7 アメリカ そういうとこがアメリカはいいよね 不正解 8 ワイン ワインよりいいね 不正解 の単語からなる語で
表 2 文の点数の計算例 1 単語 点数付け対象 単語の点数 ココア -  -は 話題 , は , 副詞 - 助詞類接続 1.08 とても とても 7.84 美容 -  -に 名詞 - 一般 , に , 形容詞 - 自立 2.69 良い 良い 6.73 らしい らしい 4.25 よ 助動詞 , よ , EOS 2.64 表 3 文の点数の計算例 2 単語 点数付け対象 単語の点数 とりあえず とりあえず 0.14 ココア -  -に 話題 , に , 動詞 - 自立 0.12 入れ 入れる 0.81 て 動
表 6 各話題語において文の点数が 1 位の発話の例 話題語 人手評価 発話
表 9 単語の点数例 単語 点数 さて 0.01 結局 0.27 こと 0.29 する 0.40 ひどい 0.99 感覚 1.08 ある 2.95 話題 , は , 形容詞 - 自立 4.92 素晴らしい 24.49 異常 27.99 4 ·5 考 察 § 1 獲得発話数 表 10 には,提案手法による獲得発話数を示した.な お,最大獲得発話数と最小獲得発話数における括弧内は 対応する話題語である. 対話システムが多様な応答を行うためには,発話候補 は多いことが望ましい.実験では,点数の上位 20 位まで
+2

参照

関連したドキュメント

  BCI は脳から得られる情報を利用して,思考によりコ

なぜ、窓口担当者はこのような対応をしたのかというと、実は「正確な取

在させていないような孤立的個人では決してない。もし、そのような存在で

アスピリン バイアスピリン 7 日(5 日でも可) 個別検討 なし 術後早期より クロピドグレル プラビックス 7 日(5 日でも可) 7 日(5 日でも可) なし

とディグナーガが考えていると Pind は言うのである(このような見解はダルマキールティなら十分に 可能である). Pind [1999:327]: “The underlying argument seems to be

 このようなパヤタスゴミ処分場の歴史について説明を受けた後,パヤタスに 住む人の家庭を訪問した。そこでは 3 畳あるかないかほどの部屋に

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

○齋藤第一部会長 もう一度確認なのですが、現存の施設は 1 時間当たり 60t の処理能力と いう理解でよろしいですよね。. 〇事業者