映画推薦対話システムを具体例としたユーザ内部状態のモデル化・コーパス構築・解析

(1)

映画推薦対話システムを具体例としたユーザ内部状態の

モデル化・コーパス構築・解析

Modeling, Corpus Construction, and Analysis of User Internal State

using Movie Recommendation Dialogue System

児玉貴志

1

_{田中リベカ}

1

_{黒橋禎夫}

1,2

Takashi Kodama

1

_{, Ribeka Tanaka}

1

_{, and Sadao Kurohashi}

1,2 1

_{京都大学 / Kyoto University}

2

_{国立情報学研究所 CRIS / NII CRIS}

Abstract: An intelligent dialogue system is expected as a new human-machine interface. In order to construct a system that cooperatively interacts with human users, it is essential to model the user’s internal states appropriately. In this study, we model and analyze the internal state of the human user based on dialogue data. We collected a large scale multi-turn human-machine dia-logue corpus by using a carefully-designed movie recommendation diadia-logue system. The collected dialogues were annotated with a user’s internal state as well as the naturalness score of the system utterance. Our experiment shows that we can predict the user’s internal state from the dialogue. Also, we show that the user’s internal state is useful to detect the unnaturalness of the system utterance.

1 はじめに

人間と機械の新たなインタフェースとして知的な対話システムの実現が期待されている。そこでの期待は、言語を用いた協調的な理解が実現されることである。そのためには、対話の文脈を理解し、またユーザの心理状態、すなわち、やりとりされている情報の理解度や興味・関心の度合いなどを適切にモデル化する必要がある。このような対話研究を進めるためには、実対話データの構築と分析が必要であるが、人間同士の対話はレベルが高すぎて現在の対話システムの構築・改善のためには距離がある。このような問題意識から、本研究では、適切なタスク設定によってある程度のターンテイキングが発生する対話システムを構築し、その対話システムと人との対話データを大量に収集し、対話ログをベースにユーザの内部状態のモデル化と解析を行った。具体的には、200 編ほどの映画データベースを構築し、これに基づく映画推薦対話システムを構築した。このシステムは「最近○○が話題ですが・・・」「△△に興味はありますか？」のように間接的に話題（推薦する映画）を導入する。このようなシステム側がイニシアティブをとる間接的話題導入によってある程度自然な複数回のターンテイキングが発生し、現在の対話システムの技術レベルでも人とシステムとの一定の品質の対話ログが収集できる。クラウドソーシングによって本システムとユーザ（クラウドワーカー）との約 1000 対話のコーパスを構築した。また、このコーパスの分析に基づきユーザの内部状態を、話題への興味のある／なし、話題への知識のある／なし、対話への関与の度合い、の 3 つの軸でモデル化し、クラウドソーシングでこれらのアノテーションを行った。さらに、これを学習データとして BERT [1] によるユーザ内部状態の自動推定について検討した。

2

3 映画推薦対話システムの構成

対話文脈中でのユーザの内部状態を分析するためには、一貫した目的を持って複数ターンにわたって対話を続ける対話システムが必要となる。そこで、間接的な話題導入を行うルールベースの映画推薦対話システムを構築した。システムの構成を図 1 に示す。本システムでは、システム発話の内容を予め映画ごとに作成しておく。この発話集をシナリオと呼ぶ。映画データベースはこのシナリオと、簡単な質問応答の際に必要な映画情報を保持する。対話管理はダイアログマネージャが担い、必要に応じて映画データベースに格納された映画情報を参照しながら対話を進める。

3.1 対話戦略

本システムは以下の 3 つの対話戦略に基づき動作する。 (1) システム主導 システムはユーザ発話に対する簡単な応答をしつつ、基本的にはシナリオ通りに主導的に対話を進める。 (2) 間接的話題導入 システムは対話のメインの話題である映画のタイトルをいきなり言うのではなく、以下の 3 つのパターンでその周辺の話題から対話を始める（下線部は映画によって異なる。） T1 ：最近のエンタメニュース （例）俳優の染谷将太と女優の菊地凛子夫妻に第 2 子が誕生したことが 11 日までにわかったと話題です T2 ：映画のテーマ（旅行、恐竜など） （例）飛行機って興味ありますか？ T3 ：映画情報（俳優の名前など） （例）細田守監督をご存知ですか？ (3) 推薦ポイント 推薦する映画を褒める文（推薦ポイント）を複数回発話することで、ユーザがその映画を見たいと思えるように念押しする。これら 3 つの戦略によって現在の技術レベルでも意味のある映画推薦対話が可能となる。

3.2 映画データベース

映画データベースには 213 作品の基本情報、解説・あらすじ、ニュース情報、レビュー、シナリオがそれぞれ格納されている。基本情報、解説・あらすじ、レビューは映画レビューサイトから Web スクレイピングで取得した。基本情報は映画のタイトル、キャスト、スタッフ、ジャンルなどの情報である。レビューは、映画レビューサイトのユーザが映画の感想や評価などを書き込んだものであり、各映画につき高評価順に 300 件ずつ取得した。ニュース情報は、エンタメとスポーツのニュースをニュースサイトから Web スクレイピングで取得し た。このニュース情報は前述したパターン T1 のシナ

(3)

リオの作成に用いる。

3.3 対話シナリオ

シナリオは対話戦略に沿って映画ごとに複数作成した。シナリオの前半部分では、間接的に話題を導入し、推薦映画を提示する。後半部分では、推薦ポイントを述べる発話を 2 回行い、最後に視聴を促した。シナリオの前半部分に用いる間接的話題導入の発話 は、3.1 節で述べた 3 つのパターン T1∼T3 に基づき、 映画データベース中の情報を用いて生成する。 パターン T1 では、最近のニュースの話題で対話を 始め、そのニュースの登場人物の出演映画を推薦する。映画データベースのニュース記事の最初の 1 文を抽出し、キャストの名前が含まれていたら、その文に「∼ というニュースが話題になっていますね」とつなげる。 パターン T2 では、映画のテーマを用いて「＜テー マ＞って興味ありますか？」といった文で対話を始める。映画のテーマは映画データベースの解説・あらすじからキャスト・スタッフの名前を取り除いた上で tf-idf のスコアが最も高い名詞を選択する。ただし、一般的な語がテーマとして使用されるのを防ぐために、スコアが 0.35 を下回った場合には、その映画についてはパ ターン T2 のシナリオは作成しない。 パターン T3 では、映画データベースの基本情報に 含まれている主要キャスト 2 名と監督の名前を用いて「∼さんってご存知ですか？」といった発話から対話を始め、その人物に関連する映画を推薦する。シナリオ後半部分では、レビューから抽出した 2 つの推薦ポイント文を発話する。映画の視聴を勧めるために、ある程度内容のある、映画を褒めている文を選ぶ。抽出時は、まず独自に選んだ映画に関連するポジディブな単語（「傑作」、「面白い」など）50 語のの単語ベクトルの和と各文の単語ベクトルの和のコサイン類似度を計算し、その上位 200 文を取得する。さらに、類似度に各文の文字数をかけ合わせたスコアを用いて上位 100 文を抽出する。これを各映画について行い、各シナリオでは 100 文の中からランダムに 2 文を用いる。なお、単語ベクトルは Web テキスト約 98 億文で学習した word2vec を用いた。

3.4 ダイアログマネージャ

ダイアログマネージャは、映画データベースの情報を参照しつつ、推薦映画の決定やシナリオの選択、シナリオに基づく発話を行う。推薦映画の決定はユーザの好みを尋ねてからその返答に応じて決定する方式とランダムに決定する方式の 2 つを用意し、その割合を 8:2 とした。ユーザの好みを尋ねる際に用いる質問（初期質問）は以下からランダムに選択する。 • 好きな俳優は誰ですか？ • 好きな女優は誰ですか？ • 好きな監督は誰ですか？ • 好きなジャンルは何ですか？ • 邦画と洋画どちらが好きですか？ 初期質問をする場合には、例えばユーザが好きな女優を挙げたら、その女優が出演する映画の中から推薦映画を選ぶ。その後、用意されているシナリオから 1 つ選択し、そのシナリオに基づいて発話を行う。ユーザが「いない」等と答えた場合や、初期質問をしない場合には、推薦映画をランダムに決定する。推薦映画の主演・監督・キャストの名前を問う簡単な質問をユーザがした場合には、映画情報データベースを参照してその応答をシステム発話の前に挿入する。質問の判定は正規表現ベースでマッチングを行う。

4 コーパス構築

4.1 対話収集

本システムを用いてクラウドソーシングで対話を収集した。ワーカーには事前に、213 作品の中から対話的に映画を薦めるシステムとの対話であることを伝えている。対話はシステム側から開始し、ワーカーが返答するという順で進めた。最後はシステム発話で対話を終了する。対話システムは外部サイトとして用意し、ワーカーはクラウドソーシングのタスク画面内の対話システムの URL をクリックし、外部サイトで対話を行う。また、対話終了後にクラウドソーシングのタスク画面上で以下に示す 5 段階評価式のアンケートに回答する。 (1) 説得度: 推薦された映画を見たくなりましたか？ {5:見たい, 4:どちらかと言えば見たい, 3:どちら とも言えない, 2:どちらかと言えば見たくない, 1: 見たくない_} (2) 流れの自然さ: 対話の流れは自然でしたか？ {5:自然だった, 4:どちらかと言えば自然だった, 3: どちらとも言えない, 2:どちらかと言えば不自然だった, 1:不自然だった} 外部サイト上でワーカー固有の ID を表示し、クラウドソーシングの回答欄に入力してもらうことで対話とアンケート結果の紐付けを行った。収集した対話例を図 2 に、その統計情報を表 1 に示す。全部で 1060 対話を収集した。アンケート結果では、説得度について 51.7%、流れの自然さについて 60.3%の対話が 4 以上の評価を獲得しており、収集した対話が映画推薦という

(4)

S: お姫さまって興味ありますか？ U: 興味あります S: お姫さまに関係のある映画があります。「今夜、ロマンス劇場で」というタイトルです U: どんなストーリーですか？ S: 内容は詳しく言えませんが、泣ける映画です。リアリズムを徹底的に求めるのではなく、綾瀬はるかのセリフと音楽を楽しむのが良いと思いますよ U: 音楽興味ありですね S: 悲劇ではないけど切ない結末だなと思いきや、白黒からフルカラーへの反転で大団円ですよ U: 素敵な展開ですね S: ぜひ見てみてください自然さ: -3 自然さ: 0 自然さ: -3 自然さ: -1 知識:2,興味:3,関与:3 知識:-3,興味:3,関与:3 知識:0,興味:3,関与:3 知識:-2,興味:3,関与:3 内部状態対話図 2: 収集対話例（S はシステム発話、U はユーザ発話）対話数 1,060 平均ターン数 10.6 システムユーザ発話数 6,154 5,094 異なり発話数 4,840 2,485 単語数 163,347 20,279 異なり単語数 5,123 1,786 表 1: 収集対話の統計情報目的においてある程度の品質があることを確認できる。

4.2 アノテーション

4.2.1 ユーザ内部状態本研究では収集した対話を分析した結果、ユーザの内部状態を以下の 3 つの軸でモデル化する。 • 興味（あり・特に読み取れない・なし） • 知識（あり・特に読み取れない・なし） • 対話への関与（積極的・どちらとも言えない・消 極的）収集した対話にクラウドソーシングを用いて内部状態をアノテーションした。ワーカーは対話の履歴を見ながら、各ユーザ発話に対して括弧内の選択肢から適切なものを選択する。また、興味と知識に関しては任意ではあるが、その興味・知識の対象を対話中から抜き出すように依頼した。各発話に対して 3 人ずつにアノテートをしてもらい、それぞれの選択肢に 1 点、0 点、-1 点を割り振ってスコア化した。各内部状態のスコアの分布を表 2 に示す。興味と対話への関与に関してはスコアが高い傾向にあったが、知識に関してはほぼ一様に分布している。 4.2.2 システム発話の自然ささらに、各システム発話について、対話の文脈中での自然さのアノテーションを行った。このアノテーションについてもクラウドソーシングを用いて行い、各システム発話に対してワーカーを 3 人ずつ割り当てた。ワーカーは該当のシステム発話に達するまでの対話履スコア興味知識対話への関与 3 20.2% (1,030) 13.4% (684) 20.4% (1,039) 2 22.2% (1,130) 15.3% (781) 19.7% (1,006) 1 18.2% (929) 15.6% (793) 17.8% (906) 0 13.3% (680) 14.4% (735) 14.1% (716) -1 11.4% (579) 15.8% (807) 12.0% (609) -2 8.7% (443) 14.0% (711) 9.5% (486) -3 5.9% (303) 11.4% (583) 6.5% (332) 表 2: ユーザ内部状態の分布（括弧内は発話数）スコア自然さ 0 25.1% (1,281) -1 21.6% (1,101) -2 23.9% (1,215) -3 13.9% (710) -4 9.7% (496) -5 4.1% (210) -6 1.6% (81) 表 3: システム発話の自然さの分布（括弧内は発話数）歴を見ながら、その発話が文脈の中で自然である・少し違和感を感じる・不自然であるかを選ぶ。この選択肢は雑談対話における対話破綻のアノテーションを実施している雑談対話コーパス [11] を参考にした。それぞれの選択肢に 0 点、-1 点、-2 点を割り振ってスコア化した結果を表 3 に示す。スコア 0 から-2 までを自然、-3 から-6 を不自然な発話とみなすとするとそれぞれ約 70% と 30%という割合になった。

4.3 内部状態と発話の自然さの関係

ユーザの内部状態とシステムの発話の自然さの関係について調査した。あるユーザ内部状態（興味・知識・対話への関与）とその次のシステム発話の自然さとの関係を図 3 上部に示す。ユーザの知識がなくてもシステムの発話はそれほど不自然とはみなされなかった。システムがユーザに映画を勧めるという設定上、システムの方がより知識を持っていることが自然であるためと考えられる。また、あるシステム発話の自然さとその次のユーザ内部状態（興味・知識・対話への関与）との関係を図 3 下部に示す。システム発話が自然であれば、ユーザの興味・対話への関与が高くなる傾向にあることがわかる。

5 ユーザ内部状態の推定

構築したコーパスを用いて、発話と対話履歴からユーザの内部状態の推定を試みる。また、ユーザの内部状

(5)

興味→ 知識→ 対話への関与→ ← 発話の自然さ ← 発話の自然さ ← 発話の自然さ発話の自然さ→ ← 興味 ← 知識 ← 対話への関与発話の自然さ→ 発話の自然さ→ 図 3: ユーザ内部状態とシステム発話の自然さの関係（行列内の数字は発話数）態の有効性を検証するため、内部状態を用いて発話の自然さの推定を行う。

5.1 分類モデル

分類には BERT [1] を用いる。BERT は Transformer [12] をベースとし、大規模な生コーパスで事前学習した後、各タスクで fine-tuning することで自然言語処理の様々なタスクで SOTA を達成している。本研究では約 1,800 万文の日本語 Wikipedia を利用して事前学習したモデルを利用した1_{。このモデルは入力テキストを形態素解} 析し、形態素を subword に分割したものを基本単位とし、1 単語に該当するトークン全てを同時に mask する Whole Word Masking を行っている。

5.2 実験設定

学習率 0.00002、バッチサイズ 32、3 エポックで fine-tuning し、10 分割交差検証法を用いて推定した。内部状態推定は 7 値分類であるが、分布を重視し、損失関数に KL ダイバージェンスを用いた。正解の分布には正解ラベルを平均値、分散を 1 としたガウス分布を与えた。入力表現としては、推定の対象文と対話履 1_{http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP リソース} 内部状態正解率 (%) ±1 正解率 (%) 興味 31.1 81.4 知識 29.0 78.1 対話への関与 29.2 78.4 表 4: ユーザ内部状態の推定結果歴の間に [SEP] トークンをはさみ、対話履歴はより新しいものを左にした。また、各システム発話、ユーザ発話の前には分離トークンを追加した（図 4 上部）。発話の自然さの推定ではスコア 0 から-2 を自然、-3 から-6 までを不自然、とみなし、2 値分類で推定を行った。対話履歴は直前のユーザ発話とその前のシステム発話の 2 発話を用いた。損失関数には交差エントロピー誤差を採用し、ユーザ発話の分離トークンの前に推定した各内部状態のスコアを示すトークンを挿入した（図 4 下部）。

5.3 考察

ユーザの各内部状態の推定結果を表 4 に示す。正解率はいずれの内部状態においても 30%程度であった。また、スコアの誤差_{±1 まで許容した ±1 正解率はいずれ} も 80%程度であり、発話からユーザの内部状態を概ね推定できていると考えられる。

(6)

ユーザ内部状態推定時のBERT入力システム発話の自然さ推定時のBERT入力推定した各内部状態のスコア [SEP] [S] [U] 推定対象のユーザ発話(𝑈") システム発話(𝑆") ユーザ発話(𝑈"$%) [S] [U] [CLS] 知識 (𝑈"$%) 関与 (𝑈"$%) 興味 (𝑈"$%) [SEP] 推定対象のシステム発話(𝑆") [U] [S] ユーザ発話(𝑈"$%) システム発話(𝑆"$%) [S] [CLS] 図 4: BERT への入力（[S]、[U] はそれぞれシステム発話、ユーザ発話の分離トークン）手法正解率 (%) F1 (%) ベースライン 73.6 47.6 +興味 73.9 47.8 +知識 73.7 47.2 +対話への関与 73.8 47.3 +興味+知識 73.9 47.9 +興味+対話への関与 74.0 48.5 +知識+対話への関与 73.6 47.4 +興味+知識+対話への関与 73.6 47.1 表 5: システム発話の自然さの推定結果次にユーザ内部状態がシステム発話の自然さの推定に影響するかどうか調べた（表 5）。ベースラインは発話だけからシステム発話の自然さの推定を行っている。 F 値は不自然な発話を検出するタスクと考えた場合の値である。内部状態、特に興味と対話への関与を追加することでわずかながら精度が向上している。この結果より、本研究のモデル化に基づいた内部状態を考慮することはシステムが自然に発話する上で意味があるといえる。

6 おわりに

本研究では、映画推薦対話システムをデザインし、構築した対話システムを用いて人対システムの対話を収集した。また、収集した対話を分析した上で、ユーザの内部状態をモデル化し、クラウドソーシングを用いて、そのユーザ内部状態をアノテートした。この内部状態を利用することでシステム発話の自然さの推定精度がわずかに向上することを確認した。今後は大規模なデータ収集及びニューラルネットワークを用いた映画推薦対話システムの構築、内部状態の推定による対話管理を進めて行く予定である。収集した対話はリクエストベースで提供予定である。謝辞この研究は 2019 年度国立情報学研究所 CRIS 委託研究の助成を受けています。

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidi-rectional transformers for language understanding. In

NAACL 2019, pp. 4171–4186, 2019.

[2] Jason Williams, Antoine Raux, Deepak Ramachan-dran, and Alan Black. The dialog state tracking chal-lenge. In SIGDIAL 2013, pp. 404–413, 2013. [3] Matthew Henderson, Blaise Thomson, and Jason D.

Williams. The second dialog state tracking challenge. In SIGDIAL 2014, pp. 263–272, 2014.

[4] Matthew Henderson, Blaise Thomson, and Jason D Williams. The third dialog state tracking challenge. In 2014 IEEE SLT, 2014.

[5] Seokhwan Kim, Luis D’Haro, Rafael Banchs, Jason Williams, and Matthew Henderson. The fourth dialog state tracking challenge. 2016.

[6] Seokhwan Kim, Luis Fernando D’Haro, Rafael E. Banchs, Jason D. Williams, Matthew Henderson, and Koichiro Yoshino. The fifth dialog state tracking chal-lenge. 2016 IEEE SLT, pp. 511–517, 2016.

[7] Xianda Zhou and William Yang Wang. MojiTalk:

Generating emotional responses at scale. In ACL

2018, pp. 1128–1137, 2018.

[8] Zhenqiao Song, Xiaoqing Zheng, Lu Liu, Mu Xu, and Xuanjing Huang. Generating responses with a spe-cific emotion in dialog. In ACL 2019, pp. 3685–3695, 2019.

[9] Jiwei Li, Michel Galley, Chris Brockett, Georgios Sp-ithourakis, Jianfeng Gao, and Bill Dolan. A persona-based neural conversation model. In ACL 2016, pp. 994–1003, 2016.

[10] Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. Personaliz-ing dialogue agents: I have a dog, do you have pets too? In ACL 2018, pp. 2204–2213, 2018.

[11] 東中竜一郎,船越孝太郎,荒木雅弘,塚原裕史,小林優佳,

水上雅博. テキストチャットを用いた雑談対話コーパス

の構築と対話破綻の分析.自然言語処理, Vol. 23, No. 1, pp. 59–86, 2016.

[12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz

Kaiser, and Illia Polosukhin. Attention is all you

need. In Advances in neural information processing

映画推薦対話システムを具体例としたユーザ内部状態のモデル化・コーパス構築・解析