アンドロイドERICAによる面接対話における掘り下げ質問生成

(1)

アンドロイド

ERICA

による面接対話における掘り下げ質問生成

Follow-up Question Generation for Job Interview Dialogue

with Android ERICA

原康平

∗

井上昂治

Divesh Lala

山本賢太

中村静

高梨克也

河原達也

Kohei Hara, Koji Inoue, Divesh Lala, Kenta Yamamoto,

Shizuka Nakamura, Katsuya Takanashi, Tatsuya Kawahara

京都大学大学院情報学研究科

Graduate School of Informatics, Kyoto University

Abstract: We address a spoken dialogue system that plays the role of an interviewer for job inter-views. Conventional job interview systems ask only pre-defined questions, which make interviews monotonous and far from human-human interviews. We propose follow-up question generations based on assessment of applicant responses and also keyword extraction. At first, we manually annotated a human-human job interview dialogue to obtain the training data for machine learning models of the assessment and the keyword extraction. The trained models were integrated into the system of the autonomous android ERICA to conduct a subject experiment. The proposed job interview system that generated the follow-up questions was compared with the baseline system that did not generate any follow-up questions and select among pre-defined questions. The exper-imental results showed that the proposed system was significantly better in subjective evaluations regarding both impressions of job interview dialogue and the quality of follow-up questions.

1 はじめに

就職活動では対面による面接試験が行われており，これに備えて面接の練習を行うことができる音声対話システムの実現が期待される．実際の面接では，エントリーシートだけではわからない能力や人となり，志望度合いといった情報を確認するために，対面で様々な質問が投げかけられる．音声対話システムでなされる対話は人間どうしの面接のようにリアルで緊張感が伴ったものであることが望ましい．我々はアンドロイド ERICA を用いてそのような音声対話の実現にむけた研究を進めている [1, 2]．ERICA は人間に酷似した見かけを持ち，非言語を含めた多様なふるまいを生成できるため，人間どうしの場合に近い，よりリアルな面接対話の実現が期待される．本稿では，面接志願者の回答に応じた掘り下げ質問の生成手法について述べる．面接対話システムに関する先行研究の多くは，面接の自動評価手法に関するものであり [3, 4, 5, 6]，どのように質問を生成するのかについてはほとんど検討されていない．したがって，実際の面接対話システムでは，事前に用意された質問を ∗_{連絡先：京都大学大学院情報学研究科知能情報学専攻} 京都市左京区吉田本町 E-mail: [email protected] 投げかけるのみである．その場合，志願者は事前に用意した回答を述べるだけでよく，リアルな練習にならない．そのため，志願者の回答に応じて掘り下げ質問を適切に生成することが有効と考えられるが，先行研究は少数である [7, 8, 9]．本研究では，2 種類の掘り下げ質問の生成手法を提案する．一つ目は，志願者の回答の充足度に基づく掘り下げ質問生成である．回答にどれだけ答えるべき項目が含まれていたのかを判定し，不足している項目について問う掘り下げ質問を生成する．充足度の判定には，アノテーションを行なった面接対話コーパスを用いて学習した識別器を使用する．二つ目は，志願者の回答に現れたキーワードに基づく掘り下げ質問生成である．回答内には面接官が詳細を尋ねるべきキーワードが出現することがあるため，そのキーワードを抽出した上で，掘り下げ質問を生成する．キーワードの抽出には，アノテーションを行なった面接対話コーパスを用いて学習したモデルを使用する．これらの掘り下げ質問を生成する面接対話システムを ERICA に実装し，被験者実験を行った．その結果を報告する．人工知能学会研究会資料 SIG-SLUD-B902-03 － 13 －

(2)

ベース質問回答充⾜度に基づく掘り下げ質問キーワード抽出に基づく掘り下げ質問志望動機ベース質問回答充⾜度に基づく掘り下げ質問キーワード抽出に基づく掘り下げ質問⻑所ベース質問回答充⾜度に基づく掘り下げ質問キーワード抽出に基づく掘り下げ質問開始学⽣時代に頑張ったことベース質問回答充⾜度に基づく掘り下げ質問キーワード抽出に基づく掘り下げ質問終了トピックスキル図 1: 面接対話システムの対話フロー

2 面接対話システム

本システムで扱う面接対話は複数のトピックで構成され，各トピック内において掘り下げ質問の生成を試みる．対話のフローを図 1 に示す．トピックは，「志望動機」，「長所」，「学生時代に頑張ったこと」，「スキル」の４つとした．各トピックのはじめに，それに関するオープンな質問（以下，ベース質問と呼ぶ）がなされる．その後，志願者の回答に応じて 2 種類の掘り下げ質問がなされる．それぞれの生成方法については次節以降で述べる．これらの掘り下げ質問を，志願者の回答内容に応じて適切に生成することにより，緊張感があるリアルな面接対話の実現を目指す．また，各質問文は，業種・職種・会社に依存しないように設計し，様々な状況に対応する．ターンテイキングは，音声認識結果の言語情報を用いて，LSTM ベースのニューラルネットワークによりその確率を予測し，状態遷移モデルを用いてシステムがターンを獲得するまでのポーズ長を決定する [10]．ターンを獲得する事後確率が大きいほどポーズ長は短く，小さいほどポーズ長は長くなる．ただし，最小のポーズ長は 1.5 秒とした．また，当該ターンの累積単語数が 50 未満の場合は，ポーズ長を長めの 4 秒に固定して，志願者の回答を確実に聞くようにした．

2.1 回答充足度に基づく掘り下げ質問

ベース質問に対する志願者の回答に対して，その充足度を判定し，掘り下げ質問を生成する．そのために，回答のチェックリストを設計し，その充足度判定のモデルを面接対話コーパスを用いて学習した． 2.1.1 チェックリストの設計充足度を判定するために，一般的な就職面接の解説などを参考にして，回答のチェックリストを設計した（表 1 ）．例えば，ベース質問「(B1) あなたの志望動機は何ですか」への回答に対しては，「(C1-1) なぜ当社でないといけないのか」，「(C1-2) 当社に貢献したいことは何か」，「(C1-3) 当社への適正や活かせる強みは何か」という３つの項目を設けた．これらの項目を用いて，ベース質問への回答が十分がどうかを判定する． 2.1.2 面接対話コーパスを用いたアノテーション収録した面接対話データを用いて，前節のチェック項目のアノテーションを行った．面接対話データは，人間のオペレータによって操作されたアンドロイド ERICA と，大学生が志願者役である模擬就職面接の 14 対話である．対話時間は，平均で約 9 分であった．オペレータには事前にベース質問の候補を伝え，志願者役の回答に応じて掘り下げ質問を行ってもらった．この対話データに加えて，就職面接に関する書籍から抽出した回答例も対象にして，表 1 の各チェック項目に関するアノテーションを行った．まず，1 名のアノテータが回答に対して，各チェック項目を満たせているか否かを二値で判断した．その後，もう 1 名のアノテータとその結果について確認し，両者で不一致がなくなるように議論した．アノテーションの例を以下に示す．例えば，ベース質問「(B1) あなたの志望動機は何ですか」に対する以下の回答は，「(C1-1) なぜ当社でなければならない理由」を満たしていると判定された．私は医療系の学部に属していまして，薬を扱う機会が結構多くて将来的には，ガンの新薬の研究のほうに携わりたいと思って

(3)

表 1: ベース質問およびチェックリストと面接対話コーパスにおけるアノテーション結果ベース質問チェック項目サンプル数 (正例/全体) (B1)あなたの志望動機は何ですか (C1-1)なぜ当社でなければならない理由 35 / 63 (C1-2)会社に貢献できること 20 / 63 (C1-3)会社に対する適正や活かせる強み 13 / 63 (B2)あなたの長所は何ですか (C2-1)会社のどこで活かせるか 8 / 31 (C2-2)経験や実績 15 / 31 (B3)学生時代に頑張ったことは何ですか (C3-1)経験や実績 19 / 29 (B4)あなたのもつスキルを教えてください (C4-1)会社のどこで活かせるか 19 / 29 (C4-2)経験や実績 23 / 29 いますので製薬に強い御社を希望いたしました下線は，対象のチェック項目に該当するとアノテータによって判断された箇所である．次に，ベース質問「(B4) あなたのもつスキルを教えてください」に対する以下の回答は，「(C4-1) 当社のどこで活かせるのか」を満たしていると判定された． ... 私は中国語の資格をたくさん持っておりまして... この中国語のスキルがあれば，もしクライアントさんが中国人の方であっても，私がいれば難なく相談をして良いプログラムを作り上げることができるかなと思います ... アノテーション結果の分布を表 1 の右側に示す．結果として，ほとんどのチェック項目に関して，40%から 60%の回答がそれを充足していることがわかる．この結果は，表 1 のチェック項目の妥当性を示しているといえる． 2.1.3 充足度判定モデルの学習アノテーションデータを用いて，充足判定の二値分類を行う識別器を学習した．モデルの学習は，チェック項目ごとに行った．入力特徴量は，志願者の回答文に含まれる単語の Bag-of-Words とした．正解ラベルは，上記のアノテーション結果をそのまま用いた．予測モ デルとしては，l1 正則化を伴う線形回帰モデルを用い た．ただし，重み係数は非負で制約している．５分割の交差検定による評価結果を表 2 に示す．その結果，F 値で 50%から 90%の精度となることが確認された．表 2: 各チェック項目に関する判定結果チェック項目正解率適合率再現率 F 値 (C1-1) 0.730 0.725 0.829 0.773 (C1-2) 0.524 0.372 0.842 0.513 (C1-3) 0.857 0.714 0.667 0.690 (C2-1) 0.903 0.857 0.750 0.800 (C2-2) 0.548 0.533 0.533 0.533 (C3-1) 0.724 0.824 0.737 0.778 (C4-1) 0.828 0.850 0.895 0.872 (C4-2) 0.724 0.826 0.826 0.826 2.1.4 掘り下げ質問文充足度判定結果の組合せに基づき掘り下げ質問文を選択する．表 3 にベース質問が「(B1) あなたの志望動機は何ですか」のときの掘り下げ質問文の候補を示す．質問文は，充足していない項目を尋ねるようになっているが，その直前に充足している項目の情報も含めている．また，チェック項目間で優先順位を設けている．例えば，表 3 では，チェック項目（C1-1）が優先順位が最も高い．したがって，（C1-1）と（C1-2）の両方が充足していないと判定された場合，（C1-1）について尋ねる掘り下げ質問が選択される．これらにより，志願者の回答を理解した上でシステムが適切な掘り下げ質問を生成しているように感じさせることできると期待される．一方で，充足判定を誤った場合には，志願者が既に述べたことを再度質問してしまうことになり，冗長な質問がなされたと感じてしまう恐れがある．したがって，より正確な充足判定が求められる．

2.2 キーワード抽出に基づく掘り下げ質問

前節で述べた掘り下げ質問への回答に対して，その回答からキーワードを抽出して新たな掘り下げ質問を生成する．キーワード抽出のモデルを学習するために，前－ 15 －

(4)

表 3: 志望動機のベース質問に対する充足判定結果に基づき生成される掘り下げ質問文の例（左側のチェックマークは当該チェック項目が充足していることを示す）チェック項目掘り下げ質問 (C1-1) (C1-2) (C1-3) ✓ 当社を選ばれた理由はわかりました．しかし，当社に入ってからどのような貢献をしたいといった希望は，何かありますか（（C1-2）を尋ねる） ✓ 入社後何をしたいのかはわかりました．しかし，他にも同じようなことができる会社はあると思うのですが，なぜその中でも当社を選ばれたのでしょうか．（（C1-1）を尋ねる） ✓ あなたが考える当社への適正や，強みはわかりました．しかし，他にも同じようなことができる会社はあると思うのですが，なぜその中でも当社を選ばれたのでしょうか（（C1-1）を尋ねる） ✓ ✓ 当社を選ばれた理由や，あなたが貢献できることはわかりました．ただ，あなた_{が考える当社で活かせる強みは何でしょうか（（C1-3）を尋ねる）} ✓ ✓ うんうん．当社を選ばれた理由や，当社で活かせる強みはわかりました．ただ，して，あなたが当社でやりたいことは何ですか（（C1-2）を尋ねる）節で用いた面接対話データを用いた．志願者役の各回答に対して，掘り下げ質問として尋ねるべきキーワードをアノテーションした．結果として，合計 367 個のキーワードを得た．このアノテーション結果を用いて，キーワード抽出のモデルを学習した．モデルは，ニューラルネットワークに基づくものであり，1 層の双方向 LSTM （BLSTM）と 3 層の全結合層で構成される．各層のユニット数は，BLSTM は 256，全結合層は 128 とした．入力特徴量は，ウェブテキストで学習された word2vec モデル1_{で算出される 200 次元の単語ベクトルである．} 加えて，品詞（12 次元）および日本語 Wikipedia から計算した inverse document frequency（idf，1 次元）も用いた．単語系列への分割および品詞情報の付与には， MeCab2および mecab-ipadic-NEologd3を用いた．出力は，入力の各単語がキーワードである事後確率の系列である．複数の単語がキーワードとして抽出された場合は，事後確率が最も高いものをキーワードとする．また，連続した複数の単語がキーワードとして抽出された場合は，複合名詞として一つのキーワードとみなす． 4 分割交差検定によりモデルを評価したところ，単語単位の適合率が 63.1%，再現率が 45.2%，F 値が 52.7% となった．具体例としては，志願者役の「アルバイトで個別指導していました」という発話に対し，「個別指導」がキーワードとして抽出された．抽出したキーワードを用いて，テンプレート方式で掘り下げ質問を生成する．例えば，キーワードが「対話ロボット」の場合は，「先ほどおっしゃった対話ロボットについて，詳しく教えてください」という質問文を 1_{https://github.com/hottolink/hottoSNS-w2v} 2_{http://taku910.github.io/mecab/} 3_{https://github.com/neologd/mecab-ipadic-neologd/} 生成する．ここで，質問文に用いるキーワードは，構成する品詞に関して，名詞のみで構成されるもの，または名詞＋助詞＋名詞のような内部にのみ助詞を含み，それ以外が名詞であるものに限る．また，音声認識の信頼度スコアが閾値以上のものに限る．キーワードが抽出されなかった場合は，掘り下げ質問を生成せずに，次のベース質問へ移る．

3 対話による評価実験

提案する掘り下げ質問の有効性を検証するために，面接対話実験を実施した．

3.1 実験条件

比較対象として，掘り下げ質問を行わず，ベース質問のみを行うシステムをベースラインシステムとした．ただし，提案システムと質問数が大きく変わらないように，ベースラインシステムのベース質問の数を８つにした．追加したベース質問は，例えば「この業界について知っていることを教えてください」などである．したがって，このベースラインシステムは，志願者の回答内容に依らず，固定された質問を行うだけのものとなるが，質問の内容が不適切および破綻することはほぼない．システムへの入力には，16 チャネルのマイクロフォンアレイを用いて，音源定位，音声区間検出，音声認識を行った [11]．音声認識のモデルは，Acoustic-to-Word 型の End-to-End モデル [12] を用いた．また，相槌生成のモデル [13] によって出力される相槌をうつタイミングを利用して，志願者の回答中に ERICA のうなずきを生成した．

(5)

図 2: 対話実験の様子被験者は大学生 22 名（女性 8 名，男性 14 名）であり，面接対話の志願者役として提案システムとベースラインシステムの両方と対話をしてもらった．また，対話をするシステムの順番は被験者ごとにランダムに決定した．対話の様子を図 2 に示す．実験の手順は以下の通りである．はじめに，実験に先立ち，志望する業種や企業を選択してもらい，いくつかの想定質問への回答を用意してもらった．次に，一方のシステムとの対話および評価を行ってもらった．評価項目は表 4 に示す 16 項目の 7 段階のリッカート尺度であり，面接自体に対する印象と掘り下げ質問の質に大別される．その後，もう一方のシステムと対話を行ってもらい，同様に評価してもらった．最後に，両システムを比較した上で，表 5 の 4 項目について，当てはまるほうのシステムを選択する形で評価をしてもらった．

3.2 結果と考察

各システムの個別の評価結果を表 4 に示す．提案シ ステムとベースラインとの間で，項目毎に t 検定を実 施したところ，多くの項目で有意差が確認された．「Q1 この面接の練習は，緊張した」や「Q5 この面接の練習は，本番に近い」，「Q8 面接官が人間である場合と同じくらいリアルである」に有意差がみられることから，掘り下げ質問を生成することで，より実際の面接に近い対話が実現できていることがわかる．その結果として，「Q4 この練習のおかげで，自分自身の弱点に気づくことができた」や「Q6 この面接の練習はよい練習になった」にも有意差がみられ，面接対話の練習の質が向上していることがわかる．掘り下げ質問の質に関しては，すべての項目で有意差がみられた．したがって，掘り下げ質問の生成において，破綻することなく，効果的な質問が生成できていることがわかる．提案システムとベースラインシステムを比較してもらった結果を表 5 に示す．いずれの項目においても，提案システムの方がより多くの被験者に選ばれていることがわかる．二項検定を実施した結果として，Q18 以外の項目で有意差が確認できた．

3.3 対話例

実験で観察された対話の一部を以下に示す．以下で は，U はユーザ，E は ERICA の発話をそれぞれ表す． E1 まずは志望動機を教えてください．（ベース質問） U1 私が御社を志望した理由は，商品開発を通して，世 の中の人々の健康や生活に貢献したいと考えているからです．また，私の研究などの経験が活かされると思い，志望致しました． E2 うんうん．当社を選ばれた理由や，あなたが貢献 できることはわかりました．ただ，あなたが考える当社で活かせる強みは何でしょうか（充足判定にもとづく掘り下げ質問） U2 私の強みはチャレンジ精神です．この強みは，例 えば，商品開発などで開発が行き詰まった時も，この強みを活かしてより良い商品づくりに還元できると考えています． E3 さきほどおっしゃったチャレンジ精神について，も う少し詳しく教えてください．（キーワード抽出に基づく掘り下げ質問） U3 はい．この強みは大学院での研究で培われました． 大学院では，...（以降省略） E4 わかりました．ありがとうございます．

4 おわりに

本稿では，アンドロイド ERICA を用いた就職面接について述べた．提案するシステムは，志願者の回答の充足度や回答中のキーワードに応じて，掘り下げ質問を生成するものである．提案システムの有効性を確認するために，22 名の大学生による被験者実験を実施した．事前に用意された質問を投げかけるのみのベースラインシステムとの比較において，緊張感やリアルさといった面接自体に対する印象，および質問の質に関する両方の評価項目において，提案システムは有意に高い評価を得た．したがって，掘り下げ質問の生成によって，人間どうしの面接に近づくことができたといえるが，人間どうしの場合と同じかどうかに関する項目（Q8 や Q15）の評定値自体には向上の余地がある．今後は，掘り下げ質問に関する客観的な評価を行うことで，提案システムの有効性をさらに検証していく．

謝辞

本研究は，JST ERATO 石黒共生ヒューマンロボットインタラクションプロジェクト JPMJER1401 の支援を受けて実施した．－ 17 －

(6)

表 4: 各システムの個別の評価の平均値（標準偏差）およびシステム間での t 検定の結果 項目提案ベースライン p 値 (面接自体に対する印象) Q1 この面接の練習は，緊張した 5.3 (1.39) 4.2 (1.82) 0.008 ** Q2 この面接の練習に，真面目に取り組んだ 6.4 (1.07) 6.3 (1.02) 0.352 Q3 この面接の練習は，退屈だった 2.3 (1.46) 3.5 (1.64) 0.011 * Q4 この練習のおかげで，自分自身の弱点に気づくことができた 5.0 (1.61) 3.7 (1.86) 0.000 ** Q5 この面接の練習は，本番に近い 4.6 (1.64) 3.2 (1.82) 0.000 ** Q6 この面接の練習はよい練習になった 5.6 (1.19) 4.7 (1.66) 0.005 ** Q7 この面接の練習のおかげで，就職面接に対する自信がついた 3.6 (1.61) 3.2 (1.56) 0.129 Q8 面接官が人間である場合と同じくらいリアルである 3.9 (1.59) 3.0 (1.49) 0.001 ** Q9 対話相手である面接官に注意深く聞かれている感じがした 5.0 (1.48) 3.1 (1.14) 0.000 ** (掘り下げ質問の質) Q10 面接官は，あなたが答えたことの要点を理解していた 4.6 (1.55) 3.0 (1.36) 0.001 ** Q11 質問は，あなたに合わせて考えられたものだと感じた 4.7 (1.35) 3.0 (1.52) 0.000 ** Q12 面接官の質問によって，あなた自身の直前の回答が不十分・不適切だったことに気づいた 5.0 (1.64) 3.0 (1.87) 0.000 ** Q13 面接官からの質問に対して答えるときに焦った 5.6 (1.67) 4.2 (1.82) 0.000 ** Q14 面接官は，あなたの弱点を見抜いている気がした 4.3 (1.71) 2.6 (1.15) 0.005 ** Q15 面接官の質問は，裏で人間がその場で作っていたと思う 3.7 (1.91) 2.7 (1.51) 0.005 ** (* p < .05, ** p < .01) 表 5: 比較評価において各システムが各項目により当てはまると選択された回数および二項検定の結果項目提案ベースライン p 値 Q16 どちらのシステムの方がよい練習になったか 19 3 0.001 ** Q17 どちらのシステムの方があなたの答えを理解していたと思うか 20 2 0.000 ** Q18 どちらのシステムの方が適切な質問をしていたと思うか 14 8 0.286 Q19 また使うならどちらのシステムの方がよいか 17 5 0.017 * (* p < .05, ** p < .01)

参考文献

[1] Koji Inoue, Pierrick Milhorat, Divesh Lala, Tianyu Zhao, and Tatsuya Kawahara. Talking with ERICA, an au-tonomous android. In SIGDIAL, pp. 212–215, 2016. [2] Tatsuya Kawahara. Spoken dialogue system for a

human-like conversational robot ERICA. In IWSDS, 2018. [3] Mohammed E. Hoque, Matthieu Courgeon, Jean-Claude

Martin, Bilge Mutlu, and Rosalind W. Picard. MACH: My automated conversation coach. In UBICOMP, pp. 697–706, 2013.

[4] Mohammad R. Ali, Dev Crasta, Li Jin, Agustin Baretto, Joshua Pachter, Ronald D. Rogge, and Mohammed E. Hoque. LISSA-Live interactive social skill assistance. In

ACII, pp. 173–179, 2015.

[5] Markus Langer, Cornelius J K¨onig, Patrick Gebhard, and Elisabeth Andr´e. Dear computer, teach me manners: Test-ing virtual employment interview trainTest-ing. International

Journal of Selection and Assessment, Vol. 24, No. 4, pp.

312–323, 2016.

[6] Pooja Rao S. B, Sowmya Rasipuram, Rahul Das, and Di-nesh B. Jayagopi. Automatic assessment of communica-tion skill in non-convencommunica-tional interview settings: A com-parative study. In ICMI, pp. 221–229, 2017.

[7] Ming-Hsiang Su, Chung-Hsien Wu, Kun-Yi Huang, Qian-Bei Hong, and Huai-Hung Huang. Follow-up question gen-eration using pattern-based seq2seq with a small corpus for

interview coaching. In INTERSPEECH, pp. 1006–1010, 2018.

[8] Koji Inoue, Kohei Hara, Divesh Lala, Shizuka Nakamura, Katsuya Takanashi, and Tatsuya Kawahara. A job inter-view dialogue system with autonomous android ERICA. In IWSDS, 2019.

[9] Ming-Hsiang Su, Chung-Hsien Wu, and Yi Chang. Follow-up question generation using neural tensor network-based domain ontology population in an interview coaching sys-tem. In INTERSPEECH, pp. 4185–4189, 2019.

[10] Divesh Lala, Koji Inoue, and Tatsuya Kawahara. Eval-uation of real-time deep learning turn-taking models for multiple dialogue scenarios. In ICMI, pp. 78–86, 2018. [11] Carlos T. Ishi, Chaoran Liu, Jani Even, and Norihiro

Hagita. Hearing support system using environment sensor network. In IROS, pp. 1275–1280, 2016.

[12] Sei Ueno, Hirofumi Inaguma, Masato Mimura, and Tat-suya Kawahara. Acoustic-to-word attention-based model complemented with character-level CTC-based model. In

ICASSP, pp. 5804–5808, 2018.

[13] Divesh Lala, Pierrick Milhorat, Koji Inoue, Masanari Ishida, Katsuya Takanashi, and Tatsuya Kawahara. At-tentive listening system with backchanneling, response generation and flexible turn-taking. In SIGDIAL, pp. 127– 136, 2017.

アンドロイドERICAによる面接対話における掘り下げ質問生成