繰り返し発話検出による応答義務推定の性能の向上
Repetition Detection for Response Obligation Estimation
山上 諒太
1船越 孝太郎
2∗菅野 重樹
1YAMAGAMI Ryota
1FUNAKOSHI Kotaro
2SUGANO Shigeki
1 1早稲田大学
Waseda University
2京都大学
Kyoto University
Abstract: The technology that estimates whether or not the speech dialogue system should react to input sound with input and user state is called response obligation. However, the currently proposed response obligation method cannot deal with estimation error. The users tend to repeat speech when system ignored their speech. So, we propose the response obligation which deals with this estimation error by the feature of speech repetition to use this tendency. In addition, we also propose the learning method for the repetition features more efficiently with the acknowledgement of designer about internal structure of feature vector. We evaluated with simulation that increases the number of speech repetition, based on the existing corpus. As the result, the efficiency of the model using the speech repetition features was greater than that using only prior features. Furthermore, the model made by learning method integrating the acknowledgement of designer was also greater than that made by normal learning method.
1
はじめに
マルチモーダルなヒューマン・マシン・インタラク ションを改善する技術の 1 つとして,応答義務推定 [10] がある.応答義務推定は,入力音やユーザの状態など マルチモーダルな情報を特徴量ベクトルとして表現し, 入力音に対しシステムが応答すべきかどうかを統計的 機械学習(ランダムフォレスト [1])により推定するも のである.杉山らの提案手法は,領域依存性を最小化 するために,発話の言語的内容を見ず非言語情報(話 し方)に基づいて推定を行う [10].そのため,同じタ スクに対する人間の推定能力を上限としたときに,機 械的推定の性能は一般論としてそれを下回ることにな り,エラーリカバリーの重要性が大きくなる.本研究 では特に,応答しなければならない発話を無視してし まう偽陰性エラーを対象として,システムによる推定 誤りの低減に取り組む. ユーザはシステムが発話を誤認識したと考えた際, 同様の発話を繰り返す傾向がある [2].システムが応答 義務推定に失敗し,ユーザの発話に反応しない場合も, ユーザは同様に発話を繰り返すことが予想される.し かしユーザは,多少声を大きくしたりはしても,前回 と同様の「話し方」で発話することが多く,システム による単純な応答義務推定は再度失敗する確率が高く なる.ここで,ユーザの発話内容が以前の発話内容の 繰り返しであることを利用できれば,偽陰性エラー後 の繰り返し発話に対する「2 回目の応答義務推定の失 敗」を避けることができると考えられる.そこで,本 ∗連絡先:E-mail: [email protected] 研究は繰り返し発話検出と応答義務推定を統合するこ とで,応答義務推定自体の性能を向上させることを目 標とする. 繰り返し発話検出に関してこれまで議論されてこな かった問題点として,繰り返し発話の元となる発話が どこにあるか自明ではないという点がある.言い直し・ 繰り返し発話の検出に関する既存研究は,1 対 1 かつ 比較的単純な課題指向音声対話における音声誤認識を 対象として扱ってきたため,暗黙的に,連続する 2 発 話間に繰り返しの関係があるかどうかを判断するだけ の問題として繰り返し発話検出を捉えていた.しかし, 杉山らが対象とした複数人のユーザとシステムが同時 に対話するという,より現実的・一般的な 1 対多の場 面では,事態はもっと複雑であり,先行する発話とそ の繰り返しの関係をもつ発話の間には,様々なノイズ だけではなく,別の話者とのやりとりなどが挿入され うる.そのため,システムは直前の発話だけを対象に 繰り返し発話検出を行うことはできない.実際に対話 コーパス [3] の一部を抽出して集計を行ったところ,繰 り返し発話数全 415 発話中 81 発話で,繰り返し発話と 元の発話の間に他のユーザの発話が含まれていた. この問題に対処するためには,ある発話が繰り返し 発話ではないかどうかを検討する際に,先行する複数 (H 個とする)の発話との間で確認を行わなければなら ない.既存の応答義務推定に繰り返し発話検出を統合 する際の最も単純なアプローチの1つは,繰り返し発 話検出に関する情報を応答義務推定に用いる特徴ベク トルの中に組み込むというものであるが,この際に組 み込む情報セットが H 個存在することになる. 人工知能学会研究会資料 SIG-SLUD-B803-09本研究ではまず,この繰り返し発話の発生を捉える ためのこの H 個の情報を,既存の応答義務推定の特徴 ベクトルに組み込む方式について検討する.結論を先 に述べると,応答義務推定の特徴量ベクトルに繰り返 し発話に関する情報を組み込む際には,検出結果では なく,検出に利用する特徴をそのまま組み込むほうが 良いことが示される. ところで,これは例えば H 個の情報のそれぞれが m 次元のベクトルであった場合に,特徴量ベクトルの次 元を Hm 次元増加させることになるが,多変量データ を扱う一般の統計的機械学習手法においてこの Hm 次 元は一律に並列・独立な存在として扱われる.杉山ら が用いたランダムフォレストでは学習の課程で,説明変 数をランダムサンプリングして決定木を構築する.こ れは例えば 1 つ前の発話との繰り返し関係の認識に利 用される特徴と,7 つ前の発話との繰り返し関係の認識 に利用される特徴との組み合わせが検討される可能性 があることを意味するが,繰り返し発話の性質と応答 義務推定の本質から考えて,これらの異なる時刻にお ける特徴間の関係を考慮する論理的妥当性は低い.こ れはむしろ偽の関係性を見つけ過学習を引き起こす可 能性を高める危険性のほうが大きい可能性があり,そ れよりも,同じ時刻における特徴間の関係を積極的に 検討するほうが高い識別性能と汎化性能とを維持でき ると期待できる.そこで,特徴量ベクトルの構造に関 して設計者が持つ知識を活用することで,上記の問題 に対処する手法を提案する. 本研究が特に注目する改善の対象は「応答義務推定 の失敗後の 2 回目の失敗(共に偽陰性)」であるが,こ れに該当するデータは稀とまではいわずとも,統計的 機械学習における学習・評価実験を行うには十分な量 があるとは言えない.そこで,既存のマルチモーダル 対話コーパス [3] を基に,本研究の対象に該当する事例 を,人工的に構成(シミュレーション)して用いる. 本稿の構成は次のとおりである.2 節で関連研究に ついて述べ,3 節で上記のシミュレーションによるデー タセットの構築について説明する.4 節で繰り返し発話 検出を応答義務推定に統合する方式について検討する. 5 節で特徴空間設計者の知見を機械学習に導入する方 法を提案し評価結果を示す.最後に 6 節でまとめる.
2
関連研究
システムが音声認識に失敗したことを繰り返し発話 により検出し,再認識に役立てる研究が以前より行わ れている [2, 4–8].これらの研究では,音声信号から直 接得た特徴と,音声認識結果から得た特徴を利用して いる. 最も最近の川井らの研究 [6] では,従来の繰り返し発 Algorithm 1 ランダムフォレストにおける利得を求 める特徴の選択アルゴリズム Input: 使用されている全特徴の集合F ,選択数nsubOutput: F 中からnsub個選択した特徴の集合Fsub
return F 中からnsub個一様乱数でランダムに選択 話検出手法 [2,7,8] の改良を検討している.川井らは繰 り返し発話の検出に用いる特徴として,2 音声の MFCC 系列間の連続 DP に基づく特徴,N-best 音声認識候補 集合間の単語重なり度,N-best 認識候補間の編集距離 に基づく特徴を用いている.MFCC 系列間の連続 DP に基づく特徴については,各発話を 12 次元の MFCC に変換した後 DP マッチングを行い,その最短経路に 基づいて算出する.DP マッチングの経路の移動方向 は縦・横・斜めの 3 方向がある.最短経路から求めら れる最小累積距離の他に,これら 3 方向の連続移動数 を用いた特徴量を算出している.川井らを含め,既存 の繰り返し発話研究が繰り返し発話の検出そのものを 目的としているのに対し,本研究は繰り返し発話の検 出を応答義務の推定に統合する点で大きく異なる. 本研究では応答義務推定モデルを構築するための機 械学習手法として杉山ら [10] と同様,ランダムフォレ スト [1] を用いる.予備実験において,ロジスティック 回帰やサポート・ベクトル・マシン,決定木等で推定 器を構成し性能を比較したところ,ランダムフォレス トを用いた場合の性能が最も高かった. ランダムフォレストは,弱学習器である決定木を学 習する際に,利得を求める特徴を一定の個数ランダム に選択する.本稿では,多次元特徴空間のある 1 つの 次元を特徴とよんで f で表し,その次元におけるある 値を特徴量とよぶ.多次元特徴空間を構成する全特徴 の集合を F としたとき,そこから nsub 個の特徴をラ ンダムに選択するアルゴリズムを Algorithm 1 に示す. これに対し Li ら [9] は,利得を求める特徴を完全な ランダムではなく,特徴の重要度であるフィッシャー 比を考慮して選択する改良型ランダムフォレストを提 案し,有効性を主張している.本稿では,利得を求め る特徴を,特徴空間設計者が持つ知見を考慮して選択 する手法を提案する.
3
対話コーパスを用いた繰り返し発
話のシミュレーション
本研究では,既存の対話コーパスを用いるシミュレー ションにより,学習・評価に用いるデータセットを構 築する.ここではまずシミュレーションの元になる既 存のコーパスを説明し,次にシミュレーション方法と データセットの構築手順について述べる.図 1: コーパス中の対話の様子
3.1
使用する対話コーパス
シミュレーション用の発話のデータとして,MPR2016 コーパス [3] 中の Wizard-of-Oz 法による 28 対話を使 用する1.この対話コーパスには,ロボットが出題者, 複数のユーザが解答者として「20 の扉」というクイズ ゲームを行っている様子が収録されている(図 1 参照). ロボットは Aldebaran 社製の NAO で,解答者から は見えない位置でオペレータが操作した.ユーザは最 大 3 人が対話に参加して解答を行うが,ユーザは実験監 督者からの指示で対話への参加や離脱を行うため,ロ ボットは 1 セッションおよそ 25 分の間,1 人から 3 人 のユーザと対話している. 対話の様子はロボットの背後に設置されたマイクお よび Microsoft 社の Kinect によって収録され,発話区 間,発話者,発話対象,発話内容がアノテーションされ ている.今回,2 名の作業者の合議により,ユーザの全 発話に対して新たに応答義務の有無をアノテーション した.本研究ではこのアノテーションを基に評価実験 を行う.ある 1 セッション分のデータに対して,この 2 名の作業者によるアノテーションと,著者の 1 人によ るアノテーションとの一致率を調べたところ,Cohen の κ で 0.85 であった.3.2
シミュレーション方法
前述の 28 対話は Wizard-of-Oz 法で収録されている ため,応答義務の推定もオペレータが行っており,推 定エラーがほぼ存在しない.したがって,推定エラー に対する反応に相当する繰り返し発話の個数は少ない (オペレータの反応が遅れたことでなされる繰り返しは 散見される).MPR2016 コーパスには全自動対話シス テムとの対話も収録されていてこちらには繰り返し発 話がより多く見られるが,それでも絶対量は十分では ないこと,使用した対話システムの完成度が高くない ため混乱した場面も多く,システムの特異性に強く依 存した結果になる恐れがあるため,本研究の学習・評 価データとして用いるには不適当と判断した.そこで, 130 対話中 2 対話は Kinect データが破損しているため除外. Wizard-of-Oz 法による対話中の全てのユーザの発話を 用いて,繰り返し発話を多数含むシミュレーション対 話を生成することでデータ量を増やすことにした.具 体的には,発話の書き起しの類似度(編集距離)を基 に繰り返し発話とその元となる発話の擬似的な組を多 数作成し,それらの組とその他の発話とを無作為に並 べることで繰り返し発話を多数含む擬似対話データを 構成した.2 つの発話について,書き起こされた発話 内容の音素列間の編集距離を正規化した値が 0.3 以下 であるときに繰り返しの関係にあるとした.0.3 という 閾値は,コーパス中に多く見られた「ヒントください」 と「ヒントをください」という一部発話内容が異なる 繰り返し発話が繰り返し発話として扱われるように設 定した. まず,繰り返し発話の集合族 S ={R | R は繰り返し 発話の集合} を作成する.これは,コーパスに収録さ れている実対話中の発話を逐次,それ以前の同じ話者 の発話の中で最小かつ前述の閾値以下の正規化編集距 離を持つものと同じクラスタにまとめていくことで行 う.閾値より大きな距離を持つ発話しか履歴にない場 合は,新たなクラスタとする.このようにすることで, 繰り返し発話の集合 R は,そこに含まれる全ての発話 の発話者が同じであり,各発話は少なくとも 1 つの別 の発話と繰り返しの関係にある発話の集合となる. 次に,S 中の繰り返し発話の各集合 R について,R 中の 2 要素のすべての組み合わせをとり,この取り出 した 2 つの発話を繰り返し発話関係にあるペアとする. そして,1 節で述べた状況を再現するために,繰り返 し発話の組の間に無関係発話を挿入する.無関係発話 とは,繰り返し発話の組とした 2 つの発話のどちらと も繰り返しの関係にない発話のことを指す.挿入する 無関係発話の数は,平均 1 回のポワソン分布を用いて ランダムに決定する.無関係発話挿入後(挿入なしも 含む)の繰り返し発話の組をチャンクとよぶ.表 1 に, 作成された挿入回数毎のチャンクの数を示す. 最後に,繰り返し発話のチャンクおよびチャンクの 作成に一度も使われていない発話を無作為に並び替え て,シミュレーションされた対話とみなす.学習・評 価時にはこのシミュレーション対話の並びを時系列と し,H 個前の発話までの繰り返し発話に関する特徴量 を算出する. 表 1: 無関係発話の挿入回数毎のチャンクの数 挿入回 0 1 2 3 4 5 6 7 計 チャンク 25377 25115 12695 4276 1080 234 35 7 68820表 2: シミュレーション対話の分割セットの平均値 応答義務 あり なし 計 学習 全発話 6966.0 26042.6 33008.6 データ (内 繰返し) 1774.2 6257.0 8301.2 評価 全発話 2462.6 8534.2 10996.8 データ (内 繰返し) 621.4 2127.8 2749.2
3.3
データセットの構成手順
評価は 5 分割交差検証で行う.まず対話単位で,3.2 節でのべた方法でシミュレーション対話データを作成 する.次に,作成したシミュレーション対話を対話単 位で 5 つに分割し,5 つの分割セットに分ける.表 2 に,分割セットの発話数の平均値をまとめる. 最後に,応答義務推定モデル用の学習データに重み をつけ,応答義務ありと応答義務なしのデータの合計 の重みが同じになるようにする.これは,応答義務あ りと応答義務なしの発話数に大きく偏りがあり,その ままでは応答義務推定モデルの学習が上手くいかない ためである.このとき,前述のシミュレーション手法 を考慮して重み付けの仕方を工夫する必要がある. シミュレーションでは繰り返し発話とみなせるすべ ての発話の組み合わせを取り出す.このため,シミュ レーション対話内には,元の対話データでは同一の発 話が時系列上の異なる箇所に重複して出現することに なる.これらの元が同じ発話については,繰り返し発 話に関する特徴以外の従来の応答義務推定の特徴量ベ クトルが同一になる.このため,特徴空間内のある領 域のデータポイントが偏った重みを持つことになって しまい,過学習を起こしてしまう.この偏りを無くす ため,元が同一の発話については,重複して使用した 回数 nxで除算して重みを軽くする.実際に,この調整 を行わずに重みを付けて学習すると,推定性能が顕著 に低下する(F 値で 0.7 未満). シミュレーションによって,学習データ中に同一の 発話 x が nx回使用されているとする.学習データ中 の応答義務ありである発話の種類数を Nyes,応答義務 なしである発話の種類数を Nno とすると,発話 x の学 習時の重み wxは式 1 に表される.重みの計算例を表 3 に示す.最下行の「あり」と「なし」それぞれのカテ ゴリ内の重みの総計が等しく 6 になっていると同時に, 重複して出現している a と a’ の重みは重複のない b と c に対して割り引かれている. wx= Nno nx (x が応答義務ありの場合) Nyes nx (x が応答義務なしの場合) (1) 表 3: 学習データの発話の重みの計算例 応答義務 あり なし 学習データ中の発話の一覧 a b c a’ d e (a と a’ は元が同一の発話) 発話の種類数 Nyes=3 Nno=2 同じ発話数 nx 2 1 1 2 1 1 学習時の重み wx 1 2 2 1 3 34
繰り返し発話を考慮した応答義務
推定
本研究が対象とするタスクでは,従来の応答義務推定 の特徴に加えて繰り返し発話検出に関する特徴を使用 することで推定性能が向上することが期待される.そ こでまず,繰り返し発話検出に関する特徴を用いるこ とで応答義務推定の性能が向上するか検証する.4.1
3 種類の統合方式
繰り返し発話検出に関する特徴を応答義務推定の特 徴量ベクトルと統合するにあたって,少なくとも 3 種 類の方式が考えられる.1 つ目は,H 個前までの発話 と現在の発話との繰り返し関係の検出に関するそれぞ れ m 個の特徴を,H 個分そのまま既存の特徴量ベクト ルに連結して使用する方式(Hm 次元の増加),2 つ目 は,繰り返し発話検出器を別に構築し,H 個前までの 発話との繰り返し検出の結果それぞれを応答義務推定 の特徴量ベクトルに加える方式(H 次元の増加)であ る.3 つ目は 2 つ目の亜種で,H 個前までの発話との 繰り返し検出結果を,論理和によって 1 次元に集約し て応答義務推定の特徴量ベクトルに加える方式(1 次 元の増加)である.以上の 3 方式を図 2 に示す. 方式 2 および方式 3 で用いる繰り返し発話検出器は, 繰り返し発話検出に関係する特徴群を入力とし,繰り 返し発話であれば 1,そうでなければ 0 として実数を 出力する繰り返し発話検出モデルとして作成する.繰 り返し発話検出器は H 個前までのすべての履歴に対し て共通のものを用いる.実際の繰り返し発話検出器の 出力は区間 [0, 1] 内の確信度に相当する実数値となるた め,方式 3 では,論理和に相当する演算として max 関 数を用いる.4.2
評価実験
4.2.1 使用する特徴 従来の応答義務推定の特徴に関しては,杉山らが用 いていた表 4 の特徴群から,「(g) ロボットの対話行為」 以外の特徴を使用する(計 49 次元).方式 1 方式 2 方式 3 図 2: 繰り返し発話検出と応答義務推定の統合の3方式 繰り返し発話については,コーパスにアノテーショ ンされた発話区間情報を元に抽出した音声とその書き 起こし文字列(ひらがな列)を用いて,11 次元の特徴 量を算出する.文字列情報による繰り返し発話検出の 特徴については,ひらがな列をローマ字に変換した音 素列間の編集距離を正規化したものを使用する2.音声 情報による繰り返し発話検出の特徴については,前述 の川井ら [6] で用いられていた,DP パスにおける最小 累積距離と縦・横・斜め方向の総連続移動数・最大連続 移動数・平均連続移動数,計 10 次元の特徴を用いる. 4.2.2 学習方法の設定 応答義務推定モデルおよび繰り返し発話検出モデル の両者を,ランダムフォレストで構築する.Weka3に 付属している実装を使用する.決定木の数は 100 本と し,枝の深さは制限しない. 2今回の実験では理想的な音声認識が行えたと仮定して,実際の 音声認識結果ではなく発話内容のアノテーションを比較対象とした. 複数の著名なクラウド型音声認識サービスで認識処理を行ってみた が,接話マイクでの音声認識に最適されているためか,満足な認識 結果は得られなかった. 3https://www.cs.waikato.ac.nz/ml/weka/ 表 4: 杉山らが使用した特徴群 ( [10] p.4 表 1 より転載) 繰り返し発話検出モデル用の学習・評価データは,3.3 節で述べた工程で作成した応答義務推定モデル用の 5 つの分割セット毎に,以下のように構成する.まず,繰 り返し発話のチャンクから,無関係発話が 1 つ以上挟ま れているものを全て取り出す.次に,取り出したそれ ぞれのチャンクから,繰り返し発話である発話の組と 繰り返し発話でない発話の組を 1 つずつ作成する.こ のときチャンクの先頭と末尾の発話を取り出して,繰 り返し発話である発話の組(正例)とする.また,チャ ンクの末尾とその直前の発話を取り出して,繰り返し 発話でない発話の組(負例)とする.各分割セットの 学習データから生成された組は学習用に,評価データ から生成された組は評価用に用いる.これで,正・負 同量にバランスされた繰り返し発話検出モデル用学習・ 評価データが得られる. 4.2.3 評価結果 モデルの推定結果を応答義務ありと応答義務なしの F 値の単純平均として測った.F 値は,適合率と再現 率の調和平均をとったものである.また,有意差があ るかどうかを調べるために,マクネマー検定で p 値を 求めた. 図 2 の 3 方式の性能を,各モデルの評価結果と従来 の応答義務推定の特徴のみを用いた場合との p 値と共 に表 5 に示す.繰り返し発話検出の対象とする履歴の 数 H は,1 から 7 まで変化させた.紙面の都合により, 表には H = 1/4/7 の場合だけ載せる. その結果,いずれの履歴数においても,方式 1 の性 能が最も高いことが確認された.また,方式 1 の場合 のみ,従来の応答義務推定の特徴のみを使用する場合 よりも F 値の単純平均が有意に高くなることが確認さ れた.方式 2,3 では,従来の応答義務推定の場合と同 等か,若干性能が悪化してしまっている.
表 5: 繰り返し発話検出の特徴を用いた各モデルの評価結果 モデル 履歴 適合率応答義務あり再現率 応答義務なし F 値の p 値 F 値 適合率 再現率 F 値 単純平均 従来の応答義務推定特徴のみ使用 - 0.847 0.528 0.650 0.884 0.974 0.927 0.788 -1 0.819 0.554 0.661 0.888 0.967 0.926 0.793 n.s. 方式 1: 検出特徴をそのまま使用 4 0.815 0.599 0.69 0.898 0.963 0.930 0.810 ∗∗ 7 0.815 0.600 0.691 0.899 0.963 0.930 0.811 ∗∗ 1 0.844 0.524 0.647 0.883 0.974 0.926 0.786 n.s. 方式 2: 検出結果をそのまま使用 4 0.829 0.518 0.638 0.881 0.971 0.924 0.781 ∗∗ 7 0.829 0.529 0.646 0.883 0.970 0.925 0.785 ∗∗ 1 0.844 0.524 0.647 0.883 0.974 0.926 0.786 n.s. 方式 3: 検出結果の論理和を使用 4 0.834 0.529 0.648 0.884 0.971 0.925 0.786 ∗∗ 7 0.827 0.537 0.651 0.885 0.970 0.925 0.788 ∗ ∗ : p < 0.05, ∗∗ : p < 0.01, n.s.: 非有意 表 6: 繰り返し発話検出モデルの評価結果 繰り返し発話である 繰り返し発話でない F 値 適合率 再現率 F 値 適合率 再現率 F 値 平均 0.756 0.930 0.834 0.910 0.700 0.791 0.813 4.2.2 節で述べた繰り返し発話検出モデル用の評価 データで,繰り返し発話検出モデル自身の評価を行っ た.出力が 0.5 より大きければ繰り返し発話である,0.5 以下であれば繰り返し発話でないと判定したとして,応 答義務推定時と同様に F 値の単純平均を求めた.結果 を表 6 に示す. 方式 2 および方式 3 の性能が従来手法とほぼ同等に しかならなかった原因として,前段の繰り返し検出モ デルの性能が十分でない可能性が考えらえる.表 6 よ り繰り返し発話検出モデル自体の性能はそれほど悪く ないように見えるが,応答義務推定タスクそのものの 推定性能と変わらないのでは,その結果を用いても後 段の推定性能を引き上げる要因にはならないのかもし れない.一方で方式 1 では,繰り返し発話の検出結果 ではなく繰り返し発話検出に用いる特徴を直接与える ことで,応答義務推定モデルが,最終的な性能を向上 させるより有効な特徴の利用法を発見できたのかもし れない.いずれにしても,システム構築の容易さも考 慮すると,方式 1 がもっとも優れると結論できる.
5
利得を求める特徴の選択確率を調
整するランダムフォレスト
4 節では,繰り返し発話を考慮することで応答義務 推定の性能を向上できること,またその際には繰り返 し検出器を別途構成するのではなく,応答義務推定に 繰り返し検出に関する特徴を直接用いる方式(方式 1) が良いことを確認した.本節では,方式 1 の上で,さ らに性能を向上させる手法を提案する.5.1
提案手法
通常のランダムフォレストでは,弱学習器としての 決定木を構築する際に利用する特徴の候補を一様分布 でランダムに選択する(Algorithm 1).一方で,前節で 確認した方式 1 で繰り返し発話の検出を考慮した応答 義務の推定を行う場合,数十の特徴群が追加で導入さ れる.そのため,特定の特徴間に推定に有効な関連性 があると人間側が直観を持っていても,関連性のある 特徴が候補集合にまとまって選択されないことで,学 習器にはその関連性を発見できない可能性がある. そこで本論文では,使用する特徴の候補を選択する 際に,一律ではなく直前の分割に使用した特徴に応じ て各特徴の選択確率を変化させる手法を提案する. まず,学習前に,関連性のある特徴の集合族 Ω ={A | A は関連性のある特徴の集合} を特徴空間の設計者が 与える.関連性のある特徴集合(以降,関連特徴集合) とは,各要素を分割基準とした決定木の枝が分類に有 効な意味を持つと想定される,要素数が 2 以上の排他 的集合を指す.すなわち,A = {f | f は関連性のある 特徴} かつ |A| ≥ 2 である.また,A1, A2 ∈ Ω のと き,A1∩ A2= ϕ である.本研究の観点では,ある 2 つ の発話間の繰り返し発話検出に関する一群の特徴集合 (4.2.1 節で述べた 11 次元の特徴量)がこれに該当する. 以下 Ω のことを関連特徴集合族と呼ぶことにする. 次に,ランダムフォレストが学習の課程におけるデー タ分割に使用する特徴の候補を選択するとき,Ω 中の 全集合を見る.もし,Ω 中に直前の分割に使用した特 徴 fb を要素とする集合がある場合,その集合中の fb 以外の特徴に重み w を与える.例えば,全特徴集合 F ={a, b, c, d, e} に対し,Ω の要素集合 A = {a, b, c} が与えられていたとする.このとき,直前の分割に a が使用されていた場合,b と c に重みを与える. そして重みに比例した確率で利得を求める特徴を選 択する.重みがつく特徴数を nwとすると,F 中の任意 の特徴 f の選択確率 P (f; fb, Ω, F ) は式 2 で与えられる.Algorithm 2 重みに比例した確率で利得を求める特
徴を選択するアルゴリズム
Input: 使用されている全特徴の集合F ,選択数nsub,関連 特徴集合族Ω,重みw
Output: F 中からnsub個選択した特徴の集合Fsub 各特徴の重みの配列[要素数|F |]=全て1 fb=直前に分割した特徴 if Ω中の集合Aの要素にfbがあるthen for f=各F の各要素do if fの特徴はAの要素and fb̸= f then 各特徴の重みの配列[f] = w end if end for end if
return Fsub=F から特徴の重みを考慮してnsub個ラ
ンダムに選択 P (f; fb, Ω, F ) = w |F | − nw+ wnw ({fb, f} ⊂ A ∈ Ω ∧ fb̸= f) 1 |F | − nw+ wnw (otherwise) (2) 式 2 で与えられる重みに基づいて,利得を求める特 徴を選択するアルゴリズムを Algorithm 2 に示す. 前述の通り,この手法は直前に分割基準とした特徴 量がある関連特徴集合 A に登録されていた場合,集合 A 中のほかの要素が選択される確率を増加させる.す なわち,集合 A 中の複数要素を連続する分割基準とし て持つ決定木が生成されやすくなる.そのため,関連 特徴間の相互作用が分類に有効な意味を持つと想定さ れる集合がある場合,それを関連特徴集合族に含める ことで性能が向上する可能性がある.逆に,集合中の ある要素と,集合の要素以外の特徴を連続した分割基 準とする木は生成されにくくなる.
5.2
評価実験
通常のランダムフォレスト,2 節で取り上げたフィッ シャー比を用いる改良型ランダムフォレスト [9],およ び提案学習手法ある利得を求める特徴の選択確率を調 整するランダムフォレストについて,性能評価を行い 比較した.後者 2 つは,Weka のランダムフォレスト実 装における特徴の候補を求める部分のコードを変更し て実装した.全般的な実験設定は,4.2 節の実験に同じ である. 改良型ランダムフォレストの学習パラメータである フィッシャー比の分割数 g は,原論文にならい 5 とし た.また,従来の応答義務推定の特徴である入力音の 識別結果は名義尺度であるが,フィッシャー比を求め るためには平均および分散を求める必要がある.そこ で「音声」を 1,「非音声」を−1 と数値化し,フィッ シャー比を算出した. 提案学習手法に与える関連特徴集合族には,繰り返し 発話検出に関する特徴の集合と,顔の向きと声の大きさ に関する特徴の集合の 2 種類の集合を要素として加え た.繰り返し発話検出に関する特徴については,図 2 の 「H 個前の発話と比較」に相当する特徴(yH 1 ,· · · , yHN) を 1 つの関連特徴集合とする.この集合を履歴の数(図 2 中の H)分作成して,関連特徴集合族に加えた.顔 の向きと声の大きさに関する特徴については,ユーザ の顔がロボットの方向に向いていて,大きな声量で発 話をしていればロボットに対して応答義務のある発話 をしている可能性が高いと考え,顔の向き(図 4 中 (a) の「顔の向きのオイラー角各成分の平均」)と声の大き さ(図 4 中 (b) の「loudness」の「入力音区間中の平 均」)を 1 つの関連特徴集合にして,関連特徴集合族に 加えた. 提案学習手法の学習パラメータである重み w につい ては,2, 5, 10, 20, 30, 50, 100, 200 の 8 パターンで変化 させて評価実験を実施した結果,w = 100 の際に F 値 の単純平均が最も高くなった.また履歴数 H につい ては,H = 4 の時に最もよい結果を得られた.以下, w = 100, H = 4 での結果を元に議論する. 表 7 は,全発話を対象とした評価結果で,表 8 は,シ ミュレーションで作成した繰り返し発話のみ評価対象 とした場合の結果である.いずれの表からも,Li らの 改良型ランダムフォレストが本研究のタスクには有効 ではなかったこと,それに対して提案手法が,著しく はないものの期待された性能の向上を示していること が確認できる.提案手法の最終的な F 値単純平均値は 0.823 であり,出発点である 0.788(表 5)から全体と しておよそ 3.5 パーセンテージポイントの向上を得ら れた. 表 8 から,提案学習手法で繰り返し発話の特徴の関 連性を機械学習時に適用することで,繰り返し発話に おける応答義務の推定性能が特に向上したことがわか る(表 6 の 0.813 からのおよそ 5 ポイントの向上).こ れにより表 7 の繰り返し発話を含む全発話の推定性能 も向上したと考えられる. 最後に,関連特徴集合族を変更した場合の影響を表 9 に示す.ここから,やはり繰り返し発話検出に関す る特徴集合が大きく推定性能の向上に貢献しているこ とがわかる.また,顔の向きと声の大きさに関する特 徴の集合は単体では推定性能の向上に貢献できていな いが,繰り返し発話検出の特徴の集合と組み合わせる ことで推定性能の向上に寄与したことがわかる.表 7: 各学習方法の全発話を対象とした評価結果 学習法 履歴 適合率応答義務あり再現率 応答義務なし F 値の p 値 F 値 適合率 再現率 F 値 単純平均 通常のランダムフォレスト 4 0.815 0.599 0.690 0.898 0.963 0.930 0.810 -改良型ランダムフォレスト 4 0.814 0.593 0.686 0.897 0.963 0.929 0.807 n.s. 提案学習手法 4 0.838 0.617 0.711 0.903 0.968 0.934 0.823 ∗∗ 表 8: 各学習方法の繰り返し発話のみを対象とした評価結果 学習法 履歴 適合率応答義務あり再現率 応答義務なし F 値の p 値 F 値 適合率 再現率 F 値 単純平均 通常のランダムフォレスト 4 0.846 0.653 0.737 0.905 0.965 0.934 0.836 -改良型ランダムフォレスト 4 0.849 0.649 0.736 0.904 0.966 0.934 0.835 n.s. 提案学習手法 4 0.891 0.697 0.782 0.917 0.975 0.945 0.864 ∗∗ 表 9: 重みをつける関連特徴集合を変更した場合の評価結果 重みをつける関連特徴集合 適合率応答義務あり再現率 応答義務なし F 値の p 値 F 値 適合率 再現率 F 値 単純平均 なし(表 5「方式 1 履歴数 4」に同じ) 0.815 0.599 0.690 0.898 0.963 0.930 0.810 -繰り返し発話検出の特徴の集合のみ 0.846 0.599 0.701 0.899 0.970 0.933 0.817 ∗∗ 顔の向きと声の大きさに関する特徴の集合のみ 0.808 0.599 0.688 0.898 0.961 0.929 0.808 n.s. 上記集合全て (表 7「提案学習手法」に同じ) 0.838 0.617 0.711 0.903 0.968 0.934 0.823 ∗∗ ∗∗ : p < 0.01, n.s.: 非有意
6
おわりに
本論文は,ユーザが発話を無視された際に同様の発 話を繰り返す傾向があることを利用して応答義務推定 の性能を向上させる手法を提案し,評価実験によりそ の有効性を確認した.具体的には,繰り返し発話検出 に関する特徴量を組み込む方式と,ランダムフォレス トで利得を求める特徴を選択する際に関連性のある特 徴の集合に基づき選択確率を調整することで人間の知 見を機械学習に反映させる学習手法とを提案した.後 者について,今回の提案の範囲では関連性のある特徴 の集合を指定することしかできていないが,特徴ベク トル内には他にも様々な構造がある.今後は,このよ うな構造に関する多様な知見を機械学習アルゴリズム に組み込むためのより一般的な枠組みに発展させられ る可能性があると考える. 本稿での評価は,ロボットと多人数のユーザが対話 している既存のコーパスをベースに,シミュレーショ ンによって繰り返し発話数を増やしたデータで行った ため,実際のデータとは乖離がある可能性があること には注意しなければならない.今後は,実際のデータ・ 場面で,提案手法の有効性を確認していきたい. 繰り返し発話を考慮するモデルと考慮しないモデル を並列に動かすことで「1 回目の応答義務推定の失敗」 の存在を検出すれば,自動的に学習データを増やし,オ ンラインでユーザ適応を行うことができるはずである. また,1 回目の偽陰性エラーを検出した際に,自身がエ ラーを犯したことに対してなんらかのフィードバック を行う(例えば「ごめんなさい」と謝るなど)ことで, ユーザのシステムに対する信頼感や親和感を高めるこ ともできるかもしれない.今後はこれらの研究にも取 り組みたい.謝辞
本研究は(株)ホンダ・リサーチ・インスティチュート・ジャパ ンからの共同研究資金で行われた.参考文献
[1] L. Breiman. Random forests. Machine Learning, 45(1):5– 32, 2001.
[2] M. Cevik, F. Weng, and C.-H. Lee. Detection of repeti-tions in spontaneous speech in dialogue sessions. In Proc. INTRESPEECH, pp. 471–474, 2008.
[3] K. Funakoshi. A multimodal multiparty human-robot di-alogue corpus for real world interaction. In LREC 2018 Special Speech Sessions, pp. 35–39, 2018.
[4] Z. Geoffrey. New methods for the analysis of repeated ut-terances. In Proc. INTERSPEECH, pp. 2791–2794, 2009. [5] 井ノ上直己, 今井裕志, 橋本和夫, 米山正秀. 誤認識訂正のた めの繰返し音声検出手法. 電子情報通信学会論文誌告, J48-D-II(9):1950–1959, 2001. [6] 川井, 藤田, 谷川, 山下, 船越. 応答義務推定の補助としての繰 り返し発話検出手法の比較検討. 情報処理学会第 79 回全国大 会講演論文集, 2017(1):15–16, 2017. [7] 北岡, 角谷, 中川. 音声対話システムの誤認識に対するユー ザの繰返し訂正発話の検出と認識. 電子情報通信学会論文誌, J87-D-II(7):1441–1450, 2004.
[8] R. Levitan and D. Elson. Detecting retries of voice search queries. In Proc. ACL, pp. 230–235, 2014.
[9] X. Li, Z. Wang, L. Wang, R. Hu, and Q. Zhu. A multi-dimensional context-aware recommendation ap-proach based on improved random forest algorithm. IEEE Access, 6:45071–45085, 2018.
[10] 杉山, 船越, 中野, 駒谷. 多人数対話におけるユーザの状態 に着目したロボットの応答義務の推定. 人工知能学会論文誌, 31(3-C):1–9, 2016.