繰り返し発話検出による応答義務推定の性能の向上

(1)

繰り返し発話検出による応答義務推定の性能の向上

Repetition Detection for Response Obligation Estimation

山上諒太

1

_{船越孝太郎}

2∗

_{菅野重樹}

1

YAMAGAMI Ryota

1

_{FUNAKOSHI Kotaro}

2

_{SUGANO Shigeki}

1 1

_{早稲田大学}

_{Waseda University}

2

_京都大学

_{Kyoto University}

Abstract: The technology that estimates whether or not the speech dialogue system should react to input sound with input and user state is called response obligation. However, the currently proposed response obligation method cannot deal with estimation error. The users tend to repeat speech when system ignored their speech. So, we propose the response obligation which deals with this estimation error by the feature of speech repetition to use this tendency. In addition, we also propose the learning method for the repetition features more eﬃciently with the acknowledgement of designer about internal structure of feature vector. We evaluated with simulation that increases the number of speech repetition, based on the existing corpus. As the result, the eﬃciency of the model using the speech repetition features was greater than that using only prior features. Furthermore, the model made by learning method integrating the acknowledgement of designer was also greater than that made by normal learning method.

1 はじめに

マルチモーダルなヒューマン・マシン・インタラクションを改善する技術の 1 つとして，応答義務推定 [10] がある．応答義務推定は，入力音やユーザの状態などマルチモーダルな情報を特徴量ベクトルとして表現し，入力音に対しシステムが応答すべきかどうかを統計的機械学習（ランダムフォレスト [1]）により推定するものである．杉山らの提案手法は，領域依存性を最小化するために，発話の言語的内容を見ず非言語情報（話し方）に基づいて推定を行う [10]．そのため，同じタスクに対する人間の推定能力を上限としたときに，機械的推定の性能は一般論としてそれを下回ることになり，エラーリカバリーの重要性が大きくなる．本研究では特に，応答しなければならない発話を無視してしまう偽陰性エラーを対象として，システムによる推定誤りの低減に取り組む．ユーザはシステムが発話を誤認識したと考えた際，同様の発話を繰り返す傾向がある [2]．システムが応答義務推定に失敗し，ユーザの発話に反応しない場合も，ユーザは同様に発話を繰り返すことが予想される．しかしユーザは，多少声を大きくしたりはしても，前回と同様の「話し方」で発話することが多く，システムによる単純な応答義務推定は再度失敗する確率が高くなる．ここで，ユーザの発話内容が以前の発話内容の繰り返しであることを利用できれば，偽陰性エラー後の繰り返し発話に対する「2 回目の応答義務推定の失敗」を避けることができると考えられる．そこで，本 ∗連絡先：E-mail: [email protected] 研究は繰り返し発話検出と応答義務推定を統合することで，応答義務推定自体の性能を向上させることを目標とする．繰り返し発話検出に関してこれまで議論されてこなかった問題点として，繰り返し発話の元となる発話がどこにあるか自明ではないという点がある．言い直し・繰り返し発話の検出に関する既存研究は，1 対 1 かつ比較的単純な課題指向音声対話における音声誤認識を対象として扱ってきたため，暗黙的に，連続する 2 発話間に繰り返しの関係があるかどうかを判断するだけの問題として繰り返し発話検出を捉えていた．しかし，杉山らが対象とした複数人のユーザとシステムが同時に対話するという，より現実的・一般的な 1 対多の場面では，事態はもっと複雑であり，先行する発話とその繰り返しの関係をもつ発話の間には，様々なノイズだけではなく，別の話者とのやりとりなどが挿入されうる．そのため，システムは直前の発話だけを対象に繰り返し発話検出を行うことはできない．実際に対話コーパス [3] の一部を抽出して集計を行ったところ，繰り返し発話数全 415 発話中 81 発話で，繰り返し発話と元の発話の間に他のユーザの発話が含まれていた．この問題に対処するためには，ある発話が繰り返し発話ではないかどうかを検討する際に，先行する複数 （H 個とする）の発話との間で確認を行わなければなら ない．既存の応答義務推定に繰り返し発話検出を統合する際の最も単純なアプローチの１つは，繰り返し発話検出に関する情報を応答義務推定に用いる特徴ベクトルの中に組み込むというものであるが，この際に組 み込む情報セットが H 個存在することになる． 人工知能学会研究会資料 SIG-SLUD-B803-09

(2)

本研究ではまず，この繰り返し発話の発生を捉える ためのこの H 個の情報を，既存の応答義務推定の特徴 ベクトルに組み込む方式について検討する．結論を先に述べると，応答義務推定の特徴量ベクトルに繰り返し発話に関する情報を組み込む際には，検出結果ではなく，検出に利用する特徴をそのまま組み込むほうが良いことが示される． ところで，これは例えば H 個の情報のそれぞれが m 次元のベクトルであった場合に，特徴量ベクトルの次 元を Hm 次元増加させることになるが，多変量データ を扱う一般の統計的機械学習手法においてこの Hm 次 元は一律に並列・独立な存在として扱われる．杉山らが用いたランダムフォレストでは学習の課程で，説明変数をランダムサンプリングして決定木を構築する．これは例えば 1 つ前の発話との繰り返し関係の認識に利用される特徴と，7 つ前の発話との繰り返し関係の認識に利用される特徴との組み合わせが検討される可能性があることを意味するが，繰り返し発話の性質と応答義務推定の本質から考えて，これらの異なる時刻における特徴間の関係を考慮する論理的妥当性は低い．これはむしろ偽の関係性を見つけ過学習を引き起こす可能性を高める危険性のほうが大きい可能性があり，それよりも，同じ時刻における特徴間の関係を積極的に検討するほうが高い識別性能と汎化性能とを維持できると期待できる．そこで，特徴量ベクトルの構造に関して設計者が持つ知識を活用することで，上記の問題に対処する手法を提案する．本研究が特に注目する改善の対象は「応答義務推定の失敗後の 2 回目の失敗（共に偽陰性）」であるが，これに該当するデータは稀とまではいわずとも，統計的機械学習における学習・評価実験を行うには十分な量があるとは言えない．そこで，既存のマルチモーダル対話コーパス [3] を基に，本研究の対象に該当する事例を，人工的に構成（シミュレーション）して用いる．本稿の構成は次のとおりである．2 節で関連研究について述べ，3 節で上記のシミュレーションによるデータセットの構築について説明する．4 節で繰り返し発話検出を応答義務推定に統合する方式について検討する． 5 節で特徴空間設計者の知見を機械学習に導入する方法を提案し評価結果を示す．最後に 6 節でまとめる．

2

3 対話コーパスを用いた繰り返し発

話のシミュレーション

本研究では，既存の対話コーパスを用いるシミュレーションにより，学習・評価に用いるデータセットを構築する．ここではまずシミュレーションの元になる既存のコーパスを説明し，次にシミュレーション方法とデータセットの構築手順について述べる．

(3)

図 1: コーパス中の対話の様子

3.1 使用する対話コーパス

シミュレーション用の発話のデータとして，MPR2016 コーパス [3] 中の Wizard-of-Oz 法による 28 対話を使用する1_{．この対話コーパスには，ロボットが出題者，} 複数のユーザが解答者として「20 の扉」というクイズゲームを行っている様子が収録されている（図 1 参照）．ロボットは Aldebaran 社製の NAO で，解答者からは見えない位置でオペレータが操作した．ユーザは最大 3 人が対話に参加して解答を行うが，ユーザは実験監督者からの指示で対話への参加や離脱を行うため，ロボットは 1 セッションおよそ 25 分の間，1 人から 3 人のユーザと対話している．対話の様子はロボットの背後に設置されたマイクおよび Microsoft 社の Kinect によって収録され，発話区間，発話者，発話対象，発話内容がアノテーションされている．今回，2 名の作業者の合議により，ユーザの全発話に対して新たに応答義務の有無をアノテーションした．本研究ではこのアノテーションを基に評価実験を行う．ある 1 セッション分のデータに対して，この 2 名の作業者によるアノテーションと，著者の 1 人によるアノテーションとの一致率を調べたところ，Cohen の κ で 0.85 であった．

3.2 シミュレーション方法

前述の 28 対話は Wizard-of-Oz 法で収録されているため，応答義務の推定もオペレータが行っており，推定エラーがほぼ存在しない．したがって，推定エラーに対する反応に相当する繰り返し発話の個数は少ない（オペレータの反応が遅れたことでなされる繰り返しは散見される）．MPR2016 コーパスには全自動対話システムとの対話も収録されていてこちらには繰り返し発話がより多く見られるが，それでも絶対量は十分ではないこと，使用した対話システムの完成度が高くないため混乱した場面も多く，システムの特異性に強く依存した結果になる恐れがあるため，本研究の学習・評価データとして用いるには不適当と判断した．そこで， 1_{30 対話中 2 対話は Kinect データが破損しているため除外．} Wizard-of-Oz 法による対話中の全てのユーザの発話を用いて，繰り返し発話を多数含むシミュレーション対話を生成することでデータ量を増やすことにした．具体的には，発話の書き起しの類似度（編集距離）を基に繰り返し発話とその元となる発話の擬似的な組を多数作成し，それらの組とその他の発話とを無作為に並べることで繰り返し発話を多数含む擬似対話データを構成した．2 つの発話について，書き起こされた発話内容の音素列間の編集距離を正規化した値が 0.3 以下であるときに繰り返しの関係にあるとした．0.3 という閾値は，コーパス中に多く見られた「ヒントください」と「ヒントをください」という一部発話内容が異なる繰り返し発話が繰り返し発話として扱われるように設定した． まず，繰り返し発話の集合族 S ={R | R は繰り返し 発話の集合_{} を作成する．これは，コーパスに収録さ} れている実対話中の発話を逐次，それ以前の同じ話者の発話の中で最小かつ前述の閾値以下の正規化編集距離を持つものと同じクラスタにまとめていくことで行う．閾値より大きな距離を持つ発話しか履歴にない場合は，新たなクラスタとする．このようにすることで， 繰り返し発話の集合 R は，そこに含まれる全ての発話 の発話者が同じであり，各発話は少なくとも 1 つの別の発話と繰り返しの関係にある発話の集合となる． 次に，S 中の繰り返し発話の各集合 R について，R 中の 2 要素のすべての組み合わせをとり，この取り出した 2 つの発話を繰り返し発話関係にあるペアとする．そして，1 節で述べた状況を再現するために，繰り返し発話の組の間に無関係発話を挿入する．無関係発話とは，繰り返し発話の組とした 2 つの発話のどちらとも繰り返しの関係にない発話のことを指す．挿入する無関係発話の数は，平均 1 回のポワソン分布を用いてランダムに決定する．無関係発話挿入後（挿入なしも含む）の繰り返し発話の組をチャンクとよぶ．表 1 に，作成された挿入回数毎のチャンクの数を示す．最後に，繰り返し発話のチャンクおよびチャンクの作成に一度も使われていない発話を無作為に並び替えて，シミュレーションされた対話とみなす．学習・評価時にはこのシミュレーション対話の並びを時系列と し，H 個前の発話までの繰り返し発話に関する特徴量 を算出する．表 1: 無関係発話の挿入回数毎のチャンクの数挿入回 0 1 2 3 4 5 6 7 計チャンク 25377 25115 12695 4276 1080 234 35 7 68820

(4)

表 2: シミュレーション対話の分割セットの平均値応答義務ありなし計学習全発話 6966.0 26042.6 33008.6 データ（内繰返し） 1774.2 6257.0 8301.2 評価全発話 2462.6 8534.2 10996.8 データ（内繰返し） 621.4 2127.8 2749.2

3.3 データセットの構成手順

評価は 5 分割交差検証で行う．まず対話単位で，3.2 節でのべた方法でシミュレーション対話データを作成する．次に，作成したシミュレーション対話を対話単位で 5 つに分割し，5 つの分割セットに分ける．表 2 に，分割セットの発話数の平均値をまとめる．最後に，応答義務推定モデル用の学習データに重みをつけ，応答義務ありと応答義務なしのデータの合計の重みが同じになるようにする．これは，応答義務ありと応答義務なしの発話数に大きく偏りがあり，そのままでは応答義務推定モデルの学習が上手くいかないためである．このとき，前述のシミュレーション手法を考慮して重み付けの仕方を工夫する必要がある．シミュレーションでは繰り返し発話とみなせるすべての発話の組み合わせを取り出す．このため，シミュレーション対話内には，元の対話データでは同一の発話が時系列上の異なる箇所に重複して出現することになる．これらの元が同じ発話については，繰り返し発話に関する特徴以外の従来の応答義務推定の特徴量ベクトルが同一になる．このため，特徴空間内のある領域のデータポイントが偏った重みを持つことになってしまい，過学習を起こしてしまう．この偏りを無くすため，元が同一の発話については，重複して使用した 回数 nxで除算して重みを軽くする．実際に，この調整を行わずに重みを付けて学習すると，推定性能が顕著に低下する（F 値で 0.7 未満）．シミュレーションによって，学習データ中に同一の 発話 x が nx回使用されているとする．学習データ中 の応答義務ありである発話の種類数を Nyes，応答義務 なしである発話の種類数を Nno とすると，発話 x の学 習時の重み wxは式 1 に表される．重みの計算例を表 3 に示す．最下行の「あり」と「なし」それぞれのカテゴリ内の重みの総計が等しく 6 になっていると同時に，重複して出現している a と a’ の重みは重複のない b と c に対して割り引かれている． wx=          Nno nx (x が応答義務ありの場合) Nyes nx (x が応答義務なしの場合) (1) 表 3: 学習データの発話の重みの計算例応答義務ありなし学習データ中の発話の一覧 a b c a’ d e (a と a’ は元が同一の発話) 発話の種類数 Nyes=3 Nno=2 同じ発話数 nx 2 1 1 2 1 1 学習時の重み wx 1 2 2 1 3 3

4 繰り返し発話を考慮した応答義務

推定

本研究が対象とするタスクでは，従来の応答義務推定の特徴に加えて繰り返し発話検出に関する特徴を使用することで推定性能が向上することが期待される．そこでまず，繰り返し発話検出に関する特徴を用いることで応答義務推定の性能が向上するか検証する．

4.1 3 種類の統合方式

繰り返し発話検出に関する特徴を応答義務推定の特徴量ベクトルと統合するにあたって，少なくとも 3 種 類の方式が考えられる．1 つ目は，H 個前までの発話 と現在の発話との繰り返し関係の検出に関するそれぞ れ m 個の特徴を，H 個分そのまま既存の特徴量ベクト ルに連結して使用する方式（Hm 次元の増加），2 つ目 は，繰り返し発話検出器を別に構築し，H 個前までの 発話との繰り返し検出の結果それぞれを応答義務推定 の特徴量ベクトルに加える方式（H 次元の増加）であ る．3 つ目は 2 つ目の亜種で，H 個前までの発話との 繰り返し検出結果を，論理和によって 1 次元に集約して応答義務推定の特徴量ベクトルに加える方式（1 次元の増加）である．以上の 3 方式を図 2 に示す．方式 2 および方式 3 で用いる繰り返し発話検出器は，繰り返し発話検出に関係する特徴群を入力とし，繰り返し発話であれば 1，そうでなければ 0 として実数を出力する繰り返し発話検出モデルとして作成する．繰 り返し発話検出器は H 個前までのすべての履歴に対し て共通のものを用いる．実際の繰り返し発話検出器の 出力は区間 [0, 1] 内の確信度に相当する実数値となるた め，方式 3 では，論理和に相当する演算として max 関数を用いる．

4.2 評価実験

4.2.1 使用する特徴従来の応答義務推定の特徴に関しては，杉山らが用いていた表 4 の特徴群から，「(g) ロボットの対話行為」以外の特徴を使用する（計 49 次元）．

(5)

方式 1 方式 2 方式 3 図 2: 繰り返し発話検出と応答義務推定の統合の３方式繰り返し発話については，コーパスにアノテーションされた発話区間情報を元に抽出した音声とその書き起こし文字列（ひらがな列）を用いて，11 次元の特徴量を算出する．文字列情報による繰り返し発話検出の特徴については，ひらがな列をローマ字に変換した音素列間の編集距離を正規化したものを使用する2_．音声情報による繰り返し発話検出の特徴については，前述の川井ら [6] で用いられていた，DP パスにおける最小累積距離と縦・横・斜め方向の総連続移動数・最大連続移動数・平均連続移動数，計 10 次元の特徴を用いる． 4.2.2 学習方法の設定応答義務推定モデルおよび繰り返し発話検出モデルの両者を，ランダムフォレストで構築する．Weka3_に付属している実装を使用する．決定木の数は 100 本とし，枝の深さは制限しない． 2_{今回の実験では理想的な音声認識が行えたと仮定して，実際の} 音声認識結果ではなく発話内容のアノテーションを比較対象とした．複数の著名なクラウド型音声認識サービスで認識処理を行ってみたが，接話マイクでの音声認識に最適されているためか，満足な認識結果は得られなかった． 3_{https://www.cs.waikato.ac.nz/ml/weka/} 表 4: 杉山らが使用した特徴群 ( [10] p.4 表 1 より転載) 繰り返し発話検出モデル用の学習・評価データは，3.3 節で述べた工程で作成した応答義務推定モデル用の 5 つの分割セット毎に，以下のように構成する．まず，繰り返し発話のチャンクから，無関係発話が 1 つ以上挟まれているものを全て取り出す．次に，取り出したそれぞれのチャンクから，繰り返し発話である発話の組と繰り返し発話でない発話の組を 1 つずつ作成する．このときチャンクの先頭と末尾の発話を取り出して，繰り返し発話である発話の組（正例）とする．また，チャンクの末尾とその直前の発話を取り出して，繰り返し発話でない発話の組（負例）とする．各分割セットの学習データから生成された組は学習用に，評価データから生成された組は評価用に用いる．これで，正・負同量にバランスされた繰り返し発話検出モデル用学習・評価データが得られる． 4.2.3 評価結果モデルの推定結果を応答義務ありと応答義務なしの F 値の単純平均として測った．F 値は，適合率と再現率の調和平均をとったものである．また，有意差があ るかどうかを調べるために，マクネマー検定で p 値を 求めた．図 2 の 3 方式の性能を，各モデルの評価結果と従来 の応答義務推定の特徴のみを用いた場合との p 値と共 に表 5 に示す．繰り返し発話検出の対象とする履歴の 数 H は，1 から 7 まで変化させた．紙面の都合により， 表には H = 1/4/7 の場合だけ載せる． その結果，いずれの履歴数においても，方式 1 の性能が最も高いことが確認された．また，方式 1 の場合のみ，従来の応答義務推定の特徴のみを使用する場合よりも F 値の単純平均が有意に高くなることが確認された．方式 2，3 では，従来の応答義務推定の場合と同等か，若干性能が悪化してしまっている．

(6)

表 5: 繰り返し発話検出の特徴を用いた各モデルの評価結果モデル履歴 _適合率応答義務あり_再現率応答義務なし F 値の p 値 F 値適合率再現率 F 値単純平均従来の応答義務推定特徴のみ使用 - 0.847 0.528 0.650 0.884 0.974 0.927 0.788 -1 0.819 0.554 0.661 0.888 0.967 0.926 0.793 n.s. 方式 1: 検出特徴をそのまま使用 4 0.815 0.599 0.69 0.898 0.963 0.930 0.810 ∗∗ 7 0.815 0.600 0.691 0.899 0.963 0.930 0.811 ∗∗ 1 0.844 0.524 0.647 0.883 0.974 0.926 0.786 n.s. 方式 2: 検出結果をそのまま使用 4 0.829 0.518 0.638 0.881 0.971 0.924 0.781 ∗∗ 7 0.829 0.529 0.646 0.883 0.970 0.925 0.785 ∗∗ 1 0.844 0.524 0.647 0.883 0.974 0.926 0.786 n.s. 方式 3: 検出結果の論理和を使用 4 0.834 0.529 0.648 0.884 0.971 0.925 0.786 ∗∗ 7 0.827 0.537 0.651 0.885 0.970 0.925 0.788 ∗ ∗ : p < 0.05, ∗∗ : p < 0.01, n.s.: 非有意 表 6: 繰り返し発話検出モデルの評価結果繰り返し発話である繰り返し発話でない F 値適合率再現率 F 値適合率再現率 F 値平均 0.756 0.930 0.834 0.910 0.700 0.791 0.813 4.2.2 節で述べた繰り返し発話検出モデル用の評価データで，繰り返し発話検出モデル自身の評価を行った．出力が 0.5 より大きければ繰り返し発話である，0.5 以下であれば繰り返し発話でないと判定したとして，応答義務推定時と同様に F 値の単純平均を求めた．結果を表 6 に示す．方式 2 および方式 3 の性能が従来手法とほぼ同等にしかならなかった原因として，前段の繰り返し検出モデルの性能が十分でない可能性が考えらえる．表 6 より繰り返し発話検出モデル自体の性能はそれほど悪くないように見えるが，応答義務推定タスクそのものの推定性能と変わらないのでは，その結果を用いても後段の推定性能を引き上げる要因にはならないのかもしれない．一方で方式 1 では，繰り返し発話の検出結果ではなく繰り返し発話検出に用いる特徴を直接与えることで，応答義務推定モデルが，最終的な性能を向上させるより有効な特徴の利用法を発見できたのかもしれない．いずれにしても，システム構築の容易さも考慮すると，方式 1 がもっとも優れると結論できる．

5 利得を求める特徴の選択確率を調

整するランダムフォレスト

4 節では，繰り返し発話を考慮することで応答義務推定の性能を向上できること，またその際には繰り返し検出器を別途構成するのではなく，応答義務推定に繰り返し検出に関する特徴を直接用いる方式（方式 1）が良いことを確認した．本節では，方式 1 の上で，さらに性能を向上させる手法を提案する．

5.1 提案手法

通常のランダムフォレストでは，弱学習器としての決定木を構築する際に利用する特徴の候補を一様分布でランダムに選択する（Algorithm 1）．一方で，前節で確認した方式 1 で繰り返し発話の検出を考慮した応答義務の推定を行う場合，数十の特徴群が追加で導入される．そのため，特定の特徴間に推定に有効な関連性があると人間側が直観を持っていても，関連性のある特徴が候補集合にまとまって選択されないことで，学習器にはその関連性を発見できない可能性がある．そこで本論文では，使用する特徴の候補を選択する際に，一律ではなく直前の分割に使用した特徴に応じて各特徴の選択確率を変化させる手法を提案する．まず，学習前に，関連性のある特徴の集合族 Ω ={A | A は関連性のある特徴の集合} を特徴空間の設計者が 与える．関連性のある特徴集合（以降，関連特徴集合）とは，各要素を分割基準とした決定木の枝が分類に有効な意味を持つと想定される，要素数が 2 以上の排他 的集合を指す．すなわち，A = {f | f は関連性のある 特徴_{} かつ |A| ≥ 2 である．また，A}1, A2 ∈ Ω のと き，A1∩ A2= ϕ である．本研究の観点では，ある 2 つの発話間の繰り返し発話検出に関する一群の特徴集合（4.2.1 節で述べた 11 次元の特徴量）がこれに該当する．以下 Ω のことを関連特徴集合族と呼ぶことにする．次に，ランダムフォレストが学習の課程におけるデータ分割に使用する特徴の候補を選択するとき，Ω 中の全集合を見る．もし，Ω 中に直前の分割に使用した特徴 fb を要素とする集合がある場合，その集合中の fb 以外の特徴に重み w を与える．例えば，全特徴集合 F ={a, b, c, d, e} に対し，Ω の要素集合 A = {a, b, c} が与えられていたとする．このとき，直前の分割に a が使用されていた場合，b と c に重みを与える．そして重みに比例した確率で利得を求める特徴を選 択する．重みがつく特徴数を nwとすると，F 中の任意 の特徴 f の選択確率 P (f; fb, Ω, F ) は式 2 で与えられる．

(7)

Algorithm 2 重みに比例した確率で利得を求める特

徴を選択するアルゴリズム

Input: 使用されている全特徴の集合F ,選択数_nsub,関連特徴集合族Ω,重みw

Output: F 中から_nsub個選択した特徴の集合_Fsub 各特徴の重みの配列[要素数_{|F |]=}全て1 fb=直前に分割した特徴 if Ω中の集合Aの要素にfbがあるthen for f=各F の各要素do if fの特徴はAの要素and fb̸= f then 各特徴の重みの配列[f] = w end if end for end if

return Fsub=F から特徴の重みを考慮してnsub個ラ

ンダムに選択 P (f; fb, Ω, F ) =          w |F | − nw+ wnw ({fb, f} ⊂ A ∈ Ω ∧ fb̸= f) 1 |F | − nw+ wnw (otherwise) (2) 式 2 で与えられる重みに基づいて，利得を求める特徴を選択するアルゴリズムを Algorithm 2 に示す．前述の通り，この手法は直前に分割基準とした特徴 量がある関連特徴集合 A に登録されていた場合，集合 A 中のほかの要素が選択される確率を増加させる．す なわち，集合 A 中の複数要素を連続する分割基準とし て持つ決定木が生成されやすくなる．そのため，関連特徴間の相互作用が分類に有効な意味を持つと想定される集合がある場合，それを関連特徴集合族に含めることで性能が向上する可能性がある．逆に，集合中のある要素と，集合の要素以外の特徴を連続した分割基準とする木は生成されにくくなる．

5.2 評価実験

通常のランダムフォレスト，2 節で取り上げたフィッシャー比を用いる改良型ランダムフォレスト [9]，および提案学習手法ある利得を求める特徴の選択確率を調整するランダムフォレストについて，性能評価を行い比較した．後者 2 つは，Weka のランダムフォレスト実装における特徴の候補を求める部分のコードを変更して実装した．全般的な実験設定は，4.2 節の実験に同じである．改良型ランダムフォレストの学習パラメータである フィッシャー比の分割数 g は，原論文にならい 5 とし た．また，従来の応答義務推定の特徴である入力音の識別結果は名義尺度であるが，フィッシャー比を求めるためには平均および分散を求める必要がある．そこで「音声」を 1，「非音声」を−1 と数値化し，フィッ シャー比を算出した．提案学習手法に与える関連特徴集合族には，繰り返し発話検出に関する特徴の集合と，顔の向きと声の大きさに関する特徴の集合の 2 種類の集合を要素として加えた．繰り返し発話検出に関する特徴については，図 2 の 「H 個前の発話と比較」に相当する特徴（yH 1 ,· · · , yHN）を 1 つの関連特徴集合とする．この集合を履歴の数（図 2 中の H）分作成して，関連特徴集合族に加えた．顔 の向きと声の大きさに関する特徴については，ユーザの顔がロボットの方向に向いていて，大きな声量で発話をしていればロボットに対して応答義務のある発話をしている可能性が高いと考え，顔の向き（図 4 中 (a) の「顔の向きのオイラー角各成分の平均」）と声の大きさ（図 4 中 (b) の「loudness」の「入力音区間中の平均」）を 1 つの関連特徴集合にして，関連特徴集合族に加えた． 提案学習手法の学習パラメータである重み w につい ては，2, 5, 10, 20, 30, 50, 100, 200 の 8 パターンで変化 させて評価実験を実施した結果，w = 100 の際に F 値 の単純平均が最も高くなった．また履歴数 H につい ては，H = 4 の時に最もよい結果を得られた．以下， w = 100, H = 4 での結果を元に議論する． 表 7 は，全発話を対象とした評価結果で，表 8 は，シミュレーションで作成した繰り返し発話のみ評価対象とした場合の結果である．いずれの表からも，Li らの改良型ランダムフォレストが本研究のタスクには有効ではなかったこと，それに対して提案手法が，著しくはないものの期待された性能の向上を示していることが確認できる．提案手法の最終的な F 値単純平均値は 0.823 であり，出発点である 0.788（表 5）から全体としておよそ 3.5 パーセンテージポイントの向上を得られた．表 8 から，提案学習手法で繰り返し発話の特徴の関連性を機械学習時に適用することで，繰り返し発話における応答義務の推定性能が特に向上したことがわかる（表 6 の 0.813 からのおよそ 5 ポイントの向上）．これにより表 7 の繰り返し発話を含む全発話の推定性能も向上したと考えられる．最後に，関連特徴集合族を変更した場合の影響を表 9 に示す．ここから，やはり繰り返し発話検出に関する特徴集合が大きく推定性能の向上に貢献していることがわかる．また，顔の向きと声の大きさに関する特徴の集合は単体では推定性能の向上に貢献できていないが，繰り返し発話検出の特徴の集合と組み合わせることで推定性能の向上に寄与したことがわかる．

(8)

表 7: 各学習方法の全発話を対象とした評価結果学習法履歴 _適合率応答義務あり_再現率応答義務なし F 値の p 値 F 値適合率再現率 F 値単純平均通常のランダムフォレスト 4 0.815 0.599 0.690 0.898 0.963 0.930 0.810 -改良型ランダムフォレスト 4 0.814 0.593 0.686 0.897 0.963 0.929 0.807 n.s. 提案学習手法 4 0.838 0.617 0.711 0.903 0.968 0.934 0.823 ∗∗ 表 8: 各学習方法の繰り返し発話のみを対象とした評価結果学習法履歴 _適合率応答義務あり_再現率応答義務なし F 値の p 値 F 値適合率再現率 F 値単純平均通常のランダムフォレスト 4 0.846 0.653 0.737 0.905 0.965 0.934 0.836 -改良型ランダムフォレスト 4 0.849 0.649 0.736 0.904 0.966 0.934 0.835 n.s. 提案学習手法 4 0.891 0.697 0.782 0.917 0.975 0.945 0.864 ∗∗ 表 9: 重みをつける関連特徴集合を変更した場合の評価結果重みをつける関連特徴集合 _適合率応答義務あり_再現率応答義務なし F 値の p 値 F 値適合率再現率 F 値単純平均なし（表 5「方式 1 履歴数 4」に同じ） 0.815 0.599 0.690 0.898 0.963 0.930 0.810 -繰り返し発話検出の特徴の集合のみ 0.846 0.599 0.701 0.899 0.970 0.933 0.817 ∗∗ 顔の向きと声の大きさに関する特徴の集合のみ 0.808 0.599 0.688 0.898 0.961 0.929 0.808 n.s. 上記集合全て (表 7「提案学習手法」に同じ) 0.838 0.617 0.711 0.903 0.968 0.934 0.823 ∗∗ ∗∗ : p < 0.01, n.s.: 非有意

6 おわりに

本論文は，ユーザが発話を無視された際に同様の発話を繰り返す傾向があることを利用して応答義務推定の性能を向上させる手法を提案し，評価実験によりその有効性を確認した．具体的には，繰り返し発話検出に関する特徴量を組み込む方式と，ランダムフォレストで利得を求める特徴を選択する際に関連性のある特徴の集合に基づき選択確率を調整することで人間の知見を機械学習に反映させる学習手法とを提案した．後者について，今回の提案の範囲では関連性のある特徴の集合を指定することしかできていないが，特徴ベクトル内には他にも様々な構造がある．今後は，このような構造に関する多様な知見を機械学習アルゴリズムに組み込むためのより一般的な枠組みに発展させられる可能性があると考える．本稿での評価は，ロボットと多人数のユーザが対話している既存のコーパスをベースに，シミュレーションによって繰り返し発話数を増やしたデータで行ったため，実際のデータとは乖離がある可能性があることには注意しなければならない．今後は，実際のデータ・場面で，提案手法の有効性を確認していきたい．繰り返し発話を考慮するモデルと考慮しないモデルを並列に動かすことで「1 回目の応答義務推定の失敗」の存在を検出すれば，自動的に学習データを増やし，オンラインでユーザ適応を行うことができるはずである．また，1 回目の偽陰性エラーを検出した際に，自身がエラーを犯したことに対してなんらかのフィードバックを行う（例えば「ごめんなさい」と謝るなど）ことで，ユーザのシステムに対する信頼感や親和感を高めることもできるかもしれない．今後はこれらの研究にも取り組みたい．

謝辞

本研究は（株）ホンダ・リサーチ・インスティチュート・ジャパンからの共同研究資金で行われた．

参考文献

[1] L. Breiman. Random forests. Machine Learning, 45(1):5– 32, 2001.

[2] M. Cevik, F. Weng, and C.-H. Lee. Detection of repeti-tions in spontaneous speech in dialogue sessions. In Proc. INTRESPEECH, pp. 471–474, 2008.

[3] K. Funakoshi. A multimodal multiparty human-robot di-alogue corpus for real world interaction. In LREC 2018 Special Speech Sessions, pp. 35–39, 2018.

[4] Z. Geoﬀrey. New methods for the analysis of repeated ut-terances. In Proc. INTERSPEECH, pp. 2791–2794, 2009. [5] 井ノ上直己, 今井裕志, 橋本和夫, 米山正秀. 誤認識訂正のための繰返し音声検出手法. 電子情報通信学会論文誌告, J48-D-II(9):1950–1959, 2001. [6] 川井, 藤田, 谷川, 山下, 船越. 応答義務推定の補助としての繰り返し発話検出手法の比較検討. 情報処理学会第 79 回全国大会講演論文集, 2017(1):15–16, 2017. [7] 北岡, 角谷, 中川. 音声対話システムの誤認識に対するユーザの繰返し訂正発話の検出と認識. 電子情報通信学会論文誌, J87-D-II(7):1441–1450, 2004.

[8] R. Levitan and D. Elson. Detecting retries of voice search queries. In Proc. ACL, pp. 230–235, 2014.

[9] X. Li, Z. Wang, L. Wang, R. Hu, and Q. Zhu. A multi-dimensional context-aware recommendation ap-proach based on improved random forest algorithm. IEEE Access, 6:45071–45085, 2018.

[10] 杉山, 船越, 中野, 駒谷. 多人数対話におけるユーザの状態に着目したロボットの応答義務の推定. 人工知能学会論文誌, 31(3-C):1–9, 2016.

繰り返し発話検出による応答義務推定の性能の向上