評価実験

5.6 被験者対話実験による評価

5.6.2 評価実験

デュアルコスト法，試行型デュアルコスト法の効果を実証するために評価実験を行った．2つの方法の効果の実証するために，一括確認法，個別確認法，無確認

法と比較した．デュアルコスト法，一括確認法，個別確認法は，確定型の対話戦略のみを考慮する方法であり，試行型デュアルコスト法と無確認法は，試行型の対話戦略を考慮する方法である．また，一括確認法と個別確認法は，音声認識精度，データベース内容にかかわらず，すべての属性を確認する方法である．

実験では，15名の被験者の各々に対して，あらかじめ決められた20個の問い合わせが与えられ，合計300対話が実施された．各問い合わせについて，システムが用いる対話制御法はあらかじめ決められている．ユーザはシステムがどの対話制御法で動作しているのかは知らない．システムは被験者に与えられた問い合わせが何かは知らない．問い合わせごとに適用される対話制御法は，4 つの問い合わせタイプの各々に対して5つの対話制御法が公平に分配されるように選ばれた．

5.6.3 結果と考察

評価実験の結果を図 5.14と表 5.2に示す．図5.14と表 5.2は同一の結果を示している．各問い合わせタイプごとに，試行型デュアルコスト法(TDC)，デュアルコスト法(DC)，一括確認法(LS)，個別確認法(P)，無確認法(NC)で動作させたシステムと被験者が対話したときの対話の長さの平均(被験者に必要な情報が伝達されるまでにやり取りされた自立語の数の平均)が示されている．対話の長さの平均値の差が統計的に有意であるかどうかを確かめるために，ノンパラメトリックな分散分析(ANOVA)の一つであるKruskal-Wallis 法と，ノンパラメトリックな多重比較法の一つであるDunn法を用いた(p <0.01)．ノンパラメトリックな方法を用いたのは，対話の長さが正規分布に従うことを仮定できないためである．

まず，確定型の対話戦略のみを考慮する対話制御法として，デュアルコスト法，

一括確認法，個別確認法の3つの方法を比較した．警報，天気の問い合わせの場合，分散分析の結果，対話の長さの平均に有意な差があり，多重比較の結果，デュアルコスト法は他の2つの方法に比較して，対話の長さの平均が有意に小さいことが分かった．気温と降水確率の問い合わせに関しては，対話の長さの平均に有意な差は認められなかった．

この結果について考察する．まず，警報問い合わせの場合，デュアルコスト法は，どこにも警報が発表されていないというデータベース内容を利用して，不必

6&%

.5 .5 .5

2 0%

ኻ⹤ ߩ㐳 ߐߩ ᐔဋ

⼊ႎ ᄤ᳇ ᳇᷷ 㒠᳓⏕₸

6&% &%

৻᜝⏕⹺ᴺ

⹜ⴕဳ࠺ࡘࠕ࡞ࠦࠬ࠻ᴺ ࠺ࡘࠕ࡞ࠦࠬ࠻ᴺ

.5 2 ୘೎⏕⹺ᴺ

ή⏕⹺ᴺ 0%

図5.14: 被験者対話実験における各対話制御法による対話の長さの平均

要な確認を避けることができる．したがって，デュアルコスト法は，他の2つの方法よりも短い対話で必要な情報をユーザに伝達することができた．天気問い合わせの場合，デュアルコスト法は，日属性の値について確認を避け，今日と明日の天気を同時に伝達することを選ぶので，他の2つの方法よりも短い対話で必要な情報を伝達することができた．しかし，気温や降水確率の問い合わせの場合，天気の問い合わせに比較して，システム応答に含まれる自立語の数が多いため，デュアルコスト法であっても，日属性の確認を省くことはできない．したがって，気温，降水確率の問い合わせの場合は，デュアルコスト法であっても他の2つの方法よりも短い対話を実現することはできない．ここで重要なことは，そのような場合においても，デュアルコスト法の性能は他の2つの方法よりも悪くなることはないということである．

次に，試行型の対話戦略を考慮する試行型デュアルコスト法，無確認法を含め

て，5つの方法すべてについて比較を行った．警報，天気の問い合わせの場合，分散分析の結果，対話の長さの平均には有意な差があり，多重比較の結果，試行型デュアルコスト法は他の4つの方法に比較して，対話の長さの平均が有意に小さいことが分かった．気温の問い合わせの場合，分散分析の結果，対話の長さの平均には有意な差があり，多重比較の結果，試行型デュアルコスト法は，無確認法を除く他の3つの方法に比較して，対話の長さの平均が有意に小さいことが分かった．試行型デュアルコスト法と無確認法との間には，対話の長さの平均に有意な差はなかった．降水確率の問い合わせの場合，分散分析の結果，5つの方法の間に対話の長さの平均に有意な差は認められなかった．

この結果について考察する．降水確率の問い合わせの場合，システムは6時間ごとの降水確率を伝達しようとするので，システム応答が非常に長くなる．そのため，試行型の応答が失敗したときのリスクが高くなるので，試行型デュアルコスト法は試行型の応答を選ぶことが少ない．したがって，降水確率の問い合わせの場合は，試行型デュアルコスト法であっても他の方法より短い対話でユーザに必要な情報を伝達できるわけではない．警報，天気，気温の問い合わせの場合は，

試行型デュアルコスト法は試行型の応答を選択することによって短い対話を実現している．

表 5.2: 被験者対話実験における各対話制御法による対話の長さの平均提案法従来法

問い合わせタイプ TDC DC LS P NC 警報 6.0 7.9 13.3 16.9 16.7 天気 7.4 11.7 14.6 14.8 14.2 気温 13.1 16.0 16.3 18.3 16.5 降水確率 22.2 24.2 24.4 25.9 32.7

TDC: 試行型デュアルコスト法 DC: デュアルコスト法 LS: 一括確認法 P: 個別確認法

NC: 無確認法

以上をまとめると，確定型の対話戦略だけを考慮するとき，デュアルコスト法は，データベース依存な対話を実施できる場合には従来法よりも短い対話でユーザに情報を伝達することが可能であり，そうでない場合であっても，従来法より対話の効率が低下することはない．試行型の対話戦略も考慮するとき，試行型デュアルコスト法は，試行型の応答のリスクが確認を省くことによる利得に見合う場合には，他の方法よりも短い対話で必要な情報を伝達することができ，そうでない場合であっても，他の方法に比べて対話の効率が低下することはない．

5.7 ^おわりに

本章では，音声認識精度とシステムのデータベースの内容に基づいて，できるだけ短い対話でユーザが必要とする情報を伝達することを可能とする対話制御法として，デュアルコスト法，試行型デュアルコストを提案した．デュアルコスト法は，ユーザの承認発話により承認済みとなった問い合わせ内容のみが正しいとして応答を生成する方法であり，試行型デュアルコスト法は，デュアルコスト法を発展させ，承認済みでない問い合わせ内容も正しいと仮定した上で応答を生成する方法である．両提案法は，対話の長さを確認コストと情報伝達コストの和として推定し，コストの和を最小にするように対話の各時点におけるシステムの対話行為を選択することにより，効率的な対話を実現する．対話制御部は，対話の各時点において，システム理解状態を随時更新する発話理解部と，予測されるシステム応答の長さを計算する発話生成部と連動しながら，コストの和が最小となるような対話を導くシステムの対話行為を選択する．結果として，従来法では回避できなかった不必要な確認を回避し，効率的な対話を実現することが可能となる．シミュレーション対話実験と被験者実験により，提案法が従来法よりも短い対話でユーザに必要な情報を伝達できることを示した．

• デュアルコスト法，試行型デュアルコスト法ともに，データベース内容に依存して，従来法が避けることはできない不必要な確認を回避することができる．

• シミュレーション対話実験と被験者実験の結果により，デュアルコスト法は，

音声認識精度によらず，確定型の対話戦略のみを考慮する一括確認法，個別確認法といった従来法よりも短い対話で必要な情報をユーザに伝達することができることが示された．

• シミュレーション対話実験と被験者実験の結果により，試行型デュアルコスト法は，音声認識精度によらず，デュアルコスト法，無確認法，一括確認法，

個別確認法よりも短い対話で必要な情報を伝達できることが示された．

今後の課題としては以下のことがある．

• 本章では，確認対話における音声対話システムの対話行為として，確認行為と情報要求行為を取り上げた．しかし，確認対話中のシステムの対話行為としては，ユーザ発話内容の曖昧さの解消や，システムの語彙の範囲などをユーザに教示するいった行為も考えることができる．そういった本章では扱わなかったシステムの対話行為も考慮に入れた上で，対話の長さを最小化するための対話制御法を開発することは今後の課題である．

• 本章では，できるだけ短い対話でユーザが必要とする情報を伝達するという対話の効率性を向上させるための対話制御法に焦点をあてた．しかし，5.1 節で述べたように，音声対話システムの有用性は，対話の効率だけではなく，

ユーザ満足度も考慮する必要がある．今後の課題としては，本章で議論した対話の長さを最小化するという尺度だけでなく，ユーザ満足度を最大化するという尺度も組み合わせて，対話制御を行う方法を開発していくことが考えられる．

ドキュメント内音声対話システムの構成法に関する研究 (ページ 131-137)

5.6 被験者対話実験による評価

5.6.2 評価実験

5.6.3 結果と考察

5.7 おわりに

5.7 ^おわりに