5.6 被験者対話実験による評価
5.6.2 評価実験
デュアルコスト法,試行型デュアルコスト法の効果を実証するために評価実験 を行った.2つの方法の効果の実証するために,一括確認法,個別確認法,無確認
法と比較した.デュアルコスト法,一括確認法,個別確認法は,確定型の対話戦 略のみを考慮する方法であり,試行型デュアルコスト法と無確認法は,試行型の 対話戦略を考慮する方法である.また,一括確認法と個別確認法は,音声認識精 度,データベース内容にかかわらず,すべての属性を確認する方法である.
実験では,15名の被験者の各々に対して,あらかじめ決められた20個の問い合 わせが与えられ,合計300対話が実施された.各問い合わせについて,システム が用いる対話制御法はあらかじめ決められている.ユーザはシステムがどの対話 制御法で動作しているのかは知らない.システムは被験者に与えられた問い合わ せが何かは知らない.問い合わせごとに適用される対話制御法は,4 つの問い合 わせタイプの各々に対して5つの対話制御法が公平に分配されるように選ばれた.
5.6.3 結果と考察
評価実験の結果を図 5.14と表 5.2に示す.図5.14と表 5.2は同一の結果を示し ている.各問い合わせタイプごとに,試行型デュアルコスト法(TDC),デュアル コスト法(DC),一括確認法(LS),個別確認法(P),無確認法(NC)で動作させた システムと被験者が対話したときの対話の長さの平均(被験者に必要な情報が伝達 されるまでにやり取りされた自立語の数の平均)が示されている.対話の長さの平 均値の差が統計的に有意であるかどうかを確かめるために,ノンパラメトリック な分散分析(ANOVA)の一つであるKruskal-Wallis 法と,ノンパラメトリックな 多重比較法の一つであるDunn法を用いた(p <0.01).ノンパラメトリックな方法 を用いたのは,対話の長さが正規分布に従うことを仮定できないためである.
まず,確定型の対話戦略のみを考慮する対話制御法として,デュアルコスト法,
一括確認法,個別確認法の3つの方法を比較した.警報,天気の問い合わせの場 合,分散分析の結果,対話の長さの平均に有意な差があり,多重比較の結果,デュ アルコスト法は他の2つの方法に比較して,対話の長さの平均が有意に小さいこ とが分かった.気温と降水確率の問い合わせに関しては,対話の長さの平均に有 意な差は認められなかった.
この結果について考察する.まず,警報問い合わせの場合,デュアルコスト法 は,どこにも警報が発表されていないというデータベース内容を利用して,不必
6&%
6&%
6&%
6&%
&%
&%
&%
&%
.5 .5 .5
.5
2
2
2
2 0%
0%
0%
0%
ኻ ߩ㐳 ߐߩ ᐔဋ
⼊ႎ ᄤ᳇ ᳇᷷ 㒠᳓⏕₸
6&% &%
৻⏕ᴺ
⹜ⴕဳ࠺ࡘࠕ࡞ࠦࠬ࠻ᴺ ࠺ࡘࠕ࡞ࠦࠬ࠻ᴺ
.5 2 ⏕ᴺ
ή⏕ᴺ 0%
図5.14: 被験者対話実験における各対話制御法による対話の長さの平均
要な確認を避けることができる.したがって,デュアルコスト法は,他の2つの 方法よりも短い対話で必要な情報をユーザに伝達することができた.天気問い合 わせの場合,デュアルコスト法は,日属性の値について確認を避け,今日と明日の 天気を同時に伝達することを選ぶので,他の2つの方法よりも短い対話で必要な 情報を伝達することができた.しかし,気温や降水確率の問い合わせの場合,天 気の問い合わせに比較して,システム応答に含まれる自立語の数が多いため,デュ アルコスト法であっても,日属性の確認を省くことはできない.したがって,気 温,降水確率の問い合わせの場合は,デュアルコスト法であっても他の2つの方 法よりも短い対話を実現することはできない.ここで重要なことは,そのような 場合においても,デュアルコスト法の性能は他の2つの方法よりも悪くなること はないということである.
次に,試行型の対話戦略を考慮する試行型デュアルコスト法,無確認法を含め
て,5つの方法すべてについて比較を行った.警報,天気の問い合わせの場合,分 散分析の結果,対話の長さの平均には有意な差があり,多重比較の結果,試行型 デュアルコスト法は他の4つの方法に比較して,対話の長さの平均が有意に小さ いことが分かった.気温の問い合わせの場合,分散分析の結果,対話の長さの平 均には有意な差があり,多重比較の結果,試行型デュアルコスト法は,無確認法 を除く他の3つの方法に比較して,対話の長さの平均が有意に小さいことが分かっ た.試行型デュアルコスト法と無確認法との間には,対話の長さの平均に有意な 差はなかった.降水確率の問い合わせの場合,分散分析の結果,5つの方法の間に 対話の長さの平均に有意な差は認められなかった.
この結果について考察する.降水確率の問い合わせの場合,システムは6時間 ごとの降水確率を伝達しようとするので,システム応答が非常に長くなる.その ため,試行型の応答が失敗したときのリスクが高くなるので,試行型デュアルコ スト法は試行型の応答を選ぶことが少ない.したがって,降水確率の問い合わせ の場合は,試行型デュアルコスト法であっても他の方法より短い対話でユーザに 必要な情報を伝達できるわけではない.警報,天気,気温の問い合わせの場合は,
試行型デュアルコスト法は試行型の応答を選択することによって短い対話を実現 している.
表 5.2: 被験者対話実験における各対話制御法による対話の長さの平均 提案法 従来法
問い合わせタイプ TDC DC LS P NC 警報 6.0 7.9 13.3 16.9 16.7 天気 7.4 11.7 14.6 14.8 14.2 気温 13.1 16.0 16.3 18.3 16.5 降水確率 22.2 24.2 24.4 25.9 32.7
TDC: 試行型デュアルコスト法 DC: デュアルコスト法 LS: 一括確認法 P: 個別確認法
NC: 無確認法
以上をまとめると,確定型の対話戦略だけを考慮するとき,デュアルコスト法 は,データベース依存な対話を実施できる場合には従来法よりも短い対話でユー ザに情報を伝達することが可能であり,そうでない場合であっても,従来法より 対話の効率が低下することはない.試行型の対話戦略も考慮するとき,試行型デュ アルコスト法は,試行型の応答のリスクが確認を省くことによる利得に見合う場 合には,他の方法よりも短い対話で必要な情報を伝達することができ,そうでな い場合であっても,他の方法に比べて対話の効率が低下することはない.
5.7 おわりに
本章では,音声認識精度とシステムのデータベースの内容に基づいて,できる だけ短い対話でユーザが必要とする情報を伝達することを可能とする対話制御法 として,デュアルコスト法,試行型デュアルコストを提案した.デュアルコスト 法は,ユーザの承認発話により承認済みとなった問い合わせ内容のみが正しいと して応答を生成する方法であり,試行型デュアルコスト法は,デュアルコスト法 を発展させ,承認済みでない問い合わせ内容も正しいと仮定した上で応答を生成 する方法である.両提案法は,対話の長さを確認コストと情報伝達コストの和と して推定し,コストの和を最小にするように対話の各時点におけるシステムの対 話行為を選択することにより,効率的な対話を実現する.対話制御部は,対話の 各時点において,システム理解状態を随時更新する発話理解部と,予測されるシ ステム応答の長さを計算する発話生成部と連動しながら,コストの和が最小とな るような対話を導くシステムの対話行為を選択する.結果として,従来法では回 避できなかった不必要な確認を回避し,効率的な対話を実現することが可能とな る.シミュレーション対話実験と被験者実験により,提案法が従来法よりも短い 対話でユーザに必要な情報を伝達できることを示した.
• デュアルコスト法,試行型デュアルコスト法ともに,データベース内容に依 存して,従来法が避けることはできない不必要な確認を回避することがで きる.
• シミュレーション対話実験と被験者実験の結果により,デュアルコスト法は,
音声認識精度によらず,確定型の対話戦略のみを考慮する一括確認法,個別 確認法といった従来法よりも短い対話で必要な情報をユーザに伝達すること ができることが示された.
• シミュレーション対話実験と被験者実験の結果により,試行型デュアルコス ト法は,音声認識精度によらず,デュアルコスト法,無確認法,一括確認法,
個別確認法よりも短い対話で必要な情報を伝達できることが示された.
今後の課題としては以下のことがある.
• 本章では,確認対話における音声対話システムの対話行為として,確認行 為と情報要求行為を取り上げた.しかし,確認対話中のシステムの対話行為 としては,ユーザ発話内容の曖昧さの解消や,システムの語彙の範囲などを ユーザに教示するいった行為も考えることができる.そういった本章では扱 わなかったシステムの対話行為も考慮に入れた上で,対話の長さを最小化す るための対話制御法を開発することは今後の課題である.
• 本章では,できるだけ短い対話でユーザが必要とする情報を伝達するという 対話の効率性を向上させるための対話制御法に焦点をあてた.しかし,5.1 節で述べたように,音声対話システムの有用性は,対話の効率だけではなく,
ユーザ満足度も考慮する必要がある.今後の課題としては,本章で議論した 対話の長さを最小化するという尺度だけでなく,ユーザ満足度を最大化する という尺度も組み合わせて,対話制御を行う方法を開発していくことが考え られる.