音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析

全文

(1)Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析戸塚典子1,a). 伊藤彰則1,b). 概要：音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると，ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる．しかしこのような場合，ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある．我々は，そのような動作が発生した際に迅速に修正する手法として，ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し，これらをロボットの制御に応用することを提案する．本研究では，被験者実験によって実際にロボットを操作している音声を収集し，ロボットがユーザの意図通りに動作している時とそうでない時で発話速度，基本周波数 (F0)，インテンシティに変化が表れるかどうか分析を行った．. 1. はじめに. せぬ動作をし続けてしまい大変危険である．この現象を防ぎ，よりユーザの意図に沿った動作を実現. 音声認識技術の急速な発展により，昨今ではスマート. するためには，「現在の動作がユーザの意図したものかどう. フォンなど様々な機器に音声インタフェース機能が搭載. か」をロボットにいち早く認識させ，意図されていないも. され，それらが音声によって操作可能となった．今後も音. のであれば，動作を修正すべきであると考えられる．そこ. 声インタフェース機能は多くの分野に応用されていくで. で我々は，この「意図せぬ動作」の認識・修正に用いる特. あろう．その一例として，移動機構を持つロボットに搭載. 徴として，ユーザの音声に着目した．誤った認識や動作が. された場合，ユーザが音声でリアルタイムに指示を出し，. 起こった後に音声を用いてそれを修正する手法としては，. ロボットはそれに従って動作する，という状況が考えられ. 認識誤りの対策として認識結果に対する言い直し発話を検. る．ロボットに音声インタフェースを搭載するという傾向. 出することで誤りから復帰するというものも存在する [6]．. は 1990 年代の後半から 2000 年代初頭にかけて盛んとな. 本研究では，ロボットが意図せぬ動作をした際のユーザ. り [1],[2],[3], 現在ではユーザの音声による指示でリアルタ. の焦りや困惑などが音声にパラ言語的特徴 [7] として表れ. イムにロボットを動作させるという研究は各方面で行われ. ると予想し，それらの変化をロボットの制御に応用するこ. ている [4], [5]．しかしこれらの多くはロボットの実装面に. とを提案する．パラ言語とは，音声により表現・伝達され. 焦点が当てられており，そのようなロボットを実際に音声. る情報の一つで，声の高さや速さ，イントネーションなど. で操作した際に発生する問題点についてはあまり述べられ. の韻律的特徴を指す．人間の対話においては断定・疑問・. ていない．. 勧誘・反論など，様々な意図の伝達を担っているのがパラ. 音声を用いたロボット操作における問題点の 1 つとし. 言語である．パラ言語的特徴は主に感情音声認識 [8],[9] や. て考えられるのは，ユーザの発話の誤りやロボット側の認. ユーザの意図推定 [10] に用いられており，音声の韻律的な. 識誤りなどによって，ロボットがユーザの意図していない. 特徴からユーザの発話意図をくみ取る対話ロボットの研究. 動作をする可能性があるということである．この現象はロ. も行われている [11]．しかし，これまでリアルタイムで動. ボットを含むすべての音声インタフェースにも発生し得る. 作するロボットの制御に用いる特徴としてパラ言語的特徴. が，操作対象であるロボットが “リアルタイムで” 動作し. は着目されてこなかった．. ている場合，ユーザ自身が訂正しない限りロボットは意図 1. a) b). 東北大学 Tohoku University, Sendai, Miyagi 980–8579, Japan [email protected] [email protected]. c 2013 Information Processing Society of Japan ⃝. これまで我々はロボットが意図せぬ動作をした際にユーザ発話にどのような特徴が表れるかを明らかにするために，音声操作ロボットを用いた被験者実験を行うことで音声を収録し，それらの発話速度，基本周波数 (F0)，イン. 1.

(2) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. テンシティ，発話間隔の分析を行った [12]．その結果，ロボットが意図せぬ動作をすると，ユーザ発話の発話速度は速く，発話間隔は短くなる傾向があるという結果が得られている．また，F0 とインテンシティに関しては変化は見られなかった．本稿では，これまでの研究結果を受けて再度実施した被験者実験と，それによって得られたデータの分析結果について報告する．. 2. 被験者実験先にも述べたように，我々は被験者実験によって音声の収録を行い，それらを分析対象としてパラ言語的特徴を分. 図 1. 実験フィールド模式図. Fig. 1 The experimental environment. 析してきた [12]．しかし，以前に行った被験者実験では，いくつかの問題点が存在した．以前の分析ではラベリングの基準として，ロボットをコース上で動作させるように，というディレクションをしたことから，「ロボットがコース上にいたかどうか」を「意図した動作に対する発話かどうか」に置き換えてラベリングを行った．ところが，収録に用いた被験者実験では「意図せぬ動作に対する発話」が自然発生するように設計されており，被験者には操作上のルールがいくつも設けられていたことから，このラベリング基準ではすべての動作をラベリングするのは困難ではないかということが指摘されてきた．我々は，新たな基準を設けるなどし. 図 2 実験で使用したロボット. Fig. 2 The robot used in the experiment. て，ラベリングの改善を試みたが，やはり正確なラベリングは難しいという結論に至り，よりラベリングが容易な実. で，確実に直線上を走行するよう，走行中はライントレー. 験設定によりデータを収録し直すことが必要であると考え. スを行っている．また，コース上にはロボットの停止位置. られた．. としてスタートから 60 センチの位置がマークされている．. さらに以前の実験では，音声認識に関して知識のある，必ずしもナイーブとはいえない人々を被験者としていた．. なお，防音室のモニターに映し出される範囲はスタート位置から約 100 センチである．. このような被験者は音声認識されやすい喋り方がどのようなものか，ということに関しても知識があったと考えられ，これが F0 やインテンシティに変化がないという結果につながった可能性も考えられる．. 2.2 音声操作ロボットの実装図 2 に示したロボットは，LEGO Mindstorms NXT を用いて実装され，すべて自動音声認識によって動作してい. 以上の問題点を解決するために，我々は単純な実験設定. る．受理するコマンドは，前進・停止の 2 種類のみで，「ス. でよりナイーブな被験者に協力を依頼することで，新たに. トップ」と「止まれ」など同義のコマンドの言い換えは許. 被験者実験を行った．本章では，被験者実験の詳細につい. 容される．. て述べる．. 入力された音声は一問一答型の音声対話システム [13] を用いて計算機上で処理されている．システムには予め入力. 2.1 実験フィールド. が想定される発話例を記述したデータベースと，それらに. 実験に用いたフィールドの様子を図 1 に示す．実験フィー. 対する応答を記述したデータベースが用意されており，入. ルドはロボットが走行する直線状のコースと，それを真横. 力音声の認識結果は発話例を記述したデータベースと比較. から撮影する WEB カメラ，そして被験者が入室する防. される．その結果，認識結果に最も類似するデータベース. 音室で構成されている．WEB カメラが撮影した映像はリ. 内の発話例が存在すれば，それに対応する応答が合成音声. アルタイムで防音室内のモニターに映し出されている．ま. で出力される．それと同時にロボットには動作に関するコ. た，防音室内にはモニターの他にマイクとヘッドフォンが. マンドが Bluetooth によって送信され，ロボット側は動作. 用意されている．. をする．ただし，入力音声が小さすぎる，短すぎるといっ. ロボットが走行するコースは長さ約 150 センチの机上. c 2013 Information Processing Society of Japan ⃝. た理由で音声が認識されなかったり，データベース内に類. 2.

(3) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 似する発話が見受けられなかった場合はロボットは動作しない．入力された音声がシステム応答とロボットの動作に反映されるまでは約 0.5 秒を要する．なお，コマンドの認識率向上のため本対話システムで用いた音声認識エンジン Julius[14] の言語モデルは前述の対話システムのデータベース内の単語のみで学習したものを用いている．ロボットは機体の前面に搭載されている光センサーが地面の明るさを測定しており，前進コマンドが入力されると直線のコース上を沿うように前進する．また，このロボットは送信するコマンドを変えることで 4 段階に速度を変化させることが可能である．. 2.3 実験手順被験者は防音室内からモニターの映像 (図 3) を頼りに音声コマンドでロボットを遠隔操作する．システムがユーザのコマンドを認識すると，ヘッドフォンからシステムの応答が流れる．. 図 3. 実験フィールドの様子. Fig. 3 The game field captured by the camera. 続け WEB カメラの視界から消えてしまう．また，ロボットが命令を無視した後は，次の試行を開始するまで通常の倍の時間を設けた．実験ではロボットがスタートしてから停止するまで，もしくは WEB カメラの視界から消えてしまうまでを 1 試行. 実験中，被験者は「直進するロボットを特定の位置で停. とし，1 被験者あたり 40 試行程度を収録する．ロボットの. 止させる」というゲームを繰り返し行う．このゲームはス. 速度は全 4 種類が 10 回ずつランダムに提示され，40 回の. タート地点にいるロボットを音声コマンドでスタートさ. うちすべての速度に対して 2 回ずつ，合計 8 回はロボット. せ，コース上に予め設定された停止位置と，ロボット側の. が停止しない試行が予め設けられている．ロボットが停止. 目印が一致するよう，音声によってロボットを停止させる. しない試行の提示順も被験者によってランダムである．. というものである．ロボット側の目印としてはロボットの光センサが発する赤い光を用いた．実験中には停止コマンドを発話してもシステムからの応. 収録後，被験者には研究内容と実験の目的を説明し，最後にアンケートを行った．アンケートの内容は以下の 3 点である．. 答がなくロボットが停止しないという試行が複数回，意図. ( 1 ) 音声認識システムの使用経験があるか. 的に組み込まれている．本実験ではこの「ロボットを停止. ( 2 ) 発話する対象がロボットであることを意識したか. させたいのにロボットが命令を無視してしまっている」と. ( 3 ) ロボットが意図的に止まらないように設計されている. いう状況を「意図せぬ動作」とし，そのような状況下にお. と気付いたか. ける被験者の発話を収集して平常時と比較することを目的. 本実験の被験者は音声認識に関する専門的知識は持ち合. としている．実験で収集するのは被験者の操作音声と，防. わせていないと考えられる大学生，大学院生の男性 11 名，. 音室内のモニターに映し出されている WEB カメラからの. 女性 10 名，合計 21 名であった．. 映像である．本実験では実験前の被験者には本研究の内容，実験の目的に関する情報は一切提示することなく，ゲームのルール，. 3. 実験によって得られたデータ 3.1 データのラベリング. ロボットの操作方法のみを提供した．被験者にはロボット. 本研究では，被験者の停止コマンドのみを分析対象とし. 操作のためのコマンド例は提示するものの，どのコマンド. て扱う．得られたすべての音声データから，波形が振り切. を発話するかは被験者の判断に任せている．さらに，ルー. れていたデータなどを除いたところ，分析対象となる発話. ルと操作方法以外に注意点として以下の 3 点を被験者に伝. 数は 1470 発話であった．. えた．. • ロボットは音声のみで動作するので，ユーザの指示なしに勝手に動作することはない．. • システムからの応答が無いときはロボットにはコマンドが伝わっていない．. • 万が一ロボットが停止しない場合，ロボットは直進を続け，最終的には落下してしまうので注意すること．なお，実際にロボットが机から落ちる様子は被験者には見せず，ロボットが命令を無視した場合はそのまま直進し. c 2013 Information Processing Society of Japan ⃝. これらの発話は「意図した動作に対する発話」か「意図せぬ動作に対する発話」かにラベリングされる．今回設けたラベリング基準は，以下の通りである．. • ロボットがコマンド通り停止する試行での発話は「意図した動作に対する発話」とする．. • ロボットがコマンドを無視する試行の場合，最初に発話される停止コマンドは「意図した動作に対する発話」とする．. • ロボットがコマンドを無視する試行において繰り返し 3.

(4) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 表 1. 全発話に対するラベリング結果. Table 1 The result of labeling for all utterances 意図した動作に. 意図せぬ動作に. 対する発話. 対する発話. 838. 632. (57.0%). (43.0%). 0%. 合計. 20%. 40%. 60%. 80% ある. 1470 図 5. 100% ない. 音声認識システムの使用経験に関する回答. Fig. 5 The result of Question 1 90 80 70. Command. 60. 0%. 50. 20%. 40%. 意識した. どちらかと言えば意識した. 60%. 80%. 100%. unusual 40. 意識しなかった. usual. 図 6 発話相手がロボットであることを. 30 20. 意識したかどうかに関する回答. 10. Fig. 6 The result of Question 2. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 4. 各被験者のラベリング結果. Fig. 4 The result of labeling for each subject 0%. 20%. 40%. 実験の前半で気づいた. 60%. 80%. 実験の後半で気づいた. 100%. 気付かなかった. 発話された停止コマンドはすべて「意図せぬ動作に対する発話」とする．これらの基準でラベリングを行った結果を表 1 に示す．. 図 7 ロボットが停止しない試行が存在することに気づいたかどうかに関する回答. Fig. 7 The result of Question 3. この結果より全体の約 6 割が「意図した動作に対する発話」，約 4 割が「意図せぬ動作に対する発話」とラベリング. おいても，人間の対話する相手が機械である場合は自然な. されたことが分かる．. 対話相手とは認識されず，対人間とは違った特徴が音声に. また，ラベリング結果を被験者ごとに表したグラフが図. 4 である．ここでは，凡例の「usual」が「意図した動作に対する発話」，「unusual」が「意図せぬ動作に対する発話」. 表れることが判明している．このような特徴は分析結果に影響する可能性も考えられる．最後に，意図的にロボットが止まらない試行が存在する. を指す．意図せぬ動作に対する発話の数は被験者によって. ことは，全体の 3 分の 2 に当たる被験者が収録中に気付い. 異なるが，被験者 1 名当たり 20 から 40 の発話が収集され. ていたことが明らかとなった．その理由としては，「常に. ている．. 同じように発話をしているのに，ロボットが命令を無視し始めた場合はまったく止めることができなかったため」と. 3.2 アンケート結果実験の最後に被験者に対して行った 3 つのアンケート結果を図 5，図 6，図 7 にそれぞれ示す．今回実験に参加した被験者の殆どが音声認識システムを使用した経験があると答えており，その例としてスマートフォン，カーナビゲーションシステム，ゲーム機器を挙げ. いう回答が多く見受けられた．この結果より，被験者が実験の仕組みに気づいてしまったり，実験に対する「慣れ」や「諦め」によって，試行回数の増加と共に音声の特徴が変化してしまうことが予想された．. 4. 音声データの分析. ている．音声認識システムは，その詳しい仕組みは知られ. 前述のラベリング結果を元に，ロボットが意図した動作. なくとも，現在では多くの人々にとって身近な存在となっ. をしている場合としていない場合でパラ言語的特徴に変化. ていることが推測される．. が表れるのか，音声データの分析を行った．今回は，前回. さらに，発話する対象が機械であることを意識したかどうかという設問に対しては，多くの被験者が「意識した」. の実験でも分析を行った，発話速度，基本周波数 (F0)，インテンシティについての分析結果を報告する．. 「どちらかというと意識した」と回答している．そのような被験者は，「滑舌よくはっきりと発話した」「子音も意識. 4.1 発話速度. 的に発音した」などと答えており，発話相手が機械である. 発話速度は怒りや驚きを含んだ感情の際に値が大きく変. ため，被験者それぞれが音声認識されやすいと考えられる. 化することが知られている [16]. 本研究においてはロボッ. 発話を心がけているように見受けられた．先行研究 [15] に. トがユーザの意図せぬ動作を行うと，ユーザはいち早くロ. c 2013 Information Processing Society of Japan ⃝. 4.

(5) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 11. 450 400 350. 9. 8. usual unusual. 7. Frequency[Hz]. Speaking rate[mora/sec]. 10. 300 250 usual 200 unusual 150 100. 6 50 5. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 8. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 9. 被験者ごとの発話速度の平均. Fig. 8 Speaking rate of all subjects. Fig. 9 Maximum F0 of all subjects. 90. ボットの動作を修正させようとするため，コマンドの発話. 85. た．また，前回の実験データを分析した結果 [12]，予想通. 80. 傾向があると考えられた．. Intensity[dB]. 速度が平常時に比べて速くなるのではないかと予想されり，意図せぬ動作に対する発話の方が発話速度が速くなる. 75. 70. として算出している．モーラとは一般に拍とも呼ばれる音. 65. コマンドの発話速度の平均を被験者ごとに表したグラフを図 8 に示す．グラフより，被験者の発話速度は「unusual」すなわち「意図せぬ動作に対する発話」の方が遅くなって. usual unusual. 今回，発話速度は単位時間当たりのコマンドのモーラ数の文節単位のことを指す．. 被験者ごとの F0 最大値の平均. 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 10. 被験者ごとのインテンシティ最大値の平均. Fig. 10 Maximum intensity of all subjects. いるように見受けられる．二元配置分散分析を行ったところ，ラベル要因で 0.1%有意という結果が得られた．これ. が，ナイーブな被験者を起用した場合においては，発話速. は，前回の実験で得られた結果と異なったものである．. 度は遅くなる傾向があるという結論が得られた．. 上記のような結果となった原因として，前回の実験と今回の実験では実験設定が単純となった，被験者がナイーブとなった，という 2 点において異なることが影響している. 4.2 F0，インテンシティ先行研究では人間は覚醒・興奮をした状態においては，. と考えられる．この 2 点のうち，我々は後者の被験者の影. F0 とインテンシティが共に増加することが明らかとなっ. 響に着目した．. ている [17]．この先行研究と同様，ロボットが意図せぬ動. 先ほどのアンケート結果でも述べたように，今回の被験. 作を行っている際の発話は，F0，インテンシティともに増. 者は各々に音声認識されやすい発話を心がけており，特に. 加すると予想されたが，前回の実験 [12] ではどちらの特徴. ロボットが命令を無視した場合はそのような発話の特徴. も変化が見られないという結果であった．我々は，このよ. が表れたという可能性が考えられる．実際，「とーまーれ」. うな結果が得られた原因は，ナイーブでない被験者を起用. のように一文字一文字を伸ばした発話や「とまれー」など. したためであると推測した．. 語尾のみを伸ばした発話など，発話速度が遅いものは，ロ. 今回算出したのは全コマンドの F0 およびインテンシ. ボットが命令を無視している場合に多く含まれていた．こ. ティの最大値である．これらの算出には Praat[18] を用い. のため，意図せぬ動作に対する発話の方が発話速度が遅く. ている．. なったのではないかと推測される．. 被験者ごとに F0 最大値の平均を表したグラフを図 9 に. 一方，前回の実験の被験者はどのような発話が音声認識. 示す．グラフより，F0 最大値はラベルによる変化が殆ど. されやすいかに関しても知識があり，意識的にゆっくりと. 無いように見えるが，二元配置分散分析を行うとラベル要. 発話しても認識結果がさほど変わらないということが分. 因では 5%有意であり，F0 最大値は「意図せぬ動作に対す. かっていたため，今回のような結果が得られなかったので. る発話」の方が平常時よりも増加することが判明した．F0. はないかと考えられる．. は被験者間の差が非常に大きいため，グラフにはラベル間. 以上より，ロボットが意図せぬ動作をした際の発話速度. の差が表れていないように見えてしまうのである．そして. は被験者または実験設定によって得られる結果が異なる. 図 10 は，インテンシティ最大値の平均を被験者ごとに示. c 2013 Information Processing Society of Japan ⃝. 5.

(6) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. したグラフである．すると，インテンシティ最大値は「意. は考慮していなかったため，実験の進行に伴いパラ言語的. 図せぬ動作に対する発話」の方が平常時に比べて増加して. 特徴がどう変化するかについても検証していく予定である．. いるように見える．二元配置分散分析を行うと，ラベル要因で 0.1%有意という結果が得られた．以上より，ロボッ. 参考文献. トが意図せぬ動作をした際，F0，インテンシティの最大値. [1]. は共に増加する傾向があると言える．これは当初の予想通りの結果ではあるが，前回行った分. [2]. 析とは異なった結果である．この原因は発話速度と同様，実験設定と被験者が前回と異なったためであると推測され，特に被験者がナイーブであるという点は今回の結果に. [3]. 少なからず影響を及ぼしていると考えられる．よって，ロボットが意図せぬ動作をした際の F0 最大値とインテンシティ最大値は，被験者または実験設定によって得られる結. [4]. 果が異なるが，ナイーブな被験者を起用した場合はどちらも増加する可能性があると言えるであろう．また，当初はロボットが命令を無視する試行について，停. [5]. 止コマンドが繰り返し発話されると F0 やインテンシティが増加するのではないかと予想された．しかし，実際はそ. [6]. のような変化は多くないことが分析によって判明した．さらに，被験者内においてロボットが命令を無視する 8 試行. [7]. での音声を比較すると，各試行で特徴の変化のパターンは異なることがあり，試行回数や発話の繰り返す数に伴うパラ言語的特徴の変化に関しても分析を進める必要があると. [8]. 考えられた． [9]. 5. まとめ本研究では，リアルタイムで音声操作可能なロボットにおいて，よりユーザの意図に沿ったロボットの動作を実現. [10]. することを目指している．そこで，「現在のロボットの動作がユーザの意図したものかどうか」を音声から推測する. [11]. ために，パラ言語的特徴を用いることを提案した．本稿ではロボットの制御に有効な特徴を探るため，新た. [12]. に単純な実験設定の被験者実験をナイーブな被験者を起用して実施し，小型ロボットを実際に音声操作した際の音声. [13]. を収録した．収集されたデータの発話速度，F0，インテンシティに関する分析を行ったところ，ユーザの意図せぬ動. [14]. 作が行われている際のユーザ発話は，平常時に比べて発話速度が遅く，F0 最大値とインテンシティの最大値が増加. [15]. する傾向があるという結果が得られた．これは前回の分析とは異なる結果であった．この原因としては，実験設定と. [16]. 被験者が前回の実験と異なっていたことが挙げられるが，特に “ナイーブな” つまり音声認識に詳しくない被験者を. [17]. 起用した影響が大きいのではないかと考えらえる．今後は今回と同様の実験設定で，“ナイーブでない” つまり音声認識の仕組みに詳しい被験者を起用した場合はどの. [18]. H. Asoh, T. Matsui, J. Fry, F. Asano, and S. Hayamizu, “A Spoken Dialog System for a Mobile Office Robot,” Proc. Eurospeech, pp. 1139–1142, 1999. L. S. Lopes and A. Teixeira, “Human-robot interaction through spoken language dialogue,” Proc. Int. Conf. Intelligent Robots and Systems (IROS2000), pp. 528–534, 2000. D. Spiliotopoulos, I. Androutsopoulos and C. D. Spyropoulos, “Human-robot interaction based on spoken natural language dialogue,” Proc. European Workshop on Service and Humanoid Robots, 2001. J. N. Pires,“Robot-by-voice: experiments on commanding an industrial robot using the human voice,” Industrial Robot: An International Journal, Vol.32 Iss:6, pp.505-511, 2005. H. Heidari and S. Gobee,“Isolated Word Command Recognition for Robot Navigation,” Proceedia Engineering 41, pp.412-419, 2012. 北岡, 角谷, 中川, “音声対話システムの誤認識に対するユーザの繰返し訂正発話の検出と認識,” 信学論 (D-II) 87, pp.1441-1450, 2004. 藤崎，“音声の韻律的特徴における言語的・パラ言語的・非言語的情報の表出,” 電子情報通信学会技術研究報告，ヒューマンコミュニケーション 94(217), pp.1-8, 1994. D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Resources, features, and methods,” Speech Communication 48.9, pp.1162-1181, 2006. M. E. Ayadi, M. S. Kamel, and F. Karray, “Survey on speech emotion recognition: Features, classification schemes, and databases,” Pattern Recognition 44.3, pp.572-587, 2011. 田本, 川端, “文型と音調によるユーザの発話意図の推定,” 情報処理学会研究報告, SLP, 音声言語情報処理 98.68 pp.55-60, 1998. C. Breazeal and L. Aryananda, “Recognition of affective communicative intent in robot-directed speech,” Autonomous robots 12.1, pp.83-104, 2002. 戸塚，伊藤，“音声操作ロボットの動作とユーザ発話の音響的特徴との関係の分析,” 電子情報通信学会技術研究報告，SP2013 − 62，pp.57-62，2013．西村，西原，鶴身，李，猿渡，鹿野，“実環境研究プラットフォームとしての音声情報案内システムの運用,” 電子情報通信学会論文誌, Vol.J87-D-II, No.3, pp.789-798, 2004. 河原，李，“連続音声認識ソフトウェア Julius,” 人工知能学会誌，20(1)，pp.41-49，2005．伊藤, 甲斐, 岩本, 水谷, 油浅, 小西, “目的地設定タスクにおける対話状況の違いによる言語・音響的特徴の比較,” 情報処理学会論文誌，43(7)，2118-2129，2002． T. L. Nwe, S. W. Foo, and L. C. De Silva, “Speech emotion recognition using hidden Markov models,” Speech communication 41.4, pp. 603-623, 2003. C. Pereira, “Dimensions of Emotional Meaning in Speech,” Proc. SpeechEmotion, pp.25–28, 2000. P. Boersma and D. Weenink, “Praat: doing phonetics by computer (Version 5.1.05) [Computer program],” Retrieved May 1, 2013, from http://www.praat.org/. ような結果が得られるのかについても，検証をする必要があると考えられる．さらに，今回の分析対象は全ての停止コマンドであり，発話の繰り返された数や，試行回数など. c 2013 Information Processing Society of Japan ⃝. 6.

(7)