音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析
6
0
0
全文
(2) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. テンシティ,発話間隔の分析を行った [12].その結果,ロ ボットが意図せぬ動作をすると,ユーザ発話の発話速度は 速く,発話間隔は短くなる傾向があるという結果が得られ ている.また,F0 とインテンシティに関しては変化は見 られなかった. 本稿では,これまでの研究結果を受けて再度実施した被 験者実験と,それによって得られたデータの分析結果につ いて報告する.. 2. 被験者実験 先にも述べたように,我々は被験者実験によって音声の 収録を行い,それらを分析対象としてパラ言語的特徴を分. 図 1. 実験フィールド模式図. Fig. 1 The experimental environment. 析してきた [12]. しかし,以前に行った被験者実験では,いくつかの問題 点が存在した.以前の分析ではラベリングの基準として, ロボットをコース上で動作させるように,というディレク ションをしたことから,「ロボットがコース上にいたかど うか」を「意図した動作に対する発話かどうか」に置き換 えてラベリングを行った.ところが,収録に用いた被験者 実験では「意図せぬ動作に対する発話」が自然発生するよ うに設計されており,被験者には操作上のルールがいくつ も設けられていたことから,このラベリング基準ではすべ ての動作をラベリングするのは困難ではないかというこ とが指摘されてきた.我々は,新たな基準を設けるなどし. 図 2 実験で使用したロボット. Fig. 2 The robot used in the experiment. て,ラベリングの改善を試みたが,やはり正確なラベリン グは難しいという結論に至り,よりラベリングが容易な実. で,確実に直線上を走行するよう,走行中はライントレー. 験設定によりデータを収録し直すことが必要であると考え. スを行っている.また,コース上にはロボットの停止位置. られた.. としてスタートから 60 センチの位置がマークされている.. さらに以前の実験では,音声認識に関して知識のある, 必ずしもナイーブとはいえない人々を被験者としていた.. なお,防音室のモニターに映し出される範囲はスタート位 置から約 100 センチである.. このような被験者は音声認識されやすい喋り方がどのよう なものか,ということに関しても知識があったと考えられ, これが F0 やインテンシティに変化がないという結果につ ながった可能性も考えられる.. 2.2 音声操作ロボットの実装 図 2 に示したロボットは,LEGO Mindstorms NXT を 用いて実装され,すべて自動音声認識によって動作してい. 以上の問題点を解決するために,我々は単純な実験設定. る.受理するコマンドは,前進・停止の 2 種類のみで, 「ス. でよりナイーブな被験者に協力を依頼することで,新たに. トップ」と「止まれ」など同義のコマンドの言い換えは許. 被験者実験を行った.本章では,被験者実験の詳細につい. 容される.. て述べる.. 入力された音声は一問一答型の音声対話システム [13] を 用いて計算機上で処理されている.システムには予め入力. 2.1 実験フィールド. が想定される発話例を記述したデータベースと,それらに. 実験に用いたフィールドの様子を図 1 に示す.実験フィー. 対する応答を記述したデータベースが用意されており,入. ルドはロボットが走行する直線状のコースと,それを真横. 力音声の認識結果は発話例を記述したデータベースと比較. から撮影する WEB カメラ,そして被験者が入室する防. される.その結果,認識結果に最も類似するデータベース. 音室で構成されている.WEB カメラが撮影した映像はリ. 内の発話例が存在すれば,それに対応する応答が合成音声. アルタイムで防音室内のモニターに映し出されている.ま. で出力される.それと同時にロボットには動作に関するコ. た,防音室内にはモニターの他にマイクとヘッドフォンが. マンドが Bluetooth によって送信され,ロボット側は動作. 用意されている.. をする.ただし,入力音声が小さすぎる,短すぎるといっ. ロボットが走行するコースは長さ約 150 センチの机上. c 2013 Information Processing Society of Japan ⃝. た理由で音声が認識されなかったり,データベース内に類. 2.
(3) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 似する発話が見受けられなかった場合はロボットは動作し ない.入力された音声がシステム応答とロボットの動作に 反映されるまでは約 0.5 秒を要する.なお,コマンドの認 識率向上のため本対話システムで用いた音声認識エンジ ン Julius[14] の言語モデルは前述の対話システムのデータ ベース内の単語のみで学習したものを用いている. ロボットは機体の前面に搭載されている光センサーが地 面の明るさを測定しており,前進コマンドが入力されると 直線のコース上を沿うように前進する.また,このロボッ トは送信するコマンドを変えることで 4 段階に速度を変化 させることが可能である.. 2.3 実験手順 被験者は防音室内からモニターの映像 (図 3) を頼りに音 声コマンドでロボットを遠隔操作する.システムがユーザ のコマンドを認識すると,ヘッドフォンからシステムの応 答が流れる.. 図 3. 実験フィールドの様子. Fig. 3 The game field captured by the camera. 続け WEB カメラの視界から消えてしまう.また,ロボッ トが命令を無視した後は,次の試行を開始するまで通常の 倍の時間を設けた. 実験ではロボットがスタートしてから停止するまで,も しくは WEB カメラの視界から消えてしまうまでを 1 試行. 実験中,被験者は「直進するロボットを特定の位置で停. とし,1 被験者あたり 40 試行程度を収録する.ロボットの. 止させる」というゲームを繰り返し行う.このゲームはス. 速度は全 4 種類が 10 回ずつランダムに提示され,40 回の. タート地点にいるロボットを音声コマンドでスタートさ. うちすべての速度に対して 2 回ずつ,合計 8 回はロボット. せ,コース上に予め設定された停止位置と,ロボット側の. が停止しない試行が予め設けられている.ロボットが停止. 目印が一致するよう,音声によってロボットを停止させる. しない試行の提示順も被験者によってランダムである.. というものである.ロボット側の目印としてはロボットの 光センサが発する赤い光を用いた. 実験中には停止コマンドを発話してもシステムからの応. 収録後,被験者には研究内容と実験の目的を説明し,最 後にアンケートを行った.アンケートの内容は以下の 3 点 である.. 答がなくロボットが停止しないという試行が複数回,意図. ( 1 ) 音声認識システムの使用経験があるか. 的に組み込まれている.本実験ではこの「ロボットを停止. ( 2 ) 発話する対象がロボットであることを意識したか. させたいのにロボットが命令を無視してしまっている」と. ( 3 ) ロボットが意図的に止まらないように設計されている. いう状況を「意図せぬ動作」とし,そのような状況下にお. と気付いたか. ける被験者の発話を収集して平常時と比較することを目的. 本実験の被験者は音声認識に関する専門的知識は持ち合. としている.実験で収集するのは被験者の操作音声と,防. わせていないと考えられる大学生,大学院生の男性 11 名,. 音室内のモニターに映し出されている WEB カメラからの. 女性 10 名,合計 21 名であった.. 映像である. 本実験では実験前の被験者には本研究の内容,実験の目 的に関する情報は一切提示することなく,ゲームのルール,. 3. 実験によって得られたデータ 3.1 データのラベリング. ロボットの操作方法のみを提供した.被験者にはロボット. 本研究では,被験者の停止コマンドのみを分析対象とし. 操作のためのコマンド例は提示するものの,どのコマンド. て扱う.得られたすべての音声データから,波形が振り切. を発話するかは被験者の判断に任せている.さらに,ルー. れていたデータなどを除いたところ,分析対象となる発話. ルと操作方法以外に注意点として以下の 3 点を被験者に伝. 数は 1470 発話であった.. えた.. • ロボットは音声のみで動作するので,ユーザの指示な しに勝手に動作することはない.. • システムからの応答が無いときはロボットにはコマン ドが伝わっていない.. • 万が一ロボットが停止しない場合,ロボットは直進を 続け,最終的には落下してしまうので注意すること. なお,実際にロボットが机から落ちる様子は被験者には 見せず,ロボットが命令を無視した場合はそのまま直進し. c 2013 Information Processing Society of Japan ⃝. これらの発話は「意図した動作に対する発話」か「意図 せぬ動作に対する発話」かにラベリングされる.今回設け たラベリング基準は,以下の通りである.. • ロボットがコマンド通り停止する試行での発話は「意 図した動作に対する発話」とする.. • ロボットがコマンドを無視する試行の場合,最初に発 話される停止コマンドは「意図した動作に対する発話」 とする.. • ロボットがコマンドを無視する試行において繰り返し 3.
(4) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 表 1. 全発話に対するラベリング結果. Table 1 The result of labeling for all utterances 意図した動作に. 意図せぬ動作に. 対する発話. 対する発話. 838. 632. (57.0%). (43.0%). 0%. 合計. 20%. 40%. 60%. 80% ある. 1470 図 5. 100% ない. 音声認識システムの使用経験に関する回答. Fig. 5 The result of Question 1 90 80 70. Command. 60. 0%. 50. 20%. 40%. 意識した. どちらかと言えば意識した. 60%. 80%. 100%. unusual 40. 意識しなかった. usual. 図 6 発話相手がロボットであることを. 30 20. 意識したかどうかに関する回答. 10. Fig. 6 The result of Question 2. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 4. 各被験者のラベリング結果. Fig. 4 The result of labeling for each subject 0%. 20%. 40%. 実験の前半で気づいた. 60%. 80%. 実験の後半で気づいた. 100%. 気付かなかった. 発話された停止コマンドはすべて「意図せぬ動作に対 する発話」とする. これらの基準でラベリングを行った結果を表 1 に示す.. 図 7 ロボットが停止しない試行が存在することに 気づいたかどうかに関する回答. Fig. 7 The result of Question 3. この結果より全体の約 6 割が「意図した動作に対する発 話」 ,約 4 割が「意図せぬ動作に対する発話」とラベリング. おいても,人間の対話する相手が機械である場合は自然な. されたことが分かる.. 対話相手とは認識されず,対人間とは違った特徴が音声に. また,ラベリング結果を被験者ごとに表したグラフが図. 4 である.ここでは,凡例の「usual」が「意図した動作に 対する発話」 , 「unusual」が「意図せぬ動作に対する発話」. 表れることが判明している.このような特徴は分析結果に 影響する可能性も考えられる. 最後に,意図的にロボットが止まらない試行が存在する. を指す.意図せぬ動作に対する発話の数は被験者によって. ことは,全体の 3 分の 2 に当たる被験者が収録中に気付い. 異なるが,被験者 1 名当たり 20 から 40 の発話が収集され. ていたことが明らかとなった.その理由としては,「常に. ている.. 同じように発話をしているのに,ロボットが命令を無視し 始めた場合はまったく止めることができなかったため」と. 3.2 アンケート結果 実験の最後に被験者に対して行った 3 つのアンケート結 果を図 5,図 6,図 7 にそれぞれ示す. 今回実験に参加した被験者の殆どが音声認識システムを 使用した経験があると答えており,その例としてスマート フォン,カーナビゲーションシステム,ゲーム機器を挙げ. いう回答が多く見受けられた.この結果より,被験者が実 験の仕組みに気づいてしまったり,実験に対する「慣れ」 や「諦め」によって,試行回数の増加と共に音声の特徴が 変化してしまうことが予想された.. 4. 音声データの分析. ている.音声認識システムは,その詳しい仕組みは知られ. 前述のラベリング結果を元に,ロボットが意図した動作. なくとも,現在では多くの人々にとって身近な存在となっ. をしている場合としていない場合でパラ言語的特徴に変化. ていることが推測される.. が表れるのか,音声データの分析を行った.今回は,前回. さらに,発話する対象が機械であることを意識したかど うかという設問に対しては,多くの被験者が「意識した」. の実験でも分析を行った,発話速度,基本周波数 (F0),イ ンテンシティについての分析結果を報告する.. 「どちらかというと意識した」と回答している.そのよう な被験者は, 「滑舌よくはっきりと発話した」 「子音も意識. 4.1 発話速度. 的に発音した」などと答えており,発話相手が機械である. 発話速度は怒りや驚きを含んだ感情の際に値が大きく変. ため,被験者それぞれが音声認識されやすいと考えられる. 化することが知られている [16]. 本研究においてはロボッ. 発話を心がけているように見受けられた.先行研究 [15] に. トがユーザの意図せぬ動作を行うと,ユーザはいち早くロ. c 2013 Information Processing Society of Japan ⃝. 4.
(5) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report 11. 450 400 350. 9. 8. usual unusual. 7. Frequency[Hz]. Speaking rate[mora/sec]. 10. 300 250 usual 200 unusual 150 100. 6 50 5. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 8. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 9. 被験者ごとの発話速度の平均. Fig. 8 Speaking rate of all subjects. Fig. 9 Maximum F0 of all subjects. 90. ボットの動作を修正させようとするため,コマンドの発話. 85. た.また,前回の実験データを分析した結果 [12],予想通. 80. 傾向があると考えられた.. Intensity[dB]. 速度が平常時に比べて速くなるのではないかと予想され り,意図せぬ動作に対する発話の方が発話速度が速くなる. 75. 70. として算出している.モーラとは一般に拍とも呼ばれる音. 65. コマンドの発話速度の平均を被験者ごとに表したグラフ を図 8 に示す.グラフより,被験者の発話速度は「unusual」 すなわち「意図せぬ動作に対する発話」の方が遅くなって. usual unusual. 今回,発話速度は単位時間当たりのコマンドのモーラ数 の文節単位のことを指す.. 被験者ごとの F0 最大値の平均. 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 User Number. 図 10. 被験者ごとのインテンシティ最大値の平均. Fig. 10 Maximum intensity of all subjects. いるように見受けられる.二元配置分散分析を行ったとこ ろ,ラベル要因で 0.1%有意という結果が得られた.これ. が,ナイーブな被験者を起用した場合においては,発話速. は,前回の実験で得られた結果と異なったものである.. 度は遅くなる傾向があるという結論が得られた.. 上記のような結果となった原因として,前回の実験と今 回の実験では実験設定が単純となった,被験者がナイーブ となった,という 2 点において異なることが影響している. 4.2 F0,インテンシティ 先行研究では人間は覚醒・興奮をした状態においては,. と考えられる.この 2 点のうち,我々は後者の被験者の影. F0 とインテンシティが共に増加することが明らかとなっ. 響に着目した.. ている [17].この先行研究と同様,ロボットが意図せぬ動. 先ほどのアンケート結果でも述べたように,今回の被験. 作を行っている際の発話は,F0,インテンシティともに増. 者は各々に音声認識されやすい発話を心がけており,特に. 加すると予想されたが,前回の実験 [12] ではどちらの特徴. ロボットが命令を無視した場合はそのような発話の特徴. も変化が見られないという結果であった.我々は,このよ. が表れたという可能性が考えられる.実際, 「とーまーれ」. うな結果が得られた原因は,ナイーブでない被験者を起用. のように一文字一文字を伸ばした発話や「とまれー」など. したためであると推測した.. 語尾のみを伸ばした発話など,発話速度が遅いものは,ロ. 今回算出したのは全コマンドの F0 およびインテンシ. ボットが命令を無視している場合に多く含まれていた.こ. ティの最大値である.これらの算出には Praat[18] を用い. のため,意図せぬ動作に対する発話の方が発話速度が遅く. ている.. なったのではないかと推測される.. 被験者ごとに F0 最大値の平均を表したグラフを図 9 に. 一方,前回の実験の被験者はどのような発話が音声認識. 示す.グラフより,F0 最大値はラベルによる変化が殆ど. されやすいかに関しても知識があり,意識的にゆっくりと. 無いように見えるが,二元配置分散分析を行うとラベル要. 発話しても認識結果がさほど変わらないということが分. 因では 5%有意であり,F0 最大値は「意図せぬ動作に対す. かっていたため,今回のような結果が得られなかったので. る発話」の方が平常時よりも増加することが判明した.F0. はないかと考えられる.. は被験者間の差が非常に大きいため,グラフにはラベル間. 以上より,ロボットが意図せぬ動作をした際の発話速度. の差が表れていないように見えてしまうのである.そして. は被験者または実験設定によって得られる結果が異なる. 図 10 は,インテンシティ最大値の平均を被験者ごとに示. c 2013 Information Processing Society of Japan ⃝. 5.
(6) Vol.2013-SLP-99 No.10 2013/12/19. 情報処理学会研究報告 IPSJ SIG Technical Report. したグラフである.すると,インテンシティ最大値は「意. は考慮していなかったため,実験の進行に伴いパラ言語的. 図せぬ動作に対する発話」の方が平常時に比べて増加して. 特徴がどう変化するかについても検証していく予定である.. いるように見える.二元配置分散分析を行うと,ラベル要 因で 0.1%有意という結果が得られた.以上より,ロボッ. 参考文献. トが意図せぬ動作をした際,F0,インテンシティの最大値. [1]. は共に増加する傾向があると言える. これは当初の予想通りの結果ではあるが,前回行った分. [2]. 析とは異なった結果である.この原因は発話速度と同様, 実験設定と被験者が前回と異なったためであると推測さ れ,特に被験者がナイーブであるという点は今回の結果に. [3]. 少なからず影響を及ぼしていると考えられる.よって,ロ ボットが意図せぬ動作をした際の F0 最大値とインテンシ ティ最大値は,被験者または実験設定によって得られる結. [4]. 果が異なるが,ナイーブな被験者を起用した場合はどちら も増加する可能性があると言えるであろう. また,当初はロボットが命令を無視する試行について,停. [5]. 止コマンドが繰り返し発話されると F0 やインテンシティ が増加するのではないかと予想された.しかし,実際はそ. [6]. のような変化は多くないことが分析によって判明した.さ らに,被験者内においてロボットが命令を無視する 8 試行. [7]. での音声を比較すると,各試行で特徴の変化のパターンは 異なることがあり,試行回数や発話の繰り返す数に伴うパ ラ言語的特徴の変化に関しても分析を進める必要があると. [8]. 考えられた. [9]. 5. まとめ 本研究では,リアルタイムで音声操作可能なロボットに おいて,よりユーザの意図に沿ったロボットの動作を実現. [10]. することを目指している.そこで,「現在のロボットの動 作がユーザの意図したものかどうか」を音声から推測する. [11]. ために,パラ言語的特徴を用いることを提案した. 本稿ではロボットの制御に有効な特徴を探るため,新た. [12]. に単純な実験設定の被験者実験をナイーブな被験者を起用 して実施し,小型ロボットを実際に音声操作した際の音声. [13]. を収録した.収集されたデータの発話速度,F0,インテン シティに関する分析を行ったところ,ユーザの意図せぬ動. [14]. 作が行われている際のユーザ発話は,平常時に比べて発話 速度が遅く,F0 最大値とインテンシティの最大値が増加. [15]. する傾向があるという結果が得られた.これは前回の分析 とは異なる結果であった.この原因としては,実験設定と. [16]. 被験者が前回の実験と異なっていたことが挙げられるが, 特に “ナイーブな” つまり音声認識に詳しくない被験者を. [17]. 起用した影響が大きいのではないかと考えらえる. 今後は今回と同様の実験設定で,“ナイーブでない” つま り音声認識の仕組みに詳しい被験者を起用した場合はどの. [18]. H. Asoh, T. Matsui, J. Fry, F. Asano, and S. Hayamizu, “A Spoken Dialog System for a Mobile Office Robot,” Proc. Eurospeech, pp. 1139–1142, 1999. L. S. Lopes and A. Teixeira, “Human-robot interaction through spoken language dialogue,” Proc. Int. Conf. Intelligent Robots and Systems (IROS2000), pp. 528–534, 2000. D. Spiliotopoulos, I. Androutsopoulos and C. D. Spyropoulos, “Human-robot interaction based on spoken natural language dialogue,” Proc. European Workshop on Service and Humanoid Robots, 2001. J. N. Pires,“Robot-by-voice: experiments on commanding an industrial robot using the human voice,” Industrial Robot: An International Journal, Vol.32 Iss:6, pp.505-511, 2005. H. Heidari and S. Gobee,“Isolated Word Command Recognition for Robot Navigation,” Proceedia Engineering 41, pp.412-419, 2012. 北岡, 角谷, 中川, “音声対話システムの誤認識に対する ユーザの繰返し訂正発話の検出と認識,” 信学論 (D-II) 87, pp.1441-1450, 2004. 藤崎,“音声の韻律的特徴における言語的・パラ言語的・ 非言語的情報の表出,” 電子情報通信学会技術研究報告, ヒューマンコミュニケーション 94(217), pp.1-8, 1994. D. Ververidis and C. Kotropoulos, “Emotional speech recognition: Resources, features, and methods,” Speech Communication 48.9, pp.1162-1181, 2006. M. E. Ayadi, M. S. Kamel, and F. Karray, “Survey on speech emotion recognition: Features, classification schemes, and databases,” Pattern Recognition 44.3, pp.572-587, 2011. 田本, 川端, “文型と音調によるユーザの発話意図の推 定,” 情報処理学会研究報告, SLP, 音声言語情報処理 98.68 pp.55-60, 1998. C. Breazeal and L. Aryananda, “Recognition of affective communicative intent in robot-directed speech,” Autonomous robots 12.1, pp.83-104, 2002. 戸塚,伊藤,“音声操作ロボットの動作とユーザ発話の音 響的特徴との関係の分析,” 電子情報通信学会技術研究報 告,SP2013 − 62,pp.57-62,2013. 西村,西原,鶴身,李,猿渡,鹿野,“実環境研究プラット フォームとしての音声情報案内システムの運用,” 電子情 報通信学会論文誌, Vol.J87-D-II, No.3, pp.789-798, 2004. 河原,李,“連続音声認識ソフトウェア Julius,” 人工知能 学会誌,20(1),pp.41-49,2005. 伊藤, 甲斐, 岩本, 水谷, 油浅, 小西, “目的地設定タスクに おける対話状況の違いによる言語・音響的特徴の比較,” 情報処理学会論文誌,43(7),2118-2129,2002. T. L. Nwe, S. W. Foo, and L. C. De Silva, “Speech emotion recognition using hidden Markov models,” Speech communication 41.4, pp. 603-623, 2003. C. Pereira, “Dimensions of Emotional Meaning in Speech,” Proc. SpeechEmotion, pp.25–28, 2000. P. Boersma and D. Weenink, “Praat: doing phonetics by computer (Version 5.1.05) [Computer program],” Retrieved May 1, 2013, from http://www.praat.org/. ような結果が得られるのかについても,検証をする必要が あると考えられる.さらに,今回の分析対象は全ての停止 コマンドであり,発話の繰り返された数や,試行回数など. c 2013 Information Processing Society of Japan ⃝. 6.
(7)
図
関連したドキュメント
フランツ・カフカ(FranzKafka)の作品の会話には「お見通し」発言
このように,先行研究において日・中両母語話
(4)以上の如き現状に鑑み,これらの関係 を明らかにする目的を以て,私は雌雄において
音節の外側に解放されることがない】)。ところがこ
2021] .さらに対応するプログラミング言語も作
担い手に農地を集積するための土地利用調整に関する話し合いや農家の意
問題解決を図るため荷役作業の遠隔操作システムを開発する。これは荷役ポンプと荷役 弁を遠隔で操作しバラストポンプ・喫水計・液面計・積付計算機などを連動させ通常
県民のリサイクルに対する意識の高揚や活動の定着化を図ることを目的に、「環境を守り、資源を