• 検索結果がありません。

sig sai 2010 03 03 04 Recent site activity jsaisigsai

N/A
N/A
Protected

Academic year: 2018

シェア "sig sai 2010 03 03 04 Recent site activity jsaisigsai"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

ユーザの顔向きに基づく推薦を行う

音声対話型観光案内システムの構築

               

       

香山 健太郎



小林 亮博 柏岡 秀紀 中村 哲

          

独立行政法人 情報通信研究機構

         

  我々は,システム側から積極的に気の利いた情報を気の利いたタイミングで提示でき

る,大型ディスプレイを用いた対話型情報提示システムを開発している.これまでに,我々は,画像 から得られた顔向き・頭部動作などの非言語情報のみを利用した対話制御を行ってきたが,今回はそ れに音声対話を組み込んだシステムを構築した.また, 人を対象に被験者実験を行い,システム に対する振舞の分析とシステムの有効性の検証を行った.



はじめに

近年の音声認識技術の進歩を背景として、 日本国内 でも様々なところで音声対話による案内を行うシステ ムの研究開発が進められている。

一方,認識技術の進歩を背景として, 広告媒体とし て必要に応じて必要な情報を適宜切り替えて表示でき るようなデジタルサイネージ技術が盛んに研究されて おり,様々なシステムが提案されている.

その中で使われる認識技術としては, オムロン・東 芝・などで開発されている,年齢・性別等の判別 も可能な顔認識技術がある  ℄.また,北陽電機 は,レーザー測距センサを利用して,周辺を移動する人 間の動線を取得できるようなシステムを開発している. しかし,情報の提示方法としては, 年齢・性別等に応 じた情報をシステム側が選択して一方的に提示するだ けのものがほとんどである. ユーザが望ましい情報を 引き出すためのシステムは用意されていないか, ある いはタッチパネル等の明示的な入力装置が必要となる.

そこで、我々は、これらの技術を融合し、 音声対話 システムに画像処理による非言語情報認識を追加して、 より気の利いたユーザの支援が可能な対話型情報提示 システムの構築を目指している。

この対話型情報提示システムの大きなアプリケーショ ン分野の一つとして、 観光案内がある。観光地の主要



連絡先:独立行政法人情報通信研究機構

      プロジェクト音声コミュニケーショング ループ

        京都府相楽郡精華町光台 

       

駅周辺などでは,対話型観光案内システムが設置され ていることが多い.そのような対話システムでは,ユー ザの意思や希望を伝えるため, キーボードやタッチパ ネル,ボタン等が用意されている. しかし,このよう なシステムを使ってみようとする人はほとんどおらず, また,使ってみようとした人でも, 対話のテンポの悪 さに途中で投げ出してしまうことも多い.

このような問題に対して,我々は,人間と機械とのプ ロアクティブな対話を可能にする新しいインタラクティ ブ情報ディスプレイシステムを提案している小林 ℄. プロアクティブな対話システムとは, システム側から も積極的に気の利いた情報を気の利いたタイミングで 提示するものである 河原 .そして、我々はこれま で、そのような対話の実現のためには, ユーザが対話 中に見せる視線や顔向きの変化, 頭部動作などの非言 語情報を検出することが重要であると考え, 非言語情 報のみを用いたシステムのプロトタイプを提案 ・作成 してきた。

そして、今回、我々は、この技術を音声対話システム と融合し、非言語情報をも用いた音声対話型観光案内 システムのプロトタイプを構築し、実証実験を行った。

本稿では、このような非言語情報認識と音声対話と を融合したシステムの構築方法とそのプロトタイプの 評価について述べる。

まず、 節において、本システムのハードウェアおよ びソフトウェア構成について述べ、 音声認識および画 面制御部分の内容についても述べる。

次に、 節において、画像処理部分で行っている人物 検出、および視線・顔向き検出の方法について説明す

(2)

る。また、 節では、本システム上に実装した対話制御 部分の内容を述べる。

また、本システムを用いて被験者 名による実験を 行い、その対話能力についての評価を行った。 それに ついて節で述べる。



システム構成

¾º½

システム全体の概要

本節では、非言語情報認識と音声対話とを融合した システムのプロトタイプとして、 今回我々が試作した 大画面対話システムについて述べる。

本システムは、観光案内所等、屋内の公的スペース において不特定多数の利用者に情報を提示するために 据え置きで設置されることを想定したものである。 ま た、ユーザとの対話においては、 入力としては音声を メインとし、さらに画像情報によってユーザの興味を 推定して対話の質を向上させることを狙う。

出力では、画面を最大4つのウィンドウに分割して 個別に情報を表示することで大画面であることの特性 を生かすとともに、 図に示すキャラクターエージェン トを画面内に配置し、 音声合成によって表示されてい る内容の説明や対話の進行を行う。

¾º¾

ハードウェア構成

今回試作したシステムの様子を図に示す. 本システムは次の各部分からなる。

¯ インチプラズマディスプレイ

¯ 姿勢制御可能な単眼カメラ

¯ ステレオカメラ

¯ マイク

¯ スピーカー

¯ 処理用

インチプラズマディスプレイは縦置きに設置して いる。

処理用は、台を画像処理用、 台を音声認識・ 構文解析用、台を対話制御用、台を画面制御・音声 合成用に用いている。

 大画面対話システム

 大画面対話システムソフトウェア構成

(3)

¾º¿

ソフトウェア構成

本システムのモジュール構成、およびそれぞれが

台のにどのように分散されているかを図 に示す。 モジュールは、その機能から次の つに大別できる

¯ 画像処理部

¯ 音声認識・構文解析部

¯ 対話制御部

¯ 画面制御・音声合成部

このうち、画像処理部の機能については次節で、 画 像入力・音声入力の統合方法を含む対話制御部の機能 については 節で述べる。

音声認識・構文解析部では、まず、マイクから入力 された音声に対し発話区間検出を行ってその部分を切 り出した上で、音声認識エンジンとして、にて開 発された ℄を用いたモジュールで音声 認識・形態素解析を行っている。この結果が最終的に 対話制御部に送られる。

画面制御部では、 図 に示すような表示を行う。 画 面は原則として2つあるいは4つのウィンドウに分割 され、各領域は個別のを表示する。図 の場合 は、左上に金閣寺の概要が、左下に金閣寺周辺のレス トランのリストが、右下にそのうちの軒の詳細が表 示されている。また、右下のウィンドウ中央にはキャ ラクターエージェントが表示されている。 このキャラ クターは、ユーザの仮想的な対話相手として様々な動 作を行う。また、音声合成部と連携して、発話時には その母音と合致した口の形を取る。

画像による非言語情報処理

本節では、本システムで実装している

¯ ステレオカメラを用いた人物検出方法

¯ 単眼カメラを用いた顔向き・視線検出方法 について述べる。

¿º½

頭部領域候補の検出

ステレオカメラを用いた頭部領域候補の検出は、 次 のような手順で行っている。

 次元占有格子の作成大きさは 立方  物体存在領域の高さ別のクラスタリング

 大画面対話システム画面表示内容例

 段違い引き出し法  ℄の応用による個別人

物領域抽出

 頭部候補領域の抽出

 頭部らしさの評価によるフィルタリング その様子を図 に示す。

段違い引き出し法では、空間を半分ずつ重なりのあ る複数段に分割し、上段で人物領域と判断された領域 を下段に伝播して逐次人物候補領域を決定していくこ とによって、人物領域全体の抽出を行っている。

本システムでは、空間を高さ !" #$! #

"!  #!  #というような 刻みの  

ごとの層に格子を分割し、 それぞれの層ごとにクラス タリングを行った上で、各クラスタが上段で物体と判 断された領域を継承するものか、 あるいは新しく現れ た領域かを判断し、さらに、複数領域を継承した場合 は適切な分割を、上段で一つ領域と判断された部分が 分裂している場合には統合を行うという処理を行って いる。これにより、複数人物によるオクルージョンや

(4)

 ステレオカメラからの人物検出処理

近接・接触がある場合にも安定して個別人物領域の抽 出が可能になっている。

の下半分の図は、本システムで用いている !

  の層から ! の層まで、 の層の様子を並 べたものである。各正方形の中央下部がディスプレイ の存在位置であり、黒が物体の存在しない領域、灰が 視界外およびオクルージョンにより観測できない領域 であり、それ以外の色つきの領域が人物候補領域同じ 色は同一人物を示すとなる。

さらに、個々の人物領域とされた部分の上部  程 度を頭部候補領域とした上で、 その高さ・ディスプレ イからの距離・大きさ・形状・その前の瞬間の頭部存 在座標から各領域の頭部らしさを評価し、 あらかじめ 決定した閾値以上となった領域を最終的な頭部領域と して出力する。

¿º¾

顔向きの検出

上述の処理によって得られた頭部候補領域に対し、本 システムでは、解像度の高い単眼カメラをその方向に 向けた上、次のような処理を行って顔向きの検出を行っ ている

 %!&'()特徴量を用いた顔領域検出

  '*) ++)%, )  )&  を 用 い た 顔 パーツの検出・追跡 -./01' #小林  最急降下法による顔パーツの 次元顔モデルへの

あてはめ顔向き推定

 顔向き検出

 楕円マッチングによる眼球モデルへのあてはめ

視線推定佐竹

各処理の詳細は次の通りである.

顔領域検出 本システムでは,秒間にフレームの

"+'2)&の 画 像 が 入 力 さ れ る .直 前 の フ レームで画像中に顔が存在しなかった,あるいは 次で述べる顔パーツの追跡に失敗した場合,画像 に%!&'()特徴量を用いた顔領域検出アルゴリ ズムを適用する.

顔パーツの検出・追跡 前フレームで顔パーツが検出さ れていた場合はその座標値を,新たに顔が検出 された場合は規定の座標値を初期値とした上で,

 '*)++)%, ) )&を用いて顔の 特徴点 点を抽出する.は,顔特徴点の 画像座標を並べたベクトルと顔領域の輝度値を並 べたベクトルを合わせて主成分分析することで, 特徴点の位置変化に対する見えの変化の相関を 学習し,顔パーツのような非剛体の追跡が可能で ある.

顔向き推定 あらかじめ作成してある 次元顔形状モデ ルにおける各特徴点の 次元座標と,上記で得ら れた各特徴点の画像上の座標から,最急降下法を 用いて"自由度回転 自由度・並進 自由度 の顔向きパラメータを求める.

視線推定 目の領域に対して二値化を行った上で楕円あ てはめを行い,虹彩領域候補を検出する.そして, 顔向き推定の際に得られた眼球中心の 次元座標 と,虹彩領域候補の画像上座標および顔向き推定 結果から計算した虹彩中心の 次元座標を結ぶ直 線を視線方向とする.

(5)



画像処理結果の統合

上述の処理は各単眼カメラごとに行われるが、 最終 的にそれらの情報は図 に示すように画像統合サーバ に集められ、対話制御部に送られる。

また、一定時間頭部検出が全くされなかった場合は、 ユーザが去ったと見なし、 その情報も対話制御部に送 られる。この場合は状態がリセットされる。

!

対話制御



受け入れられる質問

本システムで受け入れられる主要な質問を次に示す。

 [カテゴリ]の名所を見せて

 [スポット名]について教えて

 [スポット名]の[内容]を教えて

 検索結果のリストが表示されている場合,件目 を見せて

カテゴリは、現在のところ桜・紅葉・庭園の 種類 を用意している。

 内容に含まれるものは、時刻表・行き方・地 図・近くのレストラン等が用意されている。 これらの 単語が認識された場合、 システムはそれを表示する処 理に移る。このとき、スポット名が省略されていた ら、直前に話題になっていたスポット名についての 話題が継続されているものと見なす。

システムは約 の観光スポットについてのデータ ベースを持っており、各スポットについては、それぞ れ各カテゴリにおいてどの程度有名か、および時刻表・ 行き方・位置等の情報が格納されている。

これらのデータベースに含まれないスポット名、 お よび内容については、 抽出されたキーワードを用いて

33&)で検索を行い、その結果をリストとして表示す るようになっている。それに対して のように発話する ことによって、検索結果の4).サイトを表示できる。



状態遷移

本システムでは、図"に示すように、以下の つの 状態を用意している。

 初期状態:カテゴリ四分割表示

 観光スポット四分割表示

 主要コンテンツ四分割表示

" 対話の状態遷移

 各種コンテンツ二分割・四分割表示

 初期状態では、本システムで検索できる「桜の名 所」「庭園の名所」「紅葉の名所」等のカテゴリ名が四 分割で表示される。

 観光スポット四分割表示では、 で選択した条件 を満たす観光スポットの写真と簡単な説明が ヶ所分、 ランダムで表示される。

 主要コンテンツ四分割表示では、  で選ばれた 観光スポットの概要が左上に表示され、 その他に「行 き方と時刻表」「近くのレストラン」「地図」と、この システムで検索できる主な情報の種類が示される。

 各種コンテンツ表示では、話題となっているス ポット周辺の地図・近くのレストランのリスト ・その 中にあるレストランの詳細 ・京都駅からそのスポット へのバスの時刻表等が表示される。 また、用意されて いるコンテンツ以外を要望する発話がユーザからあっ たとシステムが判断した場合は、 その発話に含まれる キーワードで33&)で検索を行った結果のリスト、お よびその番目に来たサイトが表示される。

この状態は、基本的には と遷移する ことを想定しており、システムが推薦を行うという設 定になっている場合は、四分割表示されているコンテ ンツのうちどこをユーザが見ているかを推定し、 そこ に表示されているものをシステムが推薦する形で自動 的に状態が遷移する。

(6)

ただし、どの状態からでも、観光カテゴリ名を発話 すれば へ、現在話題になっているところと違う観光 スポット名について「スポット名(について教えて)」 と発話すれば へ、「スポット名内容について教 えて」(内容は、地図・近くのレストラン・行き方・時 刻表)と発話すれば へ遷移するようになっている。

また、画像処理によって人物が検出されない状態が 一定時間続いたとき、あるいはユーザが「ありがとう」 と発話した場合には、状態がリセットされてに戻る。

"

実証実験

本システムの実証実験として、   月に、被 験者 名に約分の間このシステムを使って観光ス ポット情報を検索してもらうという実証実験を行った。 なお、 名のうち名については、日を変えて合計

回使ってもらった。

その被験者による評価では、 ユーザは自由な発話を 促されてもシステムに受け入れられるような発話を探 し、最初に教示された質問やそれに類する発話をしよ うとする傾向があること、 特にシステムの音声認識能 力が低いことを把握したと思われる後半にはその傾向 が強まることが観測された。

また、音声対話システムと画像処理との融合を示す ための、無発話時の視線に基づく推薦については、 あ る一定時間発話がないときに推薦を行うための閾値を 秒から秒と設定して実験を行った。しかし、それ に対してユーザが戸惑うことが多いことが観測された。 原因として、その設定時間が短すぎることのほか、 選 択に迷うのではなくシステムに対してどのようなこと を質問すべきか自体を迷うことが多いように見受けら れたことが推測される。

#

おわりに

我々は、音声対話システムに非言語情報認識処理を 組み込んで、気の利いた対話型情報提示システムを構 築することを目指し、 そのプロトタイプとなるシステ ムを構築した。

本システムは、インチプラズマディスプレイの周 囲に、音声入力用マイク・画像入力用カメラ単眼 台 およびステレオを設置したものである。また、対 話の題材としては京都周辺の観光案内を採用し、 さら に、メインの対話を音声で行いつつ、 無発話時には画 像情報を利用してユーザの顔向きから興味を推定して 推薦を行うというシナリオを実装した。 さらに、その シナリオを用いた実証実験を行った。

その結果、実験時に設定した推薦を行うまでの無発 話時間 からが短すぎるという観察結果は得ら

れた。しかし、本システムは、発話区間検出の精度が低 く、また、音声にて認識できる単語や質問の幅が狭かっ たため、十分な評価ができるまでには至らなかった。 今後は、実証実験の発話ログを解析して定量的な評 価を行うとともに、各認識部分の精度を改善して、 非 言語情報と音声対話との融合に関するよりきめ細かな 評価を行う予定である。

参考文献

河原 河原達也#川嶋宏彰#平山高嗣#松山隆司

話を通じてユーザの意図・興味を探り情報検索・ 提示する情報コンシェルジェ#情報処理# 5& #

 #++  6    

 ℄ 伊藤玄#葦苅豊#實廣貴敏#中村哲 音声認識統

合環境の概要と評価報告#日本音響学会

 年秋期研究発表会講演論文集#   

  ℄ 依 田 育 士# 坂 上 勝 彦 多 地 点 ス テ レ オ 距 離 情報による人の認識と表現手法の提案#信学技報#

7  !#++ 6"   

-./01'  -./01'# 8 ()#  '!

%/#-901'#0:/ )%0,!

, )+), ), ; ) % (',3 <0) , =/,'

 )&) ',#  , ,> , :'

; ), ?)0:%)) 3,'',;?  

小林 小林亮博#佐竹純二#平山高嗣#川嶋宏彰#松山 隆司 の動的選択に基づく不特定人物の顔追 跡#情処学5研報#"#++ 6   

小林 ℄ 小林亮博#香山健太郎#))=,39(#角薫#

加藤丈和#門林理恵子#山崎達也 顔向き・頭部動 作推定を用いたプロアクティブ情報提示システム の提案#信学会全国大会  

 ℄  1',3# 山口修 顔画像処理技術の動 向前編# 情報処理#5&#  #++  6 "

  

水口$℄ 水口充#浅野哲#佐竹純二#小林亮博# 平山高 嗣#川嶋宏彰#小嶋秀樹#松山隆司 ', %.',3

システムの積極的な働きかけによる視線パタンか らの興味推定# 情処学ヒューマンコンピュータイ ンタラクション研報# #++6  $

佐竹 佐竹純二# 小林亮博# 平山高嗣# 川嶋宏彰#

山隆司 高解像度撮影における実時間視線推定の高 精度化# 信学技報7 $#5&$# # ++ $6   

図 
 ステレオカメラからの人物検出処理 近接・接触がある場合にも安定して個別人物領域の抽 出が可能になっている。 図 
 の下半分の図は、本システムで用いている !  
 の層から !
 の層まで、  の層の様子を並 べたものである。各正方形の中央下部がディスプレイ の存在位置であり、黒が物体の存在しない領域、灰が 視界外およびオクルージョンにより観測できない領域 であり、それ以外の色つきの領域が人物候補領域  同じ 色は同一人物を示す  となる。 さらに、個々の人物領域とさ

参照

関連したドキュメント

G,FそれぞれVlのシフティングの目的には

直腸,結腸癌あるいは乳癌などに比し難治で手術治癒

 高齢者の外科手術では手術適応や術式の選択を

( 同様に、行為者には、一つの生命侵害の認識しか認められないため、一つの故意犯しか認められないことになると思われる。

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

あれば、その逸脱に対しては N400 が惹起され、 ELAN や P600 は惹起しないと 考えられる。もし、シカの認可処理に統語的処理と意味的処理の両方が関わっ

当面の間 (メタネーション等の技術の実用化が期待される2030年頃まで) は、本制度において

理由:ボイラー MCR範囲内の 定格出力超過出 力は技術評価に て問題なしと確 認 済 み で あ る が、複数の火力