• 検索結果がありません。

国立大学法人豊橋技術科学大学

N/A
N/A
Protected

Academic year: 2025

シェア "国立大学法人豊橋技術科学大学"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

【 解 禁 】 新聞:平成22年11月10日(水)朝刊以降

インターネット:平成22年11月10日(水)6時以降

平成22年11月5日

豊橋技術科学大学 情報・知能工学系 デジタルメディア処理研究室(新田研究室)およびマル チモーダル対話研究室(桂田研究室)は,音声,タッチ,ジェスチャなど多様な入出力操作を制御 する独自言語XISL (eXtensible Interaction Scenario Language) を開発してきました。株式会社 NTTドコモは,今回,音声対話技術を搭載した携帯電話2010-2011冬春モデルを発表(11月)しま したが,これらにはフュートレックグループ (株式会社フュートレックおよび(株) ATR-Trek) が 提供した,音声対話技術が搭載され,この中で本学との XISL 使用に関する契約に基づき製品化し た,対話制御言語(Caribis○R )が使用されています。

この技術を用いると,マルチモーダル対話(音声,タッチ,ペン,ジェスチャなど多様な入力操 作と,これらに対する応答画面・音声などを組み合せた次世代ヒューマンインタフェース) が端末 上で可能になります。今回携帯電話で使われたのは,このうち音声で会話しながら携帯を操作する 技術です(下図A参照)。

今後この新技術は、音声とタッチ(スマートフォン),音声とジェスチャ(デジタルTV),さらに音 声と様々なセンサーを組み合せた対話 (カーナビ,ロボット) へと展開され,人間により近付いた マルチモーダルな会話の実現に応用されることが期待されます (下図B参照)。XISLはこれらのシ ステム実装でキーになる技術です。

図 A: 音声対話による携帯電話操作 図 B: 音声とタッチのマルチモーダル対話による操作

※ 平成22年11月9日(火)10:30から、新田教授、桂田講師による記者説明会(デモンストレ ーション有り)を開催します(於:本学事務局3階特別会議室)。 ぜひ取材いただけますよう、

よろしくお願いいたします。

豊橋技術科学大学開発の 「対話制御言語 XISL」 を利用 した音声操作できる携帯端末が NTT ドコモから発売

お問い合わせや情報・知能工学系 新田恒雄教授,桂田講師に取材を希望される場合は,

総務課広報係までご連絡下さいますようお願いいたします。

取材申込先: 総務課広報係 野田・岡崎 TEL 0532-44-6506

国立大学法人豊橋技術科学大学 Press Release

将来は

(2)

詳細説明資料

音声対話からマルチモーダル対話へ

■ 音声対話システムは,電話回線を通して利用者がコンピュータと音声で対話する装置として,1970 年代に始まりました。多くの方が,電話のプッシュボタンと音声応答で,チケット予約の問い合わせな どをされた経験をお持ちでしょう。近年は,電話とコンピュータが一体となって,自動で案内業務を行 う,ボイスポータルサイトも増えています。

音声対話では,音声認識結果(「豊橋から東京まで切符を三枚ください」)から発話内容を解釈します。

この例では,出発地=豊橋,目的地=東京,切符枚数=3,大人/子供=? となります。次に解釈結果に応じ て,利用者に返す応答を作成します。例では,大人か子供かを確定しないと切符を発行できません。そ こで,システムは「大人の枚数と子供の枚数を指定してください」というメッセージを返します。この ように,入力音声の内容に応じて応答文を作成するといった,一連の流れをシステムの中で予め用意す る必要があります。一連の対話の流れを記述する言語として,現在では VoiceXML という音声対話記述 言語が,インターネットの標準化団体W3Cで標準化されています。

■ 一方,インターネットの世界では,マウスクリック(あるいはキーボードやタッチ操作)と表示画面 の組み合せで対話が構成されてきました。これをグラフィカル・ユーザー・インタフェース(GUI)と呼 びます。携帯情報端末の時代に入り,こうしたGUIと音声対話を合体させる必要が出てきた結果,マル チモーダル対話(略称 MMI; Multi-Modal Interaction)が脚光を浴びています。

様々な入力と出力を同時に扱うことで,MMIは次のような多くの利点を持っています。

(1) 分かり易い対話を提供できる: 例えば,「画面表示とタッチ操作」および「音声によるガイドと 音声入力」の双方が提供されていれば,利用者は自分の目的に合った組合せを使用できる。

(2) 対話を円滑に進行できる: 例えば,「グラフを表示しつつ(一覧できる),音声でグラフの詳細を 説明する」,あるいは,音声入力とタッチ入力を並行して利用することで,周囲が煩い時はタッ チで,操作項目が多くて目では追えない時は音声入力で,というように環境の変化に応じた 利用を可能にします。

(3) 人間に近付いた対話を提供できる: 「これ」と言いながら指で図を指し示す,といった人間が 使用することの多い対話方法を利用できる。「画面にアニメのキャラクタを登場させ,このキャ ラクタ(エージェントと呼ばれます)との間で,互いに音声やジェスチャを使用して対話する」

ことで,人間に近い対話を行える。

このほか表Aに示すように,音声入力とペン(あるいは指)入力などは互いに相補う機能があり,こう した複数の入力操作を適宜利用できるようにしたことも,MMIの利点と言えます。

表 A ペン入力と音声入力 ~ 二つの入力操作の相補性

2005/08/26 ISTC講習会新田 25

ペン入力 音声入力

利用者の拘束 パッドの上に構えて操作 動作は拘束しない

(目と手を拘束する)

利用場所の制限は少ない 会議中,騒音下で使えない 入力速度 遅 い 速 い(健常者の場合)

記録・編集 記録に残り,編集も簡単 記録・編集には不向き 入力対象 少項目の確実な直示に向く 多項目の直示が可能

文字・図形・ジェスチャと 感情・個人性を表現し易い 多彩な機能を持つ

その他 考えながらの入力に適する 即応的な使い方に適する

聴覚・発声障害者も利用可 視覚障害者も利用可

(3)

マルチモーダル対話を制御する言語XISL開発の経緯

■ マルチモーダル対話(MMI)は,上に述べたように音声だけの対話と比べ,より複雑な対話制御が必 要になります。この研究は,新田が(株)東芝で’80年代に様々な音声入力システムを開発した際に限界 を感じたことから始まりました。当時開発したシステムには,TVの音量・チャンネル切り替えのための 音声認識ボード開発,銀行向け電話音声認識・応答システム開発,音声認識LSIと音声入力電話機の開 発,様々な社会システム(エレベータシステム,券売機,銀行ATMほか)への音声入力応用などが挙げら れます。

■ ‘90年代に入って,音声入出力だけの限界を確信し,画面とタッチ操作を加えたシステム(マルチ モーダル対話システム)の研究に重心を移すと共に,複雑になる対話制御を行う言語の研究を開始しま した。この頃開発したシステムには,警視庁の依頼で開発した地理案内システムなどがあります。利用 者の接近を感知するセンサー,利用者のタッチ操作と自由発話(「えーと,ヒルトンホテルは何処です か?」など)を音声で入力できるシステムで,案内地図はFAXで出力しました。

■ ‘98年末には豊橋技術科学大学へ移り,新たにマルチーダル対話システムの開発と,開発に必要な MMI記述言語の研究を再開しました。この頃,インターネットの標準化団体であるW3C (World-Wide-Web Consortium) では,XML (eXtensible Markup Language) を音声対話の制御に使用する,音声ブラウザ (Voice Browser)のワーキンググループが発足しています。そこで,マルチモーダル対話(MMI)の記述言 語が,標準化日程に上ること見越し,XMLベースのMMI記述言語を開発することにしました。

■ 2001年から5年間は,W3CのMMI-WGへ参加し,マルチモーダル対話の標準化活動に従事しました。

この間,研究室ではXISL (eXtensible Interaction Scenario Language) の開発と実装・改良に努めま した。この頃はマイクロソフト社,インテルなどが押す言語SALTや,IBMなどが押すX+Vが互いに推進 グループを形成して競いましたが,現在,これらの活動は両者とも下火になっています。

XISLが他の言語に比べ優位な特長は,後述するように,(A) 最初からマルチモーダル対話制御に必要 な記述能力を持たせていたこと,および(B) 入出力(モダリティと呼ばれる)の拡張性が高く,新しい端 末仕様にも対応できること,の二つが挙げられます。

■ 2003 年から 2007 年にかけて,情報処理学会の音声対話技術コンソーシアム(ISTC: Interactive Speech Technology Consortium) 活動を立ち上げ,代表として音声・マルチモーダル対話研究の普及活 動に従事するともに,同じく情報処理学会の情報規格調査会学会で試行標準化専門委員会の活動を通し て,音声インタフェース,マルチモーダル対話に関する標準化を推進しました。

図Cは,コンソーシアム活動の中で開発したマルチモーダル対話システムの開発ツール(Interaction Builder) です。開発に必要な入出力の部品を登録しておくことで,マウス中心の簡単な操作により複 雑なシステム開発ができるようになりました。

図 C: マルチモーダル対話システム 開発ツール

(4)

マルチモーダル対話の制御言語XISLの特長

■ マルチモーダル対話に必要な対話制御を記述する能力に優れています

マルチモーダル対話では,様々な入出力を適切に制御することが必要です。一例として,図Dに三種 類の制御を示しています。

(1) 逐次的制御 これは入出力を順番に制御する要素です。最初に商品を入力し,続いて個数を

入力するなどの場合です。全て入力しないと次には進めません。

(2) 並行的制御 これは入出力を全て並行して(並列に)制御する要素です。順番は任意です。

商品と個数を順不同で受け付けられます {「りんご(を)」「三個」,「三個(の)」

「リンゴ」など} 。逐次的な処理と比べて効率良い対話ができますが,入力要素が足 り

ない場合は,催促などの処理が必要になります。

(3) 択一的制御 これは入出力を択一的に制御する要素です。すなわちどれか一つが受付けられると,

次に進みます。音声入力でもタッチ入力でも,またその混合でも同じ「りんご」を 指示しているなら,受け付けます。

図 D: マルチモーダル対話における 三つの制御 {逐次,並行,択一}

XISLは,条件分岐や入れ子構造によって,さらに複雑な対話を記述することも可能になっています。

■ 入出力(モダリティと呼ばれる)の拡張性が高く,新しい端末仕様にも対応できます

この特長を実現するために,入出力を記述する要素(<input> および <output>) は,内容の詳細を端 末や入出力方法(モダリティ)ごとに自由に規定できるようにしました。

端末の入出力インタフェース(フロントエンド)は,対話を開始すると対話制御部(XISLが制御)との間 で,例えばGPS情報では,属性値が「GPS」,受け取る変数は「位置情報」のように動作を規定して対話 を進めることができます。

これまで,XISLは様々な応用システム上で実装・評価が行われてきました。今後の計画としては,以 下があります。

(1) 情報処理学会試行標準化委員会が策定した「マルチモーダル対話の6階層モデル」に基づく,

対話システムの実装と評価 (デモ予定; より柔軟な対話システムの開発が可能に)。

(2) 様々なセンサーネットワークからの動的情報を端末で受け,状況に則した対話行動を支援できる システムの設計と実証テスト(カーナビやロボットなどの適応行動が可能に)。

参照

関連したドキュメント

国立大学法人豊橋技術科学大学 Press Release 平成29年3月2日 豊橋技術科学大学の都築和代教授は、産業技術総合研究所、旭化成ホームズと共同で、 エアコン冷房の気流が睡眠に与える影響について調べました。熱帯夜であってもエアコン を使って部屋の温度を快適にコントロールすることにより、よく眠ることができます。し

国立大学法人豊橋技術科学大学 Press Release 平成25年11月20日 建築・都市システム学系 渋谷達郎助手(建築設計・環境デザイン)が本学学生有志 と取組んでいる新城市の古民家再生・黒谷プロジェクト(旧黒谷家住宅改修工事)が、 この度、2013 年度グッドデザイン賞主催:公益財団法人日本デザイン振興会を受賞 し、グッドデザイン・ベスト 100

国立大学法人豊橋技術科学大学 Press Release 2023年9月11日 <概要> 本学では、約450名の学部4年次学生全員が、必修科目として「実務訓練(6単位)」を 履修します。12月に卒業研究を終えた4年次学生を、その直後の1~2月の2か月間(8時 間×34日間)、約250の国内・海外企業(公的機関含む)に派遣します。学生は、各機関で

入 札 公 告 国立大学法人豊橋技術科学大学において,下記のとおり役務の提供について一般競争に 付します。 1 競争入札に付する事項 (1)件名及び数量等 米国Clarivate Analytics社製データベース(Web of Science)の利用 一式 (2)契約期間 平成31年4月1日~平成32年3月31日 (3)納入場所

平成26年9月30日 『科学技術イノベーション戦略』 総合科学技術・イノベーション会議 議員 久間 和生氏 を講師に迎え、テーラーメイド・バトンゾーン講演会を開催 【聴講自由】 【概 要】 【講演概要】 科学技術イノベーションは、「この国の未来のかたち」を決める鍵であり、我が国が直面