協調学習のための言語・非言語アウェアな
ツール間連携プラットフォーム
Verbal and Non-verbal Aware Tool Connection Platform for Collaborative Learning
杉本葵 林佑樹 瀬田和久
Aoi SUGIMOTO, Yuki HAYASHI, and Kazuhisa SETA
大阪府立大学大学院
人間社会システム科学研究科
Graduate School of Humanities and Sustainable System Sciences, Osaka Prefecture University
Abstract: In the research area of CSCL, a number of systems have been developed based on each learning
objective. Although there are many CSCL systems, very few attempts have been made at constructing a CSCL system dealing with not only verbal but also non-verbal information. In this paper, we propose a platform for CSCL systems which developers can access participants’ multimodal data. In our platform, we introduce a message protocol distinguishing whether a message is related authentication processing or not. The message protocol enables developers to construct learning tools by accessing several verbal and nonverbal communication signals for different types of learning objective.
1 はじめに
他者との相互作用を通じて意見を交換したり自己 の理解を深めたりする協調学習が重要視される中, CSCL の研究領域において様々なシステムが開発さ れている.協調学習は学習目的に基づき,グループ の構成員(学習者のみで構成される,学習者と教師 で構成される等)や,課題設定(事前に学習を行う/ 行わない,解のある/ない問題に取り組む等)等が異 なり,様々な学習形態が挙げられる.CSCL でも様々 な学習形態を想定のもと,学習目的に合目的な学習 ツールを備えたシステムが個別に開発されてきた. 開発の際,システム共通の認証処理を共有し学習ツ ールの基本的な機能を利用することができれば,支 援対象に応じた機能を備えるだけで開発を行える. 学習目的に応じたプラグインを組み込める CMS と して,学習管理機能やオンライン上で参加者の交流 環境等を提供する Moodle[1]が挙げられる.Moodle は社会的構成主義の立場に基づき,参加者の非同期 的な交流の場を提供することで学びあいや教えあい の促進を狙いとしている.一方,本研究では学習中 に参加者が行う即時的なインタラクションに着目す る. 実世界の協調学習では,発言のやり取りに加え, 視線や韻律といった非言語的な情報も用いて学習を 進めており,これらのマルチモーダル情報を扱って グループ会話の様子や参加者の役割を分析する研究 が盛んに行われている[2][3].一方で,これらの知見 を活かしたCSCL システムはそう多く存在しない. そこで,本研究では開発者が言語・非言語情報に アクセスし,学習目的に合目的な学習ツールを組み 込み可能なCSCL システムを実現するためのプラッ トフォームを提案する.2 要件定義
開発者がCSCL システムとして新たな学習ツール を組み込む際,システム共通の認証処理を意識せず 開発できれば,どのように協調学習を支援するかに 専念して開発を行える.また,他の学習ツールを活 用し,学習ツール同士を連携させ拡張的に開発でき ることが望ましい. 開発する学習ツール上で,誰と誰によって議論が 進行されている,議論の先導者が誰から誰に変わっ た,といった意味のある高次な解釈を導くためには, 誰が誰を見ている,誰が話している,といった単一 のコミュニケーションチャネルに基づく情報を統合 理解することが求められる[4].このとき,開発者は 参加者にどのような支援をするかに応じて,言語・ 非言語情報にアクセスできることが望まれる. 以上より,プラットフォームが提供する機能とし て以下の3 点を挙げる. (1) 開発者がシステムに共通の認証処理を意識せず, 学習目的に合目的な学習ツールを組み込める機 人工知能学会研究会資料 SIG-ALST-B504-06能 (2) ある学習ツールが,他の学習ツールから発信さ れる情報を活用できる機能 (3) 開発者が,参加者の言語・非言語情報にアクセス し,支援対象に応じてその扱いを操作できる機 能 これらの要件を満たすため,プラットフォームで は通信される様々なメッセージを系統的に管理する ためのプロトコルを備える.
3 プラットフォーム構築
3.1 プラットフォーム構成
図1 にプラットフォームの構成を示す.本プラッ トフォームはサーバ・クライアント型の構成をとる. サーバはRTMP プロトコルに準拠した Red5 サーバ を拡張する形で実装しており,ユーザ認証管理やデ ータベースの更新処理を行う.クライアント側のシ ステム処理機構(図1-①)では,サーバ側とユーザ 認証処理を実現する.参加者の言語・非言語情報は マルチモーダル情報管理機構(図 1-②)で管理さ れ,クライアント側に接続された各種センシングデ バイスから取得可能なデータをサーバへ送信する. 学習ツール管理機構(図1-③)では,開発者が独自 に構築した学習ツールが管理され,サーバから受信 したメッセージを適宜学習ツールへ分配する役割を 担う.3.2 メッセージプロトコル
サーバ・クライアント間ではログイン/ログアウト などシステムが共通して行う認証処理に用いられる 情報や,開発者が学習ツールの開発に伴い定義する 情報など様々なデータがやりとりされる.2 章で挙 げた要件を満たすために,メッセージプロトコル処 理の機能として以下の①~③を挙げる.機能①,② は2 章で挙げた要件(1)を,機能③は要件(2),(3)を満 たすものとなっている. ① プラットフォーム/開発者定義メッセージの識別 開発者がシステムに共通の認証処理を意識せず開 発を行うために,やりとりするメッセージをプラッ トフォーム/開発者のどちらが定義,処理するのかを 判別する機能 図2 メッセージ構造 図1 プラットフォーム構成図② メッセージの拡張 開発者による新たな学習ツールの開発や,プラッ トフォームで言語・非言語データを取得する新たな センシングデバイスの導入を行う際,通信するメッ セージを新たに定義できる機能 ③ メッセージの活用 開発者が活用したいメッセージを登録することで, 学習ツール上で受信できる機能. 図2,図 3 はそれぞれ,①~③の機能を実現する ためのメッセージ構造と通信フローを示す.全ての メッセージはJSON データに統一して通信される仕 組みを採用し,プラットフォームではメッセージと JSON 間のデータ変換機能(図 3-i)を備えている. メッセージはプラットフォーム/開発者のどちら が処理を行うかによりSY_M と SE_M に分類して定 義され,通信の際,プラットフォーム上でこれらを 識別する機構(図3-ii)を備えることで機能①を実 現する. 機能②の拡張性実現のために,全てのメッセージ を抽象化したMessage を用意する.メッセージを定 義するにはこのMessage を継承して作成することで, 独自の内容を組み入れたメッセージを通信できる. 機能③の実現に当たり,開発者が活用する SE_M の中でもSI_M,LT_M,I_M に分類し各メッセージ の意味を共有し易くする.各学習ツールが活用する メッセージは学習ツール管理機構に登録する.シス テム処理機構から送信されるSE_M は学習ツール管 理機構に登録されているメッセージであれば学習ツ ールに分配する.この機能をプラットフォームが提 供することで開発者はデータ変換やサーバでの処理 を意識せず,活用したいSE_M の登録とその処理を 記述し通信することができる.
3.3 開発者に提供する言語・非言語情報
本節では,マルチモーダル情報管理機構がサーバ を介して随時セッション参加者全員にI_M として送 信する言語・非言語情報について述べる. 参加者は,様々な言語・非言語情報を用いて学習 を進める.協調学習において特に重要な機能を持つ 情報として,本研究では,発話,視線,筆記,頭部 の情報に着目した.表1 はマルチモーダル情報管理 機構が管理し,現在,開発者がアクセス可能な言語・ 非言語情報を示す.ここで検出できる言語・非言語 情報は,デバイスの仕様に沿ったものとなっている. 図3 メッセージの通信フロー (i) (i) (ii) (ii) (i) (i)1. 発話行動:発話開始/終了,発話内容 参加者は発話の内容はもちろん,声の大きさや高 さ,速さ等も考慮してコミュニケーションをとる. 本プラットフォームでは,マイクからの入力情報に 基づき,入力音量が一定時間閾値を超えた/下回った 場合を発話の開始/終了とみなし,検出する. また,音声認識API を用いて韻律情報を開発者に 提供する予定である. 2. 視線動作:注視開始/終了,対象オブジェクト 視線はコミュニケーション場面において,意図や 感情の伝達機能,会話の調整機能などの役割を果た す[5].本プラットフォームでは,ディスプレイ装着 型デバイスのアイトラッカとEyeX SDK[6]を用いて 関心領域(AOI)を開発者が定義するフォームやパネ ル,ラベルといったオブジェクトに自動で割り当て ることで,“どのツール”/“誰の発言した内容”/“誰 の映像”を見ているのか等を検出する. 3. 筆記動作:筆記開始/終了 学習中の意見交換に伴い,参加者が学習内容の記 録や意見の集約等に向けて筆記作業を行うことが考 えられる.デジタルペン[7]を利用し,筆記動作をし ているか否かを検出する.文字認識API を用いた筆 記内容の検出も予定している. 4. 頭部動作:頭部方向 他者の意見に同意することや,疑問点を抱えて考 え事をする等の場面でうなずきや首を傾ける等の頭 部動作が起こる.本プラットフォームではKinect[8] をディスプレイに装着し,3 方向の軸で頭部方向を 検出する.また,顔の特徴として目・鼻・口の座標 を取得する機能の実装も予定しており,参加者の表 情を検出できる可能性がある.
4 システム開発
本プラットフォームでは,CSCL システムで特に 重要な学習ツールとして,以下で挙げる基本的な機 能を備えた学習ツールを実装した.図4 は本プラッ トフォームに基づき実装した学習ツールが動作して いるシステム例を示す.参加者は選択ウィンドウで 使用する学習ツールを選択し,学習に必要な学習ツ ールを使用することができる.開発者は本プラット フォームで備えた基本的な機能を持つ学習ツールを 拡張することでも開発を行える.以下では各学習ツ ールの協調学習における機能や,実装の際利用した プラットフォームの機能,今後開発者が扱える可能 性がある情報等について述べる. 1. テキストチャットツール(図 4-A) テキストチャットでは,対面環境では必然性のあ る視聴覚を用いた即時的なインタラクションは行わ れない.だからこそ,ネットワーク環境での協調学 習において“自身の考えをまとめてから発言する”, “対話が続きやすい”といったいくつかの効果があ るとされる[9]. チャットメッセージの内容が1つの AOI として 定義されているため,ユーザが誰のどの発言を見返 しているか認識できる. 2. ビデオチャットツール(図 4-B) ビデオチャットは遠隔地にいながら,相手の表情 図4 プラットフォームに基づくシステム例 図5 ビデオチャットツールの表示例 種類 デバイス 情報 発話行動 マイクロフォン 発話開始/終了 発話内容 韻律* 視線動作 Eye Tracker 注視開始/終了 注視対象オブジェクト 筆記動作 デジタルペン 筆記開始/終了 筆記内容* 頭部動作 Kinect 頭部方向 顔特徴座標* 表1 開発者がアクセス可能な言語・非言語情報 *は今後実装予定の情報であることを示す等を認知し,インタラクションを行える手段として 利用される. 図5 はビデオチャットツール上で,マルチモーダ ル情報管理機構が提供する参加者の言語・非言語情 報を活用しリアルタイムに表示しているものを示す. “誰が発言している”,“誰がノートをとっている”, “誰が自分のことを見ている”といった参加者の振 る舞いをリアルタイムに表示する. 3. 音声会話履歴ツール(図 4-C) 音声認識による参加者の議論内容を残すことは, 議論の振り返りや,議論内容の整理を負荷なく行え る手段として利用できる可能性がある. マルチモーダル情報管理機構が提供する発話内容 を利用し,発話者の名前と共に表示する.テキスト チャットと同様に表示する発話内容ごとにAOI を付 与し,ユーザが誰のどの発言を見ているのかを認識 できる. 4. Web ブラウザツール(図 4-D) 参加者は話題に対する興味内容や疑問点に関する 情報検索の学習リソースとしてWeb ブラウザを使用 する. 計算機に備わっている既存のブラウザではなく, プラットフォーム上のブラウザを利用することで, 参加者がブラウザを見ているのか見ていないのかを 検出できる. 5. 共有ボードツール(図 4-E) 図形問題などの課題設定のもと,テキストで伝え られない情報を伝える手段としてだけでなく,話し 合いのプロセスを共有するためのツールとして重要 なツールである[10]. 現在はフリーハンドで自由な形を記述し,リアル タイムに記述内容を共有する基本機能を備えたツー ルとなっている.文字や図形の認識機能を備えるこ とで,ユーザが書いたものの認識や誰がどの文字/図 形を見ているのか分析に扱える可能性がある.
5 議論
本章では,既存研究の知見に基づき本プラットフ ォームが提供する言語・非言語情報の扱いの可能性 について考察する.表 2 は Gatica-Perez[2]が取り上 げた対面環境での少人数グループインタラクション についてマルチモーダル情報を扱って分析している 研究例を示す. 会話モデルにもいくつかの段階が存在するが,中 でも“誰が誰に話している”という一時的な状況を 識別した研究では,Otsuka ら[11]が行った発話区間 と視線の代用として頭部の方向を扱い発話者と受話 者をリアルタイムに可視化した研究がある.Zhang ら[12]や McCowan ら[13]は隠れマルコフ過程モデル に基づく様々なモデルを利用し,参加者個人のプリ ミティブな情報(話している,筆記動作を行ってい る等)を基にグループのインタラクション形態(プ レゼンテーション,ディスカッション等)を自動分 析した.Hillard ら[14]は発言の回数や,発言内容に含 まれる肯定的/否定的な単語数を利用して参加者が 肯定的/否定的に会話に参加しているかを分析した. また,会話を支配する人は発話時間が長いだけでな く,身振りなどの非言語的な振る舞いが他者より大 きいことがいわれている[15].視線動作は参加者が 他者へ及ぼす影響力と関係しているとして,Exline ら[16]は社会的地位が高い人は“話しながら他者を 見る”,“話を聞きながら発話者を見る”といった行 動がより多く見受けられることを示した.Pianesi ら [17]は,発話区間や発言が重なった回数,手と身体の 動きから,議論におけるタスクに基づく役割(指導 者,情報提供者,記録者等)と社会情緒に基づく役 割(主人公,支える人,対立的な立場にいる人等) の2 つの観点から参加者の役割推定を行った. 表2 にあるようにこれまで扱われてきた言語・非 言語情報の一部は本プラットフォームで実装済み, あるいは実装予定のものとなっている.既存研究が *斜体・下線で記載された情報は現在,本プラットフォームを利用し開発者が扱えるものを示す 分析対象 先行研究 言語・非言語情報 会話モデル 会話構造 Otsuka et al. [11] 発話区間,頭部(視線の代用) 会話形態 Zhang et al. [12] 発話区間,筆記区間 McCowan et al. [13] 韻律(高さ,大きさ,速さ),身体の向き(頭部,姿勢の代用) 心理状態 参加意欲 Hillard et al. [14] 発話数,発話内容個人特性 支配性 Dunber and Burgoon [15] 発話時間,発言の重なり,姿勢,身振り,表情 Exline et al. [16] 発話区間,視線
役割 タスク/
社会情緒 Pianesi et al. [17] 発話区間,発言の重なり,身体と手の動作
対象とする対面環境と我々が対象とする遠隔環境の インタラクションの違いには十分に留意する必要が あるが,本プラットフォームが検出する言語・非言 語情報を,既存研究の知見を活用して扱うことで, 参加者の学習態度や役割を分析できる可能性がある. また,発話内容をテキストで表すように,検出す るローデータを加工し,プリミティブな言語・非言 語データを開発者に提供するため,開発者がマルチ モーダルインタラクションの先行研究を基に,独自 の知見を積み上げる基盤を部分的に提供する.
6 まとめと今後の課題
本研究ではシステム開発者が学習ツールを組み込 みでき,参加者の言語・非言語情報を扱えるプラッ トフォームを構築した.様々なメッセージを系統的 に管理し,システム共通の処理機構と開発者による 処理機構を区別することで,開発者がシステムの認 証処理やサーバでの処理を意識せず,学習目的に合 目的な学習ツールの開発に専念できる. 今後の課題では,まず,言語・非言語情報の追加 が挙げられる.音声,視線,筆記,頭部も重要な要 素であるが,うなずきや韻律など人のインタラクシ ョン場面において重要な振る舞いの要素は他にも存 在する.また,こうした多様な言語・非言語情報を 扱って独自の解釈機構を通じ協調学習を支援するこ とも課題である.言語・非言語情報をどのように扱 い,どのようにユーザにフィードバックを与えるの か検討する予定である.参考文献
[1] https://moodle.org/[2] Gatica-Perez D.: Automatic nonverbal analysis of social interaction in small groups: A review, Image and Vision Computing, Vol. 27, No. 12, pp. 1775-1787, (2009) [3] 林佑樹, 小川裕史, 中野有紀子: 協調学習における非 言語情報に基づく学習態度の可視化, 情報処理学会 論文誌, Vol. 55, No. 1, pp. 189-198, (2014) [4] 角康之, 矢野正治, 西田豊明: マルチモーダルデータ に基づいた多人数会話の構造理解, 社会言語科学会 誌, Vol. 14, No. 1, pp. 82-96, (2011)
[5] Kendon A.: Some functions of gaze-direction in social interaction, Acta psychologica, 26, pp. 22-63, (1967) [6] http://developer.tobii.com/eyex-sdk/
[7] http://www.airpen.jp/
[8] http://www.xbox.com/ja-JP/kinect
[9] Looi C. K.: Exploring the affordances of online chat for learning, International Journal of Learning Technology,
Vol. 1, No. 3, pp. 322–338, (2005)
[10] 堀公俊, 加藤彰: ファシリテーション・グラフィック, 日本経済新聞出版社, 第 16 版, (2015)
[11] Otsuka K., Araki S., Ishizuka K., Fujimoto M., Heinrich M., Yamato J.: A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker dirization, Proc. of the Int. Conf. on Multimodal Interfaces, (2008)
[12] Zhang D., Gatica-Perez D., Bengio S., McCowan I., Lathoud G.: Modeling indivisual and group actions in meetings: a two-layer HMM framework, Proc. of the IEEE CVPR Workshop on Event Mining, (2004)
[13] McCowan I., Gatica-Perez D., Bengio S., Lathoud G., Barnard M., Zhang D.: Automatic analysis of multimodal group actions in meetings, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 3, pp. 305-317, (2005)
[14] Hillard D., Ostendorf M., Shriberg E.: Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, (2003)
[15] Dunbar N.E., Burgoon J.K., Perceptions of power and interactional dominance in interpersonal relationships, Journal of Social and Personal relationships, Vol. 22, No. 2, pp. 207-233, (2005)
[16] Exline R.V., Ellyson S.L., Long B.: Visual behavior as an aspect of power role relationships, Advances in the Study of Communication and Affect, (1975)
[17] Pianesi P., Zancanaro M., Lepri B., Cappelletti A.: A multimodal annotated corpus of consensus decision making meetings, The Journal of Language Resources and Evaluation, Vol. 41, No. 3-4, pp. 409-429, (2008)