協調学習のための言語・非言語アウェアなツール間連携プラットフォーム

(1)

協調学習のための言語・非言語アウェアな

ツール間連携プラットフォーム

Verbal and Non-verbal Aware Tool Connection Platform for Collaborative Learning

杉本葵林佑樹瀬田和久

Aoi SUGIMOTO, Yuki HAYASHI, and Kazuhisa SETA

大阪府立大学大学院

人間社会システム科学研究科

Graduate School of Humanities and Sustainable System Sciences, Osaka Prefecture University

Abstract: In the research area of CSCL, a number of systems have been developed based on each learning

objective. Although there are many CSCL systems, very few attempts have been made at constructing a CSCL system dealing with not only verbal but also non-verbal information. In this paper, we propose a platform for CSCL systems which developers can access participants’ multimodal data. In our platform, we introduce a message protocol distinguishing whether a message is related authentication processing or not. The message protocol enables developers to construct learning tools by accessing several verbal and nonverbal communication signals for different types of learning objective.

1 はじめに

他者との相互作用を通じて意見を交換したり自己の理解を深めたりする協調学習が重要視される中， CSCL の研究領域において様々なシステムが開発されている．協調学習は学習目的に基づき，グループの構成員（学習者のみで構成される，学習者と教師で構成される等）や，課題設定（事前に学習を行う/ 行わない，解のある/ない問題に取り組む等）等が異なり，様々な学習形態が挙げられる．CSCL でも様々な学習形態を想定のもと，学習目的に合目的な学習ツールを備えたシステムが個別に開発されてきた．開発の際，システム共通の認証処理を共有し学習ツールの基本的な機能を利用することができれば，支援対象に応じた機能を備えるだけで開発を行える．学習目的に応じたプラグインを組み込める CMS として，学習管理機能やオンライン上で参加者の交流環境等を提供する Moodle[1]が挙げられる．Moodle は社会的構成主義の立場に基づき，参加者の非同期的な交流の場を提供することで学びあいや教えあいの促進を狙いとしている．一方，本研究では学習中に参加者が行う即時的なインタラクションに着目する．実世界の協調学習では，発言のやり取りに加え，視線や韻律といった非言語的な情報も用いて学習を進めており，これらのマルチモーダル情報を扱ってグループ会話の様子や参加者の役割を分析する研究が盛んに行われている[2][3]．一方で，これらの知見を活かしたCSCL システムはそう多く存在しない．そこで，本研究では開発者が言語・非言語情報にアクセスし，学習目的に合目的な学習ツールを組み込み可能なCSCL システムを実現するためのプラットフォームを提案する．

2 要件定義

開発者がCSCL システムとして新たな学習ツールを組み込む際，システム共通の認証処理を意識せず開発できれば，どのように協調学習を支援するかに専念して開発を行える．また，他の学習ツールを活用し，学習ツール同士を連携させ拡張的に開発できることが望ましい．開発する学習ツール上で，誰と誰によって議論が進行されている，議論の先導者が誰から誰に変わった，といった意味のある高次な解釈を導くためには，誰が誰を見ている，誰が話している，といった単一のコミュニケーションチャネルに基づく情報を統合理解することが求められる[4]．このとき，開発者は参加者にどのような支援をするかに応じて，言語・非言語情報にアクセスできることが望まれる．以上より，プラットフォームが提供する機能として以下の3 点を挙げる． (1) 開発者がシステムに共通の認証処理を意識せず，学習目的に合目的な学習ツールを組み込める機人工知能学会研究会資料 SIG-ALST-B504-06

(2)

能 (2) ある学習ツールが，他の学習ツールから発信される情報を活用できる機能 (3) 開発者が，参加者の言語・非言語情報にアクセスし，支援対象に応じてその扱いを操作できる機能これらの要件を満たすため，プラットフォームでは通信される様々なメッセージを系統的に管理するためのプロトコルを備える．

3 プラットフォーム構築

3.1 プラットフォーム構成

図1 にプラットフォームの構成を示す．本プラットフォームはサーバ・クライアント型の構成をとる．サーバはRTMP プロトコルに準拠した Red5 サーバを拡張する形で実装しており，ユーザ認証管理やデータベースの更新処理を行う．クライアント側のシステム処理機構（図1－①）では，サーバ側とユーザ認証処理を実現する．参加者の言語・非言語情報はマルチモーダル情報管理機構（図 1－②）で管理され，クライアント側に接続された各種センシングデバイスから取得可能なデータをサーバへ送信する．学習ツール管理機構（図1－③）では，開発者が独自に構築した学習ツールが管理され，サーバから受信したメッセージを適宜学習ツールへ分配する役割を担う．

3.2 メッセージプロトコル

サーバ・クライアント間ではログイン/ログアウトなどシステムが共通して行う認証処理に用いられる情報や，開発者が学習ツールの開発に伴い定義する情報など様々なデータがやりとりされる．2 章で挙げた要件を満たすために，メッセージプロトコル処理の機能として以下の①～③を挙げる．機能①，② は2 章で挙げた要件(1)を，機能③は要件(2)，(3)を満たすものとなっている． ① プラットフォーム/開発者定義メッセージの識別開発者がシステムに共通の認証処理を意識せず開発を行うために，やりとりするメッセージをプラットフォーム/開発者のどちらが定義，処理するのかを判別する機能図2 メッセージ構造図1 プラットフォーム構成図

(3)

② メッセージの拡張開発者による新たな学習ツールの開発や，プラットフォームで言語・非言語データを取得する新たなセンシングデバイスの導入を行う際，通信するメッセージを新たに定義できる機能 ③ メッセージの活用開発者が活用したいメッセージを登録することで，学習ツール上で受信できる機能．図2，図 3 はそれぞれ，①～③の機能を実現するためのメッセージ構造と通信フローを示す．全てのメッセージはJSON データに統一して通信される仕組みを採用し，プラットフォームではメッセージと JSON 間のデータ変換機能（図 3－i）を備えている．メッセージはプラットフォーム/開発者のどちらが処理を行うかによりSY_M と SE_M に分類して定義され，通信の際，プラットフォーム上でこれらを識別する機構（図3－ii）を備えることで機能①を実現する．機能②の拡張性実現のために，全てのメッセージを抽象化したMessage を用意する．メッセージを定義するにはこのMessage を継承して作成することで，独自の内容を組み入れたメッセージを通信できる．機能③の実現に当たり，開発者が活用する SE_M の中でもSI_M，LT_M，I_M に分類し各メッセージの意味を共有し易くする．各学習ツールが活用するメッセージは学習ツール管理機構に登録する．システム処理機構から送信されるSE_M は学習ツール管理機構に登録されているメッセージであれば学習ツールに分配する．この機能をプラットフォームが提供することで開発者はデータ変換やサーバでの処理を意識せず，活用したいSE_M の登録とその処理を記述し通信することができる．

3.3 開発者に提供する言語・非言語情報

本節では，マルチモーダル情報管理機構がサーバを介して随時セッション参加者全員にI_M として送信する言語・非言語情報について述べる．参加者は，様々な言語・非言語情報を用いて学習を進める．協調学習において特に重要な機能を持つ情報として，本研究では，発話，視線，筆記，頭部の情報に着目した．表1 はマルチモーダル情報管理機構が管理し，現在，開発者がアクセス可能な言語・非言語情報を示す．ここで検出できる言語・非言語情報は，デバイスの仕様に沿ったものとなっている．図3 メッセージの通信フロー (i) (i) (ii) (ii) (i) (i)

(4)

1. 発話行動：発話開始/終了，発話内容参加者は発話の内容はもちろん，声の大きさや高さ，速さ等も考慮してコミュニケーションをとる．本プラットフォームでは，マイクからの入力情報に基づき，入力音量が一定時間閾値を超えた/下回った場合を発話の開始/終了とみなし，検出する．また，音声認識API を用いて韻律情報を開発者に提供する予定である． 2. 視線動作：注視開始/終了，対象オブジェクト視線はコミュニケーション場面において，意図や感情の伝達機能，会話の調整機能などの役割を果たす[5]．本プラットフォームでは，ディスプレイ装着型デバイスのアイトラッカとEyeX SDK[6]を用いて関心領域（AOI）を開発者が定義するフォームやパネル，ラベルといったオブジェクトに自動で割り当てることで，“どのツール”/“誰の発言した内容”/“誰の映像”を見ているのか等を検出する． 3. 筆記動作：筆記開始/終了学習中の意見交換に伴い，参加者が学習内容の記録や意見の集約等に向けて筆記作業を行うことが考えられる．デジタルペン[7]を利用し，筆記動作をしているか否かを検出する．文字認識API を用いた筆記内容の検出も予定している． 4. 頭部動作：頭部方向他者の意見に同意することや，疑問点を抱えて考え事をする等の場面でうなずきや首を傾ける等の頭部動作が起こる．本プラットフォームではKinect[8] をディスプレイに装着し，3 方向の軸で頭部方向を検出する．また，顔の特徴として目・鼻・口の座標を取得する機能の実装も予定しており，参加者の表情を検出できる可能性がある．

4 システム開発

本プラットフォームでは，CSCL システムで特に重要な学習ツールとして，以下で挙げる基本的な機能を備えた学習ツールを実装した．図4 は本プラットフォームに基づき実装した学習ツールが動作しているシステム例を示す．参加者は選択ウィンドウで使用する学習ツールを選択し，学習に必要な学習ツールを使用することができる．開発者は本プラットフォームで備えた基本的な機能を持つ学習ツールを拡張することでも開発を行える．以下では各学習ツールの協調学習における機能や，実装の際利用したプラットフォームの機能，今後開発者が扱える可能性がある情報等について述べる． 1. テキストチャットツール（図 4－A）テキストチャットでは，対面環境では必然性のある視聴覚を用いた即時的なインタラクションは行われない．だからこそ，ネットワーク環境での協調学習において“自身の考えをまとめてから発言する”， “対話が続きやすい”といったいくつかの効果があるとされる[9]．チャットメッセージの内容が１つの AOI として定義されているため，ユーザが誰のどの発言を見返しているか認識できる． 2. ビデオチャットツール（図 4－B）ビデオチャットは遠隔地にいながら，相手の表情図4 プラットフォームに基づくシステム例図5 ビデオチャットツールの表示例種類デバイス情報発話行動マイクロフォン発話開始/終了発話内容韻律* 視線動作 Eye Tracker 注視開始/終了注視対象オブジェクト筆記動作デジタルペン筆記開始/終了筆記内容* 頭部動作 Kinect 頭部方向顔特徴座標* 表1 開発者がアクセス可能な言語・非言語情報 *は今後実装予定の情報であることを示す

(5)

等を認知し，インタラクションを行える手段として利用される．図5 はビデオチャットツール上で，マルチモーダル情報管理機構が提供する参加者の言語・非言語情報を活用しリアルタイムに表示しているものを示す． “誰が発言している”，“誰がノートをとっている”， “誰が自分のことを見ている”といった参加者の振る舞いをリアルタイムに表示する． 3. 音声会話履歴ツール（図 4－C）音声認識による参加者の議論内容を残すことは，議論の振り返りや，議論内容の整理を負荷なく行える手段として利用できる可能性がある．マルチモーダル情報管理機構が提供する発話内容を利用し，発話者の名前と共に表示する．テキストチャットと同様に表示する発話内容ごとにAOI を付与し，ユーザが誰のどの発言を見ているのかを認識できる． 4. Web ブラウザツール（図 4－D）参加者は話題に対する興味内容や疑問点に関する情報検索の学習リソースとしてWeb ブラウザを使用する．計算機に備わっている既存のブラウザではなく，プラットフォーム上のブラウザを利用することで，参加者がブラウザを見ているのか見ていないのかを検出できる． 5. 共有ボードツール（図 4－E）図形問題などの課題設定のもと，テキストで伝えられない情報を伝える手段としてだけでなく，話し合いのプロセスを共有するためのツールとして重要なツールである[10]．現在はフリーハンドで自由な形を記述し，リアルタイムに記述内容を共有する基本機能を備えたツールとなっている．文字や図形の認識機能を備えることで，ユーザが書いたものの認識や誰がどの文字/図形を見ているのか分析に扱える可能性がある．

5 議論

本章では，既存研究の知見に基づき本プラットフォームが提供する言語・非言語情報の扱いの可能性について考察する．表 2 は Gatica-Perez[2]が取り上げた対面環境での少人数グループインタラクションについてマルチモーダル情報を扱って分析している研究例を示す．会話モデルにもいくつかの段階が存在するが，中でも“誰が誰に話している”という一時的な状況を識別した研究では，Otsuka ら[11]が行った発話区間と視線の代用として頭部の方向を扱い発話者と受話者をリアルタイムに可視化した研究がある．Zhang ら[12]や McCowan ら[13]は隠れマルコフ過程モデルに基づく様々なモデルを利用し，参加者個人のプリミティブな情報（話している，筆記動作を行っている等）を基にグループのインタラクション形態（プレゼンテーション，ディスカッション等）を自動分析した．Hillard ら[14]は発言の回数や，発言内容に含まれる肯定的/否定的な単語数を利用して参加者が肯定的/否定的に会話に参加しているかを分析した．また，会話を支配する人は発話時間が長いだけでなく，身振りなどの非言語的な振る舞いが他者より大きいことがいわれている[15]．視線動作は参加者が他者へ及ぼす影響力と関係しているとして，Exline ら[16]は社会的地位が高い人は“話しながら他者を見る”，“話を聞きながら発話者を見る”といった行動がより多く見受けられることを示した．Pianesi ら [17]は，発話区間や発言が重なった回数，手と身体の動きから，議論におけるタスクに基づく役割（指導者，情報提供者，記録者等）と社会情緒に基づく役割（主人公，支える人，対立的な立場にいる人等）の2 つの観点から参加者の役割推定を行った．表2 にあるようにこれまで扱われてきた言語・非言語情報の一部は本プラットフォームで実装済み，あるいは実装予定のものとなっている．既存研究が *斜体・下線で記載された情報は現在，本プラットフォームを利用し開発者が扱えるものを示す分析対象先行研究言語・非言語情報会話モデル会話構造 Otsuka et al. [11] 発話区間，頭部(視線の代用) 会話形態 Zhang et al. [12] 発話区間，筆記区間 McCowan et al. [13] 韻律(高さ，大きさ，速さ)，身体の向き(頭部，姿勢の代用) 心理状態参加意欲 Hillard et al. [14] 発話数，発話内容

個人特性支配性 Dunber and Burgoon [15] 発話時間，発言の重なり，姿勢，身振り，表情 Exline et al. [16] 発話区間，視線

役割タスク/

社会情緒 Pianesi et al. [17] 発話区間，発言の重なり，身体と手の動作

(6)

対象とする対面環境と我々が対象とする遠隔環境のインタラクションの違いには十分に留意する必要があるが，本プラットフォームが検出する言語・非言語情報を，既存研究の知見を活用して扱うことで，参加者の学習態度や役割を分析できる可能性がある．また，発話内容をテキストで表すように，検出するローデータを加工し，プリミティブな言語・非言語データを開発者に提供するため，開発者がマルチモーダルインタラクションの先行研究を基に，独自の知見を積み上げる基盤を部分的に提供する．

6 まとめと今後の課題

本研究ではシステム開発者が学習ツールを組み込みでき，参加者の言語・非言語情報を扱えるプラットフォームを構築した．様々なメッセージを系統的に管理し，システム共通の処理機構と開発者による処理機構を区別することで，開発者がシステムの認証処理やサーバでの処理を意識せず，学習目的に合目的な学習ツールの開発に専念できる．今後の課題では，まず，言語・非言語情報の追加が挙げられる．音声，視線，筆記，頭部も重要な要素であるが，うなずきや韻律など人のインタラクション場面において重要な振る舞いの要素は他にも存在する．また，こうした多様な言語・非言語情報を扱って独自の解釈機構を通じ協調学習を支援することも課題である．言語・非言語情報をどのように扱い，どのようにユーザにフィードバックを与えるのか検討する予定である．

参考文献

[1] https://moodle.org/

[2] Gatica-Perez D.: Automatic nonverbal analysis of social interaction in small groups: A review, Image and Vision Computing, Vol. 27, No. 12, pp. 1775-1787, (2009) [3] 林佑樹, 小川裕史, 中野有紀子: 協調学習における非言語情報に基づく学習態度の可視化, 情報処理学会論文誌, Vol. 55, No. 1, pp. 189-198, (2014) [4] 角康之, 矢野正治, 西田豊明: マルチモーダルデータに基づいた多人数会話の構造理解, 社会言語科学会誌, Vol. 14, No. 1, pp. 82-96, (2011)

[5] Kendon A.: Some functions of gaze-direction in social interaction, Acta psychologica, 26, pp. 22-63, (1967) [6] http://developer.tobii.com/eyex-sdk/

[7] http://www.airpen.jp/

[8] http://www.xbox.com/ja-JP/kinect

[9] Looi C. K.: Exploring the affordances of online chat for learning, International Journal of Learning Technology,

Vol. 1, No. 3, pp. 322–338, (2005)

[10] 堀公俊, 加藤彰: ファシリテーション・グラフィック, 日本経済新聞出版社, 第 16 版, (2015)

[11] Otsuka K., Araki S., Ishizuka K., Fujimoto M., Heinrich M., Yamato J.: A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker dirization, Proc. of the Int. Conf. on Multimodal Interfaces, (2008)

[12] Zhang D., Gatica-Perez D., Bengio S., McCowan I., Lathoud G.: Modeling indivisual and group actions in meetings: a two-layer HMM framework, Proc. of the IEEE CVPR Workshop on Event Mining, (2004)

[13] McCowan I., Gatica-Perez D., Bengio S., Lathoud G., Barnard M., Zhang D.: Automatic analysis of multimodal group actions in meetings, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 3, pp. 305-317, (2005)

[14] Hillard D., Ostendorf M., Shriberg E.: Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, (2003)

[15] Dunbar N.E., Burgoon J.K., Perceptions of power and interactional dominance in interpersonal relationships, Journal of Social and Personal relationships, Vol. 22, No. 2, pp. 207-233, (2005)

[16] Exline R.V., Ellyson S.L., Long B.: Visual behavior as an aspect of power role relationships, Advances in the Study of Communication and Affect, (1975)

[17] Pianesi P., Zancanaro M., Lepri B., Cappelletti A.: A multimodal annotated corpus of consensus decision making meetings, The Journal of Language Resources and Evaluation, Vol. 41, No. 3-4, pp. 409-429, (2008)

協調学習のための言語・非言語アウェアなツール間連携プラットフォーム