• 検索結果がありません。

参与者の理解に基づく身体動作のアノテーション手法の提案

N/A
N/A
Protected

Academic year: 2021

シェア "参与者の理解に基づく身体動作のアノテーション手法の提案"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

参与者の理解に基づく身体動作のアノテーション手法の提案

A proposal of annotation scheme for body movement based on participants’

understandings

坊農真弓

1

, 須永将史

2

Mayumi Bono

1

, Masafumi Sunaga

2

1

国立情報学研究所コンテンツ科学研究系

1

Digital Content and Media Sciences Research Division, National Institute of Informatics

2

神奈川大学

2

Kanagawa University

Abstract: In this paper, we introduce an annotation scheme for body movement based on participants’ understandings in interaction. In previous studies of annotation scheme for building a dialogue system, labels which labelers put on a software were determined in advance. In our annotation scheme, we use a form of sentence to describe body movements and set two kinds of hierachical-related tiers; upper tier for interactional practice and lower tier for psysical practice. And we set meta-level tier in order to observe a relationship between modalities. We believe that it is useful information to detect similar expressions and sequential pattern of multimodal interactions.

1. はじめに

我々は,実世界における人々のコミュニケーショ ンを異分野融合型のアプローチで解明していくため の研究環境の構築を試みている.具体的には,これ まで日本科学未来館の科学コミュニケーターの実践 についてフィールド調査を行い[1, 2],そこで得られ たデータをマルチモーダルコーパスとして整備する 試みを進めてきた[3].将来的には,本研究で得られ たアノテーションデータはコミュニケーション研究 だけに閉じるのではなく,対話処理や自然言語処理 や画像処理などの情報学分野に提供したいと考えて いる. 本研究の根底にあるのは,コミュニケーション研 究者側がイニシアティブを取った,情報学分野への 異分野融合型研究の提案の試みである.これまでに, コミュニケーション研究者側がイニシアティブを取 った異分野融合型研究として,人工知能学会言語・ 音声理解と対話処理研究会 (SIG-SLUD)が 1990 年代 に主導していた「対話タグ」「談話タグ」の試みがあ る.本稿で提案する身体動作のアノテーション手法 は,「対話タグ」「談話タグ」などのように事前に決 められたタグセットを発話や順番などの単位に付与 するのではなく,タグセットや発話や順番などの単 位を事前に決めずに作業するものである. 本稿では,構築中のマルチモーダルコーパスの中 で,特に身体動作のアノテーションの一手法を紹介 する.

2. 背景・アノテーション手順

2.1 日本科学未来館 SC データ

本稿では,日本科学未来館(以下,未来館と呼ぶ) の展示フロアにおける科学コミュニケーションの一 種である対話場面をデータとして用いる.この場面 は,科学コミュニケーター(Science Communicator; 以下SC と呼ぶ)と来館者とのやりとりの場面であ り,SC は科学的知識を来館者に説明することを通じ て科学者・技術者と一般の人々をつなぐことを目的 としている.SC の未来館での職務は,(1) 展示フロ アでの解説や実演,(2) 展示やイベントの企画・制 作,(3) 科学情報の発信や他の組織とのネットワー クづくり,の 3 つに大別できる.特に,(1) に関し ては,「知識を伝えるだけでなく,皆さんと共に考え ながら話を深めていく」,「正解のない問題に対し, 様々な立場の意見を聞くことでみんなが新たな気づ きを得る」ことを「未来館スタイル」として打ち出 している1.こうした「未来館スタイル」の実現のた めに,SC は「科学技術に関する正確な知識だけでな

1http://www.miraikan.jst.go.jp/online/communication/work.htm l 人工知能学会研究会資料 SIG-SLUD-B503-02

(2)

く,来館者がどのような知識や関心を汲み取って, 来館者に合わせた対話を構築する技術」を磨くこと が課題となっている[3]. こうした SC の取り組む課題は,我々コミュニケ ーション研究者らともその関心を共有している. 我々は,インタラクション研究を多角的に進めるた め,マルチモーダルコーパスの作成に取り組んでお り,コーパスを形作るデータベースのひとつとして, 未来館の科学コミュニケーション場面の解明に取り 組んできた.とくに,SC が来館者に説明を行なう際, 展示物や建物そのものとといった非常に豊かな環境 的資源が用いられており,後者の身体動作はそのな かでもとりわけ相互行為的に有意味な資源となって いる. 本稿では,そうした身体動作に対する,日常的な 理解にもとづいた自然言語による記述を積み重ねる ための一つの方法を検討する.この方法は,社会学 において発展してきた会話分析および相互行為分析 の転写法からその着想を得ている.そしてこの方法 は,対話処理研究を中心に用いられてきた従来のア ノテーション手法を会話分析および相互行為分析に 近づける試みでもある.とはいえ,得られた結果や 知見が直ちに会話分析および相互行為分析に貢献で きるとはいい難い.また同様に,対話処理や自然言 語処理といった情報学分野のコンテクストに結びつ けるためにも,記述手法の共有や記述結果の手渡し 方について検討が必要である.少なくとも,対話シ ステムのマルチモーダルデザインにおける基礎的な 議論の形成には貢献できるだろう.

2.2 レリバントアノテーション

ある特定の行為やそれに伴う身体動作が相互行為 上どのような意味を持つのか,どのような機能を持 つのか,という観点から,身体動作に対する関心が 高まりつつある.また,身体動作への関心の高まり と並行して,身体動作の記述(アノテーション, annotation)の方法の整備の必要性が,言語学,心理 学,社会学,認知科学などの分野から唱えられてい る. 我々はこれまで,異分野融合によるマルチモーダ ルコーパス作成のための,身体動作のアノテーショ ン手法の方針を検討してきた([3][4]).[3]では,「直 感的にわかる粒度」での記述を進める方針が打ち出 された.これまでの論文でもこの「直感的にわかる 粒度」の転記資料をもとに,議論を進めてきた([5][6]). 本プロジェクトが目指すこうした記述の先行研究と して,[7]および[8]が挙げられる. 従来のアノテーション手法では,行為を記述する ための「行為タグ」,行為と行為の関係を記述するた めの「対話タグ」,対話に内在する情報の新旧やトピ ックに関する構造を記述するための「談話タグ」が 事前に用意され,それらのタグセットを用いてアノ テーションすることが一般的であった.本稿で提案 するアノテーション手法は,事前にタグセットを準 備しない.それに加えて,会話分析および相互行為 分析の手法を用いて,より参与者の志向性および理 解にもとづいた,「参加者にとってレリバントな行為 記述」を提供する.本稿ではこの記述手法を「レリ バントアノテーション」と呼ぶことにしたい.

2.3 モダリティの分割

レリバントアノテーションでは,事前にタグセッ トは用意しないものの,さしあたりいま現在,胴体 (body),手(hand),足(foot),顔(face)の 4 つの身体部 位に対して,モダリティごとに分割して記述を進め ている.例えば,body では「胴体を傾ける」,foot では「一歩前に出る」,face では「覗き込む」といっ た情報がその都度適した文章表現で記述される. [9]は,その場の相互行為にとってレリバントだと 参与者本人が認識可能な身体動作を,発話の転記の 下にグレーの文字で別の行を作成し,そこに書き添 える手法を取っている.以下は[9]の手法を元に日本 語会話とそれに伴う身体動作を記述したものである [10].

ここでは02 行目と 03 行目の間にグレーの行が挿 入されている.タバタが「こえだけじゃなくて」と 発話した際の「こ」と「え」のちょうど間で,ヒム ラがオオノを見始めている.こういったヒムラの視 線の方向変更を記述することによって,一体何が見 えてくるのであろうか. 分析的に観察すると次のようになる.座席位置, 視線方向,コンテクストを総合的に解釈して,01 行 目と 02 行目のタバタの発話はオオノに向けられて いる.ここでヒムラは,(1) タバタの発話の末尾の 訪れをいち早く察知し,(2) タバタの発話が向けら れている相手(次話者候補)に視線を向け変えている. 会話連鎖上では,ヒムラが話し始めるのはもっと後 である.しかしながら,この部分でヒムラは目の前 で起こっている会話の流れを正確に察知し,「傍参与 者」として,会話参与に対する積極的な姿勢を示し ているのである. 本研究を始めた当初,[9]や[10]のように会話分析 および相互行為分析で用いられる転記手法を拡張さ

(3)

1 ELAN 上でのレリバントアノテーションの一例 せ,身体動作の記述を試みようとした.しかしな がら,話者やモダリティを定義してからアノテー ション層を追加するフォーマットのアノテーショ ンソフトウェアELAN2では,身体動作をモダリテ ィごとに分割し,記述していく手法が適している と判断した.この結果,モダリティを先に分割し, アノテーション層を追加する方法を選択した(図 1).

2.4 上位層・下位層・メタレベル層

レリバントアノテーションでは,モダリティご とに分割された身体動作それぞれを,さらに「上 位層」「下位層」のふたつの層に区分して記述して いる3.例えば,指差し動作の場合,hand のモダリ ティの層において

2 https://tla.mpi.nl/tools/tla-tools/elan/ 3 とはいえこのことは,アノテーションの層が二層に限られる ということを意味するわけではない.三層以上の記述ももちろ ん可能である.たとえば, 「第一層:v の発話に対する理解を強く示す」 「第二層:何度もうなずく」 「第三層:何度も首を上下に振る」 のように記述できる.しかしながら,本プロジェクトでは,便 宜上上位層と下位層しか準備していない.この作業過程におい て,アノテーターがさしあたり上述したような可能な記述の中 から,二つ選んで,上位層・下位層として記述している. 上位層 すばる望遠鏡を指差す 下位層 人差し指をすばる望遠鏡に向ける というような記述がなされる.上位層では,相互 行為において参与者が当該の行為をどのように理 解したのか,すなわち身体動作に対する「参加者 にとってのレリバントな理解」に志向して記述す る.一方で下位層では,身体の物理的な動きに志 向した記述を試みている.指差しは行為としての 隣接性が生じないため,この記述手法の特徴が見 えづらい.本稿では記述を試みていないが,行為 の隣接性が生じる場合があるモダリティspeech(発 話)に対し,次のような記述ができる. 上位層 質問をしている 下位層 語尾を上げる 語尾の上昇イントネーションは,それ単独で見 ると発話の音調的変化に過ぎないが,対話の中で 用いられると,「質問」という行為として記述がで きる. すなわち,発話における特徴(音調,文法,etc) が下位層に記述され,それによって達成される行

(4)

為が上位層に記述されるのである. そして,「上位層」「下位層」の記述が完了した 後,さらに上位として,すべてのモダリティを取 りまとめた「メタレベル層」をつくる.ここには, 複数の身体動作が全体として構成していることを 書く.例えば次のような記述ができる(図 1 末尾部 分). hand 上位層 天文台の模型を指差す face 上位層 v01 の方を見続ける foot 上位層 ゆっくりすばる望遠鏡へ歩く メタレベル層 v01 をすばる望遠鏡へ案内する 「歩を緩めながら,前方の展示物の一部を指差 し,視線は来館者に向ける」というSC のふるまい は,我々のデータの中で頻繁に観察されている. SC の典型的な案内のふるまいであることが予想 される. こういったアノテーション結果が十分に蓄積さ れれば,「案内する」「指差す」「歩く」という一般 動詞によって記述されるふるまいを比較すること ができ,映像上で起こっていたことの類似点を見 つけ出すといったことができる可能性がある.

2.5 アノテーション進捗状況

現在は,メタレベル層を主に記述するリーダー (本稿第二著者)と各モダリティの上位層と下位層 を記述する作業者3 名の合計 4 名でアノテーショ ン作業を進めている.今現在25 データへのアノテ ーションが終了している.25 データの平均時間長 は1 分 25 秒,合計時間長は 35 分程度である.例 えば,1 分 32 秒間がアノテーション対象になって いるデータ04 は,hand が 23 記述,foot が 20 記述, face が 39 記述,body が 25 記述の上位層下位層記 述がなされており,これらのモダリティを統合し たメタレベル層には19 記述が施されている.全体 の記述数は現在確認中であるが,データ04 を基準 に単純計算して,hand が 529 程度の記述,foot が 460 程度の記述,face が 897 程度の記述,face が 575 程度の記述の上位層下位層記述がなされてお り,これらのモダリティを統合したメタレベル層 には437 程度の記述が施されていると予想できる. 図 2 事例 1 のレリバントアノテーション

(5)

3 事例 2(左)と事例 3(右)の身体動作

3. 事例

3.1 事例 1

事例1 において SC は,後ろに一歩下がること (foot 下位層)によって v(来館者)らの視界に入らな いようにし(foot 上位層),「も一個」という発話と 同時に顔を右側に向けること(face 下位層)で自身 の注意が向いている方向を示し(face 上位層),同時 に状態を右側にひねること(body 下位層)で,face と同様自身の注意が向いている方向を示し,v らの 向く方向を示している(body 上位層).そして,こ うした各身体部位の動作は,全体として「説明を 開始するための準備態勢をとる」という記述があ たえられている.

3.2 事例 2

4

事例2 において SC は,左手を挙げ天文台の模 型のなかを指差すこと(hand 下位層)で,自身の発 話のなかの「あれ」が指示する対象を明示してい る(hand 上位層).この手振りの途中から,天文台 の模型を覗き込むこと(face 下位層)で顔によって も「あれ」が指示する対象を明示し(face 上位層), それらの動作は胴体を v01(来館者 01)の方に傾け て(body 下位層)指差しの出発点が v01 の視界の中 心に来るようにしながら行なわれている(body 上 位層).またそれに続いて,左足に重心を置き元に 戻すこと(foot 下位層)でも,すばる望遠鏡の中にあ る「人(の模型)」を指しやすくしている(foot 上位 層).そして,以上のふるまい全体によって,メタ レベル層に記述された「注意を向けさせる」こと の構成が可能になっている.

3.3 事例 3

事例3 において SC は,「この」と同時に左手が 上に挙げられること(hand 下位層)で,「この」が示

4 以降の事例 2 と事例 3 は,紙面の都合上レリバントア ノテーションは掲載しない. す場所を示している(hand 上位層).その後,上げ た左手を,指をぴんと張りながら左右に振ること (hand 下位層)で,説明している場所が示される (hand 上位層).その直後,胴体を v の方に向ける こと(body 下位層)で,v の反応が確認できるように している(body 上位層).また SC は,顔を v01 に向 け(face 下位層),v01 が宛先であることを示す(face 上位層).その後 SC は笑顔になり(face 下位層),自 身が語っている内容が笑うべき内容であることを 示す(face 上位層).これによって,SC は,展示物 に注意を向けさせながら,発話によって展示物の 説明をしている,と記述できる.

3.4 事例のまとめ

事例2 および事例 3 の共通点は,どちらも「注 意を向けさせる」と記述することが可能である点 にある.事実,SC が注意を向けさせた後,v らは その方向に視線や胴体を向け,「注意を向けている こと」を示している.しかしながら注目したいの は,その「注意を向けさせる」ことの身体部位に よる構成は,それぞれ異なった動作によって構成 されている点にある.この観点に立ち,記述を重 ねていけば,どの身体部位のどのような動作が, ある活動を構成することができるのか,その構成 のさまざまな可能性についての知識と経験は少な くとも深まるだろう. さて事例2 および事例 3 が事例 1 と異なるのは, 各身体部位によるふるまいの始まりと終わりが, 事例1 ではすべて一致しているのに対して事例 2, 3 では一致しない,という点にある.これはアノテ ―ションが人間の手によって行なわれるためにぶ れるということを意味するわけではなく,まずは 人々のふるまいがなされる際,身体的部位はおよ びばらばらに始まりばらばらに終わるということ を意味する.そして,そのふるまいの宛先である 共参与者がそれらを全体としてあるひとつの行為 や活動として理解していることを示せる,という のが本アノテ―ションを使うアドバンテージだと 考える.もちろん事例 1 のように,すべての身体

(6)

動作が同時に開始し,同時に終了するとみなせる 場合もある.これらは,そのふるまいを産出する SC が,そのふるまいをおこなうために身体部位を 「同時に」動かしてある行為や活動を行なってい るものとして記述しているのである.

6. おわりに

本手法では.タイムフレームでセグメント化す るわけではなく,また,発話単位などのセグメン トが事前に準備されているわけではない.すなわ ち,セグメント化すらアノテーターに委ねられて いるのである.身体動作の始まりと終りをどのよ うにセグメント化するかもアノテーターが決めな ければならない,よって,予めセグメント化され たフレームへの記述に比べると,時間がかかると いう問題がある.また,始まりと終りのセグメン ト化がアノテーターに委ねられるが故に,各身体 部位(hand, face, body , foot)間のタイムフレーム がそろわず,同様に,各身体部位と,身体部位が 組み合わさって構成されるメタレベル層とのタイ ムフレームもそろわない.もちろん,メタレベル 層でおきていると観察される活動を構成する諸々 のふるまいをボトムアップで確認でき,会話分析 および相互行為分析を試みる際の出発点にはなる と思われるが,さらなる検討が必要かもしれない. この手法は,1980 年代以降の身体動作研究を再 燃させた[11]の仕事を彷彿とさせる.[11]は,発話, ジェスチャー,胴体,ときには眉の動きまでを, 本手法のように並列させて表記し,様々なモダリ ティがハーモニーを奏でる楽譜のように記述する ことを試みている.ジェスチャー研究はその後, 手の動きに執着するようになり,この試みは失わ れた.今後は,身体動作と身体動作の間の隣接性 や,次のふるまいを投射する身体動作など,より マルチモーダルインタラクションの連鎖的構造を 明らかにするためのアノテーション手法が重要に なってくるのではないだろうか.本手法が成立す るためには,アノテーション結果を利用したシス テム開発との共同研究が必要である.

謝辞

本稿は,学融合推進センター学融合研究事業「科学技術 コミュニケーションの実践知理解に基づくディスカッ ション型教育メソッドの開発」(H25-H27),JST さきが け「ビッグデータ統合利用のための次世代基盤技術の創 出・体系化」(代表:宮尾祐介)(H25-H28)および科学研究 費補助金25540091(H25-H27)による助成を受けた研究成 果の一部である.レリバントアノテーションの付与作業 を補助していただいた坂井田瑠衣氏,松本麻里氏,山本 敦氏に感謝する.

参考文献

[1] 坊農真弓,高梨克也,緒方広明,大崎章弘,落合 裕美,森田由子: 知識共創インタフェースとしての 科学コミュニケーター: 日本科学未来館における インタラクション分析, ヒューマンインタフェー ス学会論文誌, 15(4), pp.375-388 (2013)

[2] Bono, M., Ogata, H., Takanashi, K. and Joh, A.: The Practice of Showing ‘Who I am’: A Multimodal Analysis of Encounters between Science Communicator and Visitors at Science Museum, IN

Universal Access in Human-Computer Interaction,

8514, pp. 650-661 (2014) [3] 城綾実,牧野遼作,坊農真弓,高梨克也,佐藤真 一,宮尾祐介: 異分野融合によるマルチモーダルコ ーパス作成-展示フロアにおける科学コミュニケー ションに着目して-, SIG-SLUD-B401, 71, pp. 7‒12 (2014) [4] 城綾実,坊農真弓,坊農真弓,高梨克也,佐藤真 一,宮尾祐介: 異分野融合によるマルチモーダルコ ーパス設計-各種アノテーション方法と利用可能性 について-,言語処理学会第 21 回年次大会,pp. 561-54 (2015) [5] 城綾実,坊農真弓,高梨克也: 科学館における「対 話」の構築: 相互行為分析から見た「知ってる?」 の使用, 認知科学, 22(1), pp. 69-83 (2015) [6] 牧野遼作,坊農真弓,古山宣洋: フィールドにおけ る語り分析のための身体の空間陣形:科学コミュ ニケーターの展示物解説行動における立ち位置の 分析, 認知科学, 22(1), pp. 53-68 (2015) [7] 西阪仰: 分散する身体―エスノメソドロジー的相 互行為分析の展開,勁草書房 (2008)

[8] Mondada, L. : Commentary: Transcript variations and the indexicality of transcribing practices, Discourse

Studies, 9(6), pp.809-821 (2007)

[9] Mondada, L. Garden lessons: embodied action and joint attention in extended sequences, In Nasu, H. and Waksler, F. C. (Eds.) Interaction and Everyday Life:

Phenomenological and Ethnomethodological Essays in Honor of George Psathas , Plymouth, Lexington Books,

pp. 279–296. (2012)

[10] 坊農真弓. 「手話雑談におけることばと身体とマル チアクティビティ」村田和代・井出里咲子編『雑 談の美学』, ひつじ書房.(印刷中)

[11] Kendon, A. Some relationships between body motion and speech. In A. Seigman and B. Pope, editors, Studies in Dyadic Communication. Elmsford, New York: Pergamon Press, pp.177-216 (1972)

図   1   ELAN 上でのレリバントアノテーションの一例 せ,身体動作の記述を試みようとした.しかしな がら,話者やモダリティを定義してからアノテー ション層を追加するフォーマットのアノテーショ ンソフトウェア ELAN 2 では,身体動作をモダリテ ィごとに分割し,記述していく手法が適している と判断した.この結果,モダリティを先に分割し, アノテーション層を追加する方法を選択した(図 1). 2.4 上位層・下位層・メタレベル層   レリバントアノテーションでは,モダリティご とに分割された身体動

参照

関連したドキュメント

これらの協働型のモビリティサービスの事例に関して は大井 1)

算処理の効率化のliM点において従来よりも優れたモデリング手法について提案した.lMil9f

および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値

シートの入力方法について シート内の【入力例】に基づいて以下の項目について、入力してください。 ・住宅の名称 ・住宅の所在地

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

ただし、このBGHの基準には、たとえば、 「[判例がいう : 筆者補足]事実的

■使い方 以下の5つのパターンから、自施設で届け出る症例に適したものについて、電子届 出票作成の参考にしてください。

巣造りから雛が生まれるころの大事な時 期は、深い雪に被われて人が入っていけ