参与者の理解に基づく身体動作のアノテーション手法の提案

(1)

参与者の理解に基づく身体動作のアノテーション手法の提案

A proposal of annotation scheme for body movement based on participants’

understandings

坊農真弓

1

, 須永将史

2

Mayumi Bono

1

_{, Masafumi Sunaga}

2

1

_{国立情報学研究所コンテンツ科学研究系}

1

_{Digital Content and Media Sciences Research Division, National Institute of Informatics}

2

_{神奈川大学}

2

_{Kanagawa University}

Abstract: In this paper, we introduce an annotation scheme for body movement based on participants’ understandings in interaction. In previous studies of annotation scheme for building a dialogue system, labels which labelers put on a software were determined in advance. In our annotation scheme, we use a form of sentence to describe body movements and set two kinds of hierachical-related tiers; upper tier for interactional practice and lower tier for psysical practice. And we set meta-level tier in order to observe a relationship between modalities. We believe that it is useful information to detect similar expressions and sequential pattern of multimodal interactions.

1. はじめに

我々は，実世界における人々のコミュニケーションを異分野融合型のアプローチで解明していくための研究環境の構築を試みている．具体的には，これまで日本科学未来館の科学コミュニケーターの実践についてフィールド調査を行い[1, 2]，そこで得られたデータをマルチモーダルコーパスとして整備する試みを進めてきた[3]．将来的には，本研究で得られたアノテーションデータはコミュニケーション研究だけに閉じるのではなく，対話処理や自然言語処理や画像処理などの情報学分野に提供したいと考えている．本研究の根底にあるのは，コミュニケーション研究者側がイニシアティブを取った，情報学分野への異分野融合型研究の提案の試みである．これまでに，コミュニケーション研究者側がイニシアティブを取った異分野融合型研究として，人工知能学会言語・音声理解と対話処理研究会 (SIG-SLUD)が 1990 年代に主導していた「対話タグ」「談話タグ」の試みがある．本稿で提案する身体動作のアノテーション手法は，「対話タグ」「談話タグ」などのように事前に決められたタグセットを発話や順番などの単位に付与するのではなく，タグセットや発話や順番などの単位を事前に決めずに作業するものである．本稿では，構築中のマルチモーダルコーパスの中で，特に身体動作のアノテーションの一手法を紹介する．

2. 背景・アノテーション手順

2.1 日本科学未来館 SC データ

本稿では，日本科学未来館(以下，未来館と呼ぶ) の展示フロアにおける科学コミュニケーションの一種である対話場面をデータとして用いる．この場面は，科学コミュニケーター（Science Communicator；以下SC と呼ぶ）と来館者とのやりとりの場面であり，SC は科学的知識を来館者に説明することを通じて科学者・技術者と一般の人々をつなぐことを目的としている．SC の未来館での職務は，(1) 展示フロアでの解説や実演，(2) 展示やイベントの企画・制作，(3) 科学情報の発信や他の組織とのネットワークづくり，の 3 つに大別できる．特に，(1) に関しては，「知識を伝えるだけでなく，皆さんと共に考えながら話を深めていく」，「正解のない問題に対し，様々な立場の意見を聞くことでみんなが新たな気づきを得る」ことを「未来館スタイル」として打ち出している1_{．こうした「未来館スタイル」の実現のた} めに，SC は「科学技術に関する正確な知識だけでな

1_{http://www.miraikan.jst.go.jp/online/communication/work.htm} l 人工知能学会研究会資料 SIG-SLUD-B503-02

(2)

く，来館者がどのような知識や関心を汲み取って，来館者に合わせた対話を構築する技術」を磨くことが課題となっている[3]．こうした SC の取り組む課題は，我々コミュニケーション研究者らともその関心を共有している．我々は，インタラクション研究を多角的に進めるため，マルチモーダルコーパスの作成に取り組んでおり，コーパスを形作るデータベースのひとつとして，未来館の科学コミュニケーション場面の解明に取り組んできた．とくに，SC が来館者に説明を行なう際，展示物や建物そのものとといった非常に豊かな環境的資源が用いられており，後者の身体動作はそのなかでもとりわけ相互行為的に有意味な資源となっている．本稿では，そうした身体動作に対する，日常的な理解にもとづいた自然言語による記述を積み重ねるための一つの方法を検討する．この方法は，社会学において発展してきた会話分析および相互行為分析の転写法からその着想を得ている．そしてこの方法は，対話処理研究を中心に用いられてきた従来のアノテーション手法を会話分析および相互行為分析に近づける試みでもある．とはいえ，得られた結果や知見が直ちに会話分析および相互行為分析に貢献できるとはいい難い．また同様に，対話処理や自然言語処理といった情報学分野のコンテクストに結びつけるためにも，記述手法の共有や記述結果の手渡し方について検討が必要である．少なくとも，対話システムのマルチモーダルデザインにおける基礎的な議論の形成には貢献できるだろう．

2.2 レリバントアノテーション

ある特定の行為やそれに伴う身体動作が相互行為上どのような意味を持つのか，どのような機能を持つのか，という観点から，身体動作に対する関心が高まりつつある．また，身体動作への関心の高まりと並行して，身体動作の記述（アノテーション， annotation）の方法の整備の必要性が，言語学，心理学，社会学，認知科学などの分野から唱えられている．我々はこれまで，異分野融合によるマルチモーダルコーパス作成のための，身体動作のアノテーション手法の方針を検討してきた([3][4])．[3]では，「直感的にわかる粒度」での記述を進める方針が打ち出された．これまでの論文でもこの「直感的にわかる粒度」の転記資料をもとに，議論を進めてきた([5][6])．本プロジェクトが目指すこうした記述の先行研究として，[7]および[8]が挙げられる．従来のアノテーション手法では，行為を記述するための「行為タグ」，行為と行為の関係を記述するための「対話タグ」，対話に内在する情報の新旧やトピックに関する構造を記述するための「談話タグ」が事前に用意され，それらのタグセットを用いてアノテーションすることが一般的であった．本稿で提案するアノテーション手法は，事前にタグセットを準備しない．それに加えて，会話分析および相互行為分析の手法を用いて，より参与者の志向性および理解にもとづいた，「参加者にとってレリバントな行為記述」を提供する．本稿ではこの記述手法を「レリバントアノテーション」と呼ぶことにしたい．

2.3 モダリティの分割

レリバントアノテーションでは，事前にタグセットは用意しないものの，さしあたりいま現在，胴体 (body)，手(hand)，足(foot)，顔(face)の 4 つの身体部位に対して，モダリティごとに分割して記述を進めている．例えば，body では「胴体を傾ける」，foot では「一歩前に出る」，face では「覗き込む」といった情報がその都度適した文章表現で記述される． [9]は，その場の相互行為にとってレリバントだと参与者本人が認識可能な身体動作を，発話の転記の下にグレーの文字で別の行を作成し，そこに書き添える手法を取っている．以下は[9]の手法を元に日本語会話とそれに伴う身体動作を記述したものである [10]．

ここでは02 行目と 03 行目の間にグレーの行が挿入されている．タバタが「こえだけじゃなくて」と発話した際の「こ」と「え」のちょうど間で，ヒムラがオオノを見始めている．こういったヒムラの視線の方向変更を記述することによって，一体何が見えてくるのであろうか．分析的に観察すると次のようになる．座席位置，視線方向，コンテクストを総合的に解釈して，01 行目と 02 行目のタバタの発話はオオノに向けられている．ここでヒムラは，(1) タバタの発話の末尾の訪れをいち早く察知し，(2) タバタの発話が向けられている相手(次話者候補)に視線を向け変えている．会話連鎖上では，ヒムラが話し始めるのはもっと後である．しかしながら，この部分でヒムラは目の前で起こっている会話の流れを正確に察知し，「傍参与者」として，会話参与に対する積極的な姿勢を示しているのである．本研究を始めた当初，[9]や[10]のように会話分析および相互行為分析で用いられる転記手法を拡張さ

(3)

図 1 ELAN 上でのレリバントアノテーションの一例 せ，身体動作の記述を試みようとした．しかしながら，話者やモダリティを定義してからアノテーション層を追加するフォーマットのアノテーションソフトウェアELAN2_{では，身体動作をモダリテ} ィごとに分割し，記述していく手法が適していると判断した．この結果，モダリティを先に分割し，アノテーション層を追加する方法を選択した(図 1)．

2.4 上位層・下位層・メタレベル層

レリバントアノテーションでは，モダリティごとに分割された身体動作それぞれを，さらに「上位層」「下位層」のふたつの層に区分して記述している3．例えば，指差し動作の場合，hand のモダリティの層において

2 https://tla.mpi.nl/tools/tla-tools/elan/ 3 とはいえこのことは，アノテーションの層が二層に限られるということを意味するわけではない．三層以上の記述ももちろん可能である．たとえば，「第一層：v の発話に対する理解を強く示す」「第二層：何度もうなずく」「第三層：何度も首を上下に振る」のように記述できる．しかしながら，本プロジェクトでは，便宜上上位層と下位層しか準備していない．この作業過程において，アノテーターがさしあたり上述したような可能な記述の中から，二つ選んで，上位層・下位層として記述している．上位層すばる望遠鏡を指差す下位層人差し指をすばる望遠鏡に向けるというような記述がなされる．上位層では，相互行為において参与者が当該の行為をどのように理解したのか，すなわち身体動作に対する「参加者にとってのレリバントな理解」に志向して記述する．一方で下位層では，身体の物理的な動きに志向した記述を試みている．指差しは行為としての隣接性が生じないため，この記述手法の特徴が見えづらい．本稿では記述を試みていないが，行為の隣接性が生じる場合があるモダリティspeech(発話)に対し，次のような記述ができる．上位層質問をしている下位層語尾を上げる語尾の上昇イントネーションは，それ単独で見ると発話の音調的変化に過ぎないが，対話の中で用いられると，「質問」という行為として記述ができる．すなわち，発話における特徴（音調，文法，etc）が下位層に記述され，それによって達成される行

(4)

為が上位層に記述されるのである．そして，「上位層」「下位層」の記述が完了した後，さらに上位として，すべてのモダリティを取りまとめた「メタレベル層」をつくる．ここには，複数の身体動作が全体として構成していることを書く．例えば次のような記述ができる(図 1 末尾部分)． hand 上位層天文台の模型を指差す face 上位層 v01 の方を見続ける foot 上位層ゆっくりすばる望遠鏡へ歩く メタレベル層 v01 をすばる望遠鏡へ案内する「歩を緩めながら，前方の展示物の一部を指差し，視線は来館者に向ける」というSC のふるまいは，我々のデータの中で頻繁に観察されている． SC の典型的な案内のふるまいであることが予想される．こういったアノテーション結果が十分に蓄積されれば，「案内する」「指差す」「歩く」という一般動詞によって記述されるふるまいを比較することができ，映像上で起こっていたことの類似点を見つけ出すといったことができる可能性がある．

2.5 アノテーション進捗状況

現在は，メタレベル層を主に記述するリーダー (本稿第二著者)と各モダリティの上位層と下位層を記述する作業者3 名の合計 4 名でアノテーション作業を進めている．今現在25 データへのアノテーションが終了している．25 データの平均時間長は1 分 25 秒，合計時間長は 35 分程度である．例えば，1 分 32 秒間がアノテーション対象になっているデータ04 は，hand が 23 記述，foot が 20 記述， face が 39 記述，body が 25 記述の上位層下位層記述がなされており，これらのモダリティを統合したメタレベル層には19 記述が施されている．全体の記述数は現在確認中であるが，データ04 を基準に単純計算して，hand が 529 程度の記述，foot が 460 程度の記述，face が 897 程度の記述，face が 575 程度の記述の上位層下位層記述がなされており，これらのモダリティを統合したメタレベル層には437 程度の記述が施されていると予想できる．図 2 事例 1 のレリバントアノテーション

(5)

図 3 事例 2(左)と事例 3(右)の身体動作

3. 事例

3.1 事例 1

事例1 において SC は，後ろに一歩下がること (foot 下位層)によって v(来館者)らの視界に入らないようにし(foot 上位層)，「も一個」という発話と同時に顔を右側に向けること(face 下位層)で自身の注意が向いている方向を示し(face 上位層)，同時に状態を右側にひねること(body 下位層)で，face と同様自身の注意が向いている方向を示し，v らの向く方向を示している(body 上位層)．そして，こうした各身体部位の動作は，全体として「説明を開始するための準備態勢をとる」という記述があたえられている．

3.2 事例 2

4

事例2 において SC は，左手を挙げ天文台の模型のなかを指差すこと(hand 下位層)で，自身の発話のなかの「あれ」が指示する対象を明示している(hand 上位層)．この手振りの途中から，天文台の模型を覗き込むこと(face 下位層)で顔によっても「あれ」が指示する対象を明示し(face 上位層)，それらの動作は胴体を v01(来館者 01)の方に傾けて(body 下位層)指差しの出発点が v01 の視界の中心に来るようにしながら行なわれている(body 上位層)．またそれに続いて，左足に重心を置き元に戻すこと(foot 下位層)でも，すばる望遠鏡の中にある「人（の模型）」を指しやすくしている(foot 上位層)．そして，以上のふるまい全体によって，メタレベル層に記述された「注意を向けさせる」ことの構成が可能になっている．

3.3 事例 3

事例3 において SC は，「この」と同時に左手が上に挙げられること(hand 下位層)で，「この」が示

4 _{以降の事例} 2 と事例 3 は，紙面の都合上レリバントアノテーションは掲載しない．す場所を示している(hand 上位層)．その後，上げた左手を，指をぴんと張りながら左右に振ること (hand 下位層)で，説明している場所が示される (hand 上位層)．その直後，胴体を v の方に向けること(body 下位層)で，v の反応が確認できるようにしている(body 上位層)．また SC は，顔を v01 に向け(face 下位層)，v01 が宛先であることを示す(face 上位層)．その後 SC は笑顔になり(face 下位層)，自身が語っている内容が笑うべき内容であることを示す(face 上位層)．これによって，SC は，展示物に注意を向けさせながら，発話によって展示物の説明をしている，と記述できる．

3.4 事例のまとめ

事例2 および事例 3 の共通点は，どちらも「注意を向けさせる」と記述することが可能である点にある．事実，SC が注意を向けさせた後，v らはその方向に視線や胴体を向け，「注意を向けていること」を示している．しかしながら注目したいのは，その「注意を向けさせる」ことの身体部位による構成は，それぞれ異なった動作によって構成されている点にある．この観点に立ち，記述を重ねていけば，どの身体部位のどのような動作が，ある活動を構成することができるのか，その構成のさまざまな可能性についての知識と経験は少なくとも深まるだろう．さて事例2 および事例 3 が事例 1 と異なるのは，各身体部位によるふるまいの始まりと終わりが，事例1 ではすべて一致しているのに対して事例 2, 3 では一致しない，という点にある．これはアノテ ―ションが人間の手によって行なわれるためにぶれるということを意味するわけではなく，まずは人々のふるまいがなされる際，身体的部位はおよびばらばらに始まりばらばらに終わるということを意味する．そして，そのふるまいの宛先である共参与者がそれらを全体としてあるひとつの行為や活動として理解していることを示せる，というのが本アノテ―ションを使うアドバンテージだと考える．もちろん事例 1 のように，すべての身体

(6)

動作が同時に開始し，同時に終了するとみなせる場合もある．これらは，そのふるまいを産出する SC が，そのふるまいをおこなうために身体部位を「同時に」動かしてある行為や活動を行なっているものとして記述しているのである．

6. おわりに

本手法では．タイムフレームでセグメント化するわけではなく，また，発話単位などのセグメントが事前に準備されているわけではない．すなわち，セグメント化すらアノテーターに委ねられているのである．身体動作の始まりと終りをどのようにセグメント化するかもアノテーターが決めなければならない，よって，予めセグメント化されたフレームへの記述に比べると，時間がかかるという問題がある．また，始まりと終りのセグメント化がアノテーターに委ねられるが故に，各身体部位（hand, face, body , foot）間のタイムフレームがそろわず，同様に，各身体部位と，身体部位が組み合わさって構成されるメタレベル層とのタイムフレームもそろわない．もちろん，メタレベル層でおきていると観察される活動を構成する諸々のふるまいをボトムアップで確認でき，会話分析および相互行為分析を試みる際の出発点にはなると思われるが，さらなる検討が必要かもしれない．この手法は，1980 年代以降の身体動作研究を再燃させた[11]の仕事を彷彿とさせる．[11]は，発話，ジェスチャー，胴体，ときには眉の動きまでを，本手法のように並列させて表記し，様々なモダリティがハーモニーを奏でる楽譜のように記述することを試みている．ジェスチャー研究はその後，手の動きに執着するようになり，この試みは失われた．今後は，身体動作と身体動作の間の隣接性や，次のふるまいを投射する身体動作など，よりマルチモーダルインタラクションの連鎖的構造を明らかにするためのアノテーション手法が重要になってくるのではないだろうか．本手法が成立するためには，アノテーション結果を利用したシステム開発との共同研究が必要である．

謝辞

本稿は，学融合推進センター学融合研究事業「科学技術コミュニケーションの実践知理解に基づくディスカッション型教育メソッドの開発」(H25-H27)，JST さきがけ「ビッグデータ統合利用のための次世代基盤技術の創出・体系化」(代表：宮尾祐介)(H25-H28)および科学研究費補助金25540091(H25-H27)による助成を受けた研究成果の一部である．レリバントアノテーションの付与作業を補助していただいた坂井田瑠衣氏，松本麻里氏，山本敦氏に感謝する．

参考文献

[1] 坊農真弓，高梨克也，緒方広明，大崎章弘，落合裕美，森田由子: 知識共創インタフェースとしての科学コミュニケーター：日本科学未来館におけるインタラクション分析, ヒューマンインタフェース学会論文誌, 15(4), pp.375-388 (2013)

[2] Bono, M., Ogata, H., Takanashi, K. and Joh, A.: The Practice of Showing ‘Who I am’: A Multimodal Analysis of Encounters between Science Communicator and Visitors at Science Museum, IN

Universal Access in Human-Computer Interaction,

8514, pp. 650-661 (2014) [3] 城綾実，牧野遼作，坊農真弓，高梨克也，佐藤真一，宮尾祐介: 異分野融合によるマルチモーダルコーパス作成-展示フロアにおける科学コミュニケーションに着目して-, SIG-SLUD-B401, 71, pp. 7‒12 (2014) [4] 城綾実，坊農真弓，坊農真弓，高梨克也，佐藤真一，宮尾祐介: 異分野融合によるマルチモーダルコーパス設計-各種アノテーション方法と利用可能性について-，言語処理学会第 21 回年次大会，pp. 561-54 (2015) [5] 城綾実，坊農真弓，高梨克也: 科学館における「対話」の構築: 相互行為分析から見た「知ってる？」の使用, 認知科学, 22(1), pp. 69-83 (2015) [6] 牧野遼作，坊農真弓，古山宣洋: フィールドにおける語り分析のための身体の空間陣形：科学コミュニケーターの展示物解説行動における立ち位置の分析, 認知科学, 22(1), pp. 53-68 (2015) [7] 西阪仰: 分散する身体―エスノメソドロジー的相互行為分析の展開，勁草書房 (2008)

[8] Mondada, L. : Commentary: Transcript variations and the indexicality of transcribing practices, Discourse

Studies, 9(6), pp.809-821 (2007)

[9] Mondada, L. Garden lessons: embodied action and joint attention in extended sequences, In Nasu, H. and Waksler, F. C. (Eds.) Interaction and Everyday Life:

Phenomenological and Ethnomethodological Essays in Honor of George Psathas , Plymouth, Lexington Books,

pp. 279–296. (2012)

[10] 坊農真弓. 「手話雑談におけることばと身体とマルチアクティビティ」村田和代・井出里咲子編『雑談の美学』, ひつじ書房．(印刷中)

[11] Kendon, A. Some relationships between body motion and speech. In A. Seigman and B. Pope, editors, Studies in Dyadic Communication. Elmsford, New York: Pergamon Press, pp.177-216 (1972)