音環境分析に基づく議論評価サービスとその応用可能性
Discussion Assesment Service using Auditory Scene Analysis
and its Applications for Co-creation Intelligence
水本武志
1∗ 1ハイラブル株式会社
1
Hylabe Inc.
Abstract: This paper presents a discussion assessment service called DAS based on auditory scene analysis. From a recording of a discussion using a microphone array, we detect sound events, i.e. utterances of participants, in the recording. Using the set of sound events, DAS provides a quantitative and automatic assessment of the discussion, such as activities of participants, inter-ruptions, and turn takings. We describe an overview of DAS and its three possible use cases for active learning, archiving dialogues, and hackathons/ideathons.
1
はじめに
インターネットの普及により文字によるコミュニケー ションが爆発的に増加した一方で、依然として対面で の議論の重要性はむしろ増加している。例えば、企業や 大学など多くの組織で日常的に対面の会議が行われて おり、遠隔地との会議でもチャットの方が通信量が少な いにもかかわらずビデオ会議が多く使われている。ま た、学校教育においても、オンライン教育は普及したも のの、近年はより学生同士の対面の議論を重視するア クティブラーニングに重点が移ってきている [松尾 15]。 このような対面による議論は、顔が見えるコミュニケー ションが誠実さを増加させるという報告 [Zant 14] があ るなど、テキストによる議論よりも”良く”なる効果が 期待できる。 対面の議論の重要性が増加する一方で、議論の場で 何が起こっているのかを理解するのは困難である。こ れを明らかにするための従来のアプローチは、書き起 こしを用いた分析や、ジェスチャなどマルチモーダルな 情報を用いた分析 [坊農 09] が主流であった。しかし、 これらの方法は作成の労力の大きい書き起こしやアノ テーションの存在が前提であるため、分析できる議論 の量に限界があった。書き起こしの音声認識による自 動化も、近年の音声認識技術の向上などによって、例 えば衆議院の議事録自動作成 [河原 12] が行われている ものの、日常的に行われるくだけた発話による議論の 自動書き起こしの実現には至っていない。 このため、特に組織内や市民対話ワークショップ等 ∗連絡先:ハイラブル株式会社 〒 174-0046 東京都板橋区蓮根 2-27-12 3F-6 E-mail: [email protected] の日常的に行われる議論において、起こっている議論 を理解する方法は、(1) 観察者の洞察に基づく主観的な 方法と、(2) 時間がかかるが書き起こしに基づく注意深 く調べる方法に限られていた。前者については日々の 議論を観察によって理解できる一方でその結果は属人 的であり定量的な評価が困難であり、後者は客観的な 分析が得られる一方で日々の議論を分析するのは書き 起こしなどの労力の観点からほぼ不可能であった。 この問題を解決するため、著者らは複数のマイクか ら構成されるマイクロホンアレイを用いた音環境分析 技術を用いて、発話のタイミング情報に基づいて議論 を評価するサービス (Discussion Assessment Service; DAS) を提案する。本サービスのキーアイデアは、話 者の発話タイミングに立脚した議論分析を行うことで ある。マイクロホンアレイ処理をベースとして音から 情報を抽出するロボット聴覚分野で開発されてきた手 法 [Nakadai 17] を用いることで、議論中の発言タイミ ングは比較的高い精度で検出することができる。この ような時刻情報を用いて、議論参加者の活発度や、発 話者の遷移などの多様な情報を提供する。 なお、議論評価サービスにおける「評価」には、議論の 良し悪しの価値を判断する Evaluation ではなく、議論 における振る舞いに関する情報を提供する Assessment の語を用いている点に注意されたい。議論の”良さ”は 文脈やその目的によって大きく異ると考えられるため、 本稿執筆時点では本サービスは定量的な情報を提供す るのみにとどめているからである。 以降では、2 節で本サービスの概要を述べ、3 節で本 サービスのユースケースを紹介する。最後に 4 で本稿 をまとめる。!"#$%& '()*& +!& '(,-!./0 !123456 '()*78 図 1: 議論評価サービス DAS 概要図
2
議論評価サービス
DAS
の概要
本サービスの概要を 1 に示す。図に示すとおり、本 サービスは録音部、音環境解析部、議論評価部から構成 され、議論の場で収録された音響信号を用いて、議論評 価結果を可視化して提示する。本稿では、ポスターセッ ションのような人の出入りが頻繁な場ではなく、会議の ような着席して一定期間議論を行う場を仮定する。具 体的には、次の3点を議論の状況として仮定する。(1) 円形のテーブルの中心にマイクロホンアレイを設置し、 (2) その周囲で数人程度のグループが着席し、(3) 途中 に座席を移動せずに議論を行う。 各部について説明する。まず、録音部は、議論の音 データを収録する部分で、マイクロホンアレイを用い て多チャンネルの音響信号を得る。次に、音環境解析 部は音響信号を受け取り、音の方向を推定する音源定 位と、特定の音を強調する音源分離によって音響信号 から音イベント情報を抽出する。ここで音イベント情 報とは、音響データ中の個々の音に対応する情報で、そ の開始時刻・終了時刻・到来方向などを表す。本稿では 議論の場を想定するので、ひとつの発話がひとつの音 イベントに対応する。最後に議論評価部は、音イベン ト情報を方向情報などを用いて話者ごとに分類し、話 者の活発度や話者間の議論時間構造などの情報を抽出 し、可視化して提示する。 本サービスによって抽出する情報は (1) 議論ごとの 情報と、(2) 複数の議論を統合した情報に分類できる。 前者については、各話者ごとの発言量とその時系列情 報、グループ全体の発言量とその時系列情報、話者組 み合わせ毎の割り込みとターンテイクの頻度に関する 情報が得られる。後者については、議論ごとの情報の 長期間(授業期間であれば1学期など)にわたる変化 や、話者の組み合わせごとの発言量の情報が得られる。3
DAS
の利用ユースケース
本節では DAS の利用に関する具体的なユースケー スを提示し、その可能性を議論する。3.1
アクティブラーニング
近年盛んになっているアクティブラーニングの中で も、大学や高校などを中心に、学生や生徒同士の議論を 中心に授業をすすめる授業形態が取り入れられつつある [三宅 14]。一般に教育の場ではその評価 (Evaluation) が重要な問題になるが、従来の評価方法は洞察に基づ く主観的な方法か、書き起こしの分析に基づく時間の かかる方法しかなく、日々の教育に活用できる客観的 な定量データの取得方法がなかった。 DAS によって、日々の運用に使える定量的な評価の ためのデータ収集が可能となる。たとえば、活発に参加 している学生とあまり話さない学生などの判別や、授 業のトピックを組み合わせることで、学生ごとの得意 不得意の推定が可能となる。指導者が学生へ指導する 際にこれらの情報を活用することによって、指導者個 人の能力や熟練度にのみ依存せずに、データを活用し た教育をアクティブラーニングにおいても提供できる。3.2
対話のアーカイブ
住民に行政へのより主体的な参加を促すための住民 参加型のワークショップが各地で行われるなど、市民 の対話の場は広がっている。このようなワークショッ プの運営には議論を円滑に進めるノウハウやファシリ テーションの訓練など様々な知見が必要であるが、そ の記録は広く蓄積されているわけではなく、たとえば [曽我 08] のように分析のために許可を得て収録してい るにとどまっている。一方、本研究会は地域コミュニ ティと研究者との共創の場を目指しており、通常の学 会の質疑応答よりもインタラクティブな質疑応答を実 施している。このような共創の場を記録してアーカイ ブすることは、資料的価値だけでなく過去の議論を検 討して新たなアイデアの着想を得たり、議論のファシ リテーションに関する知見を得るなど、様々な分析の 基礎となると期待できる。 学会においてはアーカイブの対象は論文えあるもの の、質疑応答や発表といった対話をアーカイブするこ ころみはいくつか行われている。たとえば情報処理学 会はドワンゴ株式会社のサービス「ニコニコチャンネ ル」に自己のチャンネル1をもっており、いくつかの研 究会が動画配信を行い、その様子をアーカイブしてい る。ただし、ここでは配信された動画が閲覧できるに 1http://ch.nicovideo.jp/ipsj留まっており内容の検索などはできないため、その一 覧性は高くない。 そこで、DAS でこのよ共創の場を分析することに よって、より一覧性の高いアーカイブが構築できる。 議論のタイトルだけでなくその内容まで検索可能な情 報として蓄積できるので、例えば議論が盛り上がった 区間のみをダイジェストで閲覧したり、参加者の過去 の議論での振る舞いに合わせて最適なメンバを推薦す るといった、議論をより活発にする活用が可能である。
3.3
ハッカソン・アイデアソン
ハッカソンやアイデアソンとは、多くは初対面の参 加者が幾つかのグループに分かれて、プロトタイプの 作成を行ったり問題解決のアイデアを話し合うイベン トである。近年このようなイベントは多く開かれてい るがその中で重要なのはグループの構成である。イベ ント運営者としては、グループごとに能力が重ならな いようにし、かつ、イベント中の参加者の議論が活発 になる組み合わせが望ましい。 そこで、たとえば冒頭に自己紹介の会話の場を用意 し、そこでの議論を DAS 分析し各参加者の特徴を推 定する。これをもとに、最も議論が活発になる組み合 わせを推薦することで、全グループが活発に参加でき るハッカソンやアイデアソンを行うというユースケー スが考えられる。4
むすび
本稿では、マイクロホンアレイを用いた音環境分析 に基づく議論評価サービス DAS の紹介と、そのユー スケースを3つ紹介した。本システムは発言の内容に 立脚せず、発言したという事実に立脚するという点で 独自性がある分析が提供できる。今後は、上記のよう なユースケースへ実際に適用して評価を行ったり、書 き起こしや従来の談話分析などの研究で行われた知見 を組み合わせてより豊かな情報が提供できる分析機能 を開発する予定である。参考文献
[Nakadai 17] Nakadai, K., Okuno, H. G., and Mizu-moto, T.: Development, Deployment and Appli-cations of Robot Audition Open Source Software HARK, J. of Robotics and Mechatronics, Vol. 29, No. 1, pp. 16–25 (2017)
[Zant 14] Zant, A. B. V. and Kray, L. J.: ”I can’t lie to your face”: Minimal face-to-face interaction promotes honesty, J. of Experimental Social
Psy-chology, No. 55, pp. 234–238 (2014) [河原 12] 河原 達也:議会の会議録作成のための音声 認識 -衆議院のシステム概要-, 情報処理学会研究報 告 (SLP), 第 93 巻, pp. 1–6 (2012) [三宅 14] 三宅 なほみ, 斉藤 萌木, 飯窪慎也, 小出和重: 「対話による学び」の実践的評価, 日本認知科学会第 31 回大会, pp. 178–186 (2014) [松尾 15] 松尾 知明:21 世紀型スキルとは何か, 明石 書店 (2015) [曽我 08] 曽我 健, 錦澤 滋雄:まちづくりワークショッ プにおけるファシリテーターの介入に関する研究, 環 境情報科学論文集, 第 22 巻, pp. 451–456 (2008) [坊農 09] 坊農 真弓, 高梨 克也(編):多人数インタラ クションの分析手法, 知の科学, オーム社 (2009)