思考状態と発話停止点を利用したコミュニケーションの動画ダイジェスト

第 6 章参加者全体の思考状態推定に

6.3 思考状態と発話停止点を利用したコミュニケーションの動画ダイジェスト

前章で述べたように，ダイジェストを生成する際には，映像に含まれるシーン境界やカメラワークを抽出する手法が一般的である．しかし，日常的な会議等のコミュニケーションを記録した映像は固定カメラ1台で撮影しただけの平坦な映像である場合が多く，シー

ン変化やカメラワークが元々含まれていない場合が多い．カメラマンを用意するとしても，会議に関係無い人が立ち回り撮影していると議論に集中できないおそれがある．テロップを利用して各シーンの重要度評価を行う手法もあるが，会議等のコミュニケーションは日常的に頻繁に繰り返されるものであり，これを撮影する度に手間と時間をかけてテロップを埋め込むとは考え難い．

ここで，分析対象である会議映像について考えてみる．

課題解決やアイデア創出のために行っている会議とは，参加者全員が共通の議題に対して頭を働かせ，知恵を絞り，試行錯誤を行い，その過程で考えた内容を議論しあう行為である．この行為が行われている時間帯は会議は正しく機能しており，会議映像においても重要なシーンであると言える．

一方，会議には参加者が疲れて集中力が途切れ，意識が散漫になったり眠くなったりする時間帯もある．特に参加者が全体的にこのような状態になっている場合は会議が正しく機能しているとは言えず，この時間帯の会議映像は重要なシーンではない可能性が高い．

また，参加者達が真剣に物事を考えている場合であっても，誰も発言していない時間帯が会議中には存在する．実際に会議を行っている最中であればこの沈黙の時間帯も何らかの役割を果たしているかもしれないが，後日会議映像を第三者が参照する場合，この時間帯には何の言語情報も含まれていないために得られる情報が少ない．

以上の点を考慮すると，第三者が効率良く重要シーンを把握できるようにするためには，会議参加者全員が活発に思考を行っており，かつ，発言が行われているシーンを抽出すれば良いと思われる．

そこで，本章では思考状態および発話停止点を利用したコミュニケーションの動画ダイジェスト生成支援を提案する．これは3.2.2項で述べたMS-Levelを利用して参加者達の思考状態推定を行い，発話停止点（会議中に発話が途切れる瞬間）を利用して発言が行われているシーンを抽出するものである．以降，詳細を述べる．

6.3.1 参加者達の思考状態の導出

3.2.1.2項で述べたように，脳波は思考状態と関連が高い指標である上に，参加者達が

意図的にコントロールしてしまうことは無いし，会議中のすべての時間帯において発生し続けている指標である．

そこで，会議中の参加者達の脳波測定を行い，3.2.2項に示す方法で参加者達の思考状態を表す指標MS-Levelを導出する．

なお，脳波の中で利用する周波数帯域は3.2.2.2項の検証実験で決定した12〜28Hzを利用する．また，MS-Level導出時に利用する脳波データの過去サンプル数N（3.2.2.1項参

照）は6.6.1項の検証実験において決定する．

図 6.1: 単位映像への分割例

6.3.2 発話停止点を利用した映像分割

本手法では，発話停止点で映像分割を行う．具体的には，会議参加者が誰も発言していない時間帯（沈黙時間帯）がT secを超えた場合は，発話が停止した（発話停止点）と判定して映像を分割する．分割後に残った各映像を“単位映像”と定義する．T sec を超える長さを持つ沈黙時間帯はどの単位映像にも含まれることは無く，ダイジェスト映像の候補からも外れることになる．

例えば，図6.1において，scene 1，scene 3，scene 5 を発話時間帯，scene 2，scene 4，

scene 6 を沈黙時間帯とし，T4 < T < T2, T6 の関係が成り立っている時，scene2，scene 6 の沈黙時間は T sec を超えるので発話停止点と判定されて映像分割が行われ，scene 4の沈黙時間はT secを超えないので発話停止点と判定されないので分割は行われず，“scene 1”と“scene 3 + scene 4 + scene 5”の単位映像が定義されることになる．T secを超える長さを持つ沈黙時間帯（scene 2，scene 6）はどの単位映像にも含まれることは無く，ダイジェスト映像の候補からも外れることとなる．

このような方法で映像分割を行う理由は次のとおりである．

• カメラワークやテロップなどとは異なり，発話の有無はどんな会議映像からも必ず検出できる指標である．

• 発話の有無だけを評価するので，言語・性別・年齢に非依存である．

• 発話停止点で映像分割を行うので，誰かが発言している最中で映像が分割されることを防げる．

• 会議は論理的に高度なコミュニケーションであり，発言内容を言語認識やニューラルネットワークで解析すると処理が複雑になるばかりでなく，どうしても判定に不正確さが生じる．その点，あくまで発話の有無だけで映像分割を行うこの方法は処理が単純であるし，正確である．

• 実際の会議では沈黙していても視線や雰囲気を察し合ったり，沈黙の駆け引きが行われたりするので，沈黙時間帯も無価値ではない．しかし，会議映像として後から参照した場合，これらのノンバーバル情報を映像から把握することは困難であるので，長い沈黙時間帯はダイジェストの候補から外しても問題が無いと言える．

6.3.3 ダイジェスト生成の方法

本手法では，MS-Level の平均値が閾値を超える単位映像を結合してダイジェストを生成する．MS-Levelの平均値とは，各単位映像区間における参加者全員の MS-Levelの平均値である．閾値は任意に設定可能であり，閾値が高くなるほど選択される単位映像が少なくなり，圧縮率の高いダイジェストが生成される．

また，この方法は単位映像の意味内容を直接的に評価していないので，コミュニケーションの冒頭・終了シーンがダイジェストに含まれない可能性がある．会議の例で言えば，

冒頭シーンには“メンバの紹介”や“議題の発表”，終了シーンには“内容のまとめ”や“結論”があり，会議の内容を把握するためには必須のシーンと言える．そこで，MS-Level の値に関わらず，コミュニケーションの冒頭・終了シーンは必ずダイジェストに含むようにした．

このようにして生成されたダイジェストは，思考状態という観点からコミュニケーション映像を振り返ることができるので参加者にとって有益である．例えば，“よく頭が働いていたシーン”など，通常の議事録やダイジェストからは見つけ出すことが難しいようなシーンを見つけ出すことが可能である．

ドキュメント内 1.2 研究の概要 (ページ 113-116)