不完全文と顔映像の呈示タイミングに関する定性実験

第 4 章不完全文の内容理解向上を目的とした顔映像の呈示方法

4.3 不完全文と顔映像の呈示タイミングに関する定性実験

前節で，音声認識の誤認識結果を含む不完全文と話者の発話時の顔映像を同時に呈示させることにより，内容理解を促進させることが示された．現時点でのシステム運用において，話者の顔映像とは“生”の情報であるのに対し，前章で示した通り字幕は処理時間分“生”情報より遅れて呈示されるため，自ずと「顔情報が先行表示される」状態になる．果たしてこの呈示状態が正しい状態であるのか，あるいは我々が日常目にしている両者に時間的な「ずれ」のない呈示状態が好ましいのか，もしくは自然な状態ではあり得ない字幕が先行表示される状態が好ましいのかを評価する必要がある．本節では，

話者の顔映像と字幕の2 つの情報を呈示する際の呈示時差に着目した初期検討として，

被験者の「わかりやすい」「わかりにくい」を尺度とした定性実験を行った．

4.3.1 実験方法

被験者に対し(a)顔映像が字幕に対して先に呈示される場合（「顔先行」）と(b)顔映像と字幕が同期して呈示される場合（「時差なし」），および(c)字幕が顔映像に対して先に呈示される場合（「字幕先行」）において，どの呈示方法が内容理解の上でわかりやすいかわかりにくいかを7段階の評価尺度で被験者に評価させた．

実験に用いた文は，前節同様，日本音響学会編「研究用連続音声データベース」の音素バランス文[5]より引用したが，前節の最適部位実験で用いた文とは別の文を用いた．本実験は呈示の時差の有無に着目した評価であるため，不完全を用いることによる文理解の困難さが評価に影響しないよう完全文（原文そのまま）を用いた．付加する顔映像は，前節の部位実験における被験者の内観報告を尊重し「顔全体」の呈示方法とした．話者の顔情報の撮影は，部位実験と同じ読み手と撮影機材で行った．

呈示試料の作成は部位実験と同じビデオ編集ソフトを用い，字幕に関するソフト上の設定項目は部位実験と同じとした．「顔先行」と「字幕先行」における呈示時差は双方同じく5秒とした．これは実運用における顔先行状態の時差が最速で約4秒であることから定めた．呈示時差を設ける際のタイミング調整点は，字幕に関しては呈示開始点，

顔映像に関しては読み上げ開始点とした．字幕の呈示は呈示開始と共に一文全てを呈示

（pop-on呈示）させ，文の呈示時間は文の読み上げ時間と同じとした．なお呈示が突然

に開始・終了とならないよう，開始・終了の前後3秒も試料に含めた．図4.6に呈示時差定性実験における3種の呈示時差領域に関する字幕・顔映像の呈示タイミングを示す．

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

図4.6 呈示時差定性実験における呈示タイミング

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

被験者への試料の呈示は「時差なし」「顔先行」「字幕先行」「時差なし」…の順で繰り返しとし，各3題ずつ合計9題をVHSテープに録画したものを用意した．呈示する文の重複使用は避けた．映像の呈示は部位実験と同じ機材を用いた．読み上げ音声は，

聴覚障害者・健聴者ともに呈示しなかった．本課題は時間に関する実験であるためVTR の一時停止と巻き戻しは禁止とした．回答は1題ごとに評定票（7段階に区切った尺度状の数字）に記入させた．被験者を表 4.7 に示す．聴覚障害者 5 名（D1〜D5）と健聴者5名（H1〜H5）の計10名で行った．なお被験者D2において，人工内耳の埋め込みを幼児期に行っているが現在はほとんど使用していない．また，D2 の主コミュニケーション手段の欄にある「聴力補助」とは，補聴器による音声取得が主なコミュニケーション手段であり，口話や手話は取得していないことを意味する．また本課題は日本語による書き取りであり，被験者によっては書記日本語の親密度が異なる可能性もあるため，

参考までに教育背景（最終学歴）を記載した．

表4.7 被験者属性

区分 ID 年齢性別失聴年齢

聴力レベル (左, 右)[dB]

主コミュニケーション手段

教育背景

（学歴）

D1 24 F 0 100, 100 口話 Bachelor

D2 19 F 8 100, 人工内耳聴力補助 High School

D3 32 F 5 110, 110 手話 Ph.D.

D4 33 F 2 100, 100 手話 Bachelor

聴覚障害

D5 35 M 3 100, 100 口話 Master

H2 26 F 音声(日本語) Master

H3 32 F 音声(日本語) Bachelor

H4 23 M 音声(日本語) Master

H5 23 M 音声(日本語) Bachelor

健聴

H6 33 M 音声(日本語) Ph.D.

4.3.2 実験結果

呈示時差定性実験の結果を図4.7に示す．結果は被験者ごとに各呈示時差の評点を平均し，聴覚障害者と健聴者に分けて図示したものである．

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

図4.7より，聴覚障害者では「顔先行＜時差なし＜字幕先行」（D2，D4）と「顔先行

＜字幕先行＜時差なし」（D1，D3，D5）の 2 つの傾向を示し，健聴者では「顔先行＜

時差なし＜字幕先行」（H3，H4，H5）と「時差なし＜顔先行＜字幕先行」（H1，H2）の 2 つの傾向を示した．「顔先行＜時差なし＜字幕先行」は，いずれの被験者群においても共通して見られた．聴覚障害者においては「顔先行」の評点は共通して低く，健聴者においては「字幕先行」の評点は共通して高かった．「時差なし」に関しては，聴覚障害者では評点を高いとする被験者が見られ，健聴者では逆に評点を低いとする被験者が見られた．

図4.7 呈示時差定性実験結果

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

4.3.3 考察

図4.7 の結果より，「字幕先行」が高い評点となる傾向を示した理由としては，字幕は時系列的に順次呈示される情報ではあるが，“字幕”として呈示されるため，ある一定時間はスクリーン上にスーパーインポーズされた形で停留することができるためと推察される．すなわち空間的に一定時間存在することにより，字幕の読み返しが可能になると言うことが理由として考えられる．さらに，字幕を呈示している時間が呈示時差と同じかそれ以下であれば，情報取得者は字幕と顔映像とをそれぞれ順に参照することができることになる．本実験では，30文字以内の文を自然な話速（5-7文字(モーラ)/秒）

[9]で読み上げており，呈示時差は 5 秒で固定してあるため，字幕と顔映像が重なって呈示されることはほとんど無い．このことも「字幕先行」が高い評点となった理由であると推察される．

一方「顔先行」は低い評点となる傾向を示したが，顔映像は空間的にその場に留まることができない，時間的に揮発な情報であるため読み返しができない．そのため情報の呈示に時差があることによる，情報を個別に順に見られる利点を生かすことができず，

評点が低くなったのではないかと推察される．

「時差なし」は，字幕と顔映像の同期が取れている状態であり，日常においては「同期」状態が自然であるため高い評点が得られることが予想される．しかし聴覚障害者と健聴者では「時差なし」の評点が分かれ，聴覚障害者では高く，健聴者では低い評点を付ける傾向となった．その理由としては，字幕と顔映像と言った複数の意味を持った視覚的映像を同時に呈示した時に，健聴者の場合はそれら複数の映像から同時に意味を読み取ることに対して不慣れであるためと推察される．今回の実験は内容理解に着目した評価であるため，特にその傾向が現れたと推察される．実際一部の健聴の被験者からは

「どこを見たらよいか分からない」と言う内観報告が得られた．一方，聴覚障害の被験者においては，この様な複数の視覚的映像から同時に内容を読み取ることに日常から慣れているために評点が高くなる傾向を示したと推察される．

現状のシステム運用において，顔映像を呈示する場合は会場の“生”の情報をそのまま合成しているため，自ずと「顔先行」の呈示状態になる．「顔先行」は評価が低い呈示方法であることが本実験を通して確認できたため，字幕と顔情報の呈示タイミングに関して，適切な制御が必要になると言える．本実験では，呈示時差に関する初期検討という意味で，「顔先行」「字幕先行」のいずれも呈示時差を5秒で固定した．次節では呈示時差を細かく設定して評価を行う．評価方法に関しても4.1節の顔映像の最低情報呈示部位の実験で用いた評価尺度と同様に，被験者の回答文と原文との一致率を比較した定量実験にて評価を行う．

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

ドキュメント内聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究 (ページ 78-83)

第 4 章 不完全文の内容理解向上を目的とした顔映像の呈示方法

4.3 不完全文と顔映像の呈示タイミングに関する定性実験

第 4 章不完全文の内容理解向上を目的とした顔映像の呈示方法