実験方法

第 4 章不完全文の内容理解向上を目的とした顔映像の呈示方法

4.4 不完全文と顔映像の呈示タイミングに関する定量実験

4.4.1 実験方法

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

ここで，N は比較元となる文の総形態素数，D は比較対象文において脱落した形態素数（脱落誤り），以下同様にSは変換誤りをした形態素数（挿入誤り），I は挿入誤りをした形態素数（挿入誤り）である．比較対象文において総形態素数より誤りが多い場合，精度の値は負の値も取り得る．

原文として用いた文は，日本音響学会編「研究用連続音声データベース」の音素バランス文[5]から引用し，4.1 節および4.2節のいずれの実験においても重複しないようにした．原文に対して音声認識処理をして不完全文を作成した．尤度閾値を設定し，不完全文は，「正しい認識結果」，「誤った認識結果（誤認識結果）」，「尤度閾値以下の結果

（「＊」で置換）」の3種の文字から構成される．音声認識処理結果の具体例を表4.8に示す．

表4.8 音声認識処理結果の例（不完全文の例）

“学生はレポートを置くとちょっと頭を下げて出て行った”

↓

“学生は＊＊＊を北東ちょっと頭を下げてから出て行った”

不完全文の作成には，読み手（日本人男性，34歳）が，正解文を音声認識装置（IBM

ViaVoice for Windows Release 9.1）に対してフルエンロールした状態で読み上げた．付

加する話者の顔映像としては「顔全体（頭頂から頸部）」を用い，撮影には miniDV カ

メラ（Victor GR-DVP3）を用いた．4.1節同様，読み上げの際の音声認識結果は発話の

仕方・読み取りやすい口形の両方を反映するであろうことから，読み方・口形を一定に保つ指標として用いた．作成する不完全文に関しても，文意からの類推の要素をなるべく排除し，呈示時差を設けた顔映像と文字情報の呈示による効果・影響が数値として十分読み取れるようにするために，作成する不完全文の文完全率は正解文に対しておよそ 8割となるように尤度閾値を調整した[10]．

今回用いた原文の総形態素数の平均はN=12.9（全課題延べ総数はN=1418）で，音声認識処理を施した不完全文における形態素誤りの内訳は，1文当たりの平均で，脱落誤りD=1.45，置換誤りS=0.56，挿入誤りI=0.21（全課題延べ総数はD=159，S=62，I=23）であった（表4.9）．

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

表4.9 原文の総形態素数と課題文の形態素内訳

原文課題文（音声認識処理文）

N D S I

1文当たり平均 12.9 1.45 0.56 0.21

延べ総数 1418 159 62 23

被験者に呈示する試料の作成は，ビデオ編集ソフト（Adobe Premiere LE 6.0 日本語

版 for Windows）にて合成し，字幕はスクロールの要素を排除するために15文字 2行

（=30文字）に収まる組み合わせを選定した．呈示時差を設ける際のタイミング調節点は，字幕に関しては呈示開始点，顔映像に関しては読み上げ開始点とした．字幕の呈示は呈示開始とともに一文をすべて呈示させる pop-on 呈示とし，呈示時間は文を読み上げている時間と同じとした．なお呈示が突然に開始・終了とならないよう，開始・終了の前後0.5秒も試料に含めた．

被験者への試料の呈示は，時差 0秒，-1秒（字幕先行1秒），-2秒（字幕先行2秒），

…，-5秒，-5秒，…，-1秒， 0秒，+1 秒（顔先行1秒），+2 秒（顔先行2秒），…，

+5 秒，+5 秒，…，+1 秒，…の順で繰り返しとし，各時差に付き 10 題ずつ，合計 110 題を VHS テープに記録したものを用いた．学習効果を避けるために文の重複使用は避けた．映像の呈示は 14inch 型テレビモニタ（SHARP VT-14GH1 または NEC

C-14N16PV(A)）を用い，画面と被験者の距離は見やすい位置を被験者に調整させた（実

測60〜80cm）．なお，字幕文字の大きさは，画面上の寸法で縦約1.1cm，横約1.2cmであった．読み上げ音声は聴覚障害者・健聴者ともに呈示しなかった．事前の訓練は行わずに実験を実施した．被験者の回答は1題ごとに行い，回答方法は事前に印刷した課題文群に加筆修正を行うことにより回答とした．回答中の1題が終わるまでは，次の課題文は伏せて見られないようにした．本実験は，呈示時差という時間に関係する実験であるため，各課題は1回のみ視聴可能とした．作成した呈示時差定量実験用の3種の呈示時差領域における呈示タイミングを図4.8に示す．また，回答方法の記述例を表4.10に示す．本実験で用いた回答票は付録Bに添付する．

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

図4.8 呈示時差定性実験における呈示タイミング

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

表4.10 回答の記述例

（回答票）学生は＊＊＊を北東ちょっと頭を下げてから出て行ったレポート置くと

表4.11に被験者属性を示す．被験者は聴覚障害者8名（D1〜D8）と健聴者5名（H2

〜H5）の計13 名で行った．なお被験者 D2において，人工内耳の埋め込みを幼児期に行っているが現在はほとんど使用していない．また，D2 の主コミュニケーション手段の欄にある「聴力補助」とは，補聴器による音声取得が主なコミュニケーション手段であり，口話や手話は取得していないことを意味する．また本課題は日本語による書き取りであり，被験者によっては書記日本語の親密度が異なる可能性もあるため，参考までに教育背景（最終学歴）を記載した．

表4.11 被験者属性

区分 ID 年齢性別失聴年齢

聴力レベル (左, 右)[dB]

主コミュニケーション手段

教育背景

（学歴）

D1 24 F 0 100, 100 口話 Bachelor

D2 19 F 8 100, 人工内耳聴力補助 High School

D3 32 F 5 110, 110 手話 Ph.D.

D4 33 F 2 100, 100 手話 Bachelor

D5 35 M 3 100, 100 口話 Master

D6 20 M 0 110,110 手話 High School

D7 20 M 5 100,100 手話 High School

聴覚障害

D8 20 M 2 100,100 手話 High School

H2 26 F 音声(日本語) Master

H3 32 F 音声(日本語) Bachelor

H4 23 M 音声(日本語) Master

H5 23 M 音声(日本語) Bachelor

健聴

H6 33 M 音声(日本語) Ph.D.

第4章不完全文の内容理解向上を目的とした顔映像の呈示方法

ドキュメント内聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究 (ページ 83-88)

第 4 章 不完全文の内容理解向上を目的とした顔映像の呈示方法

4.4 不完全文と顔映像の呈示タイミングに関する定量実験

4.4.1 実験方法

第 4 章不完全文の内容理解向上を目的とした顔映像の呈示方法