第 4 章 不完全文の内容理解向上を目的とした顔映像の呈示方法
4.4 不完全文と顔映像の呈示タイミングに関する定量実験
4.4.1 実験方法
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法
ここで,N は比較元となる文の総形態素数,D は比較対象文において脱落した形態 素数(脱落誤り),以下同様にSは変換誤りをした形態素数(挿入誤り),I は挿入誤り をした形態素数(挿入誤り)である.比較対象文において総形態素数より誤りが多い場 合,精度の値は負の値も取り得る.
原文として用いた文は,日本音響学会編「研究用連続音声データベース」の音素バ ランス文[5]から引用し,4.1 節および4.2節のいずれの実験においても重複しないよう にした.原文に対して音声認識処理をして不完全文を作成した.尤度閾値を設定し,不 完全文は,「正しい認識結果」,「誤った認識結果(誤認識結果)」,「尤度閾値以下の結果
(「*」で置換)」の3種の文字から構成される.音声認識処理結果の具体例を表4.8に 示す.
表4.8 音声認識処理結果の例(不完全文の例)
“学生はレポートを置くとちょっと頭を下げて出て行った”
↓
“学生は***を北東ちょっと頭を下げてから出て行った”
不完全文の作成には,読み手(日本人男性,34歳)が,正解文を音声認識装置(IBM
ViaVoice for Windows Release 9.1)に対してフルエンロールした状態で読み上げた.付
加する話者の顔映像としては「顔全体(頭頂から頸部)」を用い,撮影には miniDV カ
メラ(Victor GR-DVP3)を用いた.4.1節同様,読み上げの際の音声認識結果は発話の
仕方・読み取りやすい口形の両方を反映するであろうことから,読み方・口形を一定に 保つ指標として用いた.作成する不完全文に関しても,文意からの類推の要素をなるべ く排除し,呈示時差を設けた顔映像と文字情報の呈示による効果・影響が数値として十 分読み取れるようにするために,作成する不完全文の文完全率は正解文に対しておよそ 8割となるように尤度閾値を調整した[10].
今回用いた原文の総形態素数の平均はN=12.9(全課題延べ総数はN=1418)で,音声 認識処理を施した不完全文における形態素誤りの内訳は,1文当たりの平均で,脱落誤 りD=1.45,置換誤りS=0.56,挿入誤りI=0.21(全課題延べ総数はD=159,S=62,I=23) であった(表4.9).
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法
表4.9 原文の総形態素数と課題文の形態素内訳
原文 課題文(音声認識処理文)
N D S I
1文当たり平均 12.9 1.45 0.56 0.21
延べ総数 1418 159 62 23
被験者に呈示する試料の作成は,ビデオ編集ソフト(Adobe Premiere LE 6.0 日本語
版 for Windows)にて合成し,字幕はスクロールの要素を排除するために15文字 2行
(=30文字)に収まる組み合わせを選定した.呈示時差を設ける際のタイミング調節点 は,字幕に関しては呈示開始点,顔映像に関しては読み上げ開始点とした.字幕の呈示 は呈示開始とともに一文をすべて呈示させる pop-on 呈示とし,呈示時間は文を読み上 げている時間と同じとした.なお呈示が突然に開始・終了とならないよう,開始・終了 の前後0.5秒も試料に含めた.
被験者への試料の呈示は,時差 0秒,-1秒(字幕先行1秒),-2秒(字幕先行2秒),
…,-5秒,-5秒,…,-1秒, 0秒,+1 秒(顔先行1秒),+2 秒(顔先行2秒),…,
+5 秒,+5 秒,…,+1 秒,…の順で繰り返しとし,各時差に付き 10 題ずつ,合計 110 題を VHS テープに記録したものを用いた.学習効果を避けるために文の重複使用は避 け た . 映 像 の 呈 示 は 14inch 型 テ レ ビ モ ニ タ (SHARP VT-14GH1 ま た は NEC
C-14N16PV(A))を用い,画面と被験者の距離は見やすい位置を被験者に調整させた(実
測60〜80cm).なお,字幕文字の大きさは,画面上の寸法で縦約1.1cm,横約1.2cmで あった.読み上げ音声は聴覚障害者・健聴者ともに呈示しなかった.事前の訓練は行わ ずに実験を実施した.被験者の回答は1題ごとに行い,回答方法は事前に印刷した課題 文群に加筆修正を行うことにより回答とした.回答中の1題が終わるまでは,次の課題 文は伏せて見られないようにした.本実験は,呈示時差という時間に関係する実験であ るため,各課題は1回のみ視聴可能とした.作成した呈示時差定量実験用の3種の呈示 時差領域における呈示タイミングを図4.8に示す.また,回答方法の記述例を表4.10に 示す.本実験で用いた回答票は付録Bに添付する.
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法
図4.8 呈示時差定性実験における呈示タイミング
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法
表4.10 回答の記述例
(回答票) 学生は***を北東ちょっと頭を下げてから出て行った レポート 置くと
表4.11に被験者属性を示す.被験者は聴覚障害者8名(D1〜D8)と健聴者5名(H2
〜H5)の計13 名で行った.なお被験者 D2において,人工内耳の埋め込みを幼児期に 行っているが現在はほとんど使用していない.また,D2 の主コミュニケーション手段 の欄にある「聴力補助」とは,補聴器による音声取得が主なコミュニケーション手段で あり,口話や手話は取得していないことを意味する.また本課題は日本語による書き取 りであり,被験者によっては書記日本語の親密度が異なる可能性もあるため,参考まで に教育背景(最終学歴)を記載した.
表4.11 被験者属性
区分 ID 年齢 性別 失聴 年齢
聴力レベル (左, 右)[dB]
主コミュニケー ション手段
教育背景
(学歴)
D1 24 F 0 100, 100 口話 Bachelor
D2 19 F 8 100, 人工内耳 聴力補助 High School
D3 32 F 5 110, 110 手話 Ph.D.
D4 33 F 2 100, 100 手話 Bachelor
D5 35 M 3 100, 100 口話 Master
D6 20 M 0 110,110 手話 High School
D7 20 M 5 100,100 手話 High School
聴覚 障害
D8 20 M 2 100,100 手話 High School
H2 26 F 音声(日本語) Master
H3 32 F 音声(日本語) Bachelor
H4 23 M 音声(日本語) Master
H5 23 M 音声(日本語) Bachelor
健聴
H6 33 M 音声(日本語) Ph.D.
第4章 不完全文の内容理解向上を目的とした顔映像の呈示方法