• 検索結果がありません。

第 4 章  不完全文の内容理解向上を目的とした顔映像の呈示方法

4.2 顔映像の呈示部位に関する実験

4.2.1 実験方法

被験者に対し i)不完全文のみを呈示した場合(「字幕のみ」)と ii)不完全文に話者の 顔全体の映像を重ねて呈示した場合(「字幕+顔」),およびiii)不完全文に話者の口元の 映像を重ねて呈示した場合(「字幕+口元」)の3種において,被験者がどれだけ正確に 元の完全文(不完全文を生成させるために用いた「原文」すなわち本課題においては「正 解文」として扱う文を指す)を回答できるかを比較した.原文に対する回答文の形態素 レベルでの正答率を回答文完全率として算出し,内容理解の促進・阻害を測る指標とし て用いた.

形態素とはそれ自体で意味を担うことの出来る最小の単位である.本論文では文の 形態素解析に「茶筌(ChaSenversion 2.1 for Windows[4]」を用いた.比較する文間の 形態素レベルでの一致率(いわゆる「精度」や文としての完全さを表す「文完全率」を 意味する)は,以下の式(4.1)で表される.本算出式は,第3章で用いた式(3.1)と同様の 意味を持つ.

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

ここで,N は比較元となる文の総形態素数,D は比較対象文において脱落した形態 素数(脱落誤り),以下同様にSは変換誤りをした形態素数(挿入誤り),I は挿入誤り をした形態素数(挿入誤り)である.比較対象文において総形態素数より誤りが多い場 合,精度の値は負の値を取ることもある.

原文として用いた文は,日本音響学会編「研究用連続音声データベース」の音素バ ランス文[5]から引用した文である.このコーパスに掲載されている文単体はまったく の無意味文ではないが,各文は 20 文字前後で構成され,一文内の単語間の繋がりは弱 く,意味的な類推がしにくいために採用した.またコーパスに掲載されているすべての 文の間には,意味的な繋がりは全くないものとなっている.これらの原文に対し音声認 識処理を施すことで不完全文を生成した.音声認識には認識単語の確からしさの一尺度 として「尤度」がある.尤度は認識結果の各々の形態素に付帯してくる.尤度閾値を設 定することで,閾値以下の認識結果を「*」で置換することができる.つまり不完全文 は,「正しい認識結果」,「誤った認識結果(誤認識結果)」,「尤度閾値以下の結果(「*」

で置換される)」の 3 種類の文字から構成されることになる.音声認識処理結果の具体 例を表4.1に示す.

4.1  音声認識処理結果の例(不完全文の例)

“学生はレポートを置くとちょっと頭を下げて出て行った”

“学生は***を北東ちょっと頭を下げてから出て行った”

4.1の例文において,不完全文の文完全率を算出すると以下となる.まず原文を形 態素解析すると,“学生//レポート//置く//ちょっと///下げ////行っ/た”と なり,N=15である.一方,不完全文では,“学生//***//北東/ちょっと///下げ/

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

/から///行っ/た”となる.不完全文における形態素の誤りは,“***”が脱落誤り (D),“北東”が置換誤り(S),原文の“と”が欠けているために脱落誤り(D),“から”は挿入誤 り(I)であるため,式(4.1)より不完全文の文完全率は,73%と算出される.

不完全文の作成は,読み手(日本人男性,34 歳)が,正解文を音声認識装置(IBM

ViaVoice for Windows Release 9.1)に読み上げることで行った.読み上げは自然な話速

で行った.音声認識装置は読み手の音声特徴量を事前に登録した状態(フルエンロール)

で用いた.付加する話者の顔・口元の映像は,読み上げの際に読み手の「顔全体(頭頂 から頸部)」と「口元(鼻頭から顎先)」をminiDVカメラ(顔全体撮影用: Victor GR-DVP3, 口元撮影用: Victor GR-DVY)にて撮影したものを用いた.読み上げの際の音声認識結 果は発音音声の明瞭さと顔・口元情報の読み取りやすさの両方を反映するであろうと言 う仮説に基づき,読み方・口形を一定に保つ指標としても用いた.作成する不完全文の 文完全率が,正解文に対しておよそ8割となるように尤度閾値を調整した.このことは 過去の研究[6], [7]において,不完全文のみから文意を類推して正解を回答する課題に対 し,結果である「呈示文の文完全率vs.回答文の文完全率」のグラフが S 曲線を描き,

呈示文の文完全率が約 60%を越えると上部平坦領域に達するという結果を参考にして いる(図 4.1).つまり本実験においては,文意からの類推の要素をなるべく排除させ,

顔・口元情報付加による効果が数値として十分読み取れるようにするために,およそ8 割の文完全率(上部平坦領域に十分達した呈示文の文完全率)で課題文が作成されるよ うにした.

今回用いた原文の総形態素数の平均は N=10.8(全課題延べ総数は N=487)で,音声 認識処理を施した不完全文における形態素誤りの内訳は,1文当たりの平均で,脱落誤 り D=1.42,置換誤り S=0.84,挿入誤り I=0.17(全課題延べ総数は D=64S=38I=8) であった(表4.2).

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

4.1  対数尤度閾値による文理解精度の変化[7]

4.2  原文の総形態素数と課題文の形態素内訳

原文 課題文(音声認識処理文)

N D S I

1文当たり平均 10.8 1.42 0.84 0.17

延べ総数 487 64 38 8

(a)健聴者群

(b)聴覚障害者 群

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

被験者に呈示する試料の作成は,顔全体および口元映像と,それらに対応した不完 全文をビデオ編集ソフト(Adobe Premiere LE 6.0 日本語版 for Windows)にて合成した

(「字幕のみ」は黒背景).字幕はスクロールによる要素を排除するために,15 文字 2 行(=30文字)に収まる組み合わせを選定した.字幕のフォントサイズはソフト上の設

定で,MS P ゴシック体・28ポイント・ボールド体・白色文字,字幕の帯は黒色の不透

明度50%とし,見やすいよう配慮した.字幕の呈示開始は,顔・口元映像における読み 上げ開始点に合わせ,呈示開始とともに一文をすべて呈示(いわゆる,pop-on呈示)さ せ,呈示時間は文を読み上げている時間と同じになるように調整した.なお読み上げ開 始と読み上げ終了が,それぞれ突然に開始・終了とならないよう,読み上げ開始点・終 了点のそれぞれ前後3秒間も試料に含めた.

被験者への試料の呈示は,「字幕のみ」「字幕+顔」「字幕+口元」「字幕のみ」…の 順で繰り返しとし,各15題ずつ,合計45題をVHS テープに記録したものを用いた.

学習効果が入らないようにするために,一度使用した文の重複使用は避けた.映像の呈

示は14inch型テレビモニタ(SHARP VT-14GH1またはNEC C-14N16PV(A))を用い,

画面と被験者の距離は見やすい位置を被験者に調整させた(実測6080cmであった).

なお,字幕文字の大きさは,画面上の寸法で縦約1.1cm,横約1.2cmであった.読み上 げ音声は聴覚障害者・健聴者ともに消音とし呈示しなかった.事前の訓練は行わずに実 験を実施した.被験者の回答は1題ごとに行い,回答方法は筆記具もしくはPCキーボ ードによる記述のいずれかを任意選択させた.なお本実験は,不完全文や顔・口元映像 と言った限られた情報から被験者がどれだけ必要な情報を取得できるかを確認する実 験であるため,回答中の1 題であればVTRの一時停止と巻き戻しは何度でも可能とし た.回答方法の記述例を表4.3に示す.また,作成した呈示部位実験用の3種類の試料 の例を図4.2に示す.本実験で用いた回答票は付録Aに添付する.

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

4.2  呈示部位実験の試料例 (a)字幕のみ

(b)字幕+顔

(c)字幕+口元

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

4.3  回答の記述例

(回答票)  学生は***を北東ちょっと頭を下げてから出て行った       レポート 置くと

4.4に被験者属性を示す.被験者は聴覚障害者5名(D1D5)と健聴者5名(H1

H5)の計10 名で行った.なお被験者 D2において,人工内耳の埋め込みを幼児期に 行っているが現在はほとんど使用していない.また,D2 の主コミュニケーション手段 の欄にある「聴力補助」とは,補聴器による音声取得が主なコミュニケーション手段で あり,口話や手話は取得していないことを意味する.また本課題は日本語による書き取 りであり,被験者によっては書記日本語の親密度が異なる可能性もあるため,参考まで に教育背景(最終学歴)を記載した.

4.4  被験者属性

区分 ID 年齢 性別 失聴 年齢

聴力レベル (, )[dB]

主コミュニケー ション手段

教育背景

(学歴)

D1 24 F 0 100, 100 口話 Bachelor

D2 19 F 8 100, 人工内耳 聴力補助 High School

D3 32 F 5 110, 110 手話 Ph.D.

D4 33 F 2 100, 100 手話 Bachelor

聴覚 障害

D5 35 M 3 100, 100 口話 Master

H1 26 M ­ ­ 音声(日本語) Master

H2 26 F ­ ­ 音声(日本語) Master

H3 32 F ­ ­ 音声(日本語) Bachelor

H4 23 M ­ ­ 音声(日本語) Master

健聴

H5 23 M ­ ­ 音声(日本語) Bachelor

4章  不完全文の内容理解向上を目的とした顔映像の呈示方法

原文・正解文 課題文・呈示文 回答文

読み上げによる 音声認識処理

被験者による 回答

(4.1)にて文一致率算出  →  課題文完全率

(4.1)にて文一致率算出  →  回答文完全率