講義音声字幕化に向けた認識におけ
言語モ
ル構築
低コス
化
Cost Reduction in Constructing Language Models of a Speech Recognizer for
Automatic Superimposing of Lecture Speech
感性情報学講
0312016305
芹澤龍生
指
教員:伊藤慶明
嶋和徳
1.
めに
聴覚 害 あ 学生 ,講義を 講
ノ ー イ ク や 手 通 訳 情 報 保 者 を 配 置 方法 ほ ,講師等 音声を聴覚 害 あ 学 生 補 聴 器 直 接 届 け 方 法 等 い
.こ 方法 情報保 者及び資料 必要 等 問題 あ 1).
講義内 教員等 講師 し 内容を ア タイム 音声認識し, をスク ーン等 表示
,聴覚 害 あ 学生 他 学生 様 講義を 講 う 考え . 先 行 研 究 2) 講 義 毎 内 容 類 似 し い こ 着目し,日本語 し言葉コー ス (CSJ:
Corpus of Spontaneous Japanese) を用い 構築し
言 語 モ 特 定 者 用 音 響 モ 対 し 当 教 員 昨 等 講 義 音 声 追 加 学 習
こ ,音声認識精 向 を図 .こ 方 法 講義 書 起こし 手間を要 .関連研 究 3) 講義 用 い 教科 書 を 類 似 文 書 し 学習用コー スを作成 こ ,認識精 向
を図 .本研究 言語モ 着目し,言 語モ 構築用 CSJ 対し講義科目 関連
用語をWeb検索し,Webサイ 文書を収集 .こ 文書を CSJ 追加し 言語モ を構築 こ ,先行手法 音声認識精 を 保ち 言語モ 構築 コス 化を図 .
2.
課題と提案
2.1. 先行研究 課題
先行研究 20.6% 単語誤 率 (WER) を達
成し .こ 手法 講義音声 書 起こし等 編集 行わ ,編集作業 1講義音声当
均7.2時間 実講義時間 4.8倍を要し .
2.2 提案方式
関 連 研 究 3) 講 義 書 起 こ し を 用 い 教科書を言語モ 追加統合 こ , 認識誤 編集時間を含 実講義時間 3.8倍
時間短縮し .本研究 ,Web 講義科目 関 連 単 語 を 検 索 し , 検 索 結 果 10 件
Webサイ 文書を 得 . 得し 文書
中 頻 出 高 い 詞 単語 を 用 い 再 検 索 を 行 い,文書を 得 作業を規定 ータ量 達
繰 返 . 得 し 規 定 ー タ 量 文 書 を
CSJ 追加し,言語モ を構築 .別手法
し ,講義科目 シ ス 載 い 講義 及 び講義タイ 検索を行い,Webサイ
文書を 得 .こ ,講義音声 書 起 こ し し 言 語 モ 構 築 け 作 業 時 間短縮を図 .
3.
実験条件
評価 用い 音声 ータ ,岩手県立大学 け 数学 講義科目A 2016 講義音声3回 分 ータを使用 .言語モ 用い 学習 用コー ス CSJ及びWeb 得し 規 定 ータ量 文書を用い .本研究 2 手 法 コー スを作成し,言語モ を構築し .
3.1. 検索単語に講義科目名を用いた言語モ ル
Web 文書 得手順を図1 示 .図1
中頻 高い 詞 再検索を行う ,検索単語数 結果 異 .本研究 TF値 最 高い 詞 3 詞 2通 検索を行 .
ータ量を閾値 し,規定 ータ量を超え 時 点 文書 得を終了し .
3.3. 検索単語にシラ スを活用 た言語モ ル
認 識 対 象 シ ス 載 い 講 義 及 び 各講義回 タイ を検索語 し 検索を行 い,
Web サイ 文書を 得 こ コー ス
を作成し .
3.4. 作成コー ス概要
実験 9 学習用コー スを作成し .各 コー ス 閾値,追加し ータ量,文書数及び 編集時間を表1 示 .科目 A 2015 科 目 A 1 回目講義音声書 起こしを示 .講義 科目検索 1~4 複数語再検索 1~3 検 索単語 講義科目 を用い 再検索時 TF値
1 詞及び3 詞を用い コー スを示 .
科目 Aシ ス 1~2 検索単語 シ ス 情 報を用い コー スを示 .
表1 実験用追加コー ス ータ
コー ス 閾値
倍
ータ量 (KB)
文書数 編集時間
(h)
科目A - 34 547 7.0
講義科目検索1 1 47 589 0.5 講義科目検索2 5 174 2,110 0.5 講義科目検索3 10 447 5,524 1.0 講義科目検索4 50 1,974 46,096 2.0 複数語再検索1 10 396 5,199 0.3 複数語再検索2 50 2,250 57,079 1.3 複数語再検索3 100 3,942 100,430 2.5 科目Aシ ス1 - 1,218 30,233 1.5 科目Aシ ス2 - 4,342 229,808 0.5
4.
評価実験
4.1. 実験内容2016 1~3 回目 科目 A 講義音声 対し
CSJ 及びCSJ 科目Aコー ス 学習し
言 語 モ を 用 い を ベ ー ス イ ン し ,
3.4. 示し コー スを用い 場合 比較し .
実 験 評 価 指 標 し 単 語 誤 率(WER:
Word Error Rate)を用い .WER いほ 良い
結果を示 .数式を以 示 .
� = + + � �⁄
C:正解単語数,D:脱落誤 数,I:挿入誤 数,
S:置換誤 数,N:全単語数
4.2. 実験結果
実験結果 (WER) を表2 示 .表2中認識
ータ 科目A-1~3 2016 科目A
1~3回目 講義音声を示 .
ベース イン 提案手法 WER 均を比較
,言語モ CSJ 場合60.48%,CSJ + 科
目A 場合55.98% あ 対し,CSJ + 科目
Aシ ス2 場合 57.90% 最 く .
表2 認識結果 WER,値 %
評価 ータ
言語モ 科目
A-1 科目
A-2 科目
A-3 均
CSJ 61.25 62.18 58.02 60.48 CSJ + 科目A 55.86 55.91 56.18 55.98 CSJ + 講義科目検索1 60.98 62.23 57.95 60.39 CSJ + 講義科目検索2 60.69 62.44 57.79 60.31 CSJ + 講義科目検索3 59.79 62.41 58.04 60.08 CSJ + 講義科目検索4 60.63 62.49 57.80 60.31 CSJ + 複数語再検索1 60.07 62.76 57.87 60.23 CSJ + 複数語再検索2 59.30 62.09 57.67 59.69 CSJ + 複数語再検索3 60.42 61.87 57.65 59.98 CSJ + 科目Aシ ス1 60.41 62.30 57.66 60.12 CSJ + 科目Aシ ス2 58.01 58.96 56.72 57.90
5.
終わ
に
本研究 ,言語モ 構築 コス 化 ,Web 得し 文書を学習用コー ス 追 加 方 法 い 言語 モ 構 築 要 作業時間 認識精 検証を行 .講義科目 シ ス 記 載 さ い 講 義 及 び 講 義 タ イ
を検索語 し Web サイ 得し 文
書 コー ス (4,342KB) を用い ,WER
均57.90% CSJ 60.48% 2.58 ポイ
ン .一方,こ 書 起こしを追加
し 言語モ 55.98% 1.92ポイン 高
.こ 言語モ 作成時間 0.5時間 実 講義時間 0.3倍 作業時間を短縮し .
今後 課題 し ,今回 講義科目 A 対し 実験を行 .異 講義音声 い シ ス 情 報 を 用 い コ ー ス 作 成 手 法 を 用 い 評価 こ ,本手法 検証をし いく必 要 あ 考え .
参考文献
1) “日本学生支援機構”,
http://www.jasso.go.jp/gakusei/tokubetsu_shien/ guide_kyouzai/guide/choukaku_bamen/gakushu _jugyo.html, 参照 2017/12/28 .
2) 田中麻喜,“講義音声字幕化 向け 特定
者認識精 向 ”,2016 岩手県立大 学 ソ フ ア情 報 学部卒 業 論 文 ,2016-3.
3) 河原達也,秋田祐哉,広瀬洋子,“自動音声認
識 を 用 い 放 送 大 学 オ ン イ ン 授 業 対 字 幕 付 ”, 情 報 処 理 学 会 研 究 報 告