• 検索結果がありません。

感性情報学講座

N/A
N/A
Protected

Academic year: 2018

シェア "感性情報学講座"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

講義音声字幕化に向けた認識におけ

言語モ

ル構築

低コス

Cost Reduction in Constructing Language Models of a Speech Recognizer for

Automatic Superimposing of Lecture Speech

感性情報学講

0312016305

芹澤龍生

教員:伊藤慶明

嶋和徳

1.

めに

聴覚 害 あ 学生 ,講義を 講

ノ ー イ ク や 手 通 訳 情 報 保 者 を 配 置 方法 ほ ,講師等 音声を聴覚 害 あ 学 生 補 聴 器 直 接 届 け 方 法 等 い

.こ 方法 情報保 者及び資料 必要 等 問題 あ 1).

講義内 教員等 講師 し 内容を ア タイム 音声認識し, をスク ーン等 表示

,聴覚 害 あ 学生 他 学生 様 講義を 講 う 考え . 先 行 研 究 2) 講 義 毎 内 容 類 似 し い こ 着目し,日本語 し言葉コー ス (CSJ:

Corpus of Spontaneous Japanese) を用い 構築し

言 語 モ 特 定 者 用 音 響 モ 対 し 当 教 員 昨 等 講 義 音 声 追 加 学 習

こ ,音声認識精 向 を図 .こ 方 法 講義 書 起こし 手間を要 .関連研 究 3) 講義 用 い 教科 書 を 類 似 文 書 し 学習用コー スを作成 こ ,認識精 向

を図 .本研究 言語モ 着目し,言 語モ 構築用 CSJ 対し講義科目 関連

用語をWeb検索し,Webサイ 文書を収集 .こ 文書を CSJ 追加し 言語モ を構築 こ ,先行手法 音声認識精 を 保ち 言語モ 構築 コス 化を図 .

2.

課題と提案

2.1. 先行研究 課題

先行研究 20.6% 単語誤 率 (WER) を達

成し .こ 手法 講義音声 書 起こし等 編集 行わ ,編集作業 1講義音声当

均7.2時間 実講義時間 4.8倍を要し .

2.2 提案方式

関 連 研 究 3) 講 義 書 起 こ し を 用 い 教科書を言語モ 追加統合 こ , 認識誤 編集時間を含 実講義時間 3.8倍

時間短縮し .本研究 ,Web 講義科目 関 連 単 語 を 検 索 し , 検 索 結 果 10 件

Webサイ 文書を 得 . 得し 文書

中 頻 出 高 い 詞 単語 を 用 い 再 検 索 を 行 い,文書を 得 作業を規定 ータ量 達

繰 返 . 得 し 規 定 ー タ 量 文 書 を

CSJ 追加し,言語モ を構築 .別手法

し ,講義科目 シ ス 載 い 講義 及 び講義タイ 検索を行い,Webサイ

文書を 得 .こ ,講義音声 書 起 こ し し 言 語 モ 構 築 け 作 業 時 間短縮を図 .

3.

実験条件

評価 用い 音声 ータ ,岩手県立大学 け 数学 講義科目A 2016 講義音声3回 分 ータを使用 .言語モ 用い 学習 用コー ス CSJ及びWeb 得し 規 定 ータ量 文書を用い .本研究 2 手 法 コー スを作成し,言語モ を構築し .

3.1. 検索単語に講義科目名を用いた言語モ ル

Web 文書 得手順を図1 示 .図1

中頻 高い 詞 再検索を行う ,検索単語数 結果 異 .本研究 TF値 最 高い 詞 3 詞 2通 検索を行 .

ータ量を閾値 し,規定 ータ量を超え 時 点 文書 得を終了し .

(2)

3.3. 検索単語にシラ スを活用 た言語モ ル

認 識 対 象 シ ス 載 い 講 義 及 び 各講義回 タイ を検索語 し 検索を行 い,

Web サイ 文書を 得 こ コー ス

を作成し .

3.4. 作成コー ス概要

実験 9 学習用コー スを作成し .各 コー ス 閾値,追加し ータ量,文書数及び 編集時間を表1 示 .科目 A 2015 科 目 A 1 回目講義音声書 起こしを示 .講義 科目検索 1~4 複数語再検索 1~3 検 索単語 講義科目 を用い 再検索時 TF値

1 詞及び3 詞を用い コー スを示 .

科目 Aシ ス 1~2 検索単語 シ ス 情 報を用い コー スを示 .

表1 実験用追加コー ス ータ

コー ス 閾値

ータ量 (KB)

文書数 編集時間

(h)

科目A - 34 547 7.0

講義科目検索1 1 47 589 0.5 講義科目検索2 5 174 2,110 0.5 講義科目検索3 10 447 5,524 1.0 講義科目検索4 50 1,974 46,096 2.0 複数語再検索1 10 396 5,199 0.3 複数語再検索2 50 2,250 57,079 1.3 複数語再検索3 100 3,942 100,430 2.5 科目Aシ ス1 - 1,218 30,233 1.5 科目Aシ ス2 - 4,342 229,808 0.5

4.

評価実験

4.1. 実験内容

2016 1~3 回目 科目 A 講義音声 対し

CSJ 及びCSJ 科目Aコー ス 学習し

言 語 モ を 用 い を ベ ー ス イ ン し ,

3.4. 示し コー スを用い 場合 比較し .

実 験 評 価 指 標 し 単 語 誤 率(WER:

Word Error Rate)を用い .WER いほ 良い

結果を示 .数式を以 示 .

� = + + � �⁄

C:正解単語数,D:脱落誤 数,I:挿入誤 数,

S:置換誤 数,N:全単語数

4.2. 実験結果

実験結果 (WER) を表2 示 .表2中認識

ータ 科目A-1~3 2016 科目A

1~3回目 講義音声を示 .

ベース イン 提案手法 WER 均を比較

,言語モ CSJ 場合60.48%,CSJ + 科

目A 場合55.98% あ 対し,CSJ + 科目

Aシ ス2 場合 57.90% 最 く .

表2 認識結果 WER,値 %

評価 ータ

言語モ 科目

A-1 科目

A-2 科目

A-3 均

CSJ 61.25 62.18 58.02 60.48 CSJ + 科目A 55.86 55.91 56.18 55.98 CSJ + 講義科目検索1 60.98 62.23 57.95 60.39 CSJ + 講義科目検索2 60.69 62.44 57.79 60.31 CSJ + 講義科目検索3 59.79 62.41 58.04 60.08 CSJ + 講義科目検索4 60.63 62.49 57.80 60.31 CSJ + 複数語再検索1 60.07 62.76 57.87 60.23 CSJ + 複数語再検索2 59.30 62.09 57.67 59.69 CSJ + 複数語再検索3 60.42 61.87 57.65 59.98 CSJ + 科目Aシ ス1 60.41 62.30 57.66 60.12 CSJ + 科目Aシ ス2 58.01 58.96 56.72 57.90

5.

終わ

本研究 ,言語モ 構築 コス 化 ,Web 得し 文書を学習用コー ス 追 加 方 法 い 言語 モ 構 築 要 作業時間 認識精 検証を行 .講義科目 シ ス 記 載 さ い 講 義 及 び 講 義 タ イ

を検索語 し Web サイ 得し 文

書 コー ス (4,342KB) を用い ,WER

均57.90% CSJ 60.48% 2.58 ポイ

ン .一方,こ 書 起こしを追加

し 言語モ 55.98% 1.92ポイン 高

.こ 言語モ 作成時間 0.5時間 実 講義時間 0.3倍 作業時間を短縮し .

今後 課題 し ,今回 講義科目 A 対し 実験を行 .異 講義音声 い シ ス 情 報 を 用 い コ ー ス 作 成 手 法 を 用 い 評価 こ ,本手法 検証をし いく必 要 あ 考え .

参考文献

1) “日本学生支援機構”,

http://www.jasso.go.jp/gakusei/tokubetsu_shien/ guide_kyouzai/guide/choukaku_bamen/gakushu _jugyo.html, 参照 2017/12/28 .

2) 田中麻喜,“講義音声字幕化 向け 特定

者認識精 向 ”,2016 岩手県立大 学 ソ フ ア情 報 学部卒 業 論 文 ,2016-3.

3) 河原達也,秋田祐哉,広瀬洋子,“自動音声認

識 を 用 い 放 送 大 学 オ ン イ ン 授 業 対 字 幕 付 ”, 情 報 処 理 学 会 研 究 報 告

参照

関連したドキュメント

情報理工学研究科 情報・通信工学専攻. 2012/7/12

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

出典 : Indian Ports Association & DG Shipping, Report on development of coastal shipping 2003.. International Container Transshipment Terminal (ICTT), Vallardpadam

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

[r]

関谷 直也 東京大学大学院情報学環総合防災情報研究センター准教授 小宮山 庄一 危機管理室⻑. 岩田 直子

東京都健康安全研究センターはホームページ上で感染症流行情 東京都健康安全研究センターはホームページ上で感染症流行情

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま