字幕ファイルを利用した多言語教育用ソフトウェアの開発

全文

(1)

字幕ファイルを利用した

多言語教育用ソフトウェアの開発

1

佐 藤 弘 明

2 1. はじめに  TED.com は 3000 本以上の英語講演の動画をインターネット上で公開して いる。動画の多くには,英語字幕と複数の言語の翻訳字幕が付けられており, 字幕データはダウンロード可能である。佐藤(2017) では英語と日本語の字幕 データを利用して,講演動画から英語と日本語の語句を検索するコーパスを 構築した。その際に手本にしたのが,Hasebe(2015) が開発した TED Corpus Search Engine( 以下,TCSE) というコーパスである。

(2)

門家の助言を得ながら修正していく予定である。

2. 先行研究

  図1 は,TCSE を 使 用 し て TED Talks の 英 語 講 演 1 つ で あ る de Giovanni(2010) の冒頭の英語字幕と,それに対応するロシア語翻訳字幕を表 示したものである。 図1:TCSE での英語とロシア語の字幕ファイルの表示  TCSE の表示形式は,ロシア語を理解できるユーザーを想定しており,ロ シア語が分からないユーザーが見ても単語の意味も発音も見当が付かない。 一方,多言語字幕App はロシア語がほとんど理解できないユーザーの利用も 想定しており,外国語教育に役立つ機能を実装している。  その1 つが単語の発音の表示である。多言語字幕 App では,発音が分か りにくい外国語の字幕データに発音の表記をつけたので,画面上で発音を確 認することが可能である。例えば図1 の 1 行目のロシア語は,(1a) のように 単語の右に発音を表記した。図2 の左上 1,2 行目が (1a) の実際の表示であ る。ロシア語以外には,韓国語と中国語の字幕データに発音を表記している。 (1b,c) は同じ部分の中国語と韓国語の発音表記である。

(3)
(4)

画面上に表示されている単語を1 回タップするだけで,図 2 のように物書堂 辞書アプリで単語の意味が確認できる。  多言語字幕App の開発にはコンピュータ言語 Python を利用した。発音の 表記にはPython 用のモジュールを利用している。中国語の発音は python-pinyin を利用し,韓国語の発音は ko-pron を利用して表記している。ロシア 語の発音は中国語と韓国語に比べると単純であるため,自作のプログラムで ロシア文字をローマ字の発音表記に規則的に置き換えている。  多言語字幕App では,外国語字幕の発音を合成音声で聞くことができる。 合成音声ファイルは,macOS 付属ソフトウェア say で作成した標準的な音声 ファイルである。翻訳サイトGoogle Translate でも,複数言語の合成音声を 確認することが可能であるが,say は Google Translate よりも音質の良い合成 音声を作成できる。またsay は,合成音声データをファイルに保存して使用 できるため,インターネット接続の必要がない。

(5)

音を聞ける。

 多言語字幕App が対応する映画の 1 つに,Blu-Ray 映画『ハリー・ポッター と賢者の石』(以下,映画HP1)がある。多言語字幕 App は,映画 HP1 の 22 言語の字幕データとセリフ音声データを扱うことができる。例えば図 3 は, フランス語挨拶表現bonsoir(英語の good evening)が使われている場面の 字幕をmacOS 上のブラウザーで表示している。画面右下の再生ボタン >  をクリックすると,フランス語の吹き替え音声を聞くことができる3。 図3:多言語字幕 App での映画 HP1 の仏語字幕  多言語字幕App では瞬時に別の言語に切り替えることができる。例えば図 3 の場面でチェコ語に切り替えれば,bonsoir に対応するチェコ語の挨拶表現 dobrý večer が図 4 のように表示される。再生ボタン > をクリックすると チェコ語吹き替え音声で発音が聞ける。 図4:図 3 に対応するチェコ語字幕

 (2a-c) はチェコ語 dobrý večer に対応する映画 HP1 のスロバキア語,ポー ランド語,ロシア語の字幕である。これらの言語は同じスラブ諸語に含まれ

(6)

るため,類似の表現が使われていることが分かる。 (2) a. スロバキア語 : Dobrý večer! b. ポーランド語: Dobry wieczór . c. ロシア語: Добрыйdobry вечерvecher .  映画HP1 で利用可能な 22 言語には,スラブ諸語以外にもオランダ語やド イツ語やデンマーク語のようなゲルマン諸語,スペイン語やイタリア語やポ ルトガル語のようなロマンス諸語が含まれる。多言語字幕App を利用すれば, それぞれの諸語で類似する基本表現を画面を切り替えながら同時に教育で きる。  多言語字幕App では字幕データの文字検索も行える。その日の授業で教育 した表現を映画から検索すれば,その場面を授業で学生に見せることができ る。図5 は,映画 HP1 のドイツ語字幕から Ich bin( 英語の I am) を検索した 結果である。検索結果をタップすると,その場面のドイツ語字幕が表示され, ドイツ語の音声が聞ける。多言語字幕App では基本表現を検索できるので, 初級レベルの授業でも毎回,映画の例文を使用することが可能となる。

(7)
(8)

フの場面を音声で聞くことが可能である。 6. おわりに  2016 年度から開始した科学研究費補助金研究課題「TED Talks のスピーチ 動画を利用した英日マルチメディア・コーパスの構築」は, 2019 年 12 月時 点で,2,633 本の講演動画の日英字幕をデータベースに登録することができ た。登録した字幕を利用して,『新JACET8000 語彙リスト』に登録されてい る語彙の中の90%以上に,英語の用例や日本語訳などを加えた語彙リストを 作成できた。  多言語字幕App は,これまでの研究成果を英語以外の外国語に応用したも のである。ソフトウェアを試作する過程で,私が長年取り組んできた映画字 幕を利用したコーパス作成技術とコンピュータプログラムによる電子辞書の 活用技術とを融合できた。 参照資料 相澤一美, 石川慎一郎 , 村田年 , 磯達夫 , 上村俊彦 , 小川貴宏 , 清水伸一 , 杉 森直樹, 羽井左昭彦 , 望月正道 (2005) 『JACET8000 英単語 「大学英語教育 学会基本語リスト」に基づく』 東京 : 桐原書店 .

di Giovanni, J. (2010). What I saw in the war. TEDxWomen 2012. Washington, DC, USA.

大学英語教育学会基本語改訂特別委員会( 編著 ) (2016) 『大学英語教育学会基 本語リスト 新 JACET8000』 東京 : 桐原書店 .

Hasebe, Y. (2015). Design and Implementation of an Online Corpus of Presentation Transcripts of TED Talks. Procedia: Social and Behavioral Sciences 198(24), 174–182.

(9)

2016).

佐藤弘明 (2017) 「TED ビデオを利用した英日マルチメディア・コーパスの構 築」,『専修大学外国語教育論集』45 号 , 101-102. 神奈川:専修大学外国 語教育研究室.

参照サイト・ソフトウェア Google Translate. https://translate.google.com.

ko-pron (Korean pronunciation library for Python). https://pypi.org/project/ko-pron/.

Blu-Ray 映画『ハリー・ポッターと賢者の石』 ワーナー・ホーム・ビデオ , 2008 年 .

OpenSubtitles.org. https://www.opensubtitles.org/. 『プログレッシブ ロシア語辞典』 物書堂 , 2016 年 .

python-pinyin (Chinese pronunciation library for Python). https://pypi.org/ project/pinyin/.

TED.com. https://www.ted.com/.

Updating...

参照

Updating...

関連した話題 :