• 検索結果がありません。

音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

第 2 章  従来研究と本研究の位置付け

2.5 音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

現在の音声認識技術を単体で,不特定の直接話者認識などの意図で利用しようとし た場合,前節で述べた技術的な制約から,音声認識処理における課題が露呈することに なる.しかしながら,音声認識技術の持つ可能性を積極的に実際的な情報保障サービス に生かそうとする試みがなされている.これらの背景には,音声認識技術の持つ音声 -文字変換技術と言う,聴覚障害者にとっては認識困難な音声言語から認識可能な文字言 語への言語変換(言語通訳)に相当する技術に対する潜在的な需要に依るところが大き いと言える.

聴覚障害者に対する情報保障手段として音声認識技術を用いた方法は,認識対象と なる話者の声を直接音声認識システムに取り込むことで認識する直接話者認識方式と,

話者音声をヒトの介在により音声認識システム対して適した形に前処理を施してから 音声認識システムに入力させる方式に分けることができる.後者は特に復唱音声認識方 式とよばれ,話者音声を音声認識システムに復唱入力する人を復唱者と呼ぶ.ここでは,

これらの代表的な取り組みに関して紹介する.

2.5.1  NHK(直接話者認識方式)によるニュース字幕[20], [22]-[24]

NHKが行っている直接話者音声認識方式は「ダイレクト方式」と呼ばれ,ニュース 番組中のアナウンサーの原稿読み上げ音声を字幕化することを目的に,20003 月の

2章  従来研究と本研究の位置付け

「ニュース 7」で運用が開始された[23],[24].アナウンサーの音声明瞭性,ニュース原 稿の文法構造の良さ,スタジオと言う耐雑音性能の良い環境を生かした音声認識システ ムと言える.アナウンサーの読み上げ音声を音声認識システムで認識した後,認識結果 を確認し,必要があれば修正する方式を採用しており,誤りを発見する発見者1名と実 際に修正作業を行う修正者1名を1組とし,2組体制で担当を1文ごとに振り分けて確 認・修正を行う.音声入力から字幕表示までの遅れ時間は,平均 10 秒である[29].音 声認識エンジンおよび言語モデルは,NHK 技術研究所がニュース番組に特化したもの を作成し,言語モデル・辞書は放送直前に最新のニュース原稿を自動的に取得すること で,毎日学習・更新がされる.NHK ではニュース番組の原稿や音声の蓄積が既に存在 するため,特化した開発を行うための開発資産が揃っている点が,他の開発機関と大き く異なる.また,開発と言った技術的な面と,実運用を行うサービス提供の両面が揃っ ている点も他の開発機関と大きく異なる.この様な背景のもと,ニュース音声認識方式 はある程度の成功を収めた.しかし,ニュース音声認識方式はアナウンサの原稿を読み 上げに対してのみ適用されるシステムであり,収録画像を流す場面やレポータによる実 況などには対応していないため2006年頃から次第に運用されなくなり,NHKが提供す るニュース番組の字幕は特殊キーボードの手打ちにて字幕を作成するスピードワープ ロによる字幕提供が大多数となった.直接話者認識方式は,大リーグ野球中継の実況ア ナウンスを日本のスタジオで付ける場合にて,現在でも運用を継続している[29],[30]

2.9  ニュース音声認識システム(直接話者認識方式)[30]

2.5.2  NHK(リスピーク方式)による生放送字幕[20],[25]-[28]

前節で述べたNHKによるニュース音声認識システムは,アナウンサーがスタジオで 原稿を読み上げた音声を直接音声認識するシステムである.先述したとおり,アナウン

2章  従来研究と本研究の位置付け

サーの音声明瞭性,読み上げ原稿の文法構造の良さなどの特徴により,番組中の音声を 直接認識するシステムの実用が可能になったと言える[20].一方,生放送やスポーツ中 継番組おいては,発話内容が話し言葉(自然発話)であったり,複数の人間が同時に発 言したり,歓声などの背景雑音が混在していたりする場合があり,音声認識処理にとっ て良い条件とは言い難い.これらの理由から,生中継番組の字幕化のために,音声認識 専門のキャスターが番組で発せられた音声の中で必要な音声だけを再発声することで,

高精度な字幕を生成するシステムが開発された[25].字幕化のために番組音声を再発声 する専門のキャスターを NHK ではリスピーカー(re-speaker)と呼び,現役を引退したキ ャスターなど音声明瞭度の高い人員を起用することで,高い字幕精度を確保する工夫を している.リスピーカーは,基本的には番組中の実況アナウンサーや解説者の発話を復 唱し,場合によっては内容を要約して復唱する.要約の理由は,放送字幕は基本的に1 画面当たり16文字 2行の表示に収める必要があり,複数画面にわたる字幕呈示もある が,長すぎると内容が伝わらなくなることがあるためである.またリスピーカーは,実 況アナウンサーが説明しない拍手や歓声など,場面の様子の補足など,解説の役割を果 たすこともある.音声認識結果を修正する修正者は1 名で対応している[26],[30].字幕 遅れは,スポーツ番組において510[]と報告されている[29]

現在,直接話者認識であるダイレクト方式が得意とする,スタジオアナウンサーの 原稿読み上げ,記者による現場リポート,アナウンサーと記者との落ち着いた対談にお ける音声認識をダイレクト方式で行い,復唱認識であるリスピーク方式を使用せざるを 得ない,インタビュー,収録済みビデオ素材,自由発話の多い対談等における音声認識 をリスピーク方式で行う,双方式併用型であるハイブリッド方式の生字幕制作システム を試作している[29],[30].音声認識の入力音声をリスピーカー自身が,番組音声・リス ピーク音声の間を手動で切り替え,認識結果の確認・修正を12名の修正者で行う.

2.10  生放送字幕システム(リスピーク方式)[30]

2章  従来研究と本研究の位置付け

2.11  生放送字幕システム(ハイブリッド方式)[30]

2.5.3  Juliusを用いた直接話者認識による講義保障

音声認識システムを用いて自由発話を直接音声認識させるためには,話し言葉の言 語モデルを構築することが必要になる.「話し言葉コーパス[31]」は,学会における講 演において比較的丁寧に発話された内容を接話型マイクで収集したコーパスである.こ のコーパスを用いて一般的な講演で直接話者認識に行った際,約80%の認識率を得てい る[29].しかし大学講義においては,専門的な用語を多く含み,自由発話に近い発話で 話されるために,講師の音声を直接話者認識するためには,さらに困難が伴う.そのた め,事前に講師の音響モデル構築しておく必要がある点はもちろんのこと,対象となる 講義の専門用語辞書と言語モデルの確保が重要となる.MITや京都大学では,現在まで 構築された講義アーカイブを用いて音声認識処理を行った結果,認識率60[%]を達成し ていると言う報告がある[29],[33]

Juliusは,音声認識技術研究向けのプラットフォームとして提供されている音声認識

エンジンである[32]Julius を直接話者認識にて用いて,聴覚障害者向けの講義保障手 段として活用しようとするプロジェクトが,2007年度より総務省SCOPE「音声認識技 術を用いた会議録及び字幕の作成支援システム」として,京都大学の河原達也研究室で 開始された[33].対象とする講義の講義録として,講師音声とそれに対する完全な書き 起こし文が入手できることを前提とすると,+10%の認識率の向上が期待されるので,

認識率 70[%]の字幕を得ることが期待される[29].字幕精度 70[%]の字幕では,講義の

情報保障には不十分であるため,認識結果を修正することで最終的な字幕精度を向上さ せている.具体的には,Julius が出力した認識結果を PC キーボード入力による情報保 障ソフトであるIPtalk に入力させ,IPtalk上の修正機能を用いて修正が必要な場合に修 正者が修正する手法を採用している.最終的な字幕精度は,音声認識処理直後の認識率 に対し,修正者による修正率をどれ位に見積もるかとの兼ね合いになる.修正率を高く

2章  従来研究と本研究の位置付け

するためには多くの修正者を必要とするが,多くの人的リソースを投入することは困難 であることを想定し,現状は1名の修正者でどこまで現実的な情報保障が可能かを模索 している.2008 年に同大工学部に在籍している聴覚障害学生 3 年生を対象にした情報 保障実験を行った結果,情報保障として呈示した文章量は,手書きノートテイクの17[%]

に対し,約30[%]であったと報告されている[29]

2.5.4  その他の取り組み

以上,直接話者認識方式を2 方式,復唱音声認識方式を 1 方式の研究・開発例を紹 介した.他にも音声認識技術を情報保障用途に用いた取り組みは複数ある.ここでは,

中でも主だったものを紹介する.

2.5.4.1  Liberated Learning Project[35],[36],[37]

Liberated Learning Projectは,カナダSt. Mary’s Universityを中心とした共同研究プロ ジェクトである.直接話者認識方式を用いて,講師の音声を音声-文字変換している.

音声-文字変換の主目的は,文字情報のアーカイブ化であり,e-learning用途としての意 味合いが強い.文字がリアルタイムで生成されるため,字幕を教室に投影することで副 次的に情報保障として用いているが,高精度字幕を呈示することは目的としていない.

1998 年パイロットプロジェクトとして,音声認識ソフトを用いた講義における字幕呈 示の試験が行われた.2001年にIBM社製ViaScribeNetScribe)と言う,音声認識ソフ トの組み込まれたアーカイブ化ソフトを用いてプロジェクトが開始された.日本では広 島大学がプロジェクトに参加している.

2.5.4.2  JOIN-Project (Joint project Of IBM-Nagano university Project)[37]

長野大学と日本IBMとの共同プロジェクト[37],[38]で,20054月から20063月 まで実施された.20064 月以降も長野大学独自の授業支援プログラムとして継続し ている[39].このプロジェクトも音声-文字変換の主目的は,文字情報のアーカイブ化で

あり,e-learning 用途の意味合いが強く,副次的に算出されるリアルタイム字幕を聴覚

障害学生向けの情報保障として用いた.字幕の編集には日本 IBM が開発した字幕編集 システム(Caption Editing System)を用いている.

2.5.4.3  愛媛大学

愛媛大学の立入哉研究室では,2002 年より復唱音声認識方式による聴覚障害学生情 報保障システムを構築・試験運用を行っている[40].聴覚障害者に対する情報保障手段 の中で,情報量の多さ(要約の少なさ)と即時性の高さに着目して,試験的に運用を行

2章  従来研究と本研究の位置付け

っている.