音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

第 2 章従来研究と本研究の位置付け

2.5 音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

現在の音声認識技術を単体で，不特定の直接話者認識などの意図で利用しようとした場合，前節で述べた技術的な制約から，音声認識処理における課題が露呈することになる．しかしながら，音声認識技術の持つ可能性を積極的に実際的な情報保障サービスに生かそうとする試みがなされている．これらの背景には，音声認識技術の持つ音声 -文字変換技術と言う，聴覚障害者にとっては認識困難な音声言語から認識可能な文字言語への言語変換（言語通訳）に相当する技術に対する潜在的な需要に依るところが大きいと言える．

聴覚障害者に対する情報保障手段として音声認識技術を用いた方法は，認識対象となる話者の声を直接音声認識システムに取り込むことで認識する直接話者認識方式と，

話者音声をヒトの介在により音声認識システム対して適した形に前処理を施してから音声認識システムに入力させる方式に分けることができる．後者は特に復唱音声認識方式とよばれ，話者音声を音声認識システムに復唱入力する人を復唱者と呼ぶ．ここでは，

これらの代表的な取り組みに関して紹介する．

2.5.1 NHK（直接話者認識方式）によるニュース字幕[20], [22]-[24]

NHKが行っている直接話者音声認識方式は「ダイレクト方式」と呼ばれ，ニュース番組中のアナウンサーの原稿読み上げ音声を字幕化することを目的に，2000 年 3 月の

第2章従来研究と本研究の位置付け

「ニュース 7」で運用が開始された[23],[24]．アナウンサーの音声明瞭性，ニュース原稿の文法構造の良さ，スタジオと言う耐雑音性能の良い環境を生かした音声認識システムと言える．アナウンサーの読み上げ音声を音声認識システムで認識した後，認識結果を確認し，必要があれば修正する方式を採用しており，誤りを発見する発見者1名と実際に修正作業を行う修正者1名を1組とし，2組体制で担当を1文ごとに振り分けて確認・修正を行う．音声入力から字幕表示までの遅れ時間は，平均 10 秒である[29]．音声認識エンジンおよび言語モデルは，NHK 技術研究所がニュース番組に特化したものを作成し，言語モデル・辞書は放送直前に最新のニュース原稿を自動的に取得することで，毎日学習・更新がされる．NHK ではニュース番組の原稿や音声の蓄積が既に存在するため，特化した開発を行うための開発資産が揃っている点が，他の開発機関と大きく異なる．また，開発と言った技術的な面と，実運用を行うサービス提供の両面が揃っている点も他の開発機関と大きく異なる．この様な背景のもと，ニュース音声認識方式はある程度の成功を収めた．しかし，ニュース音声認識方式はアナウンサの原稿を読み上げに対してのみ適用されるシステムであり，収録画像を流す場面やレポータによる実況などには対応していないため2006年頃から次第に運用されなくなり，NHKが提供するニュース番組の字幕は特殊キーボードの手打ちにて字幕を作成するスピードワープロによる字幕提供が大多数となった．直接話者認識方式は，大リーグ野球中継の実況アナウンスを日本のスタジオで付ける場合にて，現在でも運用を継続している[29],[30]．

図2.9 ニュース音声認識システム(直接話者認識方式)[30]

2.5.2 NHK（リスピーク方式）による生放送字幕[20],[25]-[28]

前節で述べたNHKによるニュース音声認識システムは，アナウンサーがスタジオで原稿を読み上げた音声を直接音声認識するシステムである．先述したとおり，アナウン

第2章従来研究と本研究の位置付け

サーの音声明瞭性，読み上げ原稿の文法構造の良さなどの特徴により，番組中の音声を直接認識するシステムの実用が可能になったと言える[20]．一方，生放送やスポーツ中継番組おいては，発話内容が話し言葉（自然発話）であったり，複数の人間が同時に発言したり，歓声などの背景雑音が混在していたりする場合があり，音声認識処理にとって良い条件とは言い難い．これらの理由から，生中継番組の字幕化のために，音声認識専門のキャスターが番組で発せられた音声の中で必要な音声だけを再発声することで，

高精度な字幕を生成するシステムが開発された[25]．字幕化のために番組音声を再発声する専門のキャスターを NHK ではリスピーカー(re-speaker)と呼び，現役を引退したキャスターなど音声明瞭度の高い人員を起用することで，高い字幕精度を確保する工夫をしている．リスピーカーは，基本的には番組中の実況アナウンサーや解説者の発話を復唱し，場合によっては内容を要約して復唱する．要約の理由は，放送字幕は基本的に1 画面当たり16文字 2行の表示に収める必要があり，複数画面にわたる字幕呈示もあるが，長すぎると内容が伝わらなくなることがあるためである．またリスピーカーは，実況アナウンサーが説明しない拍手や歓声など，場面の様子の補足など，解説の役割を果たすこともある．音声認識結果を修正する修正者は1 名で対応している[26],[30]．字幕遅れは，スポーツ番組において5〜10[秒]と報告されている[29]．

現在，直接話者認識であるダイレクト方式が得意とする，スタジオアナウンサーの原稿読み上げ，記者による現場リポート，アナウンサーと記者との落ち着いた対談における音声認識をダイレクト方式で行い，復唱認識であるリスピーク方式を使用せざるを得ない，インタビュー，収録済みビデオ素材，自由発話の多い対談等における音声認識をリスピーク方式で行う，双方式併用型であるハイブリッド方式の生字幕制作システムを試作している[29],[30]．音声認識の入力音声をリスピーカー自身が，番組音声・リスピーク音声の間を手動で切り替え，認識結果の確認・修正を1〜2名の修正者で行う．

図2.10 生放送字幕システム(リスピーク方式)[30]

第2章従来研究と本研究の位置付け

図2.11 生放送字幕システム(ハイブリッド方式)[30]

2.5.3 Juliusを用いた直接話者認識による講義保障

音声認識システムを用いて自由発話を直接音声認識させるためには，話し言葉の言語モデルを構築することが必要になる．「話し言葉コーパス[31]」は，学会における講演において比較的丁寧に発話された内容を接話型マイクで収集したコーパスである．このコーパスを用いて一般的な講演で直接話者認識に行った際，約80%の認識率を得ている[29]．しかし大学講義においては，専門的な用語を多く含み，自由発話に近い発話で話されるために，講師の音声を直接話者認識するためには，さらに困難が伴う．そのため，事前に講師の音響モデル構築しておく必要がある点はもちろんのこと，対象となる講義の専門用語辞書と言語モデルの確保が重要となる．MITや京都大学では，現在まで構築された講義アーカイブを用いて音声認識処理を行った結果，認識率60[%]を達成していると言う報告がある[29],[33]．

Juliusは，音声認識技術研究向けのプラットフォームとして提供されている音声認識

エンジンである[32]．Julius を直接話者認識にて用いて，聴覚障害者向けの講義保障手段として活用しようとするプロジェクトが，2007年度より総務省SCOPE「音声認識技術を用いた会議録及び字幕の作成支援システム」として，京都大学の河原達也研究室で開始された[33]．対象とする講義の講義録として，講師音声とそれに対する完全な書き起こし文が入手できることを前提とすると，+10%の認識率の向上が期待されるので，

認識率 70[%]の字幕を得ることが期待される[29]．字幕精度 70[%]の字幕では，講義の

情報保障には不十分であるため，認識結果を修正することで最終的な字幕精度を向上させている．具体的には，Julius が出力した認識結果を PC キーボード入力による情報保障ソフトであるIPtalk に入力させ，IPtalk上の修正機能を用いて修正が必要な場合に修正者が修正する手法を採用している．最終的な字幕精度は，音声認識処理直後の認識率に対し，修正者による修正率をどれ位に見積もるかとの兼ね合いになる．修正率を高く

第2章従来研究と本研究の位置付け

するためには多くの修正者を必要とするが，多くの人的リソースを投入することは困難であることを想定し，現状は1名の修正者でどこまで現実的な情報保障が可能かを模索している．2008 年に同大工学部に在籍している聴覚障害学生 3 年生を対象にした情報保障実験を行った結果，情報保障として呈示した文章量は，手書きノートテイクの17[%]

に対し，約30[%]であったと報告されている[29]．

2.5.4 その他の取り組み

以上，直接話者認識方式を2 方式，復唱音声認識方式を 1 方式の研究・開発例を紹介した．他にも音声認識技術を情報保障用途に用いた取り組みは複数ある．ここでは，

中でも主だったものを紹介する．

2.5.4.1 Liberated Learning Project[35],[36],[37]

Liberated Learning Projectは，カナダSt. Mary’s Universityを中心とした共同研究プロジェクトである．直接話者認識方式を用いて，講師の音声を音声-文字変換している．

音声-文字変換の主目的は，文字情報のアーカイブ化であり，e-learning用途としての意味合いが強い．文字がリアルタイムで生成されるため，字幕を教室に投影することで副次的に情報保障として用いているが，高精度字幕を呈示することは目的としていない．

1998 年パイロットプロジェクトとして，音声認識ソフトを用いた講義における字幕呈示の試験が行われた．2001年にIBM社製ViaScribe（NetScribe）と言う，音声認識ソフトの組み込まれたアーカイブ化ソフトを用いてプロジェクトが開始された．日本では広島大学がプロジェクトに参加している．

2.5.4.2 JOIN-Project (Joint project Of IBM-Nagano university Project)_[37]

長野大学と日本IBMとの共同プロジェクト[37],[38]で，2005年4月から2006年3月まで実施された．2006 年 4 月以降も長野大学独自の授業支援プログラムとして継続している[39]．このプロジェクトも音声-文字変換の主目的は，文字情報のアーカイブ化で

あり，e-learning 用途の意味合いが強く，副次的に算出されるリアルタイム字幕を聴覚

障害学生向けの情報保障として用いた．字幕の編集には日本 IBM が開発した字幕編集システム（Caption Editing System）を用いている．

2.5.4.3 愛媛大学

愛媛大学の立入哉研究室では，2002 年より復唱音声認識方式による聴覚障害学生情報保障システムを構築・試験運用を行っている[40]．聴覚障害者に対する情報保障手段の中で，情報量の多さ（要約の少なさ）と即時性の高さに着目して，試験的に運用を行

第2章従来研究と本研究の位置付け

っている．

ドキュメント内聴覚障害者のためのリアルタイム字幕システムにおける話者顔情報と誤認識字幕の呈示方法に関する研究 (ページ 31-36)

音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

第 2 章 従来研究と本研究の位置付け

2.5 音声認識技術を用いたリアルタイム音声 - 文字変換の取り組み

第 2 章従来研究と本研究の位置付け