• 検索結果がありません。

2014 No.147 9

N/A
N/A
Protected

Academic year: 2022

シェア "2014 No.147 9"

Copied!
60
0
0

読み込み中.... (全文を見る)

全文

(1)

複数のプロジェクターを用いたインテグラル立体映像表示

●研究所の動き

50

論文紹介 発明と考案

研究会・年次大会等発表一覧

51 52 56

気象情報を対象とした手話CG生成技術の概要 手話アニメーションの合成・編集

対談音声認識のための話者ダイアライゼーション 誤り傾向を利用した言語モデルによる音声認識

●報告

20

聴覚障害者向け放送の

バリアフリー技術 特集号

CGキャラクターを用いた手話表現技術の研究動向 情報保障に用いられる音声認識技術の最新動向

●解説

4

聴覚障害者向け放送のバリアフリー技術特集号に寄せて

工学院大学情報学部情報デザイン学科 教授

長嶋祐二

●巻頭言

2

技研

平成26年9月15日発行(隔月奇数月15日発行)9月号 No.147

ISSN 0914-7535

日本放送協会 放送技術研究所

2014 No. 147

9

NHK技研R&D

2014・9 No.147

ISSN 0914-7535

Printed in Japan

技研 2014年9月通巻第

147号  平成

26年9月

15日  発行編集・発行=日本放送協会

  放送技術研究所

(2)

巻 頭 言

聴覚障害は,聴覚系による情報受容障害である。聴覚障害者は,音が聞こえない,聞き取りにくいなどにより,

対人コミュニケーションや,さまざまな音情報に支えられた日常生活において,困難さや不便さを感じている。

平成18年3月の厚生労働省の「身体障害児・者実態調査結果」によると,聴覚に障害のある人(全国で18歳以上 の,身体障害者手帳を所持する人)のコミュニケーション手段に関する利用状況調査結果(複数回答)から,最も 多く利用されているコミュニケーション手段は,補聴器や人工内耳などの補聴機器で69.2%となっている。一方,手 話・手話通訳を利用している人は,全体の18.9%にとどまっている。この結果は,手話を理解できない聴覚に障害の ある人も多く存在する可能性を示している。その反面として,筆談・要約筆記の割合が30.2%と高い理由は,手話に よる情報保障の機会が少ないためとも考えられる。実際にどのコミュニケーション手段を用いるかは,聞こえの状 態や聞き分けの能力,音声言語の獲得状況,障害を受けた時期や教育環境,利用場面などによって大きく異なる。

聴覚障害者向けの情報保障の手段としては,手話を対象とする手段と文字を対象とする手段がある。ここで,情 報保障とは,場を共有するすべての人が,同時に同質,同量の情報を得て,その場に参加できるようにするための 活動である*1。中途失聴者や高齢難聴者にとっては,文字による情報保障が有効な手段となる。しかし,手話を母 語とする人にとっては,手話による情報保障が求められる。

放送においても,情報保障という視点からは,字幕放送や手話放送の充実が望まれる。旧郵政省・総務省では,

高齢者・障害者を含めた誰もがICT(Information and Communication Technology)を利活用し,その恩恵を享受で きるように,情報バリアフリー関連施策を,聴覚障害者向けの放送の普及という面でも積極的に推進している。そ の一環として,1997年11月に,新たに放送する字幕付与可能な放送番組の全てに字幕を付すことを10年間の目標と する,字幕放送普及行政の指針を策定した。

NHKでは,放送技術研究所の音声認識の研究成果や上記の施策もあり,2000年に世界に先駆けて音声認識による ニュース番組自動字幕制作システムを稼働させた。また総務省は,2008年度から2017年度までの目標値を定めた新 しい指針を策定した。そして,2011年7月24日(東北3県は2012年3月31日)に,地上アナログ放送が地上デジタ ル放送へ切り替わり,字幕放送への対応が大きく変わった。アナログ時代は,字幕放送を見るためには,文字多重 放送対応のテレビ受信機か,外付けの文字多重放送専用のチューナー等を購入しなければならなかったが,地上デ ジタル放送の開始に伴い,標準で字幕放送を誰でも楽しめるようになった。これは,文字による情報保障を必要と する人にとって,有効な手段となった。地上テレビ放送のデジタル化に伴い,2012年に総務省の新しい指針の改定 が行われ,字幕・解説放送の努力目標に加え,NHKにおいて手話放送の実時間を増加させる新たな目標が追加され た。

2012年度の総務省の統計では,NHKの字幕の付与率は,総合テレビで67.9%,教育テレビで48.1%となり,文字 による情報保障の必要な人にとってアクセシビリティーが着実に向上している。しかし,同統計からNHKの手話番 組の比率を見ると,総合テレビで0.18%,教育テレビで2.54%にとどまっている。字幕放送の比率が圧倒的に高い理 由として,音声は文字によって書き起こしができるため,字幕放送で容易に対応可能となるが,手話は,話された 言葉を共通に記述できる手段が存在しない,文法の未解明な部分が多く,言語的構造が複雑であり,翻訳を目指し た研究の歴史も浅い,ということが考えられる。

長嶋祐二

工学院大学情報学部情報デザイン学科 教授

聴覚障害者向け放送の

バリアフリー技術特集号に寄せて

(3)

日本における手話の工学的研究組織としては,1995年に電子情報通信学会教育工学研究専門委員会内に設置され た手話工学研究会があり,手話を言語学的,工学的な側面から研究している大学や研究所の関係者が定期的に議論 や情報交換を行う場となった。研究会のメンバーによる代表的な手話翻訳システムの研究として,1995年前後から 2000年ごろに,日立製作所が技術研究組合新情報処理開発機構(RWCP:Real World Computing Partnership)に 参画して実施した研究,および郵政省通信総合研究所(現在の情報通信研究機構(NICT:National Institute of Information and Communications Technology))の研究が知られている。これらの翻訳システムは,手話の認識の 難しさから限定的な場面での対話システムであり,汎用的な場面での認識には至っていない。そしてこれ以降,残 念ながら,組織だった研究は行われていない。

では,手話の認識はなぜ難しくなってしまうのだろうか。それは,手話の語の構造によると言える。手話は,手 の運動や表情などにより言語情報が発せられ,視覚系で受容される視覚言語である。手話の語を構成する要素は,

手指信号と非手指信号と呼ばれている。手指信号は,手の型・掌方向・提示位置・大局的な運動により構成され,

これらの動きを時間軸上に同時あるいは連続的に提示することにより,主に語の形成に寄与する。非手指信号は,

表情・口型・うなずき・視線などの動作で構成され,主に統語論*2的,意味論的な作用があると言われている。構 成要素を同時に出すことが可能な手話は,時間軸上に語が並ぶ音声言語とは異なった言語的特性を持つ。この構造 の複雑さと,文法に未解明な部分があるということにより,手話の認識が,音声と比較して難しいものとなってい る。手話研究で重要なことは,「日本語とは別体系の言語である=独立した文法体系が存在する」ことである。極端 に言えば,手話を母語とする人にとって日本語の字幕は,音声日本語の母語者に対して英語の映画に英語の字幕が 付いた状態と言える。

そのような背景の中,NHK放送技術研究所において,2009年度より手話の調査・研究が開始された。この研究開 始の知らせは,手話を母語とする人への新たな情報保障サービスの提供に向けて,待ち望まれていたと言っても過 言ではない。技術開発目標は,非常時で手話通訳者が対応できない時の日本語から手話への翻訳と,翻訳結果から のTVML(TV program Making Language)を用いた3D手話アニメーションの自動生成である。その成果の1つが,

手話CG(Computer Graphics)による気象情報などの自動合成サービスであり,Hybridcastの新たなサービスとし て準備が進められている。

放送・通信事業者にとって,災害時はもとよりさまざまな状況で,聴覚に障害のある人への情報伝達を,どのよ うな情報保障手段を用いて,迅速かつ確実に行うか,が重要な課題となっている。放送・通信技術の分野において,

NHK放送技術研究所の進めている「人にやさしい放送」の取り組みが,聴覚に障害のある人をはじめさまざまな人 への新たな情報保障の確立など,QOL(Quality of Life:生活の質)の向上に大きく寄与し続けていくことを期待し たい。

*1 日本聴覚障害学生高等教育支援ネットワーク(PEPNet­Japan)情報保障評価グループ:大学ノートテイク支援ハンドブック,人間社(2007)

*2 語が文を形成する仕組み。

1980年 工学院大学大学院工学研究科修士課程修了 1980年 工学院大学電子工学科助手

1989年 同助教授 2003年 同情報工学科教授

2006年 学部再編に伴い同情報学部教授

2008年〜2011年 京都工芸繊維大学プロジェクト特別 研究員

2014年〜 神奈川大学マルチモーダル研究所プロジェク ト研究員

ヒューマンインタフェース,手話工学,生体計測,視覚認 知,学習障害などの研究に従事。博士(工学)。

電子情報通信学会HCG運営委員長,電子情報通信学会福祉 情報工学研究専門委員会(WIT)委員長,電子情報通信学会 発達障害支援研究専門委員会(ADD)委員長,ヒューマン インタフェース(HI)学会理事,HI学会アクセシブル・イ ンタフェース(ACI)専門研究会委員長などを歴任。HCG アドバイザリー委員,WIT顧問,HI学会評議委員。電子情 報通信学会,HI学会,IEEE,ACM各会員。

(4)

手話は音声言語とは別の言語であるという理解が広まり,手話による各種の情報サービ スの充実に向けた研究の機運が各所で高まっている。本稿では,音声言語のテキスト表 記のデータを入力とし,それに相当する手話のアニメーションをコンピューターグラ フィクス(CG:Computer Graphics)により自動生成するシステムの実現を目指した 研究の動向を紹介する。特に,放送・通信への応用も視野に,多国間のプロジェクトを 含めて継続的に取り組んできたヨーロッパでの活動を概観し,当所の手話CG研究の特徴 と位置づけを紹介する。

1.はじめに

2014年1月20日,わが国は,国連の「障害者の権利に関する条約」を批准した。批准 に向けた国内法制整備の一環として改正された障害者基本法には,下記の条文が記載さ れている。

第三条

第一条に規定する社会の実現は,全ての障害者が,障害者でない者と等しく,基本的 人権を享有する個人としてその尊厳が重んぜられ,その尊厳にふさわしい生活を保障さ れる権利を有することを前提としつつ,次に掲げる事項を旨として図られなければなら ない。

(略)

三 全て障害者は,可能な限り,言語(手話を含む。)その他の意思疎通のための手段に ついての選択の機会が確保されるとともに,情報の取得又は利用のための手段について の選択の機会の拡大が図られること。

ここにも見られるように,先天的なろう者を中心に使われている手話(わが国では

「日本手話」)は,同地域の音声言語(わが国では日本語)とは異なる別の言語であるとい う理解が浸透してきており,手話による各種の情報サービスの充実に向けた研究の機運 が各所で高まっている。当所においても,後章で紹介するように,字幕に加えて手話に よるサービスの充実を目指した研究に取り組んでいる。

手話の研究としては,手話とはいかなる言語であるか,という見地からの言語学的研

CGキャラクターを用いた 手話表現技術の研究動向

比留間伸行 東真希子

解 説

(5)

1)(ハンブルク大学のHamNoSys(Hamburg sign language Notation System)2)をは じめとする手話表記法の研究を含む),手話の現況を記録しようとする手話コーパス(言 語の実例集)の構築研究3)4),手話者をとりまく社会環境やその変遷を扱う社会学的研 究1)などが推進されている。

これらに加え,手話を,CGを用いた仮想的なキャラクター(「アバター」と呼ばれるこ とが多い)に演じさせるアニメーションで表現しようという工学的な研究が各所で行わ れるようになっており,それを専門に扱う国際会議も発足している5)。これらは決して,

人間の手話通訳者,手話キャスター等の仕事を計算機で置き換えようというものではな く,手話キャスター等が即時に対応できない場合の情報提供,手話による定型的な告知 の制作コスト低減,伝送帯域の節減などを目指して行われている研究である。本稿では 特に,放送・通信への応用も念頭に,この分野について国際的なプロジェクトを含め継 続的に取り組んできたヨーロッパの事例を中心に,その動向を解説する。

なお,本稿では音声言語テキストの入力から,相当する手話のアニメーションのCG に変換する研究事例を紹介するが,逆に手話の映像を認識して音声言語のテキストに変 換するという技術の研究も有意義である。しかしながら,手形で仮名文字などを1文字 ずつ表出する「指文字」の認識については当所でも取り組んだ6)ことがあるものの,手話 文章の画像認識・言語変換技術は,現状では極めて技術的な難度の高いテーマであると 言わざるを得ず,今後の技術の進展を待たなければならない。

2.ヨーロッパにおける研究事例

上述のように手話をCGで表現する研究は各所で行われている。そのうち,ヨーロッバ ではいくつかの国際的,国家的研究プロジェクトに継続的に取り組んできており,本章 では,これらについて紹介する。

2.1 ViSiCAST

7)8)

ViSiCAST(Visual Signing:Capture,Animation,Storage and Transmission)

は,1表に示す機関が参加して1999年から2002年まで行われたプロジェクトである。

このプロジェクトでは,英語のテキストを入力とし,英国,ドイツ,オランダの各手 話への自動翻訳を目指していた。2001年にロンドン科学博物館,2002年にIBC(Interna- tional Broadcasting Convention:欧州国際放送機器展)などで成果が展示された。この プロジェクトは,HamNoSysと同様の手話記述が可能なXML(Extensible Markup Language)ベースの手話表記言語SiGML(Sign and Gesture Markup Language)を 開発し,英語からSiGMLへの自動翻訳技術と組み合わせて,これを元にアニメーション

参加機関 担当

ITC:Independent Television Commission 英 プロジェクト調整 IRT:Institut fur Rundfunktechnik 独ほか 放送技術

TeleVirtual 英 仮想人物

IDGS:Institut fur Deutsche Gebardensprache 独 手話記法

University of East Anglia 英 言語,音声,画像処理 INT:Institut National des Telecommunications 仏 アニメーション技術

IvD:Deaf Institute of Netherlands 蘭 マルチメディアコンテンツ制作

Post Office 英 対話システム

RNID:Royal National Institute for Deaf People 英 監督,評価 1表 ViSiCAST参加機関

(6)

を生成することを目指していた。また,このSiGMLで記述した手話文のデータを伝送し,

受信側でアニメーションを合成することにより伝送帯域を節減するという構想も提案さ れており,実証実験も行われた。ただし,このような方式を実現するためには,受信環 境の統一を規定する規格化が必要であるが,放送受信機のための規格制定までには至っ ていない。

さらにこのプロジェクトでは,放送・通信への応用のみならず,対面対話への応用も 掲げられ,郵便局窓口での応用を目指したデモンストレーションも行われた。これは,

窓口職員の発話を市販の音声認識ソフトウエアで認識した結果を用いて,事前に用意し た定型的な約100の手話文の映像から1つを選択し,その映像を表示するというものであ り,窓口業務に必要な対話の80%をカバーできたとしている。

以上のように,ViSiCASTは手話CG自動翻訳にまつわる課題を広くカバーしようとす る,大規模で野心的なプロジェクトであった。

2.2 eSIGN

9)10)

eSIGN(essential Sign language Information on Government Networks)は,ド イ ツ・ハンブルク大学等が中心となり,ViSiCASTの成果の一部であるアニメーション生 成技術を活用して,電子政府構想に資するため,ろう者の社会アクセスを支援しようと したプロジェクトである。EUのInformation Society Technologies(IST)プログラム の一環として2002年から2004年まで行われた。eSIGNでは,自動翻訳まではスコープに 含めず,人手によるアニメーション制作を補佐するエディターなどの環境を整備するこ とに主眼を置く,という技術的な実現性を高める選択が行われた。

eSIGNでも,ViSiCASTと同様に,アニメーションの動画データではなくSiGMLスク リプトを伝送しユーザーサイドでアニメーションを生成することにより伝送データ量を 節減する方針を採用していた。ウェブブラウザー(Internet Explorer)上でSiGMLを解 釈してアニメーション表示を行うプラグインソフトウエア(機能を拡張するために追加 するソフトウエア)や,SiGMLエディター等の支援ソフトを開発し,無料で配布するな どの取り組みを行った結果,プロジェクト終了後もeSIGNの成果を活用したアプリケー ションの開発や手話研究が行われてきている。また,実際に行政機関による情報提供に 応用された事例もあり,例えば,ドイツ・ハンブルク市のホームページでは,eSIGNの 成果を用いた手話のページ11)が制作されている。

2.3 ATLAS

12)13)

ATLAS(Automatic Translation into sign LAnguageS)プロジェクトは,イタリ ア・ピエモンテ州のプロジェクトとして,2009年から3年間のスケジュールで実施され た。主な参加機関はRAI(イタリア放送協会),トリノ工科大学,Microsoftトリノ研究 所など7機関であった。イタリア語テキストデータを入力としてイタリア手話のアニ メーションを制作し,放送,モバイル通信,webコンテンツに活用しようというプロ ジェクトである。すなわちここでは,再び音声言語テキストから手話CGヘの自動翻訳の 実現を目指した目標が設定された。ATLASプロジェクトが目指した技術的な構成につい ては,次章で当所の研究と比較して紹介する。

各参加機関による研究は継続しているものと思われるが,ATLASプロジェクトとして の活動は,上記のように2012年で終了している。

3.手話CG生成技術の構成

本稿のテーマは,テキストをシステムの入力とし,CGによる映像をシステムの出力と

(7)

入力テキスト

自動翻訳装置

出力画像

入力テキスト

(1)

言語変換部

(3)

動作情報 生成部

(5)

CGレンダリング エンジン

(2)言語資源 データベース

(4)人体動作情報 データベース

出力画像 動作情報

中間言語

する技術である(1図)。しかしながら,これを一挙に実行する処理技術は現実には考え にくく,2図に示すようないくつかの段階を経る構成が実際的と考えられる。

(1)入力の音声言語(本章ではイタリア語,あるいは日本語)のテキストに何らかの 変換を施し,相当する手話の文章の構成を表現するためのデータを得る処理。

(2)(1)の変換に必要な言語資源。

(3)(1)で得られたデータから,それを手話で表現するための人体の動きの記述を得 る処理。

(4)(3)の変換に必要な人体動作情報。

(5)(3)で記述された人体の動きをCGアニメーションとしてレンダリング(描 画)する処理エンジン。

この流れに沿ってATLASプロジェクトにおける要素技術の構成を見てみると,以下の ようになっている13)。(1)の言語変換においては,イタリア語の入力からAWLIS

(ATLAS Written Italian Sign Language)と呼ぶ中間言語に規則翻訳 *1

文法規則を定式化し,この規則 の適用によって翻訳を行う方式。

*1し,さらに AWLISで記述された手話動作を並列に実行される要素ごとに再構成したAEWLIS

(ATLAS Extended Written Italian Sign Language)と呼ばれる記述に変換する。この 言語変換部は,意味解析処理と,文法規則に基づくAWLISによる記述の生成処理から成 るが,ここで用いられる(2)の言語資源としては,意味解析処理にはイタリア語にお ける係り受けの文法データ,記述の生成処理にはAWLISの生成規則データベースを用い ている。(3)の処理としては,AEWLIS記述を入力としてAI技術を用いた動作計画生 成部によりキャラクター(アバター)のリソース(指,腕,顔など)の動作を調整し,

Signary(Sign + Dictionary)と呼ぶ手話単語のデータベースと,手話とアニメーショ ンを対応づける規則のデータベースによりAL(Animation Language)と呼ばれる言語 による記述への変換が行われる。(4)の人体動作情報の収集には,光学モーションキャ プチャー,磁気モーションキャプチャー,光ファイバー形状計測(データグローブ

*2

手袋の各指に沿って配置した光 ファイバーを使って手の形を計 測する装置。

*2), 表情画像認識,人手による人体・表情描画などの手段が考えられるが,ATLASではデー タグローブの使用なども検討されたものの完成には至らず,公開されたデモシステムで は熟練したアニメーターによる手作業で制作されたデータが用いられていた。このAL

1図 手話CG翻訳システム

2図 手話CG翻訳システムの要素技術

(8)

で記述された手話動作の情報を元にEnthusiasm project

*3

オープンソースプロジェクトと して開発されている高機能なCG 環境。

*4

Enthusiasm projectにおいて,

描画対象の構成の解釈と,描画 エンジンの制御を担当するソフ トウエア。

*5

各言語の用例に基づき,入力文 に対して最も近似した翻訳例を 検索して翻訳する方式。

*6

各言語の用例の統計的な分析に 基づき,最も確からしい翻訳結 果を探索する方式。

*7

手話の動作を記述するのではな く,手話単語に付したラベルを 並べることで手話文を表現する 表記法。

*8

Biovision社17)が 開 発 し た モ ー ションキャプチャーのファイル フォーマット。

*3によるアニメーションエンジ ンとレンダリングライブラリーTarta4D*4を用いて最終的なアニメーションビデオ データを生成することとしていた14)。以上のように,ATLASプロジェクトでは非常に完 備した構成要素技術を採用した汎用的なシステムの実現を目指していたと言える。

これに対し,当所の研究における処理の大略は以下のとおりである。(1)の言語変換 として,用例翻訳*5を用い(用例が得られない場合のみ部分的に統計翻訳*6を用いる), 主として単語単位のgloss表記15)*7による手話要素列のデータに変換する。(2)の変換 処理の元となる言語資源は,NHK手話ニュースの手話を書き起したgloss表記のコーパス

(言語の用例を記録したデータベース)である。(4)の人体情報としてはネイティブの手 話者の実際の動作を,単語単位で,あるいは当所の研究の目標である気象情報の翻訳に 特有な表現の文節単位で,光学モーションキャプチャー技術により記録したBVH

(BioVision Hierarchy)*8データを用いている。これを元として,(3)の人体動作記述 としては,抽象度の高い記述言語を経由することなく,アバターの骨格モデルの各関節 の角度を示すBVHデータを直接操作している。(5)のレンダリング(描画)エンジンと し て は,当 所 で 開 発 し た テ レ ビ 番 組 記 述 言 語TVML(TV program Making Language)16)に基づいたスクリプトをリアルタイムでCGに変換するTVMLプレーヤー を使用している。以上の比較を2表にまとめて示す。

このように,当所のプロジェクトは,気象情報の翻訳に応用目的を絞り込み,簡素で 現実的な装置規模により,必要な成果の達成を目指すことを特徴としている。

4.手話CGの評価

このような過程を経て得られたCGによる手話表現が,目的とする応用に適した品質に なっているかの判断は,あくまでも手話という言語をネイティブとして使っている人々 による主観評価に基づくべきである。

前章までのレビューで分かるように,実用レベルに近づいた自動手話CG翻訳手法がい くつも実現しそれらを比較評価する,という状況には,いまだに至っていないので,翻 訳の品質やシステム性能を比較評価するような手法も十分には確立していない。これま でに,前述のViSiCASTあるいはeSIGNの成果を活用して試作されたコンテンツを評価 した研究では,3段階から6段階の系列範疇法

*9

評価者が,対象を「良い」「普 通」「悪い」など順序のあるカテ ゴリーに当てはめて評価する主

観評価法。 *9でCGのさまざまな側面を評価し,そ

の回答と被験者の属性との相関を分析して,手話CGの評価に与える要因を分析している 報告が見られる18)19)。また,ろう者の被験者による実験中の手話による発話を,無意識 のコメントやその後のインタビューを含めて録画し,自身ろう者である実験者がその発 話内容を分析した例18)もあり,CGアバターがろう者に受容される程度に関する解析に役 立てている。これらの研究事例では,翻訳過程に手作業が介在している場合もあり,翻

言語変換部 言語資源

データベース 中間言語 画像情報 人体動作情報 データベース

CGレンダリン グエンジン ATLAS

プロジェクト

規則翻訳 イタリア語文法

+

AWLIS生成規則 データベース

AWLIS AEWLIS

AL 熟 練 ア ニ メ ー ターによる制作

Enthusiasm System

NHK技研 用例翻訳

(一部,統計翻訳)

NHK手話 ニュースの書き 起こしコーパス

Gloss表記 BVHデータ + TVML

モーション キャプチャー による BVHデータ

TVML プレーヤー 2表 ATLASプロジェクトと当所の研究の比較

(9)

(a)トップページのページビュー

(b)評価回答件数 200,000

150,000

100,000

50,000

0

9月

11月 12月 1月 2月 3月 4月

10月

3,000

2,250

1,500

750

0 9月

11月 12月 1月 2月 3月 4月

10月 15,081

27,517 41,283

54,596 75,341

106,371 144,391

189,116

447 787

1,003 1,406

1,674 1,941

2,186 2,776

訳結果の理解度については一定のレベルに達したとしている例もあるが,改善すべき点 としては,口の動き,顔の表情,動作の速さ・スムーズさなどが多く指摘されている。

したがって,いずれのシステムのCG品質も課題を残していることは明らかではあるが,

一方でアバターによる手話アニメーションは,ろう者にとってアクセシビリティー向上 の手段として可能性がある,との意見が得られたとの報告が多く,全般的には,この分 野の研究に期待が寄せられていると言える。

当所でも,現在は手話CG翻訳の基盤技術の確立に向け取り組んでいる段階であり,翻 訳結果としての手話文のCGの系統的な評価までには至っていないが,研究の一環として 構築した日本語単語→手話単語の対訳辞書(手話単語約7,000語)を含む辞書システムを 2013年9月よりホームページ上で公開し,手話使用者の方々から広く評価を募る取り組 みを行っている20)。これはあくまでも,単語ごとの手話CGの品質を評価していただくも のであるが,このような規模でCGの評価データを収集する試みは前例が無い。本稿執筆 時点でも評価が進行中であるため,評価結果を報告することはできないが,3図に示す ように,評価データ数としては順調に増加しつつある。

3図 手話CG評価サイトの運用状況

(10)

参考文献 5.おわりに

再三述べてきたように,本稿のテーマとした音声言語テキストから手話CGを生成する 技術は,自然言語翻訳技術にほかならない。しかも手話への翻訳の場合,翻訳結果を文 字による記述までにとどめることはできず,必ず映像のレンダリングまでを含まなけれ ばならない。これは,音声言語の翻訳技術で例えれば,翻訳文を得ることにとどまらず,

それを自然な合成音声で出力する段階までを含むことに相当する。音声言語間の文字 ベースの自動翻訳も高度な技術を要することは言うまでもないが,加えて上記の事実を 勘案すれば,手話CGの自動生成が,挑戦的な研究であることが理解されよう。一方で,

聴者にとって,例えば空港等で用いられている自動生成・合成音声のアナウンスは,決 して完全に自然な音声ではないが,当該の用途に供することは可能なレベルにあると受 容されている。手話CG生成技術の研究においても,完全に自然な手話映像の制作は困難 であるにしても,その使用範囲,目的を明確化し,その中でろう者に受容していただけ る完成度はどのようなレベルであるか,の評価を常に確認しながら取り組む必要がある と言えるだろう。

1) 日本手話学会,http://jasl.jp/

2) T. Hanke: HamNoSys ­ Representing Sign Language Data in Language Resources and Language Processing Contexts, LREC 2004 Workshop Proceedings:Representation and Processing of Sign Languages,pp.1­6(2004)

3) 国立情報学研究所日本手話話し言葉コーパスプロジェクト,http://research.nii.ac.jp/jsl­

corpus/

4) British Sign Language Corpus Project,http://www.bslcorpusproject.org/

5) Symposium on Sign Language Translation and Avatar Technology,http://sltat.cs.

depaul.edu/program.html

6) 井上,金子,加藤,宮崎,梅田,清水,比留間,長嶋: 距離画像とHOG特徴を使った指文字 認識に関する一検討, 映情学技報,Vol.37,No.8,ME2013­45,HI2013­17,AIT2013

­17,pp.117­120(2013)

7) ViSiCAST Project,http://www.visicast.co.uk/

8) J. A. Bangham,S. J. Cox,R. Elliott,J. R. W. Glauert,I. Marshall,S. Rankov and M.

Wells: Virtual Signing:Capture,Animation,Storage and Transmission ­ An Overview of the ViSiCAST Project, IEE Seminar on Speech and Language Processing for Disabled and Elderly People ,pp.1­7(2000)

9) eSIGN Project,http://www.sign­lang.uni­hamburg.de/esign/

10)I. Zwiterslood,M. Verlinden,J. Ros and S. van der Schoot: Synthetic Signing for the Deaf : eSIGN , Proceedings of the Conference and Workshop on Assistive Technologies for Vision and Hearing Impairment,CVHI 2004(2004)

11)http://gebaerden.hamburg.de/

12)ATLAS project,http://www.atlas.polito.it/

13)V. Lombardo,C. Battaglino,R. Damiano and F. Nunnari: An Avatar­based Interface for the Italian Sign Language, 2011 International Conference on Complex,Intelligent,and Software Intensive Systems,pp.589­594(2011)

14)Enthusiasm Project,http://enthusiasm.sourceforge.net/

(11)

15)加藤: 手話における言語資源の研究動向, NHK技研R&D,No.139,pp.10­19(2013)

16)TVMLホームページ,http://www.nhk.or.jp/strl/TVML/index.html 17)http://www.biovision.com/

18)M. Verlinden , C. Tijsseling and H. Frowein : Sign Language on the WWW , Proceedings of 18th International Symposium on Human Factors in Telecommunication

(HFT 2001),pp.5­7(2001)

19)R. San­Segundo,J. M. Montero,R. Cordoba,V. Sama,F. Fernandez,L. F. DʼHaro,V.

Lopez­Ludena,D. Sanchez and A. Garcıa: Design,Development and Field Evaluation of a Spanish into Sign Language Translation System, Pattern Anal. Applic. 15,pp.203

­224(2012)

20)手話CG評価ホームページ,http://www.nhk.or.jp/signlanguage/

ひ る ま のぶゆき

比留間伸行

1984年入局。長野放送局,放 送技術研究所視覚情報研究部,

名古屋放送局,放送技術研究 所研究企画部などを経て,現 在,放送技術研究所ヒューマ ンインターフェース研究部上 級研究員。人間の情報受容特 性,知識情報処理の研究に従 事。2012年から電気通信大学 大学院情報システム学研究科 客員准教授,日本工業大学非 常勤講師兼任。博士(工学)。

あずま ま き こ

東 真希子

2010年入局。仙台放送局を経 て,2013年から放送技術研究 所において,手話CG技術の研 究に従事。現在,放送技術研 究 所 ヒ ュ ー マ ン イ ン タ ー フェース研究部に所属。

(12)

「人にやさしい放送」の実現のために当所が進めている音声認識の研究開発の概要を紹介 するとともに,障害者のための情報保障技術と,同情報保障に用いられている音声認識 技術の動向について解説する。また,放送番組への字幕付与の現状を紹介し,課題につ いて述べる。

1.はじめに

「人にやさしい放送」1)は当所の重要な研究テーマの1つであり,障害者や高齢者を含む 全ての人が好みの手段で楽しみ利用できる放送を目指して,身体的なハンディキャップ により情報を収集できない方々に対して代替手段を用いて情報を提供する技術の研究開 発を進めている。この人にやさしい放送の1つとして拡充を進めているのが字幕放送で ある。字幕放送は,ナレーションやせりふなど,テレビ番組の音声で伝えられる情報に 対応する文字を,必要に応じて画面上に表示して伝えるものであり,聴覚に障害のある 方や,テレビの音声の聞き取りが容易ではないと感じる高齢者などへの重要な情報保障 手段である。

NHKでは2000年に,生放送のニュース番組において,音声認識を用いた字幕放送を世 界に先駆けて開始し,それ以降,字幕制作に音声認識を利用している2)。本稿では,聴覚 障害者への情報保障を軸に,音声認識技術を取り巻く現状について解説する。

2.聴覚障害者への情報保障

聴覚障害者支援技術の研究動向を調べると3),同技術は「音による保障」,「手話による 保障」,「文字による保障」に分類される(1図)。

「音による保障」では,「補聴技術」,「人口内耳」,「明瞭度向上技術」,「生活音・環境音 識別技術」の研究開発が盛んである。当所では,背景音に妨害されて高齢者には聞き取 りにくくなっているせりふやナレーションを聞き取りやすくする明瞭度向上技術の研究 開発を進めている4)

「手話による保障」では,「手話データベース」,「手話合成」,「手話翻訳」,「手話通信」

の研究開発が盛んである。同技術の詳細と当所の取り組みについては,本特集号の解説

「CGキャラクターを用いた手話表現技術の研究動向」を参照されたい。

「文字による保障」では,話し言葉の冗長性を省略して,手書きもしくはコンピュー ターを利用して文字情報を伝達する「要約筆記」を支援する技術と,音声を忠実に文字 にして伝える「字幕」の制作支援技術の研究が盛んである。当所では,音声認識技術を

情報保障に用いられる 音声認識技術の最新動向

佐藤庄衛

解 説

(13)

支援技術

音による保障

補聴技術

人口内耳

明瞭度向上技術

生活音,環境音識別技術

手話による保障

手話データベース

手話合成技術

手話翻訳技術

手話通信技術

文字による保障

要約筆記

手書き

コンピューター 字幕

文字による保障

学習機会の確保

社会活動の支援

メディアアクセシビリティー

放送 映画,

パッケージ CGM

応用して生放送番組に字幕を付与する技術の研究開発を進めてきた。

この「文字による保障」(2図)により,聴覚障害者は,「学習機会の確保」,「社会活動 の支援」,「メディアアクセシビリティー」(情報伝送媒体から情報を取得する能力)を得 ることができるようになる。特に近年,メディアアクセシビリティーを高める字幕への 要望は,放送番 組 だ け で な く,映 画,パ ッ ケ ー ジ メ デ ィ ア,さ ら に はConsumer Generated Media(CGM:利用者自らが情報を発信するメディア)にまで広がり,小規 模な映画制作者やYoutubeなどへ動画を投稿する個人制作者が,コンテンツへの字幕付 与を意識しなければならない状況にある。次章以降では,「文字による保障」の上記3つ の分類に従って,音声認識の導入事例とともに現状と課題を述べる。

3.音声認識を利用した情報保障 3.1 学習機会の確保

講義や講演の音声を保障し,障害者の学習を支援することを目的とした事例を紹介す る。このような事例は,大学などの研究者の身近にある課題であり,多くの研究者がこ の課題に取り組んでいる。大学などの高等教育機関を対象とした調査では,この保障を 必要とする学生の数は年々増加しており,2012年度にはおおよそ1,500人とされている5)

聴覚に障害のある受講者は,ある程度ゆっくり話してもらえれば,読唇により内容を 1図 聴覚障害者支援技術の分類

2図 文字による保障

(14)

講義・講演への字幕付与

映像アーカイブ

検索目的 キーワードが認識できる程度

視聴目的

(情報保障) 完璧な字幕

聴講(リアルタイム) ノートテイク

(情報保障)

高精度である必要はあるが 完璧でなくてよい

理解することができるが,多くの授業では読唇できないことが課題である。このような 課題を解決するための講義・講演への字幕付与を,目的と形態で分類すると,聴講時に リアルタイムで行うものと,映像アーカイブを対象にしたものとに分類される6)(3図)。

聴講時にリアルタイムで字幕を付与する場合,手書きもしくはパソコンによるノート テイクと呼ばれる要約筆記により情報を保障するが,人手による要約筆記では発話全体 の2割程度しか伝達できないのが現状である7)。音声の全てを完全に字幕にする必要はな いが,より多くの情報が伝達される必要がある。さらに,この方法では筆記者に高い専 門性が求められるため,専門分野に明るい補助者を必要とする。一方,音声認識を用い れば,人手と比べて高速な情報伝達が可能で,認識誤りはあるものの音声を全て文字に できるので,これらの課題の解決に有望な技術である。

しかし,音声認識を用いて講義音声を直接認識した場合(ダイレクト方式)の単語の 認識精度は60〜80%しかなく,意味の通る字幕を制作できるのは全体の30〜40%にとど まり,まだ不十分である。この認識誤りを即時に効率良く修正する試みも行われてい

8)9)10)。一方,講義音声を熟練した復唱者が復唱し,その音声を認識する(リスピーク

方式)ことで認識精度が向上することが確認されており,さらに認識誤りを修正するこ とで高品質な字幕を実現した例もある11)。口語の講義には「複雑な従属構造」,「呼応関係 の消失」(係り受けなどの対応の消失),「句読点の消失」,「省略」,「言い間違い,言い直 し」,「引用表現」などの特徴があるために,障害者が認識誤りの推測・訂正ができないこ とに加え,そのまま直接認識すると分かりにくい字幕となるため,これらの特徴を整理 した復唱が有効である。

復唱を行う場合は,前述の人手による要約筆記と同様に,専門分野に明るい復唱者が 必要になる。しかし,広範な分野で専門性の高い復唱者を教育機関ごとに養成するのは 難しい。そこで,全国の専門性の高い復唱者の協力を得て遠隔地で復唱を行うシステム が提案されており,相互に協力しあえるように詳細なマニュアルが整備されている12)。 また,数式など講義特有の記号や図を参照する必要もあり,文字列中に画像を提示する 機能の必要性も認識されている13)

一方,映像アーカイブを対象とした事例としては,近年のOpen Course Ware14)15)や iTunesUなどに代表される講義アーカイブの字幕の需要が高まっている。このような字 幕を効率よく制作する技術の確立を目指して,各研究機関の協力のもと,インターネッ ト上で無料配信される講演会であるTED(Technology Entertainment Design:http://

www.ted.com/)の音声認識と翻訳精度向上を図る試みもある16)

3.2 社会活動の支援

聴覚障害者にとって支援が必要な社会活動の1つに職場の会議がある17)。このような 局面では,筆談や読唇もしくは第三者を介した手話通訳や要約筆記が行われる。しかし,

前者は効率が悪く,後者は常用性が低い。障害者は第三者を介すことなく,会議の効率 3図 講義・講演への字幕付与の目的と形態

(15)

を下げないで会議に参加できることを望んでいる。ここでも,音声認識の活用が期待さ れている。

会議音声を認識する場合は,健常な参加者の協力を得て,認識精度を確保できるなど の利点がある18)。会議参加者が発言する際に音声認識を意識することにより,5割から 7割程度の音声認識率が8割まで向上する。また,ゆっくり区切って発話するなどによ り,字幕の読みやすさが向上する。さらに,発言者もしくは発言者と別の参加者が認識 誤りを修正すれば,6割の了解度が9割まで向上する。また,文脈や背景知識を共有で きる場合には,必要な単語だけを効率よく修正することができるなど,会議特有の字幕 の制作方法が明らかになっている。しかし,誤認識を訂正して90%の単語正解精度を有 する文字列にしても,会議時間が最大7割増加するなど不満も残っている。

3.3 メディアアクセシビリティー

放送やネット配信される映像コンテンツの字幕に対する要望も高い。このようなコン テンツは障害者の学習支援と社会活動支援にも関わり,加速する超高齢化社会を背景に 増加する聴覚障害者にとって必要な情報保障でもある。

各種メディアの字幕付与率は,2012年の時点で,劇場公開映画で11%,DVDやBlu­

rayなどのパッケージメディアで4%,主なテレビ番組では48.4%であった19)。劇場公開 映画やパッケージメディアの字幕率が特に低いのは,外国語映画には字幕があるが日本 映画には字幕がほとんどないことが原因である。劇場で健常者には不要な日本語字幕を どう提示するかということにも課題がある。この点に関しては,音声透かしを利用して 伝送された字幕を,音声と同期してHead Mount Display(HMD)に提示する方法が報 告されているが,まだ一般的ではない20)。また,劇場映画を楽しむために,せりふだけ でなく環境音や音楽などの非言語情報を提示する必要性が指摘されており,このような 字幕を制作するためには,映画制作者が積極的に字幕制作に関与する必要がある。この ような字幕制作においては,映画制作者や番組制作者によるクリエイティブな字幕が望 まれている。一方,映画鑑賞時に音声が何も聞こえないという障害者は,ろう者の50.9

%,難聴者の9.2%であり,それ以外の障害者には何らかの音が聞こえている。この音が 何なのかを知り,映画鑑賞を楽しみたいという要望も強い。字幕として提示を望む情報 は,音楽の場合は歌詞の内容を希望するものが多く,環境音の場合は音源の情報を希望 するものが多い。

その他のメディアの近年の状況を見ると,前述の講義・講演のコンテンツやYoutube をはじめとするCGMなど,膨大なコンテンツがネットを介して配信されるようになって きた。これらのコンテンツが一般視聴者に受け入れられるようになるとともに,それら への字幕付与の要望も高まっている。放送局などの大手のコンテンツ制作者以外の制作 者も,効率よく字幕を付与できる方法を必要としている。こうした背景の中,専門業者 による字幕付与サービス22)23)や,字幕付与ソフトを供給する会社も現れている。これら の業者は,コンテンツの書き起こしと,字幕提示タイミングを適切に調整した字幕の制 作を請け負っている。字幕制作にはコンテンツの書き起こしと表示タイミングの調整の 2つの技術が必要であり,台本や書き起こしテキストがあれば,表示タイミングの調整 を行うだけで済む。また,テキストがない場合は音声認識を利用する方法が考えられる

(4図)。Googleは自社が提供するYoutubeのコンテンツに制作者が字幕を付与するため のサービスも展開しており,書き起こしがない場合には音声認識とタイミング調整,制 作者側で書き起こしを有する場合にはタイミング調整のみなど,制作者の字幕制作リ ソースに応じて柔軟に対応して,精度の良い字幕が付与できる仕組みを提供している。

(16)

字幕 字幕付与サービスを利用

台本を利用 人手で書き起こし

音声認識を利用 タイミング調整

ドラマ,ドキュメンタリーなど

報道番組

(クローズアップ現代,

      週刊ニュース深読みなど)

歌謡番組と情報番組

(NHK歌謡コンサート,ひるぶらなど)

スポーツと情報番組

(大相撲,プロ野球,あさイチなど)

(複数話者,背景雑音,

         感情的な発話にも対応)

ニュース

(午後2時,3時,4時,

      首都圏ネットワークなど)

(気象情報,NEWS WEB,日曜討論など)

24%

24%

5%

31%

11%

5%

字幕なし ハイブリット方式

リスピーク方式

完プロ(オフライン字幕)

スピードワープロ

キーボード入力

コンテンツに公共性がある場合には,コストをかけずにボランティアベースで字幕を 付与する方法も有効である。音声の書き起こしなどの長時間の集中力を要する作業に,

クラウドソーシング(インターネットを介して不特定多数の人が寄与する方法)を活用 し,熟練者が最終内容の確認とタイミング調整を行い,高品質な字幕を制作する方法が 提案されている23)。この方法では,音声認識結果の認識精度が50%を下回る場合は認識 結果を用いずに最初から書き起こした方が効率的であるという実験結果から,認識結果 を採用する部分と最初から書き起こす部分を自動判定してクラウドを活用するか否かを 判定している。この手法の採用により17%の作業時間が削減されている。

4.生放送番組への字幕付与

放送番組の字幕も年々拡充されている。NHKは2006年から収録番組の全てに字幕を付 与している。現在は総務省が策定した「視聴覚障害者向け放送普及行政の指針」24)に従い,

2017年までに生放送も含めて100%

*1

7時から24時の番組が対象。

*1の番組に字幕を付与する目標を目指して,生放送 番組の字幕拡充に取り組んでいる。

4.1 字幕放送の制作手段

5図は,平成26年5月12日から18日のNHK総合テレビの字幕放送の割合と,その制 作手段の割合をまとめたものである。生放送番組の字幕の一部は,特殊な高速入力キー ボードを用いるスピードワープロや,通常のキーボードを用いて人手で制作されており,

一部は音声認識を利用して制作されている25)。この場合も,講演音声の認識と同様に,

4図 ネット配信メディアへの字幕付与の方法

5図 字幕放送の制作手段の割合

(17)

復唱により認識精度が大きく改善されるため,スポーツや情報番組の字幕制作にはリス ピーク方式が用いられている。この方式はヨーロッパやカナダなどでも採用されてい

26)27)28)。生放送番組の字幕の56%は,音声認識を用いて制作されている。

5図の「ハイブリッド方式」は,番組音声を直接認識することを基本としながらも,

認識精度の低下が見込まれるインタビューなどの部分ではリスピーク方式を併用するも のである。ハイブリッド方式は,認識誤りを効率よく修正するためのインターフェース も備えており,1〜2名の少人数のオペレーターが修正することにより正確な字幕を制 作することができる。

4.2 リアルタイム字幕制作を実現した音声認識技術

当所では,この字幕制作に用いられる音声認識技術の研究開発を進めてきた25)。ここ で開発された技術により,ダイレクト方式のニュース字幕制作システムが他の機関に先 駆けて開発・実用化された。その後,リスピーク方式のリアルタイム字幕制作システム の開発により,字幕放送が拡充されてきた。最新のハイブリッド方式の字幕制作システ ムは,アナウンサーや記者の発話部分だけでなくインタビューなど,ニュース番組にさ まざまな演出があっても低コストで字幕を付与することが可能であり,ローカル局発の ニュース番組を含む字幕放送の拡充に貢献している。

これらのシステムでは,音声認識誤りを人手で修正して正確な字幕を付与しているが,

リアルタイムに修正できる誤りの数には限界があるため,高精度な認識結果が低遅延で 得られる音声認識技術が必要である。当所では,できるだけ早く認識結果を確認・修正 できるように,文末を待たずに認識単語を逐次出力できる音声認識アルゴリズムを開発 した。これに加え,ニュース番組の認識精度を高水準に保つために,最新のニュース原 稿を常に言語モデルに反映させる仕組みを開発するとともに,頻出する認識誤りを低減 する言語モデルの学習アルゴリズムを採用した。言語モデルに関するこれらの技術につ いては,本特集号の報告「誤り傾向を利用した言語モデルによる音声認識」を参照され たい。

また,広範な話題を認識しなければならない情報番組などでも高い認識精度を得られ るように,事前に得られる少量の番組関連情報からその番組を認識するために必要な話 題を推定して言語モデルを適応化する方法を開発した。

さらに,リスピーク方式特有の課題を解決する技術の開発にも取り組んでいる。長時 間にわたるリスピーク作業の疲労により引き起こされる認識精度の低下を軽減するため,

認識誤りの修正結果を利用して音響モデルを番組進行中に更新する技術を開発した。音 響モデルについては,複数の話者による対談番組を直接認識するための音響モデルの改 善にも取り組んでいる。本特集号の報告「対談音声認識のための話者ダイアライゼー ション」では,番組に出演する話者を自動で分類し,話者ごとに音響モデルを適応化す る技術を紹介している。

認識誤りを効率的に修正できる操作性の良いインターフェースの開発にも取り組んで おり,このインターフェースにより,従来は4人必要であった修正オペレーターの人数 が1〜2人に削減され,字幕付与番組の拡大につながっている。

以上で紹介した技術の多くは,字幕付与の対象となる番組の制作過程と字幕放送の送 出過程を検討し,字幕放送制作者と密接に連携することによって実現したものである。

4.3 字幕放送のさらなる拡充に向けた音声認識の研究課題

前述のハイブリット方式の字幕制作システムは,NHKの東京だけでなく,大阪局,名 古屋局,福岡局,仙台局にも導入され,それぞれの地域に向けて放送される番組にも字

(18)

関東甲信 地方

先月 先月の関東甲信地方は…

今週 まとまった

今週もまとまった雨は…

気象庁 より ます 気象庁に

よりますと…

入力単語を受理して進む遷移 遷移して修正結果を出力する遷移

幕が付与されるようになりつつある。

今後,上記の字幕付与システムを全国の放送局に展開していくことを考えた場合は,

番組本番中に誤認識を修正する要員の確保が困難な地方局の事情も考慮しなければなら ない。番組本番中の要員確保が困難な局でも,本番前には,ある程度の人的余裕が見込 まれるため,アナウンサーの読み原稿を事前に確認してシステムに入力することができ る。そこで,当所では,番組音声を直接認識し,その認識結果からアナウンサーの読み 原稿のどの部分を読んでいるかを精度よく推定するアルゴリズムを開発した29)。重み付 き有限状態機械(WFST:Weighted Finite State Transducer)

*2

言語処理や音声認識に利用され る,最も類似しているものを推 定する技術。単語を受理して進 む遷移と,遷移して字幕とする 文字列を出力する遷移を有する。

*2(6図)を応用した このアルゴリズムで読み原稿を推定し,それを字幕とすることにより,地方局でも精度 のよい字幕を制作できるようになる。このシステムを2014年のNHK技研公開で展示し

(7図),多くの来場者から有益であるとのコメントを得た。類似の技術がスペインです でに実用化されており30),それに追従した研究開発31)も行われているが,これらの技術 に比べ,当所の技術は原稿の読み飛ばしや言いかえに対して頑健なシステムであり,今 後の字幕拡充において必要とされる技術である。

一方,複数の話者による不明瞭な発声や,背景雑音,相づちなどで構成される番組に ついては,現在の技術では音声認識精度が十分ではないために,高速入力キーボードな ど人手による字幕制作に頼らなければならない場合も多い。当所では,これらの番組の 認識精度を向上させるための,音響・言語モデルの改善と認識方式の改善にも取り組ん でいる。

6図 字幕送出に利用される重み付き有限状態機械

7図 事前原稿を利用したローカル放送局用字幕制作システム

(19)

5.おわりに

「人にやさしい放送」の実現のために当所が進めている音声認識の研究開発の概要を紹 介するとともに,聴覚障害者のための情報保障技術,および同情報保障に用いられてい る音声認識技術の動向について解説した。聴覚障害者の生活に必要な音声情報を文字で 伝える字幕を効率良く制作する技術は,音声認識の応用技術であり,「学習機会の確保」,

「社会活動の支援」,「メディアアクセシビリティー」などの情報保障において,それぞれ 必要とされる情報に応じた応用例があることを示した。また,近年のインターネットで 配信されるコンテンツの増加に伴って,字幕制作が大手のコンテンツ制作者だけの課題 ではないことを述べた。さらに,より多くのコンテンツに字幕が付与されるようになり,

障害者が,言語的な保障だけでなく,よりクリエイティブに制作され,非言語情報も含 んだ保障を望んでいる事例についても紹介した。

放送番組の字幕に関しては,当所が研究開発を進める音声認識と字幕制作のシステム を紹介した。音声認識を利用して字幕を制作するという点では,他のメディアの字幕制 作と共通する技術が用いられており,課題にも共通する部分が多い。今後,CGMへの字 幕付与を行う業者が生放送の字幕制作を行うなど,生放送の字幕制作について,方式や 形態の多様化が見込まれる。

また,スーパーハイビジョンによる高精細化と広視野化に伴い,周辺視野へ音楽のリ ズムを提示したり,会場の歓声を提示するなど,非言語情報を保障するさまざまな方法 が可能になっていくと予想される。今後も,誰にとっても放送をさらに豊かにするため の研究開発を進めていく予定である。

(20)

1) 伊藤: 高齢者・障害者のメディアアクセスに関する話題 ―人にやさしい放送を目指した研 究開発―, 電子情報通信学会サイバーワールド第9回研究会,pp.1­6(2008)

2) 佐藤: 音声認識を用いた生放送番組への字幕付与, メディア教育研究,第9巻,第1号,S 9­S18(2012)

3) 中園,織田: 聴覚障害者支援技術の研究レビューと将来への展望, 信学技報,WIT2009­

79,pp.65­72(2010)

4) T. Komori,A. Imai,N. Seiyama,R. Takou,T. Takagi and Y. Oikawa: A Development of a Broadcast Sound Receiver for Elderly Persons, 13thInternational Conference on Computers Helping People with Special Needs(ICCHP 2012)K. Miesenberger et al.

eds.,Springer,pp.681­688(2012)

5) 日本学生支援機構: 大学,短期大学及び高等専門学校における障害のある学生の修学支援に 関する実体調査 (2013)

6) 河原: 話し言葉の音声認識の進展 ―議会の会議録作成から,講演・講義の字幕付与へ―,

メディア教育研究,第9巻,第1号,S1­S8(2012)

7) 斎藤,白澤,徳田:聴覚障害学生サポートガイドブック,日本医療企画(2002)

8) M. Wald,J. M. Bell,P. Boulain,K. Doody and J. Gerrard: Correcting Automatic Speech Recognition Captioning Errors in Real Time, International Journal of Speech Technology,Vol.10,Issue 1,pp.1­15(2007)

9) M. Wald: Creating Accessible Educational Multimedia through Editing Automatic Speech Recognition Captioning in Real Time , Interactive Technology and Smart Education,Vol.3,No.2,pp.131­141(2006)

10)桑原,秋田,河原: 音声認識結果の有用性の自動判定に基づく講義のリアルタイム字幕付与 システム, 第8回ドキュメント処理ワークショップ講演論文集(2014)

11)中野,金澤,牧原,黒木,上田,中野,井野,伊福部: 音声認識技術を利用した字幕提示シ ステムの活用に関する研究 ―聴覚障害者のニーズに即した提示方法―, メディア教育研究,

第5巻,第2号,pp.63­72(2008)

12)日本聴覚障害学生高等教育支援ネットワーク: 音声認識によるリアルタイム字幕制作システ ム構築マニュアル, http://www.tsukuba­tech.ac.jp/ce/xoops/file/seika/onseininshiki­

manual.pdf(2013)

13)堀池,竹内,松本,工藤,大西: 数式挿入機能を備えた要約筆記文作成エディタの開発, 信 学技報,WIT2013­83,pp.93­98(2014)

14)J. Glass,T. J. Hazen,S. Cyphers,I. Malioutov,D. Huynh and R. Barzilayet: Recent Progress in the MIT Spoken Lecture Processing Project , Proc INTERSPEECH , pp.2553­2556(2007)

15) Liberated Learning, http://liberatedlearning.com/(2014)

16)M. Paul,M. Federico and S. Stucker : Overview of the IWSLT 2010 Evaluation Campaign, Proc. IWSLT,pp.3­27(2010)

17)織田,水島,古家,政瀧,羽田: 音声認識を用いた会議情報保障支援システムの社内会議に おける検証, 信学技報,WIT2008­58,pp.11­16(2009)

18)水島,織田,政瀧,古家,片岡: 音声認識を用いた会議支援情報保障システムに対する話者 の発話行動の分析, 信学技報,WIT2006­108,pp.21­26(2007)

19)中島,木戸部,山上: 聴覚障害者対応字幕への期待と字幕制作環境の現状, 信学技報,WIT 2013­84,pp.99­104(2014)

参考文献

(21)

20)Topics from Media Access Support Center,http://npo­masc.org/cn16/pg286.html

(2014)

21)Caption Sync,http://www.automaticsync.com/captionsync/(2014)

22)3Play Media,http://www.3playmedia.com/(2014)

23)長妻,福田,柳沼,広瀬: クラウドソーシングを活用した効率よい字幕制作手法, 信学技 報,WIT2012­25,pp.7­12(2012)

24)総務省:「デジタル放送時代の視聴覚障害者向け放送に関する研究会」報告書, http://www.

soumu.go.jp/main̲sosiki/kenkyu/digital/(2011)

25)今井: リアルタイム字幕放送のための音声認識, NHK技研R&D,No.131,pp.4­13

(2012)

´

26)A. Prazak,Z. Loose,J. Trmal,J. V. Psutka and J. Psutka: Novel Approach to Live Captioning through Re ­ speaking : Tailoring Speech Recognition to Re ­ speakerʼs Needs, Paper Presented at the Meeting of the INTERSPEECH(2012)

27)P. Cardinal,G. Boulianne,M. Comeau and M. Boisvert: Real­Time Correction of Closed­Captions, Proc. of ACL2007,pp.113­116(2007)

28)M. Marks: A Distributed Live Subtitling System, BBC R&D White Paper,WHP070

(2003)

29)佐藤,尾上,小林,奥,藤田,一木: 原稿WFSTを利用した誤認識修正アルゴリズム, 音響 学会春季講演論文集,2­4­8(2014)

30)J. E. Garcia,A. Ortega,E. Lleida,T. Lozano,E. Bernues and D. Sanchez: Audio and Text Synchronization for TV News Subtitling Based on Automatic Speech Recognition , Broadband Multimedia Systems and Broadcasting BMSBʼ 09 IEEE Symposium,pp.1­6(2009)

31)J. Gao,Q. Zhao and Y. Yan: Towards Precise and Robust Automatic Synchronization of Live Speech and its Transcripts, Speech Communication,Vol.53,pp.508­523

(2011)

さ と う しょうえい

佐藤 庄衛

1993年入局。仙台放送局を経 て,1995年から放送技術研究 所において,音声認識の研究 に従事。現在,放送技術研究 所ヒューマンインターフェー ス研究部上 級 研 究 員。博 士

(工学)。

参照

関連したドキュメント

Actually, for young generations without the experience of living and studying in Japan or the ones who have formally studied at language schools, there is no difference when

The thresholds were derived from the range of the similarity scores of the proxy words belonging to proxy trigrams that produced fluent proxy sentences (i.e. sentences with

Keywords: Online, Japanese language teacher training, Overseas Japanese language education institutions, In-service teachers, Analysis of

In the first part we prove a general theorem on the image of a language K under a substitution, in the second we apply this to the special case when K is the language of balanced

(Construction of the strand of in- variants through enlargements (modifications ) of an idealistic filtration, and without using restriction to a hypersurface of maximal contact.) At

This concept of generalized sign is then used to characterize the entropy condition for discontinuous solutions of scalar conservation laws.. Keywords: Colombeau algebra,

Among other languages spoken in the country, there are Vedda, an indigenous language, Tamil, another official language, a few Creoles and English. However, in recent years, Vedda,

The ratio of total pause length to total speech length ( pause:speech ratio ) was also low compared to the ENSs.With the ENSs,this ratio was   23.4