2014 No.147 9

(1)

複数のプロジェクターを用いたインテグラル立体映像表示

●研究所の動き

⁵⁰

論文紹介発明と考案

研究会・年次大会等発表一覧

51 52 56

気象情報を対象とした手話CG生成技術の概要手話アニメーションの合成・編集

対談音声認識のための話者ダイアライゼーション誤り傾向を利用した言語モデルによる音声認識

●報告

20

聴覚障害者向け放送の

バリアフリー技術 ^特集号

CGキャラクターを用いた手話表現技術の研究動向情報保障に用いられる音声認識技術の最新動向

●解説

⁴

聴覚障害者向け放送のバリアフリー技術特集号に寄せて

工学院大学情報学部情報デザイン学科教授

長嶋祐二

●巻頭言

²

技研

平成26年9月15日発行（隔月奇数月15日発行）9月号 No.147

ISSN 0914-7535

日本放送協会放送技術研究所

2014 No. 147

9

NHK技研R&D

2014・9 No.147

ISSN 0914-7535

Printed in Japan

技研 ２０１４年９月通巻第

147号 平成

26年９月

15日 発行編集・発行＝日本放送協会

放送技術研究所

(2)

巻頭言

聴覚障害は，聴覚系による情報受容障害である。聴覚障害者は，音が聞こえない，聞き取りにくいなどにより，

対人コミュニケーションや，さまざまな音情報に支えられた日常生活において，困難さや不便さを感じている。

平成18年３月の厚生労働省の「身体障害児・者実態調査結果」によると，聴覚に障害のある人（全国で18歳以上 の，身体障害者手帳を所持する人）のコミュニケーション手段に関する利用状況調査結果（複数回答）から，最も 多く利用されているコミュニケーション手段は，補聴器や人工内耳などの補聴機器で69.2％となっている。一方，手 話・手話通訳を利用している人は，全体の18.9％にとどまっている。この結果は，手話を理解できない聴覚に障害の ある人も多く存在する可能性を示している。その反面として，筆談・要約筆記の割合が30.2％と高い理由は，手話に よる情報保障の機会が少ないためとも考えられる。実際にどのコミュニケーション手段を用いるかは，聞こえの状 態や聞き分けの能力，音声言語の獲得状況，障害を受けた時期や教育環境，利用場面などによって大きく異なる。

聴覚障害者向けの情報保障の手段としては，手話を対象とする手段と文字を対象とする手段がある。ここで，情 報保障とは，場を共有するすべての人が，同時に同質，同量の情報を得て，その場に参加できるようにするための 活動である^＊１。中途失聴者や高齢難聴者にとっては，文字による情報保障が有効な手段となる。しかし，手話を母 語とする人にとっては，手話による情報保障が求められる。

放送においても，情報保障という視点からは，字幕放送や手話放送の充実が望まれる。旧郵政省・総務省では，

高齢者・障害者を含めた誰もがICT（Information and Communication Technology）を利活用し，その恩恵を享受で きるように，情報バリアフリー関連施策を，聴覚障害者向けの放送の普及という面でも積極的に推進している。そ の一環として，1997年11月に，新たに放送する字幕付与可能な放送番組の全てに字幕を付すことを10年間の目標と する，字幕放送普及行政の指針を策定した。

NHKでは，放送技術研究所の音声認識の研究成果や上記の施策もあり，2000年に世界に先駆けて音声認識による ニュース番組自動字幕制作システムを稼働させた。また総務省は，2008年度から2017年度までの目標値を定めた新 しい指針を策定した。そして，2011年７月24日（東北３県は2012年３月31日）に，地上アナログ放送が地上デジタ ル放送へ切り替わり，字幕放送への対応が大きく変わった。アナログ時代は，字幕放送を見るためには，文字多重 放送対応のテレビ受信機か，外付けの文字多重放送専用のチューナー等を購入しなければならなかったが，地上デ ジタル放送の開始に伴い，標準で字幕放送を誰でも楽しめるようになった。これは，文字による情報保障を必要と する人にとって，有効な手段となった。地上テレビ放送のデジタル化に伴い，2012年に総務省の新しい指針の改定 が行われ，字幕・解説放送の努力目標に加え，NHKにおいて手話放送の実時間を増加させる新たな目標が追加され た。

2012年度の総務省の統計では，NHKの字幕の付与率は，総合テレビで67.9％，教育テレビで48.1％となり，文字 による情報保障の必要な人にとってアクセシビリティーが着実に向上している。しかし，同統計からNHKの手話番 組の比率を見ると，総合テレビで0.18％，教育テレビで2.54％にとどまっている。字幕放送の比率が圧倒的に高い理 由として，音声は文字によって書き起こしができるため，字幕放送で容易に対応可能となるが，手話は，話された 言葉を共通に記述できる手段が存在しない，文法の未解明な部分が多く，言語的構造が複雑であり，翻訳を目指し た研究の歴史も浅い，ということが考えられる。

長嶋祐二

工学院大学情報学部情報デザイン学科教授

聴覚障害者向け放送の

バリアフリー技術特集号に寄せて

(3)

日本における手話の工学的研究組織としては，1995年に電子情報通信学会教育工学研究専門委員会内に設置され た手話工学研究会があり，手話を言語学的，工学的な側面から研究している大学や研究所の関係者が定期的に議論 や情報交換を行う場となった。研究会のメンバーによる代表的な手話翻訳システムの研究として，1995年前後から 2000年ごろに，日立製作所が技術研究組合新情報処理開発機構（RWCP：Real World Computing Partnership）に 参画して実施した研究，および郵政省通信総合研究所（現在の情報通信研究機構（NICT：National Institute of Information and Communications Technology））の研究が知られている。これらの翻訳システムは，手話の認識の 難しさから限定的な場面での対話システムであり，汎用的な場面での認識には至っていない。そしてこれ以降，残 念ながら，組織だった研究は行われていない。

では，手話の認識はなぜ難しくなってしまうのだろうか。それは，手話の語の構造によると言える。手話は，手 の運動や表情などにより言語情報が発せられ，視覚系で受容される視覚言語である。手話の語を構成する要素は，

手指信号と非手指信号と呼ばれている。手指信号は，手の型・掌方向・提示位置・大局的な運動により構成され，

これらの動きを時間軸上に同時あるいは連続的に提示することにより，主に語の形成に寄与する。非手指信号は，

表情・口型・うなずき・視線などの動作で構成され，主に統語論^＊２的，意味論的な作用があると言われている。構 成要素を同時に出すことが可能な手話は，時間軸上に語が並ぶ音声言語とは異なった言語的特性を持つ。この構造 の複雑さと，文法に未解明な部分があるということにより，手話の認識が，音声と比較して難しいものとなってい る。手話研究で重要なことは，「日本語とは別体系の言語である＝独立した文法体系が存在する」ことである。極端 に言えば，手話を母語とする人にとって日本語の字幕は，音声日本語の母語者に対して英語の映画に英語の字幕が 付いた状態と言える。

そのような背景の中，NHK放送技術研究所において，2009年度より手話の調査・研究が開始された。この研究開 始の知らせは，手話を母語とする人への新たな情報保障サービスの提供に向けて，待ち望まれていたと言っても過 言ではない。技術開発目標は，非常時で手話通訳者が対応できない時の日本語から手話への翻訳と，翻訳結果から のTVML（TV program Making Language）を用いた３D手話アニメーションの自動生成である。その成果の１つが，

手話CG（Computer Graphics）による気象情報などの自動合成サービスであり，Hybridcastの新たなサービスとし て準備が進められている。

放送・通信事業者にとって，災害時はもとよりさまざまな状況で，聴覚に障害のある人への情報伝達を，どのよ うな情報保障手段を用いて，迅速かつ確実に行うか，が重要な課題となっている。放送・通信技術の分野において，

NHK放送技術研究所の進めている「人にやさしい放送」の取り組みが，聴覚に障害のある人をはじめさまざまな人 への新たな情報保障の確立など，QOL（Quality of Life：生活の質）の向上に大きく寄与し続けていくことを期待し たい。

＊１日本聴覚障害学生高等教育支援ネットワーク（PEPNetJapan）情報保障評価グループ：大学ノートテイク支援ハンドブック，人間社（2007）

＊２語が文を形成する仕組み。

1980年工学院大学大学院工学研究科修士課程修了 1980年工学院大学電子工学科助手

1989年同助教授 2003年同情報工学科教授

2006年学部再編に伴い同情報学部教授

2008年〜2011年京都工芸繊維大学プロジェクト特別研究員

2014年〜神奈川大学マルチモーダル研究所プロジェクト研究員

ヒューマンインタフェース，手話工学，生体計測，視覚認知，学習障害などの研究に従事。博士（工学）。

電子情報通信学会HCG運営委員長，電子情報通信学会福祉情報工学研究専門委員会（WIT）委員長，電子情報通信学会発達障害支援研究専門委員会（ADD）委員長，ヒューマンインタフェース（HI）学会理事，HI学会アクセシブル・インタフェース（ACI）専門研究会委員長などを歴任。HCG アドバイザリー委員，WIT顧問，HI学会評議委員。電子情報通信学会，HI学会，IEEE，ACM各会員。

(4)

手話は音声言語とは別の言語であるという理解が広まり，手話による各種の情報サービスの充実に向けた研究の機運が各所で高まっている。本稿では，音声言語のテキスト表記のデータを入力とし，それに相当する手話のアニメーションをコンピューターグラフィクス（CG：Computer Graphics）により自動生成するシステムの実現を目指した研究の動向を紹介する。特に，放送・通信への応用も視野に，多国間のプロジェクトを含めて継続的に取り組んできたヨーロッパでの活動を概観し，当所の手話CG研究の特徴と位置づけを紹介する。

１．はじめに

2014年１月20日，わが国は，国連の「障害者の権利に関する条約」を批准した。批准に向けた国内法制整備の一環として改正された障害者基本法には，下記の条文が記載されている。

第三条

第一条に規定する社会の実現は，全ての障害者が，障害者でない者と等しく，基本的人権を享有する個人としてその尊厳が重んぜられ，その尊厳にふさわしい生活を保障される権利を有することを前提としつつ，次に掲げる事項を旨として図られなければならない。

（略）

三全て障害者は，可能な限り，言語（手話を含む。）その他の意思疎通のための手段についての選択の機会が確保されるとともに，情報の取得又は利用のための手段についての選択の機会の拡大が図られること。

ここにも見られるように，先天的なろう者を中心に使われている手話（わが国では

「日本手話」）は，同地域の音声言語（わが国では日本語）とは異なる別の言語であるという理解が浸透してきており，手話による各種の情報サービスの充実に向けた研究の機運が各所で高まっている。当所においても，後章で紹介するように，字幕に加えて手話によるサービスの充実を目指した研究に取り組んでいる。

手話の研究としては，手話とはいかなる言語であるか，という見地からの言語学的研

CGキャラクターを用いた手話表現技術の研究動向

比留間伸行東真希子

■

解説

(5)

究^１）（ハンブルク大学のHamNoSys（Hamburg sign language Notation System）^２）をはじめとする手話表記法の研究を含む），手話の現況を記録しようとする手話コーパス（言語の実例集）の構築研究^３）４），手話者をとりまく社会環境やその変遷を扱う社会学的研究^１）などが推進されている。

これらに加え，手話を，CGを用いた仮想的なキャラクター（「アバター」と呼ばれることが多い）に演じさせるアニメーションで表現しようという工学的な研究が各所で行われるようになっており，それを専門に扱う国際会議も発足している^５）。これらは決して，

人間の手話通訳者，手話キャスター等の仕事を計算機で置き換えようというものではなく，手話キャスター等が即時に対応できない場合の情報提供，手話による定型的な告知の制作コスト低減，伝送帯域の節減などを目指して行われている研究である。本稿では特に，放送・通信への応用も念頭に，この分野について国際的なプロジェクトを含め継続的に取り組んできたヨーロッパの事例を中心に，その動向を解説する。

なお，本稿では音声言語テキストの入力から，相当する手話のアニメーションのCG に変換する研究事例を紹介するが，逆に手話の映像を認識して音声言語のテキストに変換するという技術の研究も有意義である。しかしながら，手形で仮名文字などを１文字ずつ表出する「指文字」の認識については当所でも取り組んだ^６）ことがあるものの，手話文章の画像認識・言語変換技術は，現状では極めて技術的な難度の高いテーマであると言わざるを得ず，今後の技術の進展を待たなければならない。

２．ヨーロッパにおける研究事例

上述のように手話をCGで表現する研究は各所で行われている。そのうち，ヨーロッバではいくつかの国際的，国家的研究プロジェクトに継続的に取り組んできており，本章では，これらについて紹介する。

2.1 ViSiCAST

^７）８）

ViSiCAST（Visual Signing：Capture，Animation，Storage and Transmission）

は，１表に示す機関が参加して1999年から2002年まで行われたプロジェクトである。

このプロジェクトでは，英語のテキストを入力とし，英国，ドイツ，オランダの各手話への自動翻訳を目指していた。2001年にロンドン科学博物館，2002年にIBC（Interna- tional Broadcasting Convention：欧州国際放送機器展）などで成果が展示された。このプロジェクトは，HamNoSysと同様の手話記述が可能なXML（Extensible Markup Language）ベースの手話表記言語SiGML（Sign and Gesture Markup Language）を開発し，英語からSiGMLへの自動翻訳技術と組み合わせて，これを元にアニメーション

参加機関国担当

ITC：Independent Television Commission 英プロジェクト調整 IRT：Institut fur Rundfunktechnik‥ 独ほか放送技術

TeleVirtual 英仮想人物

‥ ‥

IDGS：Institut fur Deutsche Gebardensprache 独手話記法

University of East Anglia 英言語，音声，画像処理 INT：Institut National des Telecommunications 仏アニメーション技術

IvD：Deaf Institute of Netherlands 蘭マルチメディアコンテンツ制作

Post Office 英対話システム

RNID：Royal National Institute for Deaf People 英監督，評価１表 ViSiCAST参加機関

(6)

を生成することを目指していた。また，このSiGMLで記述した手話文のデータを伝送し，

受信側でアニメーションを合成することにより伝送帯域を節減するという構想も提案されており，実証実験も行われた。ただし，このような方式を実現するためには，受信環境の統一を規定する規格化が必要であるが，放送受信機のための規格制定までには至っていない。

さらにこのプロジェクトでは，放送・通信への応用のみならず，対面対話への応用も掲げられ，郵便局窓口での応用を目指したデモンストレーションも行われた。これは，

窓口職員の発話を市販の音声認識ソフトウエアで認識した結果を用いて，事前に用意した定型的な約100の手話文の映像から１つを選択し，その映像を表示するというものであり，窓口業務に必要な対話の80％をカバーできたとしている。

以上のように，ViSiCASTは手話CG自動翻訳にまつわる課題を広くカバーしようとする，大規模で野心的なプロジェクトであった。

2.2 eSIGN

^９）10）

eSIGN（essential Sign language Information on Government Networks）は，ドイツ・ハンブルク大学等が中心となり，ViSiCASTの成果の一部であるアニメーション生成技術を活用して，電子政府構想に資するため，ろう者の社会アクセスを支援しようとしたプロジェクトである。EUのInformation Society Technologies（IST）プログラムの一環として2002年から2004年まで行われた。eSIGNでは，自動翻訳まではスコープに含めず，人手によるアニメーション制作を補佐するエディターなどの環境を整備することに主眼を置く，という技術的な実現性を高める選択が行われた。

eSIGNでも，ViSiCASTと同様に，アニメーションの動画データではなくSiGMLスクリプトを伝送しユーザーサイドでアニメーションを生成することにより伝送データ量を節減する方針を採用していた。ウェブブラウザー（Internet Explorer）上でSiGMLを解釈してアニメーション表示を行うプラグインソフトウエア（機能を拡張するために追加するソフトウエア）や，SiGMLエディター等の支援ソフトを開発し，無料で配布するなどの取り組みを行った結果，プロジェクト終了後もeSIGNの成果を活用したアプリケーションの開発や手話研究が行われてきている。また，実際に行政機関による情報提供に応用された事例もあり，例えば，ドイツ・ハンブルク市のホームページでは，eSIGNの成果を用いた手話のページ^11）が制作されている。

2.3 ATLAS

^12）13）

ATLAS（Automatic Translation into sign LAnguageS）プロジェクトは，イタリア・ピエモンテ州のプロジェクトとして，2009年から３年間のスケジュールで実施された。主な参加機関はRAI（イタリア放送協会），トリノ工科大学，Microsoftトリノ研究所など７機関であった。イタリア語テキストデータを入力としてイタリア手話のアニメーションを制作し，放送，モバイル通信，webコンテンツに活用しようというプロジェクトである。すなわちここでは，再び音声言語テキストから手話CGヘの自動翻訳の実現を目指した目標が設定された。ATLASプロジェクトが目指した技術的な構成については，次章で当所の研究と比較して紹介する。

各参加機関による研究は継続しているものと思われるが，ATLASプロジェクトとしての活動は，上記のように2012年で終了している。

３．手話CG生成技術の構成

本稿のテーマは，テキストをシステムの入力とし，CGによる映像をシステムの出力と

(7)

入力テキスト

自動翻訳装置

出力画像

入力テキスト

（1）

言語変換部

（3）

動作情報生成部

（5）

CGレンダリングエンジン

（2）言語資源データベース

（4）人体動作情報データベース

出力画像動作情報

中間言語

する技術である（１図）。しかしながら，これを一挙に実行する処理技術は現実には考えにくく，２図に示すようないくつかの段階を経る構成が実際的と考えられる。

（１）入力の音声言語（本章ではイタリア語，あるいは日本語）のテキストに何らかの変換を施し，相当する手話の文章の構成を表現するためのデータを得る処理。

（２）（１）の変換に必要な言語資源。

（３）（１）で得られたデータから，それを手話で表現するための人体の動きの記述を得る処理。

（４）（３）の変換に必要な人体動作情報。

（５）（３）で記述された人体の動きをCGアニメーションとしてレンダリング（描画）する処理エンジン。

この流れに沿ってATLASプロジェクトにおける要素技術の構成を見てみると，以下のようになっている^13）。（１）の言語変換においては，イタリア語の入力からAWLIS

（ATLAS Written Italian Sign Language）と呼ぶ中間言語に規則翻訳 ^＊１

文法規則を定式化し，この規則の適用によって翻訳を行う方式。

＊１し，さらに AWLISで記述された手話動作を並列に実行される要素ごとに再構成したAEWLIS

（ATLAS Extended Written Italian Sign Language）と呼ばれる記述に変換する。この言語変換部は，意味解析処理と，文法規則に基づくAWLISによる記述の生成処理から成るが，ここで用いられる（２）の言語資源としては，意味解析処理にはイタリア語における係り受けの文法データ，記述の生成処理にはAWLISの生成規則データベースを用いている。（３）の処理としては，AEWLIS記述を入力としてAI技術を用いた動作計画生成部によりキャラクター（アバター）のリソース（指，腕，顔など）の動作を調整し，

Signary（Sign + Dictionary）と呼ぶ手話単語のデータベースと，手話とアニメーションを対応づける規則のデータベースによりAL（Animation Language）と呼ばれる言語による記述への変換が行われる。（４）の人体動作情報の収集には，光学モーションキャプチャー，磁気モーションキャプチャー，光ファイバー形状計測（データグローブ

＊２

手袋の各指に沿って配置した光ファイバーを使って手の形を計測する装置。

＊２），表情画像認識，人手による人体・表情描画などの手段が考えられるが，ATLASではデータグローブの使用なども検討されたものの完成には至らず，公開されたデモシステムでは熟練したアニメーターによる手作業で制作されたデータが用いられていた。このAL

１図手話CG翻訳システム

２図手話CG翻訳システムの要素技術

(8)

で記述された手話動作の情報を元にEnthusiasm project

＊３

オープンソースプロジェクトとして開発されている高機能なCG 環境。

＊４

Enthusiasm projectにおいて，

描画対象の構成の解釈と，描画エンジンの制御を担当するソフトウエア。

＊５

各言語の用例に基づき，入力文に対して最も近似した翻訳例を検索して翻訳する方式。

＊６

各言語の用例の統計的な分析に基づき，最も確からしい翻訳結果を探索する方式。

＊７

手話の動作を記述するのではなく，手話単語に付したラベルを並べることで手話文を表現する表記法。

＊８

Biovision社^17）が開発したモーションキャプチャーのファイルフォーマット。

＊３によるアニメーションエンジンとレンダリングライブラリーTarta４D^＊４を用いて最終的なアニメーションビデオデータを生成することとしていた^14）。以上のように，ATLASプロジェクトでは非常に完備した構成要素技術を採用した汎用的なシステムの実現を目指していたと言える。

これに対し，当所の研究における処理の大略は以下のとおりである。（１）の言語変換として，用例翻訳^＊５を用い（用例が得られない場合のみ部分的に統計翻訳^＊６を用いる），主として単語単位のgloss表記^15）＊７による手話要素列のデータに変換する。（２）の変換処理の元となる言語資源は，NHK手話ニュースの手話を書き起したgloss表記のコーパス

（言語の用例を記録したデータベース）である。（４）の人体情報としてはネイティブの手話者の実際の動作を，単語単位で，あるいは当所の研究の目標である気象情報の翻訳に特有な表現の文節単位で，光学モーションキャプチャー技術により記録したBVH

（BioVision Hierarchy）^＊８データを用いている。これを元として，（３）の人体動作記述としては，抽象度の高い記述言語を経由することなく，アバターの骨格モデルの各関節の角度を示すBVHデータを直接操作している。（５）のレンダリング（描画）エンジンとしては，当所で開発したテレビ番組記述言語TVML（TV program Making Language）^16）に基づいたスクリプトをリアルタイムでCGに変換するTVMLプレーヤーを使用している。以上の比較を２表にまとめて示す。

このように，当所のプロジェクトは，気象情報の翻訳に応用目的を絞り込み，簡素で現実的な装置規模により，必要な成果の達成を目指すことを特徴としている。

４．手話CGの評価

このような過程を経て得られたCGによる手話表現が，目的とする応用に適した品質になっているかの判断は，あくまでも手話という言語をネイティブとして使っている人々による主観評価に基づくべきである。

前章までのレビューで分かるように，実用レベルに近づいた自動手話CG翻訳手法がいくつも実現しそれらを比較評価する，という状況には，いまだに至っていないので，翻訳の品質やシステム性能を比較評価するような手法も十分には確立していない。これまでに，前述のViSiCASTあるいはeSIGNの成果を活用して試作されたコンテンツを評価した研究では，３段階から６段階の系列範疇法

＊９

評価者が，対象を「良い」「普通」「悪い」など順序のあるカテゴリーに当てはめて評価する主

観評価法。 ^＊９でCGのさまざまな側面を評価し，そ

の回答と被験者の属性との相関を分析して，手話CGの評価に与える要因を分析している報告が見られる^18）19）。また，ろう者の被験者による実験中の手話による発話を，無意識のコメントやその後のインタビューを含めて録画し，自身ろう者である実験者がその発話内容を分析した例^18）もあり，CGアバターがろう者に受容される程度に関する解析に役立てている。これらの研究事例では，翻訳過程に手作業が介在している場合もあり，翻

言語変換部言語資源

データベース中間言語画像情報人体動作情報データベース

CGレンダリングエンジン ATLAS

プロジェクト

規則翻訳イタリア語文法

+

AWLIS生成規則データベース

AWLIS AEWLIS

AL 熟練アニメーターによる制作

Enthusiasm System

NHK技研用例翻訳

（一部，統計翻訳）

NHK手話ニュースの書き起こしコーパス

Gloss表記 BVHデータ + TVML

モーションキャプチャーによる BVHデータ

TVML プレーヤー２表 ATLASプロジェクトと当所の研究の比較

(9)

（a）トップページのページビュー

（b）評価回答件数 200,000

150,000

100,000

50,000

0

９月

11月 12月 1月 2月 3月 4月

10月

3,000

2,250

1,500

750

0 ９月

11月 12月 1月 2月 3月 4月

10月 15,081

27,517 41,283

54,596 75,341

106,371 144,391

189,116

447 787

1,003 1,406

1,674 1,941

2,186 2,776

訳結果の理解度については一定のレベルに達したとしている例もあるが，改善すべき点としては，口の動き，顔の表情，動作の速さ・スムーズさなどが多く指摘されている。

したがって，いずれのシステムのCG品質も課題を残していることは明らかではあるが，

一方でアバターによる手話アニメーションは，ろう者にとってアクセシビリティー向上の手段として可能性がある，との意見が得られたとの報告が多く，全般的には，この分野の研究に期待が寄せられていると言える。

当所でも，現在は手話CG翻訳の基盤技術の確立に向け取り組んでいる段階であり，翻訳結果としての手話文のCGの系統的な評価までには至っていないが，研究の一環として構築した日本語単語→手話単語の対訳辞書（手話単語約7,000語）を含む辞書システムを 2013年９月よりホームページ上で公開し，手話使用者の方々から広く評価を募る取り組みを行っている^20）。これはあくまでも，単語ごとの手話CGの品質を評価していただくものであるが，このような規模でCGの評価データを収集する試みは前例が無い。本稿執筆時点でも評価が進行中であるため，評価結果を報告することはできないが，３図に示すように，評価データ数としては順調に増加しつつある。

３図手話CG評価サイトの運用状況

(10)

参考文献５．おわりに

再三述べてきたように，本稿のテーマとした音声言語テキストから手話CGを生成する技術は，自然言語翻訳技術にほかならない。しかも手話への翻訳の場合，翻訳結果を文字による記述までにとどめることはできず，必ず映像のレンダリングまでを含まなければならない。これは，音声言語の翻訳技術で例えれば，翻訳文を得ることにとどまらず，

それを自然な合成音声で出力する段階までを含むことに相当する。音声言語間の文字ベースの自動翻訳も高度な技術を要することは言うまでもないが，加えて上記の事実を勘案すれば，手話CGの自動生成が，挑戦的な研究であることが理解されよう。一方で，

聴者にとって，例えば空港等で用いられている自動生成・合成音声のアナウンスは，決して完全に自然な音声ではないが，当該の用途に供することは可能なレベルにあると受容されている。手話CG生成技術の研究においても，完全に自然な手話映像の制作は困難であるにしても，その使用範囲，目的を明確化し，その中でろう者に受容していただける完成度はどのようなレベルであるか，の評価を常に確認しながら取り組む必要があると言えるだろう。

1）日本手話学会，http：//jasl.jp/

2） T. Hanke： HamNoSys Representing Sign Language Data in Language Resources and Language Processing Contexts， LREC 2004 Workshop Proceedings：Representation and Processing of Sign Languages，pp.16（2004）

3）国立情報学研究所日本手話話し言葉コーパスプロジェクト，http：//research.nii.ac.jp/jsl

corpus/

4） British Sign Language Corpus Project，http：//www.bslcorpusproject.org/

5） Symposium on Sign Language Translation and Avatar Technology，http：//sltat.cs.

depaul.edu/program.html

6）井上，金子，加藤，宮崎，梅田，清水，比留間，長嶋：距離画像とHOG特徴を使った指文字認識に関する一検討，映情学技報，Vol.37，No.8，ME201345，HI201317，AIT2013

17，pp.117120（2013）

7） ViSiCAST Project，http：//www.visicast.co.uk/

8） J. A. Bangham，S. J. Cox，R. Elliott，J. R. W. Glauert，I. Marshall，S. Rankov and M.

Wells： Virtual Signing：Capture，Animation，Storage and Transmission An Overview of the ViSiCAST Project， IEE Seminar on Speech and Language Processing for Disabled and Elderly People ，pp.17（2000）

9） eSIGN Project，http：//www.signlang.unihamburg.de/esign/

10）I. Zwiterslood，M. Verlinden，J. Ros and S. van der Schoot： Synthetic Signing for the Deaf ： eSIGN ， Proceedings of the Conference and Workshop on Assistive Technologies for Vision and Hearing Impairment，CVHI 2004（2004）

11）http：//gebaerden.hamburg.de/

12）ATLAS project，http：//www.atlas.polito.it/

13）V. Lombardo，C. Battaglino，R. Damiano and F. Nunnari： An Avatarbased Interface for the Italian Sign Language， 2011 International Conference on Complex，Intelligent，and Software Intensive Systems，pp.589594（2011）

14）Enthusiasm Project，http：//enthusiasm.sourceforge.net/

(11)

15）加藤：手話における言語資源の研究動向， NHK技研R&D，No.139，pp.1019（2013）

16）TVMLホームページ，http：//www.nhk.or.jp/strl/TVML/index.html 17）http：//www.biovision.com/

18）M. Verlinden ， C. Tijsseling and H. Frowein ： Sign Language on the WWW ， Proceedings of 18th International Symposium on Human Factors in Telecommunication

（HFT 2001），pp.57（2001）

19）R. SanSegundo，J. M. Montero，R. Cordoba，V. Sama，F. Fernandez，L. F. DʼHaro，V.

LopezLudena，D. Sanchez and A. Garcıa： Design，Development and Field Evaluation of a Spanish into Sign Language Translation System， Pattern Anal. Applic. 15，pp.203

224（2012）

20）手話CG評価ホームページ，http：//www.nhk.or.jp/signlanguage/

ひるまのぶゆき

比留間伸行

1984年入局。長野放送局，放送技術研究所視覚情報研究部，

名古屋放送局，放送技術研究所研究企画部などを経て，現在，放送技術研究所ヒューマンインターフェース研究部上級研究員。人間の情報受容特性，知識情報処理の研究に従事。2012年から電気通信大学大学院情報システム学研究科客員准教授，日本工業大学非常勤講師兼任。博士（工学）。

あずままきこ

東真希子

2010年入局。仙台放送局を経て，2013年から放送技術研究所において，手話CG技術の研究に従事。現在，放送技術研究所ヒューマンインターフェース研究部に所属。

(12)

「人にやさしい放送」の実現のために当所が進めている音声認識の研究開発の概要を紹介するとともに，障害者のための情報保障技術と，同情報保障に用いられている音声認識技術の動向について解説する。また，放送番組への字幕付与の現状を紹介し，課題について述べる。

１．はじめに

「人にやさしい放送」^１）は当所の重要な研究テーマの１つであり，障害者や高齢者を含む全ての人が好みの手段で楽しみ利用できる放送を目指して，身体的なハンディキャップにより情報を収集できない方々に対して代替手段を用いて情報を提供する技術の研究開発を進めている。この人にやさしい放送の１つとして拡充を進めているのが字幕放送である。字幕放送は，ナレーションやせりふなど，テレビ番組の音声で伝えられる情報に対応する文字を，必要に応じて画面上に表示して伝えるものであり，聴覚に障害のある方や，テレビの音声の聞き取りが容易ではないと感じる高齢者などへの重要な情報保障手段である。

NHKでは2000年に，生放送のニュース番組において，音声認識を用いた字幕放送を世界に先駆けて開始し，それ以降，字幕制作に音声認識を利用している^２）。本稿では，聴覚障害者への情報保障を軸に，音声認識技術を取り巻く現状について解説する。

２．聴覚障害者への情報保障

聴覚障害者支援技術の研究動向を調べると^３），同技術は「音による保障」，「手話による保障」，「文字による保障」に分類される（１図）。

「音による保障」では，「補聴技術」，「人口内耳」，「明瞭度向上技術」，「生活音・環境音識別技術」の研究開発が盛んである。当所では，背景音に妨害されて高齢者には聞き取りにくくなっているせりふやナレーションを聞き取りやすくする明瞭度向上技術の研究開発を進めている^４）。

「手話による保障」では，「手話データベース」，「手話合成」，「手話翻訳」，「手話通信」

の研究開発が盛んである。同技術の詳細と当所の取り組みについては，本特集号の解説

「CGキャラクターを用いた手話表現技術の研究動向」を参照されたい。

「文字による保障」では，話し言葉の冗長性を省略して，手書きもしくはコンピューターを利用して文字情報を伝達する「要約筆記」を支援する技術と，音声を忠実に文字にして伝える「字幕」の制作支援技術の研究が盛んである。当所では，音声認識技術を

情報保障に用いられる音声認識技術の最新動向

佐藤庄衛

■

解説

(13)

支援技術

音による保障

補聴技術

人口内耳

明瞭度向上技術

生活音，環境音識別技術

手話による保障

手話データベース

手話合成技術

手話翻訳技術

手話通信技術

文字による保障

要約筆記

手書き

コンピューター字幕

文字による保障

学習機会の確保

社会活動の支援

メディアアクセシビリティー

放送映画，

パッケージ CGM

応用して生放送番組に字幕を付与する技術の研究開発を進めてきた。

この「文字による保障」（２図）により，聴覚障害者は，「学習機会の確保」，「社会活動の支援」，「メディアアクセシビリティー」（情報伝送媒体から情報を取得する能力）を得ることができるようになる。特に近年，メディアアクセシビリティーを高める字幕への要望は，放送番組だけでなく，映画，パッケージメディア，さらにはConsumer Generated Media（CGM：利用者自らが情報を発信するメディア）にまで広がり，小規模な映画制作者やYoutubeなどへ動画を投稿する個人制作者が，コンテンツへの字幕付与を意識しなければならない状況にある。次章以降では，「文字による保障」の上記３つの分類に従って，音声認識の導入事例とともに現状と課題を述べる。

３．音声認識を利用した情報保障 3.1 学習機会の確保

講義や講演の音声を保障し，障害者の学習を支援することを目的とした事例を紹介する。このような事例は，大学などの研究者の身近にある課題であり，多くの研究者がこの課題に取り組んでいる。大学などの高等教育機関を対象とした調査では，この保障を必要とする学生の数は年々増加しており，2012年度にはおおよそ1,500人とされている^５）。

聴覚に障害のある受講者は，ある程度ゆっくり話してもらえれば，読唇により内容を１図聴覚障害者支援技術の分類

２図文字による保障

(14)

講義・講演への字幕付与

映像アーカイブ

検索目的キーワードが認識できる程度

視聴目的

（情報保障）完璧な字幕

聴講（リアルタイム）ノートテイク

（情報保障）

高精度である必要はあるが完璧でなくてよい

理解することができるが，多くの授業では読唇できないことが課題である。このような課題を解決するための講義・講演への字幕付与を，目的と形態で分類すると，聴講時にリアルタイムで行うものと，映像アーカイブを対象にしたものとに分類される^６）（３図）。

聴講時にリアルタイムで字幕を付与する場合，手書きもしくはパソコンによるノートテイクと呼ばれる要約筆記により情報を保障するが，人手による要約筆記では発話全体の２割程度しか伝達できないのが現状である^７）。音声の全てを完全に字幕にする必要はないが，より多くの情報が伝達される必要がある。さらに，この方法では筆記者に高い専門性が求められるため，専門分野に明るい補助者を必要とする。一方，音声認識を用いれば，人手と比べて高速な情報伝達が可能で，認識誤りはあるものの音声を全て文字にできるので，これらの課題の解決に有望な技術である。

しかし，音声認識を用いて講義音声を直接認識した場合（ダイレクト方式）の単語の認識精度は60〜80％しかなく，意味の通る字幕を制作できるのは全体の30〜40％にとどまり，まだ不十分である。この認識誤りを即時に効率良く修正する試みも行われてい

る^{８）９）10）}。一方，講義音声を熟練した復唱者が復唱し，その音声を認識する（リスピーク

方式）ことで認識精度が向上することが確認されており，さらに認識誤りを修正することで高品質な字幕を実現した例もある^11）。口語の講義には「複雑な従属構造」，「呼応関係の消失」（係り受けなどの対応の消失），「句読点の消失」，「省略」，「言い間違い，言い直し」，「引用表現」などの特徴があるために，障害者が認識誤りの推測・訂正ができないことに加え，そのまま直接認識すると分かりにくい字幕となるため，これらの特徴を整理した復唱が有効である。

復唱を行う場合は，前述の人手による要約筆記と同様に，専門分野に明るい復唱者が必要になる。しかし，広範な分野で専門性の高い復唱者を教育機関ごとに養成するのは難しい。そこで，全国の専門性の高い復唱者の協力を得て遠隔地で復唱を行うシステムが提案されており，相互に協力しあえるように詳細なマニュアルが整備されている^12）。また，数式など講義特有の記号や図を参照する必要もあり，文字列中に画像を提示する機能の必要性も認識されている^13）。

一方，映像アーカイブを対象とした事例としては，近年のOpen Course Ware^14）15）や iTunesUなどに代表される講義アーカイブの字幕の需要が高まっている。このような字幕を効率よく制作する技術の確立を目指して，各研究機関の協力のもと，インターネット上で無料配信される講演会であるTED（Technology Entertainment Design：http://

www.ted.com/）の音声認識と翻訳精度向上を図る試みもある^16）。

3.2 社会活動の支援

聴覚障害者にとって支援が必要な社会活動の１つに職場の会議がある^17）。このような局面では，筆談や読唇もしくは第三者を介した手話通訳や要約筆記が行われる。しかし，

前者は効率が悪く，後者は常用性が低い。障害者は第三者を介すことなく，会議の効率３図講義・講演への字幕付与の目的と形態

(15)

を下げないで会議に参加できることを望んでいる。ここでも，音声認識の活用が期待されている。

会議音声を認識する場合は，健常な参加者の協力を得て，認識精度を確保できるなどの利点がある^18）。会議参加者が発言する際に音声認識を意識することにより，５割から７割程度の音声認識率が８割まで向上する。また，ゆっくり区切って発話するなどにより，字幕の読みやすさが向上する。さらに，発言者もしくは発言者と別の参加者が認識誤りを修正すれば，６割の了解度が９割まで向上する。また，文脈や背景知識を共有できる場合には，必要な単語だけを効率よく修正することができるなど，会議特有の字幕の制作方法が明らかになっている。しかし，誤認識を訂正して90％の単語正解精度を有する文字列にしても，会議時間が最大７割増加するなど不満も残っている。

3.3 メディアアクセシビリティー

放送やネット配信される映像コンテンツの字幕に対する要望も高い。このようなコンテンツは障害者の学習支援と社会活動支援にも関わり，加速する超高齢化社会を背景に増加する聴覚障害者にとって必要な情報保障でもある。

各種メディアの字幕付与率は，2012年の時点で，劇場公開映画で11％，DVDやBlu

rayなどのパッケージメディアで４％，主なテレビ番組では48.4％であった^19）。劇場公開映画やパッケージメディアの字幕率が特に低いのは，外国語映画には字幕があるが日本映画には字幕がほとんどないことが原因である。劇場で健常者には不要な日本語字幕をどう提示するかということにも課題がある。この点に関しては，音声透かしを利用して伝送された字幕を，音声と同期してHead Mount Display（HMD）に提示する方法が報告されているが，まだ一般的ではない^20）。また，劇場映画を楽しむために，せりふだけでなく環境音や音楽などの非言語情報を提示する必要性が指摘されており，このような字幕を制作するためには，映画制作者が積極的に字幕制作に関与する必要がある。このような字幕制作においては，映画制作者や番組制作者によるクリエイティブな字幕が望まれている。一方，映画鑑賞時に音声が何も聞こえないという障害者は，ろう者の50.9

％，難聴者の9.2％であり，それ以外の障害者には何らかの音が聞こえている。この音が何なのかを知り，映画鑑賞を楽しみたいという要望も強い。字幕として提示を望む情報は，音楽の場合は歌詞の内容を希望するものが多く，環境音の場合は音源の情報を希望するものが多い。

その他のメディアの近年の状況を見ると，前述の講義・講演のコンテンツやYoutube をはじめとするCGMなど，膨大なコンテンツがネットを介して配信されるようになってきた。これらのコンテンツが一般視聴者に受け入れられるようになるとともに，それらへの字幕付与の要望も高まっている。放送局などの大手のコンテンツ制作者以外の制作者も，効率よく字幕を付与できる方法を必要としている。こうした背景の中，専門業者による字幕付与サービス^22）23）や，字幕付与ソフトを供給する会社も現れている。これらの業者は，コンテンツの書き起こしと，字幕提示タイミングを適切に調整した字幕の制作を請け負っている。字幕制作にはコンテンツの書き起こしと表示タイミングの調整の２つの技術が必要であり，台本や書き起こしテキストがあれば，表示タイミングの調整を行うだけで済む。また，テキストがない場合は音声認識を利用する方法が考えられる

（４図）。Googleは自社が提供するYoutubeのコンテンツに制作者が字幕を付与するためのサービスも展開しており，書き起こしがない場合には音声認識とタイミング調整，制作者側で書き起こしを有する場合にはタイミング調整のみなど，制作者の字幕制作リソースに応じて柔軟に対応して，精度の良い字幕が付与できる仕組みを提供している。

(16)

字幕字幕付与サービスを利用

台本を利用人手で書き起こし

音声認識を利用タイミング調整

ドラマ，ドキュメンタリーなど

報道番組

（クローズアップ現代，

週刊ニュース深読みなど）

歌謡番組と情報番組

（NHK歌謡コンサート，ひるぶらなど）

スポーツと情報番組

（大相撲，プロ野球，あさイチなど）

（複数話者，背景雑音，

感情的な発話にも対応）

ニュース

（午後２時，3時，４時，

首都圏ネットワークなど）

（気象情報，NEWS WEB，日曜討論など）

24%

5%

31%

11%

5%

字幕なしハイブリット方式

リスピーク方式

完プロ（オフライン字幕）

スピードワープロ

キーボード入力

コンテンツに公共性がある場合には，コストをかけずにボランティアベースで字幕を付与する方法も有効である。音声の書き起こしなどの長時間の集中力を要する作業に，

クラウドソーシング（インターネットを介して不特定多数の人が寄与する方法）を活用し，熟練者が最終内容の確認とタイミング調整を行い，高品質な字幕を制作する方法が提案されている^23）。この方法では，音声認識結果の認識精度が50％を下回る場合は認識結果を用いずに最初から書き起こした方が効率的であるという実験結果から，認識結果を採用する部分と最初から書き起こす部分を自動判定してクラウドを活用するか否かを判定している。この手法の採用により17％の作業時間が削減されている。

４．生放送番組への字幕付与

放送番組の字幕も年々拡充されている。NHKは2006年から収録番組の全てに字幕を付与している。現在は総務省が策定した「視聴覚障害者向け放送普及行政の指針」^24）に従い，

2017年までに生放送も含めて100％

＊１

７時から24時の番組が対象。

＊１の番組に字幕を付与する目標を目指して，生放送番組の字幕拡充に取り組んでいる。

4.1 字幕放送の制作手段

５図は，平成26年５月12日から18日のNHK総合テレビの字幕放送の割合と，その制 作手段の割合をまとめたものである。生放送番組の字幕の一部は，特殊な高速入力キーボードを用いるスピードワープロや，通常のキーボードを用いて人手で制作されており，

一部は音声認識を利用して制作されている^25）。この場合も，講演音声の認識と同様に，

４図ネット配信メディアへの字幕付与の方法

５図字幕放送の制作手段の割合

(17)

復唱により認識精度が大きく改善されるため，スポーツや情報番組の字幕制作にはリスピーク方式が用いられている。この方式はヨーロッパやカナダなどでも採用されてい

る^{26）27）28）}。生放送番組の字幕の56％は，音声認識を用いて制作されている。

５図の「ハイブリッド方式」は，番組音声を直接認識することを基本としながらも，

認識精度の低下が見込まれるインタビューなどの部分ではリスピーク方式を併用するものである。ハイブリッド方式は，認識誤りを効率よく修正するためのインターフェースも備えており，１〜２名の少人数のオペレーターが修正することにより正確な字幕を制作することができる。

4.2 リアルタイム字幕制作を実現した音声認識技術

当所では，この字幕制作に用いられる音声認識技術の研究開発を進めてきた^25）。ここで開発された技術により，ダイレクト方式のニュース字幕制作システムが他の機関に先駆けて開発・実用化された。その後，リスピーク方式のリアルタイム字幕制作システムの開発により，字幕放送が拡充されてきた。最新のハイブリッド方式の字幕制作システムは，アナウンサーや記者の発話部分だけでなくインタビューなど，ニュース番組にさまざまな演出があっても低コストで字幕を付与することが可能であり，ローカル局発のニュース番組を含む字幕放送の拡充に貢献している。

これらのシステムでは，音声認識誤りを人手で修正して正確な字幕を付与しているが，

リアルタイムに修正できる誤りの数には限界があるため，高精度な認識結果が低遅延で得られる音声認識技術が必要である。当所では，できるだけ早く認識結果を確認・修正できるように，文末を待たずに認識単語を逐次出力できる音声認識アルゴリズムを開発した。これに加え，ニュース番組の認識精度を高水準に保つために，最新のニュース原稿を常に言語モデルに反映させる仕組みを開発するとともに，頻出する認識誤りを低減する言語モデルの学習アルゴリズムを採用した。言語モデルに関するこれらの技術については，本特集号の報告「誤り傾向を利用した言語モデルによる音声認識」を参照されたい。

また，広範な話題を認識しなければならない情報番組などでも高い認識精度を得られるように，事前に得られる少量の番組関連情報からその番組を認識するために必要な話題を推定して言語モデルを適応化する方法を開発した。

さらに，リスピーク方式特有の課題を解決する技術の開発にも取り組んでいる。長時間にわたるリスピーク作業の疲労により引き起こされる認識精度の低下を軽減するため，

認識誤りの修正結果を利用して音響モデルを番組進行中に更新する技術を開発した。音響モデルについては，複数の話者による対談番組を直接認識するための音響モデルの改善にも取り組んでいる。本特集号の報告「対談音声認識のための話者ダイアライゼーション」では，番組に出演する話者を自動で分類し，話者ごとに音響モデルを適応化する技術を紹介している。

認識誤りを効率的に修正できる操作性の良いインターフェースの開発にも取り組んでおり，このインターフェースにより，従来は４人必要であった修正オペレーターの人数が１〜２人に削減され，字幕付与番組の拡大につながっている。

以上で紹介した技術の多くは，字幕付与の対象となる番組の制作過程と字幕放送の送出過程を検討し，字幕放送制作者と密接に連携することによって実現したものである。

4.3 字幕放送のさらなる拡充に向けた音声認識の研究課題

前述のハイブリット方式の字幕制作システムは，NHKの東京だけでなく，大阪局，名古屋局，福岡局，仙台局にも導入され，それぞれの地域に向けて放送される番組にも字

(18)

の関東甲信地方は …

先月先月の関東甲信地方は…

今週もまとまった雨は

今週もまとまった雨は…

…

気象庁によりますと … 気象庁に

よりますと…

入力単語を受理して進む遷移遷移して修正結果を出力する遷移

幕が付与されるようになりつつある。

今後，上記の字幕付与システムを全国の放送局に展開していくことを考えた場合は，

番組本番中に誤認識を修正する要員の確保が困難な地方局の事情も考慮しなければならない。番組本番中の要員確保が困難な局でも，本番前には，ある程度の人的余裕が見込まれるため，アナウンサーの読み原稿を事前に確認してシステムに入力することができる。そこで，当所では，番組音声を直接認識し，その認識結果からアナウンサーの読み原稿のどの部分を読んでいるかを精度よく推定するアルゴリズムを開発した^29）。重み付き有限状態機械（WFST：Weighted Finite State Transducer）

＊２

言語処理や音声認識に利用される，最も類似しているものを推定する技術。単語を受理して進む遷移と，遷移して字幕とする文字列を出力する遷移を有する。

＊２（６図）を応用したこのアルゴリズムで読み原稿を推定し，それを字幕とすることにより，地方局でも精度のよい字幕を制作できるようになる。このシステムを2014年のNHK技研公開で展示し

（７図），多くの来場者から有益であるとのコメントを得た。類似の技術がスペインですでに実用化されており^30），それに追従した研究開発^31）も行われているが，これらの技術に比べ，当所の技術は原稿の読み飛ばしや言いかえに対して頑健なシステムであり，今後の字幕拡充において必要とされる技術である。

一方，複数の話者による不明瞭な発声や，背景雑音，相づちなどで構成される番組については，現在の技術では音声認識精度が十分ではないために，高速入力キーボードなど人手による字幕制作に頼らなければならない場合も多い。当所では，これらの番組の認識精度を向上させるための，音響・言語モデルの改善と認識方式の改善にも取り組んでいる。

６図字幕送出に利用される重み付き有限状態機械

７図事前原稿を利用したローカル放送局用字幕制作システム

(19)

５．おわりに

「人にやさしい放送」の実現のために当所が進めている音声認識の研究開発の概要を紹介するとともに，聴覚障害者のための情報保障技術，および同情報保障に用いられている音声認識技術の動向について解説した。聴覚障害者の生活に必要な音声情報を文字で伝える字幕を効率良く制作する技術は，音声認識の応用技術であり，「学習機会の確保」，

「社会活動の支援」，「メディアアクセシビリティー」などの情報保障において，それぞれ必要とされる情報に応じた応用例があることを示した。また，近年のインターネットで配信されるコンテンツの増加に伴って，字幕制作が大手のコンテンツ制作者だけの課題ではないことを述べた。さらに，より多くのコンテンツに字幕が付与されるようになり，

障害者が，言語的な保障だけでなく，よりクリエイティブに制作され，非言語情報も含んだ保障を望んでいる事例についても紹介した。

放送番組の字幕に関しては，当所が研究開発を進める音声認識と字幕制作のシステムを紹介した。音声認識を利用して字幕を制作するという点では，他のメディアの字幕制作と共通する技術が用いられており，課題にも共通する部分が多い。今後，CGMへの字幕付与を行う業者が生放送の字幕制作を行うなど，生放送の字幕制作について，方式や形態の多様化が見込まれる。

また，スーパーハイビジョンによる高精細化と広視野化に伴い，周辺視野へ音楽のリズムを提示したり，会場の歓声を提示するなど，非言語情報を保障するさまざまな方法が可能になっていくと予想される。今後も，誰にとっても放送をさらに豊かにするための研究開発を進めていく予定である。

(20)

1）伊藤：高齢者・障害者のメディアアクセスに関する話題 ―人にやさしい放送を目指した研究開発―，電子情報通信学会サイバーワールド第9回研究会，pp.16（2008）

2）佐藤：音声認識を用いた生放送番組への字幕付与，メディア教育研究，第9巻，第1号，S 9S18（2012）

3）中園，織田：聴覚障害者支援技術の研究レビューと将来への展望，信学技報，WIT2009

79，pp.6572（2010）

4） T. Komori，A. Imai，N. Seiyama，R. Takou，T. Takagi and Y. Oikawa： A Development of a Broadcast Sound Receiver for Elderly Persons， 13^thInternational Conference on Computers Helping People with Special Needs（ICCHP 2012）K. Miesenberger et al.

eds.，Springer，pp.681688（2012）

5）日本学生支援機構：大学，短期大学及び高等専門学校における障害のある学生の修学支援に関する実体調査（2013）

6）河原：話し言葉の音声認識の進展 ―議会の会議録作成から，講演・講義の字幕付与へ―，

メディア教育研究，第9巻，第1号，S1S8（2012）

7）斎藤，白澤，徳田：聴覚障害学生サポートガイドブック，日本医療企画（2002）

8） M. Wald，J. M. Bell，P. Boulain，K. Doody and J. Gerrard： Correcting Automatic Speech Recognition Captioning Errors in Real Time， International Journal of Speech Technology，Vol.10，Issue 1，pp.115（2007）

9） M. Wald： Creating Accessible Educational Multimedia through Editing Automatic Speech Recognition Captioning in Real Time ， Interactive Technology and Smart Education，Vol.3，No.2，pp.131141（2006）

10）桑原，秋田，河原：音声認識結果の有用性の自動判定に基づく講義のリアルタイム字幕付与システム，第8回ドキュメント処理ワークショップ講演論文集（2014）

11）中野，金澤，牧原，黒木，上田，中野，井野，伊福部：音声認識技術を利用した字幕提示システムの活用に関する研究 ―聴覚障害者のニーズに即した提示方法―，メディア教育研究，

第5巻，第2号，pp.6372（2008）

12）日本聴覚障害学生高等教育支援ネットワーク：音声認識によるリアルタイム字幕制作システム構築マニュアル， http://www.tsukubatech.ac.jp/ce/xoops/file/seika/onseininshiki

manual.pdf（2013）

13）堀池，竹内，松本，工藤，大西：数式挿入機能を備えた要約筆記文作成エディタの開発，信学技報，WIT201383，pp.9398（2014）

14）J. Glass，T. J. Hazen，S. Cyphers，I. Malioutov，D. Huynh and R. Barzilayet： Recent Progress in the MIT Spoken Lecture Processing Project ， Proc INTERSPEECH ， pp.25532556（2007）

15） Liberated Learning， http://liberatedlearning.com/（2014）

16）M. Paul，M. Federico and S. Stucker ： Overview of the IWSLT 2010 Evaluation Campaign， Proc. IWSLT，pp.327（2010）

17）織田，水島，古家，政瀧，羽田：音声認識を用いた会議情報保障支援システムの社内会議における検証，信学技報，WIT200858，pp.1116（2009）

18）水島，織田，政瀧，古家，片岡：音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析，信学技報，WIT2006108，pp.2126（2007）

19）中島，木戸部，山上：聴覚障害者対応字幕への期待と字幕制作環境の現状，信学技報，WIT 201384，pp.99104（2014）

参考文献

(21)

20）Topics from Media Access Support Center，http://npomasc.org/cn16/pg286.html

（2014）

21）Caption Sync，http://www.automaticsync.com/captionsync/（2014）

22）3Play Media，http://www.3playmedia.com/（2014）

23）長妻，福田，柳沼，広瀬：クラウドソーシングを活用した効率よい字幕制作手法，信学技報，WIT201225，pp.712（2012）

24）総務省：「デジタル放送時代の視聴覚障害者向け放送に関する研究会」報告書， http://www.

soumu.go.jp/main̲sosiki/kenkyu/digital/（2011）

25）今井：リアルタイム字幕放送のための音声認識， NHK技研R&D，No.131，pp.413

（2012）

´

26）A. Prazak，Z. Loose，J. Trmal，J. V. Psutka and J. Psutka： Novel Approach to Live Captioning through Re speaking ： Tailoring Speech Recognition to Re speakerʼs Needs， Paper Presented at the Meeting of the INTERSPEECH（2012）

27）P. Cardinal，G. Boulianne，M. Comeau and M. Boisvert： RealTime Correction of ClosedCaptions， Proc. of ACL2007，pp.113116（2007）

28）M. Marks： A Distributed Live Subtitling System， BBC R&D White Paper，WHP070

（2003）

29）佐藤，尾上，小林，奥，藤田，一木：原稿WFSTを利用した誤認識修正アルゴリズム，音響学会春季講演論文集，248（2014）

30）J. E. Garcia，A. Ortega，E. Lleida，T. Lozano，E. Bernues and D. Sanchez： Audio and Text Synchronization for TV News Subtitling Based on Automatic Speech Recognition ， Broadband Multimedia Systems and Broadcasting BMSBʼ 09 IEEE Symposium，pp.16（2009）

31）J. Gao，Q. Zhao and Y. Yan： Towards Precise and Robust Automatic Synchronization of Live Speech and its Transcripts， Speech Communication，Vol.53，pp.508523

（2011）

さとうしょうえい

佐藤庄衛

1993年入局。仙台放送局を経て，1995年から放送技術研究所において，音声認識の研究に従事。現在，放送技術研究所ヒューマンインターフェース研究部上級研究員。博士

（工学）。

2014 No.147 9

複数のプロジェクターを用いたインテグラル立体映像表示

50

論文紹介 発明と考案

研究会・年次大会等発表一覧

51 52 56

気象情報を対象とした手話CG生成技術の概要 手話アニメーションの合成・編集

対談音声認識のための話者ダイアライゼーション 誤り傾向を利用した言語モデルによる音声認識

20

聴覚障害者向け放送の

バリアフリー技術 特集号

CGキャラクターを用いた手話表現技術の研究動向 情報保障に用いられる音声認識技術の最新動向

4

聴覚障害者向け放送のバリアフリー技術特集号に寄せて

長嶋祐二

2

技研

2014 No. 147

9

2014・9 No.147

ISSN 0914-7535

巻 頭 言

長嶋祐二

聴覚障害者向け放送の

バリアフリー技術特集号に寄せて

１．はじめに

CGキャラクターを用いた 手話表現技術の研究動向

比留間伸行 東真希子

■

解 説

２．ヨーロッパにおける研究事例

2.1 ViSiCAST

2.2 eSIGN

2.3 ATLAS

３．手話CG生成技術の構成

４．手話CGの評価

参考文献 ５．おわりに

１．はじめに

２．聴覚障害者への情報保障

情報保障に用いられる 音声認識技術の最新動向

佐藤庄衛

■

解 説

３．音声認識を利用した情報保障 3.1 学習機会の確保

3.2 社会活動の支援

3.3 メディアアクセシビリティー

４．生放送番組への字幕付与

4.1 字幕放送の制作手段

4.2 リアルタイム字幕制作を実現した音声認識技術

4.3 字幕放送のさらなる拡充に向けた音声認識の研究課題

５．おわりに

参考文献

⁵⁰

論文紹介発明と考案

気象情報を対象とした手話CG生成技術の概要手話アニメーションの合成・編集

対談音声認識のための話者ダイアライゼーション誤り傾向を利用した言語モデルによる音声認識

バリアフリー技術 ^特集号

CGキャラクターを用いた手話表現技術の研究動向情報保障に用いられる音声認識技術の最新動向

⁴

²

巻頭言

CGキャラクターを用いた手話表現技術の研究動向

比留間伸行東真希子

解説

参考文献５．おわりに

情報保障に用いられる音声認識技術の最新動向

解説