テレビ・データ最先端 ─人体認識技術を活用したテレビ視聴態勢のビッグデータ化とその活用─

(1)

1．導　　　入

1･1　テレビデータの不足という問題テレビは長らく，いわゆるアドテクノロジーから取り残されており，オンライン広告が急速に発展するのを尻目に，「遅れた」メディアと見られがちであった．その一方で，テレビ広告はアメリカでは 720 億ドル，日本では 1.9 兆円の膨大な市場をもっており，日本ではいまだに最大の広告媒体にして，オンライン広告の 1.5 倍の市場規模をもち，大手広告主の中では，従来同様テレビ広告に最大の予算を振り分けるものがほとんどである．テレビがアドテクノロジーの流れをキャッチアップできなかった一つの大きな理由として，テレビに関するデータが圧倒的に不足していたということがある．それは必ずしもテレビのみの問題ではなく，「オフライン」媒体全体の問題ではあるが，テレビも今まで，「オフライン」であるがゆえ，実際の視聴データが限定され，サンプル取得による，テレビのオンオフのみを計測する視聴率や GRP（Gross Rating Point：累積視聴率）といったオンラインでいう Impression ベースでのデータしか存在しなかった．補充的にはオンラインサーベイや電話調査も存在したが，基本は視聴者の記憶に依存するものであり，その精度は手放しで信頼できるものではなかった．それゆえに，オンライン広告が，Impression から Click， Actionと，新しいデータに基づいてアドテクノロジーが発展して，効率化が図られるのに対して，テレビはそういった取組みが極めて限定的であった．テレビの場合，市場の大きさに比べて，データの乏しさはいびつともいえるものであった． 1･2　TVISION INSIGHTS 社について本稿では，著者が所属する TVISION INSIGHTS （ティービジョン・インサイツ）社の取組みを紹介するが， TVISION INSIGHTS社は，まさにテレビ媒体という，大きな市場と不つり合いなデータ不足という問題に正面から取り組み，先端をいく一社である． TVISION INSIGHTS社の取組みを一言でいうと，テレビ業界の，新しい指標となるべきテレビ視聴ビッグデータの取得を行っている．コアテクノロジーは，AI を生かしたコンピュータビジョン技術であり，独自に開発したアルゴリズムをセンサに搭載し，そのセンサを実際の視聴世帯のテレビの上に配置することで，視聴者の実際の視聴状態を，リアルタイムかつきめ細かいレベルで取得している（TVISION INSIGHTS 社ではそのデータを，既存の「視聴率」とは違うデータセットということで，「視聴質」と呼ぶ）．その視聴質データのテレビにとっての意義は，オンラインで例えていえば，今まで PV（Page View）しかな

テレビデータ最先端

─人体認識技術を活用したテレビ視聴態勢のビッグデータ化と

　その活用─

The Frontier of Television Data

　─ How to Create New TV Viewing Big Data by Human Recognition

　　 Technologies ─

郡谷　康士

TVISION INSIGHTS株式会社 Yasushi Gunya TVISION INSIGHTS.

[email protected], http://www.tvisioninsights.co.jp/

Keywords:

TV, big data, computer vision, viewability, programmatic TV. 「広告と AI」

(2)

TVISION INSIGHTS社は日米同時に 2014 年より始まったベンチャーであり（法人化は 2015 年），現在すでに日米 3 000 世帯での視聴データ取得を行っている．日本においては関東で 800 世帯のデータを取得しており，既存の視聴率取得と同レベルのサンプル数で展開している．以下，TVISION INSIGHTS 社が AI を活用している，コンピュータビジョンの分野と，メディア視聴データ解析の分野双方の現状を概述したい．

2．コンピュータビジョン技術における AI の活用

2･1　顔認識・人体認識の現状顔認識・人体認識はコンピュータビジョンの一つの大きな分野として古くから研究されていたが，その精度が大きく向上したのは，機械学習が一般的に活用されだした近年である．機械学習技術と画像処理の相性の良さが，大きくこの分野に進歩をもたらしてきた． Microsoftや Google を始めとしたインターネット大手企業でも顔認識への取組みはつとに増えてきているが，それにも増して近年，顔認識技術をベースとしたベンチャーが多く登場していることが，この進歩を裏付ける＊1_{．一例として，Apple 社に買収された Emotient 社や，} 中国のスタートアップの Face＋＋があげられる．顔認識によるセキュリティなど，いわゆる“シリアス”で，ミスが許されない，極めて高精度を要求する（その分，被認識者への要求も高い）分野においては，NEC のような日系大手企業が一歩抜け出しているところもあるが， “カジュアル”といわれる広告やアプリへの活用分野では，ベンチャー企業がメインを占めている．このようなベンチャー企業の傾向としては，おおむね AI の活用を謳っているが，その主な部分は機械学習，特にディープラーニングの活用が多い． “カジュアル”の活用の中でも，顔認識・人体認識の活用には，大きく三つの種類に分類される．一つ目は写真における顔認識であり，Facebook における写真への Tag付けなどが親しまれているほか，多くの API も開発されており，さまざまなアプリなどで活用されている．二つ目は PC やモバイルデバイスのカメラを生かした顔認識であり，デバイスに組み込まれたカメラで，そのカメラの前の顔を認識する．Windows 10 から， Windows PCの解錠機能として顔認識を取り入れたのはこの分野の事例である．近距離により，顔認識に必要な特徴点データが取得しやすく，またデバイスの数が多く，データ量も豊富に取得できたため，発展が著しい．三つ目としては，既存のセキュリティカメラを活用する，遠距離での顔認識・人体認識分野である．データの細度は，物理的要因から以上の二つに劣るが，すでに既存デバイスによる大量のデータの蓄積があり，かつ多様な需要が見込まれるため，発展してきた分野である．表情識別については，現在さまざまな取組みがあるが，米国の各研究室・ベンチャーの状況をヒアリングしたところ，主に取り組んでいる表情識別は四∼七つの表情に集約されている．一定の精度を確保するときに，経験則的にこの表情数が，現状の精度を維持できるレベルである．現状としては，複数の表情にそれぞれスコアリング化を行い，その中の最大値は該当する「表情」として評図 2 PC カメラを活用して取得した画像（右上の画像）を顔認識に活用しているケース（出典：Affectiva＊3_）＊1 http://nordicapis.com/20-emotion-recognition-apis-that-will-leave-you-impressed-and-concerned/ 図 1 写真の顔認識に活用できる Open API（出典：Microsoft＊2_）＊2 https://azure.microsoft.com/ja-jp/services/ cognitive-services/ ＊3 https://www.affectiva.com/product/affdex-for-market-research/

(3)

価する方法が主流である（図 3）．一方で，こういったベンチャーの多くは API を無料または有料で第三者に開放し，SaaS（Software as a Service）型の展開をすることが多い．利用者のデータのフィードバックを受け，自身の技術の精度を上げる仕組みを構築してはいるものの，基本的には自身でデータを取得しているわけではないことに留意する必要がある． 2･2　TVISION INSIGHTS 社の技術について TVISION INSIGHTS社のミッションとしては，テレビの視聴態勢をビッグデータ化するところにあるが，そのためには，テレビ視聴を想定した 5 m 以内という，図 4のような中距離での高精度認識を確立する必要があった．しかし，それは写真の判別や，近距離 PC の判別の技術では十分でなかったため，TVISION INSIGHTS 社は上記した 3 種類のトレンドとともに差別化した独自技術を開発したのである．まずは TVISION INSIGHTS 社のデータ取得イメージを下記にて示す．実際のデータ取得は以下のデモのように行っている．ここで一つ明記すべきは，TVISION INSIGHTS 社は視聴者の中から協力者を募り，その自宅にセンサを設置しているが，以下のデモのような動画そのものの撮影，録画やアップロードは，プライバシー保護のためいっさい行っていないことである．あくまでもローカル環境に設置した PC でデータを解析し，動画もしくは画像には不可逆なテキストデータに変換したもののみをサーバ上にアップロードし，分析をしている．基本としては，センサ（Kinect センサを使用）の対角 140°，人物検出距離 5 m の範囲にて，最大 6 名の顔認識を，秒間 5 コマ単位で同時取得している．顔面に 21 個の特徴点をプロットし，それらの動きを追従することで個人特定，顔の向き，表情を計測している（図 5）．それを実現するにあたり，既存の技術での問題は主に三つあった．一つ目としては，その距離を考えたときに，最も一般的なセンサであり，多くの顔認識技術にも活用されているカメラセンサの性能の限界である．周知のように，カメラセンサでの取得データはピクセルベースであり，5 m のような中距離においてはいわゆる「ぼやける」現象が起き，ピクセルがデータとしての精度を十分にもたないレベルに陥ってしまうことにあった．この問題に関してはカメラセンサに加え，赤外線センサを活用することで解決できた．顔に 21 の特徴点を設置し，その特徴点同士の距離を投光した赤外線の反射時間から深度情報を得る Time of Flight 方式によって取得することで，カメラセンサのみでは十分に取得できない各特徴点の位置関係，ひいては顔の各部の動き関係を取得するのである（図 6）．二つ目には，テレビ視聴時にありがちな，暗い状況でのデータ取得である．カメラセンサのみでは取得データ図 4 TVISION INSIGHTS デバイスの家庭内での設置イメージ（出典：TVISION INSIGHTS 社）図 5 TVISION INSIGHTS データ取得デモ（出典：TVISION INSIGHTS 社）＊4 https://www.affectiva.com/product/emotion-as-a-service/ 図 3　表情判定のスコアリングのイメージ（出典：Affectiva＊4_）

(4)

の精度が問題として浮上するが，こちらも同様に赤外線センサによって解決することができる．三つ目には，体の向きである．PC の前での顔認識取得とは違い，テレビ視聴時の視聴者の特徴の一つが「よく動く」ことである．ソファに寝そべったり，立ち上がったり座ったりと，さまざまな行動がテレビ視聴時に観察されている．顔の動きはさることながら，そもそもどの部分が人間の顔なのか，人体認識も含めたソリューションが必要とされた．TVISION INSIGHTS 社では， Kinectセンサをベースに，身体のスケルトン取得・分析を導入し，人体のさまざまな動きにも対応できるように改良を行った．さらに，センサの認識野に全身が入らず，スケルトンへの判定がしにくく，データとして取得しにくいケースを想定して，サーモグラフィによる人体認識・データ取得技術も導入し，より広く正確な範囲での人体認識技術を開発している．以上の三つのチャレンジを克服したことにより， TVISION INSIGHTS社はテレビ視聴距離において，精度の高い技術を開発することができた．なお，個人の同一人・属性判別については，著者も自社他社かかわらず，数多くのデバイスアルゴリズムを試してきたが，既存の正解データ，つまり被認識者のデータがない状態では精度はまだばらつきがあるのが現状である．TVISION INSIHGTS社としては，協力者すべてに写真を複数枚提供してもらい，その写真を活用することで，個人特定を高い精度で可能とした（なお，登録のないゲストについては，性別，年齢（10 代ごと）レベルでの認知となる）．このように，顔認識技術における AI の活用，および TVISION INSIGHTS社が独自のニーズに基づく技術の改善について概述したが，いずれにせよ，AI 技術，特に機械学習技術の発展がその背景に強く存在することは言をまたない．

3．テレビデータ解析における活用

3･1　既存のテレビデータ：視聴率上述した技術に基づき，現在 TVISION INSIGHTS 社は，個人にひも付いた，視聴の有無，顔の向き，表情が，基本原理としては，視聴者がリモコンにある個人ボタンを，視聴の開始時と終了時に押すことにより，個人の視聴チャンネル，同時に誰が視聴しているか，を測定している [VR 17]．世界的にも現状では主流の測定方法であり，日本では 1997年よりビデオリサーチ社が導入して，現在に至る 20年間使用している [VR 17]．この手法は視聴者に操作を要求するアクティブ手法であり，視聴者の操作に依存するという点では測定手法としての弱点があるが，視聴者の操作にいっさい依存しないパッシブデータの取得がかつては難しかったため，主流にとどまり続けた． 3･2　TVISION INSIGHTS データの取得前述したように，TVISION INSIGHTS 社が開発した人体認識を活用したテレビ視聴データ取得は，二つの点において，現在の視聴率取得方法に比べてユニークである．一つ目は視聴者のパッシブデータ取得が可能になる点である．人体認識・顔認識は，視聴者の動き・位置にかかわらず，視聴者の態勢をデータとして取得するため，センサの設置後は視聴者にいっさいの操作を要求しないパッシブ手法である．これにより，現状の手法では把握が難しいとされていた，視聴中のちょっとした離席といったような視聴態勢も取得できるようになった．もう一つはデータの深さである．現在 TVISION INSIGHTS社が取得しているデータは，テレビのオンオフ，Viewability，Engagement の 3 種類である．このうち，テレビのオンオフは別途センサに付随しているマイクによって，Audio Fingerprint を取得，その照合によって，視聴の有無，番組の特定を行っており，取得するデータが視聴している番組は何か，という意味では，既存の PM より取得するデータと比較して差はないが（録画視聴などにおいては PM が取得できないデータを取得できるということで，厳密的には差がある）， TVISION INSIGHTS社が独自に定義・取得しているデータが Viewability と Engagement である．ここでいう Viewability とは，センサによって視聴者の身体が認識されている，という状態を指し，センサから対角 140°の視角，距離では 0.5 ∼ 5 m の中が認知の範囲である．日本語では便宜上「滞在」と訳されている． Engagementとは，Viewability が存在したうえで，さらに顔の向き，もしくは目の向き（視線）がセンサ（テレビの上部についているのでテレビとみなしている）を図 6 既存技術と TVI 技術の違いのイメージ（出典：TVISION INSIGHTS 社）

(5)

向いている状態を指し，日本語では「注視」と訳している．この 2 段階を設定した理由は，テレビというメディアの視聴形態上，テレビを注視していなくとも音が耳に入る「ながら視聴」の形態が一般的に多いからである． Viewabilityの定義は「ながら視聴」も一般的に含み， Engagementはそういった「ながら視聴」を排除した「専念視聴」をより表した概念となる．つまり，TVISION INSIGHTS 社のデータとしては，今までのテレビのオンオフに留まっていたテレビ視聴データを，個人にすべてひも付けしたうえで，「ながらを含めた全視聴」，「専念視聴」と 2 段階さらに深めたものとなる． 3･3　TVISION INSIGHTS データの解析現在，TVISION INSIGHTS 社は，取得したデータをさらに指標化して，広告業界の各社に提供している．具体的には，テレビが 1 台オンしている状態に対して，どれほどの視聴者がテレビの前に Viewable であったかを指標 Viewability Index（VI 値）として定義し， Viewableであった視聴者のうち，どれほどの視聴者が Engagedであったかという指標 Attention Index（AI 値）として定義した（図 8）．実数ではなく，指標化した理由としては，現状，いまだに視聴率が業界における事実上の取引通貨という現状を鑑み，視聴率とは独立した「視聴質」データとして活用のニーズが高い点にある．VI 値，AI 値ともにノーム値を 1.00 と置いており，その高低により，視聴率を評価することができる． VI値は，視聴者の滞在度合いを示しており，高ければ高いほど，1 台のテレビにつき（≒その視聴率において），より多くの視聴者がテレビの前に位置したことを示す．一方で，AI 値は，視聴者の注視度合いを示しており，高ければ高いほど，その視聴率において，より多くの視聴者がテレビのコンテンツに注視したことを表している．なお，データの傾向を解析した結果，VI 値は曜日× 時間帯において，大きな違いを見せており，かつ異なる属性においても大きく違っていた．テレビの前に滞在する曜日・時間帯は，その視聴者の生活様式によって大きく異なってくる，ということを強く示唆しており，テレビの「枠」が実際に視聴者に届いたかどうか，その効率性について評価する指標として活用されている．一方で，AI 値は曜日×時間帯においてはほぼ大きな差を見せず，属性間の違いも相対的に小さかった．「枠」だけでは，テレビ番組への注視度を説明できないということを示唆しており，より番組・CM の放送内容そのものを評価する指標として活用されている（図 9）．現在，TVISION INSIGHTS 社の指標を用いて，TV 広告の枠・放送内容の効率性の見直しは幅広く行われており，既存に比べ，その効率が 10％以上改善した事例も存在する．上記のような事例でも，実際活用したデータは，「タイム」と呼ばれる番組提供枠において，購入すべき番組を TVISION INSIGHTS データを用いて再評価して，購入対象を変えたり，その番組に対してどのようなコンテンツ＝ CM を当て込むべきかを分析したりと，可能な解析のうち，まだまだごくシンプルな分析を行ったにすぎない．以上のような例にとどまらず，TVISION INSIGHTS データの解析の範囲は広範にわたる．現在進行中のものだけでも，番組・CM の見られ方における各要素の影響，他メディアとのクロスメディア視聴の，複数人による共視聴（Co-viewing）が視聴効果に及ぼす効果などなど，図 7 TVISION INSIGHTS データの概要

（TVISION INSIGHTS社発表資料より）図 8 VI 値，AI 値の定義（出典：TVISION INSIGHTS 社）

図 9 TVISION INSIGHTS データの活用事例（出典：TVISION INSIGHTS 社）

(6)

4．最　　後　　に

最後に，現在の TVISION INSIGHTS 社のビジネス展開について簡単に記しておく．法人化して 2 年ほどではあるが，すでに日本においては，トップ広告主 30 社以上，大手代理店，在京大手テレビ局の過半と協業し，データの活用を始めている．また，米国にも同時にビジネスを展開しており，大手広告主，4 大ネットワークと協業を進めている状態である．その取組みは，New York Timesを始めとした各メディアでも取り上げられてきた．また，アカデミックの分野とも共同研究などを進行しており，ハーバード大学，ノースイースタン大学，早稲田大学など各大学との産学連携プロジェクトも進めてきた． TVISION INSIGHTS社の強みとしては，放送される番組・CM について，すでにすべての視聴データを取得しているという点であり，そのデータは包括的である（取引のない会社のデータについても，すべて取得できている）．そのため，幅広い研究への対応が可能であり，今後 TVISION INSIGHTS 社としてもさまざまなパートナーと協業し，さらなるデータの深掘り，開発を進めていきたいと考えている．追　記参考までに，TVISION INSIGHTS 社の日本でのデータ取得状態を下記に簡単に記す．なお，サンプリングについては，同一視聴都市圏（この場合は関東）を母集団として代表性をもつように，多段抽出法に加え，属性人口の分布による補正を行った．取得ログの細度については，1 秒 5 コマであるが，分析に際しては毎秒データに切り直して行っている．

◇　参　考　文　献　◇

以下のサイトを参考した： [Affectiva] _{http://www.affectiva.com/} [DE 16] 電通日本の広告費 2016，http://www.dentsu.co.jp/ knowledge/ad_cost/2016/media.html [Microsoft] https://www.microsoft.com/cognitive-services/

[Nordic APIs] http://nordicapis.com/20-emotion- recognition-apis-that-will-leave-you-impressed-and-concerned/

[The New York Times] _{https://www.nytimes.com/} 2017/02/25/business/media/tv-viewers-tracking-tools.html?=0 [VR 17]ビデオリサーチ社視聴率ハンドブック，https://www. videor.co.jp/rating/wh/index.htm また，TVISION INSIGHTS 社の詳細については，以下のサイトが詳しい： www.tvisioninsights.co.jp www.tvisioninsights.com 2017年 5 月 19 日受理

著　者　紹　介

郡谷　康士 TVISION INSIGHTS社共同創業者・代表取締役社長．2005 年東京大学法学部卒業．マッキンゼー・アンド・カンパニー，リクルート，Yoren（游仁堂）起業を経て，現職．広告業界におけるビッグデータの活用に長く携わり，さまざまなデータをリアルなビジネスインパクトに転換することを専門とする．図 10 TVISION INSIGHTS 社の日本における視聴質データ取得状況（出典：TVISION INSIGHTS 社）

テレビ・データ最先端 ─人体認識技術を活用したテレビ視聴態勢のビッグデータ化とその活用─

1．導 入