J A P A N | M A Y 1 1 - 1 2 , 2 0 2 1
ヤフーのマーケティング事業を支える 分析環境の構築と発展
荒川元秀
ヤフー株式会社 マーケティングソリューションズ統括本部 テクノロジーサービス本部 データインテリジェンス部
C U S - 1 5
自 己 紹 介
荒川 元秀
• Yahoo!JAPAN
マ ー ケ テ ィ ン グ ソ リ ュ ー シ ョ ン ズ 統 括 本 部
テ クノ ロ ジー サ ー ビ ス 本 部 デ ー タ イ ン テ リ ジ ェ ン ス 部
•
広 告 主 向 け 分 析 サ ー ビ ス を 提 供 す る 部 署 に て 、 分 析 環 境 の 構 築 や 分 析 業 務 の 効 率 化 な ど を 担 当目次
公開• 概 要
• な ぜ ア マ ゾ ン ウ ェ ブ サ ー ビ ス ( A W S ) を 選 ん だ の か
• 詳 細
• ま と め
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
概要
公開
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
本日お話しするサービス
https://marketing.yahoo.co.jp/service/data_solutions/
本日お話しするサービス
公開Yahoo! JAPANのデータやテクノロジーを活用して マーケティング活動の意思決定を支援
Yahoo! JAPANでは、消費者理解支援(消費者理解のためのデー
タの活用)と広告効果分析(データに基づく実行計画と広告効果 の分析)を目的とした豊富な商品ラインナップをご用意していま す。広告商品と合わせてご利用いただくことで、広告主様の自社デー タだけでは捉えられない市場ポテンシャルや消費者インサイトな どを明らかにします。
それらをもとに広告の出稿計画や効果検証を行い、さらに踏み込 んだ持続的なPDCAサイクルと最適化を図りながら、インター ネット広告だけでなくマーケティング活動全般の最適化も支援し ていきます。
公開
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
分析事例
Yahoo! JAPAN第一想起分析
Yahoo! JAPAN 購買効果分析
https://yahoojp-marketing.tumblr.com/post/627947308096569344/20200831
本日お話しする内容
公開・
・
・
分析業務に利用するものだけでも
数PBクラス
の巨大なデータを保持
これらのデータを扱う 分析環境の変遷について
お話しします
分析環境の変化
公開目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス
200名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー
1000名以上
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
なぜ AWS を選んだのか
当初 ( オンプレミス ) の構築目的
公開当初の課題
多種多様なクライアントに対して多種多様な提案が 求められている一方で、社内のデータに対する裁量、
特にインフラ面での裁量は高くなく、利用範囲が限定的だった
データ活用ラボ
クライアントの課題解決を行うために 必要なデータ分析やテストマーケティングを
短期間で実現するための
データ活用の研究プラットフォーム
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
組織戦略 少数に高品質な分析を スケール重視
クライアント 少数の大企業中心 大小多数の企業に
社内組織 少数精鋭 組織化して対応
業務内容 研究開発中心 型化・効率化重視
利用者 エンジニア中心 アナリスト中心
扱うデータ 都度必要なデータを収集 常時データが揃っている
業務環境の変化
データ活用の成功体験が積まれ、データ活用ニーズが高まるとともに
業務環境も徐々に変化
L a b としてのオンプレミス環境の課題
公開Noisy Neighbor問題
• オンプレで他のプロダクトと同居
• データ処理はリソースを食いがち
• ユーザーはエンジニアからアナリストに
事故が起き、問題が顕在化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
重要なポイント
ヤフー マーケティング事業の分析環境において 重要なポイント
事故による 周囲の目 戦略変更に伴う
体制面の変化
分析官中心の組織 エンジニア不足
• オンプレミスのプロダクトとは分離した環境
• スピード感を持って移行ができる
• エンジニアの人数は最低限で分析官に必要な業務が実施できる
フルマネージドなクラウドへの期待
公開 ラベリング
各フェーズの詳細
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
分析環境の変化
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス 百数十名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー 千名以上
公開
目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス 百数十名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー 千名以上
Ph a s e0 環境準備
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
Ph a s e0 環境準備 構成
分析用アカウント
VPC
Endpoints
Amazon Simple Storage Service (Amazon S3) VGW
OnPremise
Amazon EC2 インスタンス
squid AWS Direct Connect
まずはネットワーク構築とデータの移行を実施
※ 後述のPhase 3では、squid on EC2 によるProxy構成に代わり、 新たに利用可能となった
Ph a s e0 環境準備 詳細
公開Point
•
既存アセット(オンプレ等)や既存プロセスは定型業務の効率化やガバナンス面で有利だが、自由度の高い作業をスピード感を持って進めるには障壁を生みがち
→ 課題感が明確だったので、いずれオンプレミスに戻る前提で社内調整
•
クラウドへの知見がなく、諸々の理解に時間がかかる体制
PM 1名
エンジニア
1名
ユーザー なし期間
3ヵ月
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス 百数十名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー 千名以上
Ph a s e1 業務移行
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
公開
Copyright (C) 2021 Yahoo Japan Corporation. All Rights 分析用アカウント
Ph a s e1 業務移行 構成
OnPremise
Amazon EMR
Apache Hive OnPremise
Apache Hive jenkins
AWS Glue Amazon S3
オンプレミス環境を再現する
Hiveでの集計は
据え置き定期ETL処理を
Jenkinsから
AWS Glueに置き換え
Ph a s e1 業務移行 詳細
Point
•
まずはオンプレミス環境を再現する、というミニマムでの仕切り• Amazon EMRでHiveを叩くだけなら思っていた以上に楽に構築できたので、分析官側が移行を主導
•
手順書などを整え、勉強会などを実施•
ある程度上位レイヤーまでコンセンサスを取り、半強制的に移行を進める•
同時に、今後の展開を織り込んで上位レイヤーの期待値を上げる•
一方でバッチ処理系の移行はシェル中心からPython中心になったため、難航体制
PM 1名
エンジニア
1.5名
ユーザー アナリスト 若干名期間
6ヵ月
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
公開
目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス 百数十名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー 千名以上
Ph a s e2 本格稼働
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
分析用アカウント
Ph a s e2 本格稼働 構成
AWS Glue
Amazon Athena
Amazon QuickSight Amazon
SageMaker
Notebook Amazon S3
OnPremise
Amazon EMR
Analysts
Business Users
Amazon QuickSight、
Amazon SageMaker Notebook
非技術者のPh a s e2 本格稼働
公開Point
•
思ったよりも便利なツールがAWSに揃っていたため、多角的に業務の高度化ができた• Amazon Athenaを活用し、ビジネスサイドのコンサルタントにSQLを教育。簡単なデータ集計が可能に
•
一方、分析官は単純なSQL抽出業務中心からSageMaker Notebookを活用したより高度な分析にシフト• SageMaker Notebookを使った分析事例が出たことにより、上位レイヤーの期待値も加速
•
分析官が独自にAmazon Quick Sightを用いたシームレスなダッシュボード構築を可能に•
コロナ禍で日々状況が変わる中でも業務を継続しつつ、新たな挑戦が可能に•
ビジネスサイドのAmazon Athena等の利用状況をAmazon QuickSightでトラッキングし、利用促進体制
PM 1名
エンジニア 1.5名
ユーザー
アナリスト 数十名 コンサルタント 数十名 セールス 百数十名
期間
6ヵ月
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
目標 オンプレミス環境で 利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築 分析者数 なし アナリスト 若干名 アナリスト 数十名
コンサルタント 数十名 セールス 百数十名程度
アナリスト 数十名 コンサルタント 数十名 セールス 数百名
社外ユーザー 千名以上
Ph a s e 3 基盤強化
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
公開
SURGE(仮称)用アカウント
分析用アカウント
Ph a s e3 基盤強化 構成
非分析官向け 新ツール
(仮称:SURGE) AWS Glue
Amazon Athena
Amazon QuickSight AWS
Lake Formation
Amazon SageMaker
Notebook
Amazon Athena Amazon S3
Data Lake アカウント
OnPremise
Amazon EMR
Analysts
Business Users
独自ツール
AWS Lake Formation
導入
AWS PrivateLink
AWS PrivateLink
導入Ph a s e3 基盤強化
Point
• SQLを書けなくてもある程度自由なデータ抽出をするために独自ツールを開発
•
同時に、独自ツールで社外からのアクセスを可能にし、分析サービス化を目指す•
データマネジメントが課題だったため、社外コンサルを入れオンプレ側を含め整理• AWS Lake Formationを導入し、柔軟な権限管理を実現
•
主要ツールの利用状況をトラッキング。マンパワーでの泥臭い現場への浸透を実施•
型化された分析のコストトラッキングを売上と紐付ける形で開始体制
PM 数名
エンジニア 十数名
データマネジメント 数名
(+データマネジメントコンサル)
ユーザー アナリスト 数十名 コンサルタント 数十名セールス 数百名 社外 千名以上
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
公開
まとめ
Copyright (C) 2021 Yahoo Japan Corporation. All Rights
まとめ
Phase0
環境準備
Phase1
業務移行
Phase2
本格稼働
Phase3
基盤強化
Point
•
元々オンプレミス側から半ば追い出されるような形でスタート•
業務移行自体はAWSが思っていたよりも使いやすく、想定よりもスムーズに完了•
その上で大きな労力をかけずに本格稼働し、業務自体が高度化•
更に強化するために、事例を作りつつユーザー自体のスケールを意識しながら組織を巻き込み•
ユーザーの増加に耐えうるだけの、基盤強化を実施 目標 オンプレミス環境で利用していたデータを 全てAWSに載せ替え
オンプレミス環境で
行っていた業務をAWSで 実施すべく業務を移行
本格的に業務を移行し、
各種AWSサービスを活用し 分析活動の高度化を目指す
安定稼働と業務スケールを 両立させていくために オンプレミスと共存する データ基盤の再構築
今後の課題
公開Phase3
基盤強化
Phase4
????
Phase3の完遂
•
非分析官向け分析ツールのサービス化•
マネジメントされたデータへの完全移行利用者のスケールに向けた各種取り組み
•
安定稼働のための各種運用効率化とガバナンス強化(権限管理、データ運用ポリシー整備など)•
オンプレミス側各種ツールとの共存、連携(データのカタログ化、既存ダッシュボードとの共存)•
分析環境と広告関連ツールのシームレスな連携•
定期ETL処理の管理・運用効率化• DWHとの共存による高速化・効率化
•
これらを実現するための技術教育、採用強化Copyright (C) 2021 Yahoo Japan Corporation. All Rights
Thank you!
荒川元秀
ヤフーのマーケティング事業を支える 分析環境の構築と発展