Copyright © SAS Institute Inc. All rights reser ved.
データサイエンティストの自由度と
ガバナンスの両立
~人材不足から人材活用へシフトし、AI実用化を加速~
Copyright © SAS Institute Inc. All rights reserved.
Agenda
• 課題解決に不可欠な要素:「アナリティクス・ライフサイクル」とは
• 自由と統制が最適にバランスされたプラットフォーム
• Enterprise Open Analytics Platform: SAS Viyaの特長紹介とデモ
>Data, Discovery, Deployment ごとの特長
>ガバナンス(データ、モデル、プロセス)の重要性
>Enterprise Open Analytics Platform on コンテナ・テクノロジー
>統合GUI上で実現するアナリティクス・ライフサイクルデモ
Copyright © SAS Institute Inc. All rights reser ved.
DATA
DISCOVERY
DEPLOYMENT
AI実用化の鍵は 「アナリティクス・ライフサイクル」
DATA
◆ データアクセス
◆ データクレンジング
◆ データ準備
DISCOVERY
◆ データ探索
◆ データ分析
◆ モデル生成
DEPLOYMENT
◆ モデル管理
◆ モデル実装
◆ 精度モニタリング
Copyright © SAS Institute Inc. All rights reser ved.
自 由
C H O I C E
統 制
C O N T R O L
Copyright © SAS Institute Inc. All rights reser ved.
自 由
C H O I C E
分 析 手 法
デ ー タ ソ ー ス
人 材
プ ロ グ ラ ミ ン グ
言 語
Copyright © SAS Institute Inc. All rights reser ved.
統 制
C O N T R O L
セ キ ュ リ テ ィ &
プ ラ イ バ シ ー
デ ー タ & モ デ ル
ガ バ ナ ン ス
拡 張 性
デ プ ロ イ メ ン ト
Copyright © SAS Institute Inc. All rights reser ved.
DATA
DISCOVERY
DEPLOYMENT
AI実用化の鍵は 「アナリティクス・ライフサイクル」
~ 自由と統制の最適バランス=サイクルの最適化 ~
DATA
DISCOVERY
DEPLOYMENT
◆ データアクセス
◆ データクレンジング
◆ データ準備
◆ データ探索
◆ データ分析
◆ モデル生成
◆ モデル管理
◆ モデル実装
◆ 精度モニタリング
Copyright © SAS Institute Inc. All rights reser ved.
E
nterprise
O
pen
A
nalytics
P
latform
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル
UI
プログラミングUI
データガバナンス
インメモリー分析エンジン
カーネル カーネル カーネル カーネル
SAS Viya
AIライブラリ
EOAP:SAS Viya
Enterprise Open Analytics Platform : SAS Viya
散在するデータ、分析スキルやナレッジを統合管理、共有、活用
IaaS
PaaS
RDB
Hadoop
Cloud-DB
Stream
Da
ta So
urc
e
大量データ
高速解析&
モデリング
UI・スキル&
言語横断的な
統合管理/
共有/活用
モデルガバナンス
Copyright © SAS Institute Inc. All rights reserved.
統合グラフィカル・ユーザー・インターフェース
アナリティクス・ライフサイクルを単一プラットフォーム上の統合GUI環境で実現
モデルの管理・実装・評価
データの管理・準備
データの探索・分析
モデルの生成
環境の管理
Copyright © SAS Institute Inc. All rights reser ved.
DATA
複雑さ、速度、サイ
ズに関係なく様々な
データに対応
データ準備の
合理化
従来型のデータか
ら新たに発生する
データまで
AI実用化の鍵は 「アナリティクス・ライフサイクル」
◆ データアクセス
◆ データクレンジング
◆ データ準備
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスでデータ準備作業を効率化
Copyright © SAS Institute Inc. All rights reser ved.
DISCOVERY
多彩な
分析手法
プログラミング言語
多様な
対応
誰もが使える
スキルレベルに
応じたUI
AI実用化の鍵は 「アナリティクス・ライフサイクル」
◆ データ探索
◆ データ分析
◆ モデル生成
Copyright © SAS Institute Inc. All rights reserved.
多様で豊富なAI&アナリティクス機能
(一部抜粋)
22
• 主成分分析
• Moving Window
主成分分析
• ロバスト主成分分析
• t-SNE
• クラスター分析
• 変数クラスタリング
• マーケットバスケット
• テンソル因子分解
• 異常検出サポートベクター
マシン(SVDD)
• ネットワーク分析
• 自動チューニング機能
• 線形回帰モデル
• ロジスティック回帰モデル
• ノンパラメトリック回帰
• 一般化線形/加法モデル
• 非線形回帰モデル
• 分位点回帰モデル
• 部分最小二乗法
• 半教師あり学習
• ディシジョン・ツリー
• ランダムフォレスト
• 勾配ブースティング
• ニューラルネットワーク
• ベイジアンネットワーク
• K-近傍法
• サポートベクターマシン
• ファクタライゼーション・マシン
予測モデリング
探索
•FeedforwardNN
•CNN
(LeNet/VGG/ResNet)
•RNN (LSTM/GRU)
•自動チューニング機能
•転移学習
自然言語処理
•形態素解析
•特異値分解による次元削減
•トピック抽出(SVD/LDA)
•センチメント分析
画像処理
•画像読込/保存
•フィルタ処理/画像比較
•検出とマッチング
•医療用画像解析
ディープラーニング
最適化
• 線形/非線形計画法
• 二次計画法
• 混合整数線形計画法
• ネットワークフロー最適化
フォーキャスティング
• 時系列分析
• 自動時系列モデリング
• 階層間調整
• 時間-周波数分析
計量経済分析
• コピュラ
• パネル分析
• 損失分布モデリング
~マルチスレッド&インメモリーの並列分散で高速処理される分析機能群~
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスで BI & AI を活用
単一画面で、データ探索、データマイニング、機械学習、評価を誰もが利用可能
Machine Learning
Statistics
Visualization
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスで BI & AI を活用
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリング
マウスの簡単操作で、機械学習・時系列予測・テキスト解析モデルを生成
➢ モデリングの効率化
➢ モデリングプロセスの容易な理解
➢ モデリングプロセス(ナレッジ)の容易な共有と再利用
標準装備のパイプライン・
テンプレートを利用可能!
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリング
業務要件に応じたモデリング(ブラック/ホワイトボックス)が可能
3ステップで簡単モデル生成!
精度の高い
予測モデル自動生成
学習用
データ選択
①
予測対象
項目選択
②
③
パイプライン
テンプレート
選択
モデルテンプレートはオープン
・ 独自に作成可能
・ 既存をカスタマイズ可能
ホワイトボックスでの活用:
ベストプラクティスに基づく
モデルテンプレートを実装
&そのまま活用
ブラックボックス的活用:
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリング
異なる言語スキル横断的にチャンピオンモデルを自動特定
Python
のモデル
のモデル
R
SAS Viya
のモデル
のモデル
SAS V9
モデルの比較
異なる言語で作成され
たモデルの精度を容易
に比較可能
Copyright © SAS Institute Inc. All rights reserved.
ナレッジの共有
有用なデータ前処理機能や分析アルゴリズムを共有・再利用
Pythonでコーディングされた論文に基づく
最新のアルゴリズム
SASでコーディングされた
データ前処理
顧客分類に最適なパラメータが設定
済みのランダムフォレスト
Copyright © SAS Institute Inc. All rights reser ved.
DEPLOYMENT
容易かつ迅速な
モデル実装
モデルをデプロイ
様々な環境へ
Build once and
deploy anywhere
モデル管理
AI実用化の鍵は 「アナリティクス・ライフサイクル」
◆ モデル管理
◆ モデル実装
◆ 精度モニタリング
Copyright © SAS Institute Inc. All rights reserved.
予測モデルを企業の資産として統合管理
予測モデルのバージョン管理や精度のモニタリング、そして業務プロセスへの容易なデプロイが可能
比較スコアリングのテスト
パフォーマンス監視
ワークフロー管理
バージョン管理
モデル間
精度比較
再学習
Copyright © SAS Institute Inc. All rights reserved.
予測モデルを企業の資産として統合管理
モデル・リポジトリ
ストリーミング処理
(リアルタイム・スコアリング)
モデルを
データがある場所
に配置
企業ニーズに応じて多彩なデプロイ形態に対応し、好みのタイミングでスコアリング可能
モデルを
データが発生する場所
に配置
In-Hadoop
(In-Hadoopスコアリング)
In-DB
(In-DBスコアリング)
スコアリング処理
バッチ/リアルタイム/オンデマンド
In-Memory
(SAS Viyaのインメモリー分析
エンジンでスコアリング)
スコアリング・ランタイム
(任意のサーバー上のランタイム
エンジンでスコアリング)
Copyright © SAS Institute Inc. All rights reser ved.
GOVERNANCE
データ
ガバナンス
エンタープライズ
セキュリティ
ITガバナンス
モデル/プロセス
ガバナンス
AI実用化の鍵は 「アナリティクス・ライフサイクル」
DATA
DISCOVERY
DEPLOYMENT
Copyright © SAS Institute Inc. All rights reserved.
SAS Viya
In-Memory
(+ Disk Cache)
データ・ガバナンス
単一のデータをすべての分析者が共有・活用
Data
Source
Stream
ERP
CRM
SCM
SFA
・・・
Oracle
(Exadata)
HANA
SAP
Teradata
MS SQL
Server
CDH/HDP/MapR/
Azure HDInsight
Redshift/S3/EMR
Amazon
PostgreSQL
MySQL
単一の真実
(single version of the truth)
ABT
DM
ABT
ABT: モデリング用の横持ちデータ
(Analytical Base Table)
DM: 分析用データマート
Build Once,
Copyright © SAS Institute Inc. All rights reserved. 比 較
モデル・ガバナンス
モデルのバージョン管理や精度モニタリング、そして業務プロセスへの容易なデプロイが可能
パフォーマンス監視
ワークフロー管理
スコアリングのテスト
バージョン管理
モデル間精度比較
再学習
In-DB
スコアリング
In-Hadoop
スコアリング
In-Stream
スコアリング
In-Memory/
On-Demand
スコアリング
Copyright © SAS Institute Inc. All rights reserved.
プロセス・ガバナンス
アナリティクス・ライフサイクルのすべてのプロセスを可視化し、分析業務を標準化
DATA
DISCOVERY
DEPLOYMENT
データ統合(ETL)・プロセス
データプレパレーション・プロセス
意思決定(バッチ)
・プロセス
意思決定(リアルタイム)
・プロセス
モデリング・プロセス
Copyright © SAS Institute Inc. All rights reserved.
プロセス・ガバナンス
分析プロセス(データ準備、モデル生成、モデル実装)における可視化のメリット
ビジュアルUI(マウス操作)
プログラミングUI(コーディング)
プロセス
可視化なし
・マウス操作でデータ加工、探索、レポート作成、モ
デル生成など各フェーズは容易に実行可能だが、プ
ロセス全体(手順)を把握することはできない
・プロセスの継承/再利用
は困難
・コーディングでデータ加工、探索、レポート作成、モデル
生成などを実行可能だが、プロセス全体(手順)を把
握するためには、コードを追って理解する必要がある
(時間/工数:大、必要スキル:高)
・ナレッジの継承/再利用の
敷居が高い
・昨日の作業を今日の自分に
引き継ぐのも困難
可視化あり
・プロセス全体(処理の流れ)を容易に理解
・可視化されたプロセスに基づく、容易なコラボレーション
(プロセス構成要素ごとの役割分担、貢献内容の明確化)
・可視化されたプロセスに基づく、容易なプロセス改変
(プロセス内の改変要構成要素を容易に特定可能)
・ナレッジの継承/再利用が容易(時間/工数:小、必要なスキル:低)
・スキルを問わず、多くの既存の人材を有効活用可能
・人材流動化に対応(ナレッジの容易な継承)
・AI民主化を促進
Copyright © SAS Institute Inc. All rights reserved.
ガバナンスの欠如
同じ工数をかけて同じデータ、モデル、プロセスを作成し、冗長に保持
DM
DM
DM
モデル
モデル
モデル
プロセス
プロセス
プロセス
Copyright © SAS Institute Inc. All rights reserved.
プロセスガバナンス
モデルガバナンス
データガバナンス
ガバナンスの効いた分析環境
冗長な作業/分析資産を削減し、コラボレーションを促進
DM
DM
DM
モデル
モデル
モデル
プロセス
プロセス
プロセス
Copyright © SAS Institute Inc. All rights reserved.
ガバナンスの効いた分析環境
冗長な作業/分析資産を削減し、コラボレーションを促進
データ
モデル
プロセス
コラボレーション
EOAP:SAS Viya
分析資産の共有/再利用
コラボレーションの促進
~ 3つのガバナンス ~
人材不足から
人材活用へ
Copyright © SAS Institute Inc. All rights reser ved.
E
nterprise
O
pen
A
nalytics
P
latform
on Container
Copyright © SAS Institute Inc. All rights reserved.
アナリティクス環境の運用/管理の課題
数多くの異なるバージョンの混在
python
バージョン
リリース日
[8]2.0
2000年10月16日
2.1
2001年4月15日
2.2
2001年12月21日
2.3
2003年7月29日
2.4
2004年11月30日
2.5
2006年9月19日
2.6
2008年10月1日
2.7
2010年7月4日
python
バージョン
リリース日
[8]3.0
2008年12月3日
3.1
2009年6月27日
3.2
2011年2月20日
3.3
2012年9月29日
3.4
2014年3月16日
3.5
2015年9月13日
3.6
2016年12月23日
3.7
2018年6月27日
引用:wikipedia
• OSS(Python, R, など)の数多くの異なるバージョンの混在
• OSS(Python, R, など)の異なるバージョン間の互換性問題(移行 or 塩漬け)
• SASの従来版と最新版の混在(移行 or 塩漬け)
運用/管理
v2.7
v3.7
v9.4
v9.1
v3.3
v3.5
Copyright © SAS Institute Inc. All rights reserved.
新版導入時の対応は移行 or 旧版の塩漬け?
コンテナは異なる言語バージョンの環境保持のメリットを活かし、デメリットを解消
最新バージョンへ移行
異なる言語バージョンのVM環境を保持
異なる言語バージョンのコンテナを保持
D
S
メリット
特になし
好みのバージョンを使える
・好みのバージョンを使える
・好みのバージョン環境起動が早い
デメリット
・特定のバージョンしか使えない
・移行時の難易度高&工数大
・DSの流動化リスク増
好みのバージョン環境起動に時間がかかる
特になし
※
I
T
メリット
移行後の運用管理コスト低
特になし
・IT基盤のリソース消費低
・ITガバナンスの確保(コンテナ環境の
運用管理コスト低)
デメリット
移行時の工数はかかる
・IT基盤のリソース消費増
・VM環境の運用管理コスト増
特になし
※
※モデル管理・ガバナンスは?
Copyright © SAS Institute Inc. All rights reserved.
Kubernetes:コンテナ環境のオーケストレーション
EOAP on コンテナ
ITガバナンスの確保
Python
2.7
モデル開発
Python
3.7
モデル開発
R
3.3
モデル開発
R
3.5
モデル開発
SAS
9.3
モデル開発
SAS
9.4
モデル開発
Python
2.7
スコアリング
Python
3.7
スコアリング
R
3.3
スコアリング
R
3.5
スコアリング
SAS
9.3
スコアリング
SAS
9.4
スコアリング
SAS
Viya
モデル開発
・・
SAS
Viya
モデル開発
Controller
SAS
Viya
モデル開発
Worker
SAS
Viya
モデル開発
Worker
SAS
Viya
スコアリング
異なる言語×異なるバージョンのアナリティクス環境をコンテナ上に実装し、管理・運用
Copyright © SAS Institute Inc. All rights reserved.
EOAP on コンテナ
モデルガバナンス、モデルオーケストレーションの確保
v2.7
v3.7
v3.3
v3.5
v9.1
v9.4
モデルガバナンス
✓ モデル情報登録・管理
✓ モデルバージョン管理
✓ モデル学習コード登録・管理
✓ モデルスコアコード登録・管理
✓ モデルデプロイ
✓ 精度モニタリング
✓ ・・・
異なる言語×異なるバージョンのモデルを統合管理・デプロイ
モデルガバナンス
EOAP:SAS Viya
Copyright © SAS Institute Inc. All rights reserved.
Enterprise Open Analytics Platform
コンテナを活用した柔軟で迅速なモデル開発、スコアリング、管理
v2.7
v3.7
モデルガバナンス
EOAP:SAS Viya
v2.7
v3.7
(ビジネス側)
モデル管理用コンテナ
(IT側)
スコアリング用コンテナ
モデルリポジトリ
Kubernetes
(コンテナ or VM)
①
②
③
④
⑤
① モデル開発&モデル情報
/スコアコード登録
② モデル管理
③ スコアコード取り込み&
スコアリング
④ スコアリング結果登録
⑤ 精度モニタリング
架け橋
Dev:モデルオーケストレーション:Ops
Copyright © SAS Institute Inc. All rights reserved.
エンタープライズ・セキュリティ&ITガバナンス
Analytic
Governance
ガバナンス
統合環境
システム管理
セキュリティ
SAS Viya
データ管理
・データ/モデル/プロセス
・分析資産の統合管理
・ユーザー権限
・コンテンツアクセス制限
・ユーザー認証LDAP連携
・データアクセス管理
・統合メタデータ管理
・データ暗号化
・システム監視/管理
・利用状況監査
・システム拡張管理
Copyright © SAS Institute Inc. All rights reserved.
統合メタデータ管理
各種オブジェクト間の繋がり(リネージ)をネットワーク図として可視化
データ
(インメモリ)
ライブラリ
モデル
プロジェクト
予測モデル
BIレポート
データソース
データ準備
プラン(クエリ)
Copyright © SAS Institute Inc. All rights reserved.
スケーラブル&インメモリー並列分散で大量データ高速解析
複数サーバー構成によるスケールア
ウトで、データ量増加に柔軟に対応
Control node
Worker node 4
Worker node 3
Worker node 2
Worker node 1
・・・
Memory
Memory
Memory
Memory
各ノードで、大量データに対する
分析処理を並列分散実行
データを自動的に均等に分割し、
サーバー内メモリーへロード
正確な意思決定、的を得たアクショ
ンの迅速化で成果を出す!
メモリーに納まらないデータは自動
的にディスクへキャッシュ
通常通りのコーディングで、
自動的にインメモリーで
並列分散処理実行
40
Data
Source
Stream
ERP
CRM
SCM
SFA
・・・
Oracle
Copyright © SAS Institute Inc. All rights reser ved.
自 由
C H O I C E
C O N T R O L
統 制
Enterprise Open Analytics Platform
DATA
DISCOVERY
Copyright © SAS Institute Inc. All rights reser ved.