Oracle Advanced Analytics
ビッグ・データと分析をシンプルに
MBAData Mining and Advanced Analytics、MS Eng、MBA
Sr. Director Product Management、Charlie Berger
Safe Harbor Statement
下記事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、
情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。
以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するもの
ではないため、購買決定を行う際の判断材料になさらないでください。オラクル社の製品
に関して記載されている機能の開発、リリース、および時期については、弊社の裁量に
より決定されます。
Agenda
•
ビッグ・データと分析の事象
•
Oracle Advanced Analyticsの概要と機能/利点
–
GUI
–
SQLデータ・マイニング関数
–
Rの統合
•
簡易版デモ
•
Oracle Big Data SQL
•
アプリケーション「OAA搭載」
将来の計画
データはデータ・アナリストの増加をはるかに上回る勢いで増加
•
結論
–
データ分析のプラットフォームが
満たすべき条件
•
非常に
習得しやすく
、それでありながら
•
極めて
パワフル
で
•
可能な限り、
自動化
されていること
分析 + データウェアハウス + Hadoop
•
プラットフォームのスプロール化
–
より多くの重複データ
–
より長いデータ移動の待機時間
–
より多くのセキュリティ課題
–
より多くの重複ストレージ
–
より多くの重複バックアップ
–
より多くの重複システム
–
より多くのスペースと消費電力
ビジョン
•
ビッグ・データとクラウドの時代に合ったビッグ・データおよび
分析プラットフォームの構築
–
ビッグ・データと分析を
シンプルに
•
あらゆるコンピュータ・インフラストラクチャでどのようなデータ・
サイズにも対応
•
あらゆる種類のデータのどのような組み合わせにも対応
–
ビッグ・データと分析のデプロイメントを
シンプルに
•
サービス、プラットフォーム、アプリケーションとして
Oracle Advanced Analyticsデータベースの進化
データベース内の分析SQL
• 7社のデータ・
マイニング「パートナー」
• Thinking Machine Corpの
開発チーム + 「Darwin」
データ・マイニング・ソフト
ウェアを買収
Advanced Analytics
(
ODM + ORE
)」に
変更
• Oracle Data Mining 10gお
よび10gR2で、SQL dm
関数、7つの新しいSQL
dmアルゴリズム、および
新しいOracle Data Miner
の「伝統的」なウィザード駆
動型GUIを導入
•
新しいアルゴリズム(EM、PCA、
SVD)
•
予測問合せSQLDEV/Oracle
Data Miner 4.0 SQLのスクリプト
• ODM 11gおよび11gR2で、生成
およびSQL AutoDataPrep(ADP)、
テキスト問合せノード(R統合)の
マイニングを追加、パフォーマン
スを改善
OAA/ORE 1.3 + 1.4• SQLDEV/Oracle Data Minerで、
NN、ステップワイズのアルゴリ
ズムを追加
•
スケーラブルなRアルゴリズム
•Hadoopコネクタ向けOracle
Adv.Analyticsをスケーラブルな
BDAアルゴリズムとともに市場
投入
• Oracle Data Mining
9.2iを市場投入 – Java
APIを介した2つの
アルゴリズム(NBとAR)
3.2 「ワークフロー」GUIを導入
•
「R」との統合、および
Oracle R Enterpriseの
導入/追加
•
製品名を「Oracle
おもな機能
データベース内のデータ・マイニング・アルゴリズム
とオープン・ソースのRアルゴリズム
オラクルの3言語コンポーネントデータベース —
SQL
、
SQLDev/
ODMr GUI
、
R
スケーラブルなデータベース内パラレル実行
ワークフローGUIとIDE
統合データベース・コンポーネント
エンタープライズ分析アプリケーションの実現
Oracle Advanced Analytics Database Option
データはデータベース内のまま
SQLカーネルでのスケーラブルなパラレル・
データ・マイニング・アルゴリズム
並列化された高速なネイティブSQLデータ・マ
イニング関数、SQLデータ準備、Rオープン・ソー
ス・パッケージの効率的な実行
SQLデータ・マイニング関数とRオープンソー
ス・モデルの高パフォーマンスなパラレル・スコ
アリング
おもな機能
Oracle Advanced Analytics Database Option
Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R
節約
モデルの「スコアリング」 組込みデータの準備Oracle Advanced
Analytics
従来の分析
データの抽出
データの準備および
変換
データ・マイニング・
モデルの構築
データ・マイニング・
モデル「スコアリング」
データの準備および
変換
データのインポート
総所有コストの大幅削減
データの重複排除
独立した分析サーバーの不要化
Oracle ITの投資を利用
予測分析を最速の方法で
全社に
提供
統合GUIによる予測分析
データベース・スコアリング・エンジン
おもな機能
Oracle Advanced Analytics Database Option
Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R
節約
数秒/数分/数時間
数時間/数日/数週間
Oracle Advanced
Analytics
従来の分析
モデルの「スコアリング」 組込みデータの準備 モデルの構築 データの準備データの抽出
データの準備および
変換
データ・マイニング・
モデルの構築
データ・マイニング・
モデル「スコアリング」
データの準備および
変換
データのインポート
Turkcell
通信詐欺対策
目的
プリペイド・カードによる不正 - 数百万ドル/年
膨大なデータを極めて高速に取捨選択、不正に対
応、時は金なり
ソリューション
毎日100億件の通話記録データを監視
1PBに対する準備にSQLを利用
データ移動のプロセスは速度が遅いため、TurkcellのITは
モデルをデータベース内に構築してデプロイ
Exadata上のOracle Advanced Analyticsは極めて高速。ア
ナリストは不正パターンをほぼ即座に検出可能00
「TurkcellはOracle Exadata上で100テラバイトの圧縮データ(非圧縮状
態では1ペタバイトの生データ)を管理しています。Oracle Advanced
AnalyticsオプションのコンポーネントであるOracle Data Miningを使用
することで、他のどんなツールよりも迅速かつ容易に大量の顧客デー
タと通話記録データを分析し、不正な電話使用を検出し、根絶に努め
ることができます」
- Turkcell İletişim Hizmetleri A.Ş、Manager、Hasan Tonguç Yılmaz
Oracle Advanced Analyticsの
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics Databaseアーキテクチャ
Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R
ユーザー
データおよびビジネス分析
Rプログラマー
ビジネス・アナリスト/マネージャー
ドメインのエンドユーザー
Oracle Advanced Analytics
ネイティブ
SQL
データ・マイニング
/
分析関数、および高パフォー
マンスの
R
統合により、スケーラブルな分散並列実行を実現
Oracle SQL Developer
Rクライアント
プラット
フォーム
より多くのデータの種類 — より優れた予測モデル
•
関連データのソースを増やすこ
とで、モデルの精度を向上する
ことが可能
R
espo
n
ders
Naive Guessまたは
ランダム
20の変数を持つ
モデル
100%
75の変数を持つモデル
250の変数を持つモデル
以下を含む「
ビッグ・データ
」と数百
から数千の入力変数を持つモデ
ル:
•
人口統計データ
•POS
購入トランザクション・データ
•
「非構造化データ」、テキスト、
およびコメント
•
空間位置データ
•
長期および最近の履歴行動
•Web
訪問回数
•
センサー・データ
•
その他
100%
データベース内データ・マイニング・アルゴリズム — SQL、R、GUIアクセス
関数
アルゴリズム
応用
分類
ロジスティック回帰(GLM)
ディシジョン・ツリー
Naive Bayes
サポート・ベクター・マシン
従来型の統計手法
人気度/ルール/透明度
埋め込みアプリ
範囲が広い/狭いデータ/テキスト
回帰
線形回帰(GLM)
サポート・ベクター・マシン(SVM)
伝統的な統計手法
範囲が広い/狭いデータ/テキスト
異常検出
1クラスSVM
未知の不正ケースまたは異常
属性の重要度
最小記述長(MDL)
主成分分析(PLC)
属性縮約、データ・ノイズの低減
相関ルール
Apriori
マーケットバスケット分析/次善策の提案
クラスタリング
階層型K-Means
階層型Oクラスタ化
期待値最大化(EM)クラスタリング
製品分類/テキスト・マイニング
遺伝子およびタンパク質の分析
特徴抽出
非負行列因子分解(NMF)
特異値分解(SVD)
テキスト分析/特徴削減
Oracle Advanced Analytics
A1 A2 A3 A4 A5 A6 A7
Oracle Advanced Analytics Database Option
•
データの理解と視覚化
•
クラスタリング
–
サマリー統計と記述統計
–
ヒストグラム、散布図、箱ひげ図、棒グラフ
–
Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグラ
フ・タイプ
–
クロス集計
–
相関テスト(t検定、ピアソン、ANOVA)
–
選択されたBase SASと同等機能
•
データの選択、準備、変換
–
結合、表、ビュー、データ選択、データ・フィルタ、SQL時間枠、複数スキーマ
–
サンプリング手法
–
コード変更、欠損値
–
集計
–
空間データ
–
SQLパターン
–
RからSQLへの透過性とプッシュ・ダウン
•
分類モデル
–
ロジスティック回帰(GLM)
–
Naive Bayes
–
ディシジョン・ツリー
–
サポート・ベクター・マシン
–
ニューラル・ネットワーク(NN)
•
回帰モデル
幅広いデータベース内のデータ・マイニングと統計関数
–階層型K-Means
–直交パーティショニング
–期待値の最大化
•
異常検出
–
特殊なケースのサポート・ベクター・マシン(1クラスSVM)
•
対応付け/マーケットバスケット分析
–
アプリオリ・アルゴリズム
•
特徴選択と特徴削減
–属性評価(最小記述長)
–主成分分析(PCA)
–非負行列因子分解
–特異値の分解
•
テキスト・マイニング
–
ほとんどのOAAアルゴリズムが非構造化データをサポート(顧客のコメント、
電子メール、要約など)
•
トランザクション・データと空間データ
–
すべてのOAAアルゴリズムでトランザクション・データ(購入取引、長期的な反復測
定、ロケーションからの距離、エリアA/B/Cで過ごした時間など)をサポート
•
R
パッケージ - オープン・ソースの実行機能
R
大量の
データ
を
自動的
にふるいにかけ、
前は見えなかったパターンを見つけ、新しい有益な
知見を見いだし、予測を立てること
•
もっとも重要な要素の特定
(属性重要度)
•
顧客行動の予測
(分類)
•
価値の予測または見積り
(回帰)
•
ターゲットとなる人または項目のプロファイルを検出
(ディシジョン・ツリー)
•
母集団のセグメント化
(クラスタリング)
•
不正または「まれな事象」の検出
(異常検出)
•
「バスケット」内に同時に出現する項目の特定
(関連性)
データ・マイニングとは
A1 A2 A3 A4 A5 A6 A7データ・マイニングがもたらすもの
質の高い情報、有益な知見と予測
携帯電話の顧客離れ
対
忠実な顧客
セグメント#3
IF
CUST_MO > 7 AND INCOME <
$175000、
THEN
予測 = 携帯電話の顧客離れ、
確率
= 83%
支持
= 6/39
知見と予測
セグメント#1
IF
CUST_MO > 14 AND INCOME <
$90000、
THEN
予測 = 携帯電話の顧
客離れ
確率
= 100%
支持
= 8/39
契約月数
Oracle Advanced Analytics
—
ベスト・プラクティス
2.
データを移動しない
3.
問題の「適切な
4.
データ」を組み立てる
4.
新たに導き出された
変数を作成
5.
分析手法を
クリエイティブに考案する
6.
「データ」を「実践的知見」に
素早く変換
何も違わない; 何もかもが違う
1
.
ビジネス課題の
ステートメントから開始
7.
全社的に自動化と
デプロイメントを行う
複雑なセグメント化の問合せを数週間から数分間に短縮 — 競争上の強みを獲得
目的
世界をリードする顧客科学会社
Oracle Advanced Analyticsとサード・パーティ製ツールを使用して、分
析をほぼリアルタイムで実行可能なまでに短縮し、スマートフォンの
ような新しいソースの非構造化ビッグ・データを分析
ソリューション
セグメント化と顧客ロイヤルティ分析を1週間からわずか4
時間に短縮して、情報ときめ細かい分析をよりタイムリー
に出すことが可能に
ごく小さいサンプルではなく、数年分の履歴データを含め
た100%のデータを分析できるため、より正確なビジネス知
見とマーケティング・リコメンデーションを生成
「問合せの処理に数時間あるいは数日待たなくても、問合せを実行し
て分析を完了できるようになったため、アナリストの生産性と集中力
が改善された」
「大規模なサンプル・サイズを分析し、新製品の考えと戦略が市場に
どの程度受け入れられるかを予測することで、マーケティング・リコメ
ンデーションの精度が高まった」
– dunnhumby Oracle Customer Snapshot
行動を予測
「可能性の高い行動」とそのプロファイルを特定
考慮点:
• 人口統計
• 過去の購入
• 最近の購入
• 顧客のコメントとツイート
非構造化データも
アルゴリズムで
マイニング
トランザクション
POS
データ
デプロイメント用の
SQL
スクリプトを生成
インライン予測
モデルで入力
データを増やす
SQL
が結合を実行し、任意
SQL
変換と問合せを実行
– SQL
のパワー
Oracle Advanced Analytics
Oracle SQL Developer/Oracle Data Miner 4.0
新機能
SQLスクリプトの生成
–
手法全体を1つのSQLスクリプトとして
デプロイ
–
データ・アナリストの手法を即座に
デプロイ
R
不正予測デモ
自動化されたデータベース内分析手法
drop table CLAIMS_SET;
exec dbms_data_mining.drop_model('CLAIMSMODEL');
create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000)); insert into
CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');
insert into CLAIMS_SET values ('PREP_AUTO','ON');
commit;
POLICYNUMBER
PERCENT_FRAUDRNK
---
---
---6532
64.78
1
2749
64.17
2
begin
dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION', 'CLAIMS', 'POLICYNUMBER', null,
'CLAIMS_SET');
end;
/
3440
63.22
3
654
63.1
4
12650
62.36
5
自動化された月次「アプリケーション」。
以下を追
加:
Create
View CLAIMS2_30
As
Select * from CLAIMS2
Where mydate > SYSDATE – 30
Time measure:
set timing on;
-- Top 5 most suspicious fraud policy holder claims
select * from
(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,
rank() over (order by prob_fraud desc) rnk from
(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud from CLAIMS
where PASTNUMBEROFCLAIMS in ('2to4', 'morethan4'))) where rnk <= 5
Oracle Advanced Analytics
詳細
•
シングル・レコードにその場で新しいデータ(コール・センターから取得したデータなど)を適用
コール・
センター
アドバイスの取得
ブランチ
オフィス
Web
モバイル
ソーシャル・
メディア
電子メール
R
Select
prediction_probability
(
CLAS_DT_1_2
, 'Yes'
USING 7800 as bank_funds, 125 as checking_amount, 20 as
credit_balance, 55 as age, 'Married' as marital_status,
250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership)
from dual;
例がない場合のデータ・マイニング
質の高い情報、価値ある知見と予測
携帯電話詐欺
対
忠実な顧客
課題:異常の検出
•
複数の属性を考慮
•
1つだけで見ると、
「正常」に見える可能性が
ある
•
レコードを全体からみる
と、異常である可能性
がみえてくる
•
「
異なる
」ものを探す
X
1
X
2
X
3
X
4
X1 X2X
3 X4脱税監査の選択
•
シンプルなOracle Data
Mining予測モデル
–
ディシジョン・ツリーを使って、
2011年のデータを基に非準
拠の納税を分類
(はい/いいえ)
Oracle Advanced Analytics
OAA/Oracle R Enterprise(R統合)
R環境
•
強み
–
パワフルで拡張可能
–
グラフィカルで広範な統計
–
無料 — オープン・ソース
•
課題
–
メモリの制約
–
シングルスレッド
–
外部ループ — プロセスの速度
低下
–
業務仕様ではない
R — 広く普及
Oracle Advanced Analytics
•
R-SQL透過フレームワークがR関数をオー
バーロードして、スケーラブルなデータベー
ス内実行を実現
•
関数のオーバーロードにより、データ変換、
統計関数、高度な分析に対応
•
グラフィカルな結果とフロー制御を標準Rと
同様にインタラクティブに表示
•
ユーザー定義のR関数を送信して、Oracle
Databaseの制御のもと、データベース・
サーバーで実行
•
大規模データセットにスケーリング
•
DB LINKで表、ビュー、外部表、およびデー
タにアクセス
•
データベースのパラレルSQL処理を利用
•
データベース内の新規および既存の統計
機能とデータ・マイニング機能を利用
Rエンジン
その他のR
パッケージ
Oracle R Enterpriseパッケージ
デスクトップ上のユーザーRエンジン
•
データベースで複数のRエンジンを起動して、
データベース管理の並列処理を実現
•
起動したRエンジンにデータを効率的に
転送
•
MapReduce方式のアルゴリズムとアプリ
ケーションをエミュレート
•
Rスクリプトを本番環境にデプロイして自動
実行
1
2
SQL
結果
データベース計算エンジン
Rエンジン
その他のR
パッケージ
Oracle R Enterpriseパッケージ
Oracle DBから起動されたRエンジン
R
結果
3
?x
R
オープン・ソースOracle R Enterprise計算エンジン
Oracle Databases
ユーザー表
Rグラフィックスからデータベース・データへの直接アクセス
R> boxplot(split(CARSTATS$mpg, CARSTATS$model.year), col = "green")
Oracle Advanced Analytics
時間とともに
MPGが増加
R:関数のオーバーロードにより透過的に動作
データベース内の集計関数を起動
> aggdata <-
aggregate
(ONTIME_S$DEST,
+
+
> class(aggdata)
by = list(ONTIME_S$DEST),
FUN = length)
Oracle SQL
select DEST, count(*)
from ONTIME_S group by
DEST
Oracle Advanced Analytics
OREクライアント・パッケージ
透過レイヤー
[1] "ore.frame"
attr(,"package")
[1] "OREbase"
> head(aggdata)
Group.1
1ABE
2ABI
3ABQ
4ABY
5ACK
6ACT
x
237
34
135
7
10
3
33
Oracle Database
In-db
Stats
ONTIME_S
データベース・
サーバー
R:関数のオーバーロードにより透過的に動作
データベース内データ・マイニング・モデルを起動(サポート・ベクター・マシン)
> svm_mod <-
ore.odmSVM
(BUY~INCOME+YRS_CUST+MARITAL_STATUS,data=CUST,
"classification", kernel="linear")
> summary(svm_mod)
Call:
ore.odmSVM(formula = BUY ~ INCOME + YRS_CUST + MARITAL_STATUS, data = CUST,
CUST
データ
ベース内
マイニング・
モデル
Oracle Database
Oracle PL/SQL
BEGIN
DBMS_DATA_MINING.CREATE_MODEL
(
model_name => ’SVM_MOD’,
mining_function =>
dbms_data_mining.classification
...
Oracle Advanced Analytics
OREクライアント・
パッケージ
透過レイヤー
type = "classification", kernel.function =
"linear")
Settings
:
value
on
al.enable
prep.auto
active.learnin
g
complexity.factor 46.044899
conv.tolerance
1e-04
Coefficients
: class
variable
value
INCOME
estimate
5.204561e-05
1
2
3
4
0
0 MARITAL_STATUS
0 MARITAL_STATUS
0
YRS_CUST
M -4.531359e-05
S 4.531359e-05
1.264948e-04
kernel.function
linear
5
0
(Intercept)
9.999269e-01
6
1
INCOME
2.032340e-05
7
1 MARITAL_STATUS
M
2.636552e-06
8
1 MARITAL_STATUS
S -2.636555e-06
9
1
YRS_CUST
-1.588211e-04
10
1
(Intercept)
-9.999324e-01
Oracle Advanced Analytics for Hadoop
Oracle R Advanced Analytics for Hadoop
•
ORAAH = Oracle R Advanced Analytics for Hadoop。Oracle Big Data
Software Connectors Suiteの一部(Oracle Big Data Appliance Option)
•
ORAAHの透過レイヤーにより、オーバーロードされた特定のR関数はR
構文と動作(RからHiveQLへの透過的な変換)を使って、Hive表で機能さ
せることが可能
•
HDFSデータを操作し、マッパー関数とリデューサ関数をRで作成できるR
インタフェースでは、オープン・ソースCRANパッケージを利用し、これら
のHadoopジョブをRから起動することが可能
•
データがHDFS内にあるHadoopクラスタ上で、並列/分散方式で実行さ
れる幅広い予測アルゴリズムを提供
Oracle R Advanced Analytics for Hadoop
Rパッケージ群により、以下を提供:
•
Apache Hive表、Apache Hadoop インフラストラクチャ、ローカル
R環境、およびOracle Database表とのインタフェース
•
RまたはJavaでHadoop MapReduceジョブとして作成した予測分析手法を
HDFSファイルのデータに適用することが可能
•
Rパッケージの場合と同様に、パッケージをインストール、ロードして、次のような処理を
実行させる:
–
Hive対応透過レイヤーを使って、HDFSデータのアクセスと変換を実行
–
R言語を使ってマッパーとリデューサを作成
–
Rメモリ、ローカル・ファイル・システム、HDFS、Hive、Oracle Database間でデータをコピー
–
RプログラムをHadoop MapReduceジョブとして実行して、結果をそれらの場所に返すようにスケジューリング
•
Oracle R Advanced Analytics for Hadoopを使用するには、MapReduceプログラミング、R
プログラミング、統計手法の十分な知識が必要
ORAAHのHadoop内MR関数
最新リリース
関数
説明
orch.cor
ピアソン相関係数で相関行列を生成
orch.cov
共分散行列を生成
orch.getXlevels
model.matrix呼出しのxlev引数で使用可能な要素レベルのリストを作成。
これは、statsパケージの.getXlevels関数に相当します。
orch.glm
一般化した線形モデルを、HDFSに保存したデータに適合させて使用
orch.kmeans
HDFSにファイルとした保存されたデータ行列に対し、K-Meansクラスタリングを実行
orch.lm
Tall-and-Skinny QR(TSQR)因子分解とパラレル分散を使って、線形モデルを調整。この関数は、
Oracle R Enterprise ore.lm関数と同じ統計パラメータを計算します。
orch.lmf
jellyfishアルゴリズムまたはMahout交互最小二乗法と重み正則化(ALS-WR)アルゴリズムの
いずれかを使って、低ランクの行列因子分解を調整
ORAAHのHadoop内MR関数
最新リリース
関数
説明
orch.neural
入出力間の複雑な非線形関係をモデル化したり、データのパターンを見つけたり
するためのニューラル・ネットワークを提供
orch.nmf
jellyfishアルゴリズムを使って、非負行列因子分解モデルを作成するためのおも
なエントリ・ポイントを提供。この関数は、入力データをメモリに収める必要がない
ため、R NMFパッケージよりはるかに大きいデータセットを扱うことができます。
orch.nmf.NMFalgo
カスタム・アルゴリズムとして、R NMFパッケージ・フレームワークに挿入。この関
数はベンチマーク・テストに使用されます。
orch.princomp
主成分のパフォーマンスを分析
orch.recommend
入力したorch.mahout.lmf.aslモデルを基にランキングが予測された各ユーザーに
勧める上位n個の項目を計算
orch.sample
リザーバ・サンプリングを提供
orch.scale
スケーリングを実行
Oracle Big Data SQL
Oracle Exadataのパフォーマンスが
卓越
している理由
Oracle Database 12c
SQL
小さいデータ・サブセットを素早く返す
問合せをOracle Exadata Storage Server
にオフロード
データ分析の課題
お客様が求めているもの:Oracle Big Data SQL
全エンタープライズ・データへの機能が豊富で包括的なSQLアクセス
Oracle SQLの威力
- 幅広い種類の'ビッグ・データ'
構造化データ
数値、文字列、日付...
非構造化データ
LOB、テキスト、XML、JSON、
空間、グラフ、マルチメディア
- 豊富なSQL分析関数のラン
キング、ウィンドウイング、
LAG/LEAD、集計、パターン・
マッチング、クロス集計、統計、
線形回帰、相関、仮説検定、
分布適合度...
Oracle Big Data SQL
の導入
Oracle, Hadoop、NoSQLにまたがる超並列SQL問合せ処理
問合せをOracle Exadata
Storage Serverにオフロード
SQL
SQL
小さいデータ・サブセットを素早く返す
問合せをデータ・
ノードにオフロード
データ
サブセット
すべてのデータを管理、
分析
- SQLおよびOracle Big Data SQL
44
変換されていないJSONデータをHadoopに保存
JSON
Oracle Database 12c
Oracle Big Data Appliance
SQL
SQLまたはRで分析したデータ
ビジネスに不可欠なデータをOracleに保存
Oracle Advanced Analytics
統合されたビジネス・インテリジェンス
予測とデータ・マイニングの知見でダッシュボードを強化
•
データベース内予測
モデル
顧客データを「マイニン
グ」し、顧客の行動を
予測
•
OBIEEの統合空間マッピ
ングで位置を表示
•
ダッシュボードを強化す
るため、すべてのOAAの
結果と予測がOBIEE
Adminを介してデータ
ベースで使用可能
Oracle Data Miningの結果をOracle
BI EE管理者が利用可能
Oracle BI EEで結果を定義し
て、エンドユーザーに表示
事前構築済みの予測モデル
•
スケーラブルな全社的予測分析を最
短期間で提供
•
OAAのクラスタリングと予測がデータ
ベース内でOBIEE用に使用可能
•
顧客の自動セグメント化、解約予測、
感情分析
Oracle Communications Industry Data Model
予測分析
Oracle Fusion Human Capital
Management OAA搭載
•
Oracle Advanced Analyticsに事前
インストールされた予測分析
•
離職しそうな従業員と予測された業績
•
おもな理由、予測される行動
•
リアルタイムの「What-If」分析
Oracle Communications Data Model
事前構築されたデータ・マイニング・モデル
1.
顧客離れの予測
2.
顧客プロファイリング
3.
顧客離れの要因
4.
クロスセルの機会
5.
顧客の生涯価値
6.
顧客の勘定
7.
顧客の生涯価値
Oracle Communications Data Model
事前構築されたプリペイド携帯電話利用者離れデータ・マイニング・モデル
•
プリペイド携帯電話利用者離れの定義
–
通信事業者から製品を何も買わなくなったとき、
顧客は離れたと見なされます
•
モデルで使用されたサンプルの入力属性
•
プリペイド携帯電話利用者離れモデルで
は、合計170の属性を使用
属性
説明
ACCPT_NWSLTR_IND顧客がニュース・レターを受け取るかどうかを示します
BRDBND_IND顧客にブロードバンド接続があるかどうかを示します
CAR_DRVR_LICNS_IND顧客に運転免許証があるかどうかを示します
CAR_TYP_CD車のタイプのコード
CHRN_IND顧客が離れたかどうかを示します
CMPLNT_CNT_LAST_3MO過去3か月に顧客が行った苦情の数
CMPLNT_CNT_LAST_MO今月顧客が行った苦情の数
CMPLNT_CNT_LFTM生涯の間、顧客が行った苦情の数
CRDT_CTGRY_KEY顧客の信用カテゴリ
CUST_RVN_BND_CD顧客の利益帯コード
DAYS_BFR_FIRST_RCHRG最初の決済から最初のリチャージまでの日数
DAYS_BFR_FIRST_USE決済から最初の使用日までの日数
DRPD_CALLS_CNT_LAST_3MO過去3か月で通話が切断された回数
DRPD_CALLS_CNT_LAST_MO今月通話が切断された回数
DRPD_CALLS_CNT_LFTM顧客の生涯の間、通話が切断された回数
DWLNG_OWNER住居の所有者
DWLNG_STAT居住状況
DWLNG_SZ住居の規模
DWLNG_TENR住居の保有権
DWNLD_DATA_LAST_3MO過去3か月にダウンロードされたデータ(KB)
DWNLD_DATA_LAST_MO過去1か月にダウンロードされたデータ(KB)
DWNLD_DATA_LFTM顧客の生涯の間、ダウンロードされたデータ(KB)
ETHNCTY顧客の人種
GNDR_CD個人の顧客の性別コード
HH_SZ世帯規模
HNGUP_CALLS_CNT_LAST_3MO過去3か月で電話を切った回数
HNGUP_CALLS_CNT_LAST_MO今月電話を切った回数
MMS_CNT_LAST_MO過去1か月で送信したMMS
OFFNET_CALLS_LAST_MO過去1か月のオフネット通話の回数
PAY_TV_IND顧客に有料テレビ接続があるかどうかを示します
予測分析アプリケーション
SNA分析によって改善されたOCDM
の通信顧客離れ
•
OCDM、OBIEEとの統合、特殊なSNAコード
を使用したOracle Data Miningの利用
•
CDRデータからのソーシャル・
ネットワーク・コミュニティの特定
•
ノード・レベルでの顧客離れと
影響力に対する予測スコア、
潜在的なリスクのある収益/価値
•
ビジネス・ユーザー向けのユーザー・
インタフェースと柔軟な非定型レポート
Oracle Advanced Analyticsデータベース・オプション
Oracle Data Miner 4.X
の新機能のまとめ
•
Oracle Data Miner/SQLDEV 4.1 EA2
(Oracle Database 11gおよび12c向け)
–
新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム)
–
SQL問合せノード+Rスクリプトの統合
–
デプロイメント用のSQLスクリプトの自動生成
–
JSON問合せノードにより、ビッグ・データ外部表をマイニング
•
Oracle Data Minerで使用可能なOracle Advanced Analytics 12cの機能
–
新しいSQLデータ・マイニングのアルゴリズム/拡張機能
•
期待値最大化クラスタリング・アルゴリズム
•
PCAおよび特異値分解アルゴリズム
•
改善/自動化されたテキスト・マイニング、予測の詳細、
その他のアルゴリズムの改善
Oracle SQL Developer/Oracle Data Miner 4.0
新機能
グラフ・ノード
–
散布図、折れ線グラフ、
棒グラフ、箱ひげ図、
ヒストグラム
–
Group_byのサポート
R
Oracle SQL Developer/Oracle Data Miner 4.0
新機能
•
SQL問合せ
ノード
–
ODMrのワークフロー内で
どのような形式の問合せ/変換/
統計も可能
–
どこにいてもSQLを使って、特別/独自の
データ操作ユースケースを処理
•
最終購入日、購入頻度、購入金額(RFM:Recency,
Frequency, Monetary)
•
SQLウィンドウ関数。過去3か月と過去3日に切られ
た小切手の移動平均などを出す場合などに使用
–
Rスクリプトを統合可能
R
Oracle SQL Developer/Oracle Data Miner 4.0
新機能
SQLスクリプトの生成
–
手法全体を1つのSQLスクリプトとして
デプロイ
–
データ・アナリストの手法を即座に
デプロイ
R
Oracle SQL Developer/Oracle Data Miner 4.0
新機能
•
SQL問合せ
ノード
–
Rスクリプトを統合可能
Oracle SQL Developer/Oracle Data Miner 4.0
R
新機能
•
SQL問合せ
ノード
Oracle SQL Developer/Oracle Data Miner 4.0
R
Parallel Query On (All)