• 検索結果がありません。

Oracle Advanced Analytics ビッグ・データと分析をシンプルに

N/A
N/A
Protected

Academic year: 2021

シェア "Oracle Advanced Analytics ビッグ・データと分析をシンプルに"

Copied!
72
0
0

読み込み中.... (全文を見る)

全文

(1)

Oracle Advanced Analytics

ビッグ・データと分析をシンプルに

MBAData Mining and Advanced Analytics、MS Eng、MBA

Sr. Director Product Management、Charlie Berger

(2)

Safe Harbor Statement

下記事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、

情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。

以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するもの

ではないため、購買決定を行う際の判断材料になさらないでください。オラクル社の製品

に関して記載されている機能の開発、リリース、および時期については、弊社の裁量に

より決定されます。

(3)

Agenda

ビッグ・データと分析の事象

Oracle Advanced Analyticsの概要と機能/利点

GUI

SQLデータ・マイニング関数

Rの統合

簡易版デモ

Oracle Big Data SQL

アプリケーション「OAA搭載」

(4)

将来の計画

データはデータ・アナリストの増加をはるかに上回る勢いで増加

結論

データ分析のプラットフォームが

満たすべき条件

非常に

習得しやすく

、それでありながら

極めて

パワフル

可能な限り、

自動化

されていること

(5)

分析 + データウェアハウス + Hadoop

プラットフォームのスプロール化

より多くの重複データ

より長いデータ移動の待機時間

より多くのセキュリティ課題

より多くの重複ストレージ

より多くの重複バックアップ

より多くの重複システム

より多くのスペースと消費電力

(6)

ビジョン

ビッグ・データとクラウドの時代に合ったビッグ・データおよび

分析プラットフォームの構築

ビッグ・データと分析を

シンプルに

あらゆるコンピュータ・インフラストラクチャでどのようなデータ・

サイズにも対応

あらゆる種類のデータのどのような組み合わせにも対応

ビッグ・データと分析のデプロイメントを

シンプルに

サービス、プラットフォーム、アプリケーションとして

(7)

Oracle Advanced Analyticsデータベースの進化

データベース内の分析SQL

• 7社のデータ・

マイニング「パートナー」

• Thinking Machine Corpの

開発チーム + 「Darwin」

データ・マイニング・ソフト

ウェアを買収

Advanced Analytics

ODM + ORE

)」に

変更

• Oracle Data Mining 10gお

よび10gR2で、SQL dm

関数、7つの新しいSQL

dmアルゴリズム、および

新しいOracle Data Miner

の「伝統的」なウィザード駆

動型GUIを導入

新しいアルゴリズム(EM、PCA、

SVD)

予測問合せSQLDEV/Oracle

Data Miner 4.0 SQLのスクリプト

• ODM 11gおよび11gR2で、生成

およびSQL AutoDataPrep(ADP)、

テキスト問合せノード(R統合)の

マイニングを追加、パフォーマン

スを改善

OAA/ORE 1.3 + 1.4

• SQLDEV/Oracle Data Minerで、

NN、ステップワイズのアルゴリ

ズムを追加

スケーラブルなRアルゴリズム

•Hadoopコネクタ向けOracle

Adv.Analyticsをスケーラブルな

BDAアルゴリズムとともに市場

投入

• Oracle Data Mining

9.2iを市場投入 – Java

APIを介した2つの

アルゴリズム(NBとAR)

3.2 「ワークフロー」GUIを導入

「R」との統合、および

Oracle R Enterpriseの

導入/追加

製品名を「Oracle

(8)

おもな機能

データベース内のデータ・マイニング・アルゴリズム

とオープン・ソースのRアルゴリズム

オラクルの3言語コンポーネントデータベース —

SQL

SQLDev/

ODMr GUI

R

スケーラブルなデータベース内パラレル実行

ワークフローGUIとIDE

統合データベース・コンポーネント

エンタープライズ分析アプリケーションの実現

Oracle Advanced Analytics Database Option

(9)

データはデータベース内のまま

SQLカーネルでのスケーラブルなパラレル・

データ・マイニング・アルゴリズム

並列化された高速なネイティブSQLデータ・マ

イニング関数、SQLデータ準備、Rオープン・ソー

ス・パッケージの効率的な実行

SQLデータ・マイニング関数とRオープンソー

ス・モデルの高パフォーマンスなパラレル・スコ

アリング

おもな機能

Oracle Advanced Analytics Database Option

Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R

節約

モデルの「スコアリング」 組込みデータの準備

Oracle Advanced

Analytics

従来の分析

データの抽出

データの準備および

変換

データ・マイニング・

モデルの構築

データ・マイニング・

モデル「スコアリング」

データの準備および

変換

データのインポート

(10)

総所有コストの大幅削減

データの重複排除

独立した分析サーバーの不要化

Oracle ITの投資を利用

予測分析を最速の方法で

全社に

提供

統合GUIによる予測分析

データベース・スコアリング・エンジン

おもな機能

Oracle Advanced Analytics Database Option

Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R

節約

数秒/数分/数時間

数時間/数日/数週間

Oracle Advanced

Analytics

従来の分析

モデルの「スコアリング」 組込みデータの準備 モデルの構築 データの準備

データの抽出

データの準備および

変換

データ・マイニング・

モデルの構築

データ・マイニング・

モデル「スコアリング」

データの準備および

変換

データのインポート

(11)

Turkcell

通信詐欺対策

目的

プリペイド・カードによる不正 - 数百万ドル/年

膨大なデータを極めて高速に取捨選択、不正に対

応、時は金なり

ソリューション

毎日100億件の通話記録データを監視

1PBに対する準備にSQLを利用

データ移動のプロセスは速度が遅いため、TurkcellのITは

モデルをデータベース内に構築してデプロイ

Exadata上のOracle Advanced Analyticsは極めて高速。ア

ナリストは不正パターンをほぼ即座に検出可能00

「TurkcellはOracle Exadata上で100テラバイトの圧縮データ(非圧縮状

態では1ペタバイトの生データ)を管理しています。Oracle Advanced

AnalyticsオプションのコンポーネントであるOracle Data Miningを使用

することで、他のどんなツールよりも迅速かつ容易に大量の顧客デー

タと通話記録データを分析し、不正な電話使用を検出し、根絶に努め

ることができます」

- Turkcell İletişim Hizmetleri A.Ş、Manager、Hasan Tonguç Yılmaz

Oracle Advanced Analyticsの

(12)

OBIEE

アプリケーション

Oracle Database Enterprise Edition

Oracle Advanced Analytics Databaseアーキテクチャ

Oracle Databaseの3言語コンポーネント — SQL、SQLDev/ODMr GUI、R

ユーザー

データおよびビジネス分析

Rプログラマー

ビジネス・アナリスト/マネージャー

ドメインのエンドユーザー

Oracle Advanced Analytics

ネイティブ

SQL

データ・マイニング

/

分析関数、および高パフォー

マンスの

R

統合により、スケーラブルな分散並列実行を実現

Oracle SQL Developer

Rクライアント

プラット

フォーム

(13)

より多くのデータの種類 — より優れた予測モデル

関連データのソースを増やすこ

とで、モデルの精度を向上する

ことが可能

R

espo

n

ders

Naive Guessまたは

ランダム

20の変数を持つ

モデル

100%

75の変数を持つモデル

250の変数を持つモデル

以下を含む「

ビッグ・データ

」と数百

から数千の入力変数を持つモデ

ル:

人口統計データ

•POS

購入トランザクション・データ

「非構造化データ」、テキスト、

およびコメント

空間位置データ

長期および最近の履歴行動

•Web

訪問回数

センサー・データ

その他

100%

(14)

データベース内データ・マイニング・アルゴリズム — SQL、R、GUIアクセス

関数

アルゴリズム

応用

分類

ロジスティック回帰(GLM)

ディシジョン・ツリー

Naive Bayes

サポート・ベクター・マシン

従来型の統計手法

人気度/ルール/透明度

埋め込みアプリ

範囲が広い/狭いデータ/テキスト

回帰

線形回帰(GLM)

サポート・ベクター・マシン(SVM)

伝統的な統計手法

範囲が広い/狭いデータ/テキスト

異常検出

1クラスSVM

未知の不正ケースまたは異常

属性の重要度

最小記述長(MDL)

主成分分析(PLC)

属性縮約、データ・ノイズの低減

相関ルール

Apriori

マーケットバスケット分析/次善策の提案

クラスタリング

階層型K-Means

階層型Oクラスタ化

期待値最大化(EM)クラスタリング

製品分類/テキスト・マイニング

遺伝子およびタンパク質の分析

特徴抽出

非負行列因子分解(NMF)

特異値分解(SVD)

テキスト分析/特徴削減

Oracle Advanced Analytics

A1 A2 A3 A4 A5 A6 A7

(15)

Oracle Advanced Analytics Database Option

データの理解と視覚化

クラスタリング

サマリー統計と記述統計

ヒストグラム、散布図、箱ひげ図、棒グラフ

Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグラ

フ・タイプ

クロス集計

相関テスト(t検定、ピアソン、ANOVA)

選択されたBase SASと同等機能

データの選択、準備、変換

結合、表、ビュー、データ選択、データ・フィルタ、SQL時間枠、複数スキーマ

サンプリング手法

コード変更、欠損値

集計

空間データ

SQLパターン

RからSQLへの透過性とプッシュ・ダウン

分類モデル

ロジスティック回帰(GLM)

Naive Bayes

ディシジョン・ツリー

サポート・ベクター・マシン

ニューラル・ネットワーク(NN)

回帰モデル

幅広いデータベース内のデータ・マイニングと統計関数

階層型K-Means

直交パーティショニング

期待値の最大化

異常検出

特殊なケースのサポート・ベクター・マシン(1クラスSVM)

対応付け/マーケットバスケット分析

アプリオリ・アルゴリズム

特徴選択と特徴削減

属性評価(最小記述長)

主成分分析(PCA)

非負行列因子分解

特異値の分解

テキスト・マイニング

ほとんどのOAAアルゴリズムが非構造化データをサポート(顧客のコメント、

電子メール、要約など)

トランザクション・データと空間データ

すべてのOAAアルゴリズムでトランザクション・データ(購入取引、長期的な反復測

定、ロケーションからの距離、エリアA/B/Cで過ごした時間など)をサポート

R

パッケージ - オープン・ソースの実行機能

R

(16)

大量の

データ

自動的

にふるいにかけ、

前は見えなかったパターンを見つけ、新しい有益な

知見を見いだし、予測を立てること

もっとも重要な要素の特定

(属性重要度)

顧客行動の予測

(分類)

価値の予測または見積り

(回帰)

ターゲットとなる人または項目のプロファイルを検出

(ディシジョン・ツリー)

母集団のセグメント化

(クラスタリング)

不正または「まれな事象」の検出

(異常検出)

「バスケット」内に同時に出現する項目の特定

(関連性)

データ・マイニングとは

A1 A2 A3 A4 A5 A6 A7

(17)

データ・マイニングがもたらすもの

質の高い情報、有益な知見と予測

携帯電話の顧客離れ

忠実な顧客

セグメント#3

IF

CUST_MO > 7 AND INCOME <

$175000、

THEN

予測 = 携帯電話の顧客離れ、

確率

= 83%

支持

= 6/39

知見と予測

セグメント#1

IF

CUST_MO > 14 AND INCOME <

$90000、

THEN

予測 = 携帯電話の顧

客離れ

確率

= 100%

支持

= 8/39

契約月数

(18)

Oracle Advanced Analytics

ベスト・プラクティス

2.

データを移動しない

3.

問題の「適切な

4.

データ」を組み立てる

4.

新たに導き出された

変数を作成

5.

分析手法を

クリエイティブに考案する

6.

「データ」を「実践的知見」に

素早く変換

何も違わない; 何もかもが違う

1

.

ビジネス課題の

ステートメントから開始

7.

全社的に自動化と

デプロイメントを行う

(19)

複雑なセグメント化の問合せを数週間から数分間に短縮 — 競争上の強みを獲得

目的

世界をリードする顧客科学会社

Oracle Advanced Analyticsとサード・パーティ製ツールを使用して、分

析をほぼリアルタイムで実行可能なまでに短縮し、スマートフォンの

ような新しいソースの非構造化ビッグ・データを分析

ソリューション

セグメント化と顧客ロイヤルティ分析を1週間からわずか4

時間に短縮して、情報ときめ細かい分析をよりタイムリー

に出すことが可能に

ごく小さいサンプルではなく、数年分の履歴データを含め

た100%のデータを分析できるため、より正確なビジネス知

見とマーケティング・リコメンデーションを生成

「問合せの処理に数時間あるいは数日待たなくても、問合せを実行し

て分析を完了できるようになったため、アナリストの生産性と集中力

が改善された」

「大規模なサンプル・サイズを分析し、新製品の考えと戦略が市場に

どの程度受け入れられるかを予測することで、マーケティング・リコメ

ンデーションの精度が高まった」

– dunnhumby Oracle Customer Snapshot

(20)

行動を予測

「可能性の高い行動」とそのプロファイルを特定

考慮点:

• 人口統計

• 過去の購入

• 最近の購入

• 顧客のコメントとツイート

非構造化データも

アルゴリズムで

マイニング

トランザクション

POS

データ

デプロイメント用の

SQL

スクリプトを生成

インライン予測

モデルで入力

データを増やす

SQL

が結合を実行し、任意

SQL

変換と問合せを実行

– SQL

のパワー

(21)

Oracle Advanced Analytics

(22)

Oracle SQL Developer/Oracle Data Miner 4.0

新機能

SQLスクリプトの生成

手法全体を1つのSQLスクリプトとして

デプロイ

データ・アナリストの手法を即座に

デプロイ

R

(23)

不正予測デモ

自動化されたデータベース内分析手法

drop table CLAIMS_SET;

exec dbms_data_mining.drop_model('CLAIMSMODEL');

create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000)); insert into

CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');

insert into CLAIMS_SET values ('PREP_AUTO','ON');

commit;

POLICYNUMBER

PERCENT_FRAUDRNK

---

---

---6532

64.78

1

2749

64.17

2

begin

dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION', 'CLAIMS', 'POLICYNUMBER', null,

'CLAIMS_SET');

end;

/

3440

63.22

3

654

63.1

4

12650

62.36

5

自動化された月次「アプリケーション」。

以下を追

加:

Create

View CLAIMS2_30

As

Select * from CLAIMS2

Where mydate > SYSDATE – 30

Time measure:

set timing on;

-- Top 5 most suspicious fraud policy holder claims

select * from

(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,

rank() over (order by prob_fraud desc) rnk from

(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud from CLAIMS

where PASTNUMBEROFCLAIMS in ('2to4', 'morethan4'))) where rnk <= 5

(24)

Oracle Advanced Analytics

詳細

シングル・レコードにその場で新しいデータ(コール・センターから取得したデータなど)を適用

コール・

センター

アドバイスの取得

ブランチ

オフィス

Web

モバイル

ソーシャル・

メディア

電子メール

R

Select

prediction_probability

(

CLAS_DT_1_2

, 'Yes'

USING 7800 as bank_funds, 125 as checking_amount, 20 as

credit_balance, 55 as age, 'Married' as marital_status,

250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership)

from dual;

(25)

例がない場合のデータ・マイニング

質の高い情報、価値ある知見と予測

携帯電話詐欺

忠実な顧客

(26)

課題:異常の検出

複数の属性を考慮

1つだけで見ると、

「正常」に見える可能性が

ある

レコードを全体からみる

と、異常である可能性

がみえてくる

異なる

」ものを探す

X

1

X

2

X

3

X

4

X1 X2

X

3 X4

(27)

脱税監査の選択

シンプルなOracle Data

Mining予測モデル

ディシジョン・ツリーを使って、

2011年のデータを基に非準

拠の納税を分類

(はい/いいえ)

(28)

Oracle Advanced Analytics

OAA/Oracle R Enterprise(R統合)

(29)

R環境

強み

パワフルで拡張可能

グラフィカルで広範な統計

無料 — オープン・ソース

課題

メモリの制約

シングルスレッド

外部ループ — プロセスの速度

低下

業務仕様ではない

R — 広く普及

(30)

Oracle Advanced Analytics

R-SQL透過フレームワークがR関数をオー

バーロードして、スケーラブルなデータベー

ス内実行を実現

関数のオーバーロードにより、データ変換、

統計関数、高度な分析に対応

グラフィカルな結果とフロー制御を標準Rと

同様にインタラクティブに表示

ユーザー定義のR関数を送信して、Oracle

Databaseの制御のもと、データベース・

サーバーで実行

大規模データセットにスケーリング

DB LINKで表、ビュー、外部表、およびデー

タにアクセス

データベースのパラレルSQL処理を利用

データベース内の新規および既存の統計

機能とデータ・マイニング機能を利用

Rエンジン

その他のR

パッケージ

Oracle R Enterpriseパッケージ

デスクトップ上のユーザーRエンジン

データベースで複数のRエンジンを起動して、

データベース管理の並列処理を実現

起動したRエンジンにデータを効率的に

転送

MapReduce方式のアルゴリズムとアプリ

ケーションをエミュレート

Rスクリプトを本番環境にデプロイして自動

実行

1

2

SQL

結果

データベース計算エンジン

Rエンジン

その他のR

パッケージ

Oracle R Enterpriseパッケージ

Oracle DBから起動されたRエンジン

R

結果

3

?x

R

オープン・ソース

Oracle R Enterprise計算エンジン

Oracle Databases

ユーザー表

(31)

Rグラフィックスからデータベース・データへの直接アクセス

R> boxplot(split(CARSTATS$mpg, CARSTATS$model.year), col = "green")

Oracle Advanced Analytics

時間とともに

MPGが増加

(32)

R:関数のオーバーロードにより透過的に動作

データベース内の集計関数を起動

> aggdata <-

aggregate

(ONTIME_S$DEST,

+

+

> class(aggdata)

by = list(ONTIME_S$DEST),

FUN = length)

Oracle SQL

select DEST, count(*)

from ONTIME_S group by

DEST

Oracle Advanced Analytics

OREクライアント・パッケージ

透過レイヤー

[1] "ore.frame"

attr(,"package")

[1] "OREbase"

> head(aggdata)

Group.1

1ABE

2ABI

3ABQ

4ABY

5ACK

6ACT

x

237

34

135

7

10

3

33

Oracle Database

In-db

Stats

ONTIME_S

データベース・

サーバー

(33)

R:関数のオーバーロードにより透過的に動作

データベース内データ・マイニング・モデルを起動(サポート・ベクター・マシン)

> svm_mod <-

ore.odmSVM

(BUY~INCOME+YRS_CUST+MARITAL_STATUS,data=CUST,

"classification", kernel="linear")

> summary(svm_mod)

Call:

ore.odmSVM(formula = BUY ~ INCOME + YRS_CUST + MARITAL_STATUS, data = CUST,

CUST

データ

ベース内

マイニング・

モデル

Oracle Database

Oracle PL/SQL

BEGIN

DBMS_DATA_MINING.CREATE_MODEL

(

model_name => ’SVM_MOD’,

mining_function =>

dbms_data_mining.classification

...

Oracle Advanced Analytics

OREクライアント・

パッケージ

透過レイヤー

type = "classification", kernel.function =

"linear")

Settings

:

value

on

al.enable

prep.auto

active.learnin

g

complexity.factor 46.044899

conv.tolerance

1e-04

Coefficients

: class

variable

value

INCOME

estimate

5.204561e-05

1

2

3

4

0

0 MARITAL_STATUS

0 MARITAL_STATUS

0

YRS_CUST

M -4.531359e-05

S 4.531359e-05

1.264948e-04

kernel.function

linear

5

0

(Intercept)

9.999269e-01

6

1

INCOME

2.032340e-05

7

1 MARITAL_STATUS

M

2.636552e-06

8

1 MARITAL_STATUS

S -2.636555e-06

9

1

YRS_CUST

-1.588211e-04

10

1

(Intercept)

-9.999324e-01

(34)

Oracle Advanced Analytics for Hadoop

(35)

Oracle R Advanced Analytics for Hadoop

ORAAH = Oracle R Advanced Analytics for Hadoop。Oracle Big Data

Software Connectors Suiteの一部(Oracle Big Data Appliance Option)

ORAAHの透過レイヤーにより、オーバーロードされた特定のR関数はR

構文と動作(RからHiveQLへの透過的な変換)を使って、Hive表で機能さ

せることが可能

HDFSデータを操作し、マッパー関数とリデューサ関数をRで作成できるR

インタフェースでは、オープン・ソースCRANパッケージを利用し、これら

のHadoopジョブをRから起動することが可能

データがHDFS内にあるHadoopクラスタ上で、並列/分散方式で実行さ

れる幅広い予測アルゴリズムを提供

(36)

Oracle R Advanced Analytics for Hadoop

Rパッケージ群により、以下を提供:

Apache Hive表、Apache Hadoop インフラストラクチャ、ローカル

R環境、およびOracle Database表とのインタフェース

RまたはJavaでHadoop MapReduceジョブとして作成した予測分析手法を

HDFSファイルのデータに適用することが可能

Rパッケージの場合と同様に、パッケージをインストール、ロードして、次のような処理を

実行させる:

Hive対応透過レイヤーを使って、HDFSデータのアクセスと変換を実行

R言語を使ってマッパーとリデューサを作成

Rメモリ、ローカル・ファイル・システム、HDFS、Hive、Oracle Database間でデータをコピー

RプログラムをHadoop MapReduceジョブとして実行して、結果をそれらの場所に返すようにスケジューリング

Oracle R Advanced Analytics for Hadoopを使用するには、MapReduceプログラミング、R

プログラミング、統計手法の十分な知識が必要

(37)

ORAAHのHadoop内MR関数

最新リリース

関数

説明

orch.cor

ピアソン相関係数で相関行列を生成

orch.cov

共分散行列を生成

orch.getXlevels

model.matrix呼出しのxlev引数で使用可能な要素レベルのリストを作成。

これは、statsパケージの.getXlevels関数に相当します。

orch.glm

一般化した線形モデルを、HDFSに保存したデータに適合させて使用

orch.kmeans

HDFSにファイルとした保存されたデータ行列に対し、K-Meansクラスタリングを実行

orch.lm

Tall-and-Skinny QR(TSQR)因子分解とパラレル分散を使って、線形モデルを調整。この関数は、

Oracle R Enterprise ore.lm関数と同じ統計パラメータを計算します。

orch.lmf

jellyfishアルゴリズムまたはMahout交互最小二乗法と重み正則化(ALS-WR)アルゴリズムの

いずれかを使って、低ランクの行列因子分解を調整

(38)

ORAAHのHadoop内MR関数

最新リリース

関数

説明

orch.neural

入出力間の複雑な非線形関係をモデル化したり、データのパターンを見つけたり

するためのニューラル・ネットワークを提供

orch.nmf

jellyfishアルゴリズムを使って、非負行列因子分解モデルを作成するためのおも

なエントリ・ポイントを提供。この関数は、入力データをメモリに収める必要がない

ため、R NMFパッケージよりはるかに大きいデータセットを扱うことができます。

orch.nmf.NMFalgo

カスタム・アルゴリズムとして、R NMFパッケージ・フレームワークに挿入。この関

数はベンチマーク・テストに使用されます。

orch.princomp

主成分のパフォーマンスを分析

orch.recommend

入力したorch.mahout.lmf.aslモデルを基にランキングが予測された各ユーザーに

勧める上位n個の項目を計算

orch.sample

リザーバ・サンプリングを提供

orch.scale

スケーリングを実行

(39)

Oracle Big Data SQL

(40)

Oracle Exadataのパフォーマンスが

卓越

している理由

Oracle Database 12c

SQL

小さいデータ・サブセットを素早く返す

問合せをOracle Exadata Storage Server

にオフロード

(41)

データ分析の課題

(42)

お客様が求めているもの:Oracle Big Data SQL

全エンタープライズ・データへの機能が豊富で包括的なSQLアクセス

Oracle SQLの威力

- 幅広い種類の'ビッグ・データ'

構造化データ

数値、文字列、日付...

非構造化データ

LOB、テキスト、XML、JSON、

空間、グラフ、マルチメディア

- 豊富なSQL分析関数のラン

キング、ウィンドウイング、

LAG/LEAD、集計、パターン・

マッチング、クロス集計、統計、

線形回帰、相関、仮説検定、

分布適合度...

(43)

Oracle Big Data SQL

の導入

Oracle, Hadoop、NoSQLにまたがる超並列SQL問合せ処理

問合せをOracle Exadata

Storage Serverにオフロード

SQL

SQL

小さいデータ・サブセットを素早く返す

問合せをデータ・

ノードにオフロード

データ

サブセット

(44)

すべてのデータを管理、

分析

- SQLおよびOracle Big Data SQL

44

変換されていないJSONデータをHadoopに保存

JSON

Oracle Database 12c

Oracle Big Data Appliance

SQL

SQLまたはRで分析したデータ

ビジネスに不可欠なデータをOracleに保存

(45)

Oracle Advanced Analytics

(46)

統合されたビジネス・インテリジェンス

予測とデータ・マイニングの知見でダッシュボードを強化

データベース内予測

モデル

顧客データを「マイニン

グ」し、顧客の行動を

予測

OBIEEの統合空間マッピ

ングで位置を表示

ダッシュボードを強化す

るため、すべてのOAAの

結果と予測がOBIEE

Adminを介してデータ

ベースで使用可能

Oracle Data Miningの結果をOracle

BI EE管理者が利用可能

Oracle BI EEで結果を定義し

て、エンドユーザーに表示

(47)

事前構築済みの予測モデル

スケーラブルな全社的予測分析を最

短期間で提供

OAAのクラスタリングと予測がデータ

ベース内でOBIEE用に使用可能

顧客の自動セグメント化、解約予測、

感情分析

Oracle Communications Industry Data Model

(48)

予測分析

Oracle Fusion Human Capital

Management OAA搭載

Oracle Advanced Analyticsに事前

インストールされた予測分析

離職しそうな従業員と予測された業績

おもな理由、予測される行動

リアルタイムの「What-If」分析

(49)

Oracle Communications Data Model

事前構築されたデータ・マイニング・モデル

1.

顧客離れの予測

2.

顧客プロファイリング

3.

顧客離れの要因

4.

クロスセルの機会

5.

顧客の生涯価値

6.

顧客の勘定

7.

顧客の生涯価値

(50)

Oracle Communications Data Model

事前構築されたプリペイド携帯電話利用者離れデータ・マイニング・モデル

プリペイド携帯電話利用者離れの定義

通信事業者から製品を何も買わなくなったとき、

顧客は離れたと見なされます

モデルで使用されたサンプルの入力属性

プリペイド携帯電話利用者離れモデルで

は、合計170の属性を使用

属性

説明

ACCPT_NWSLTR_IND

顧客がニュース・レターを受け取るかどうかを示します

BRDBND_IND

顧客にブロードバンド接続があるかどうかを示します

CAR_DRVR_LICNS_IND

顧客に運転免許証があるかどうかを示します

CAR_TYP_CD

車のタイプのコード

CHRN_IND

顧客が離れたかどうかを示します

CMPLNT_CNT_LAST_3MO

過去3か月に顧客が行った苦情の数

CMPLNT_CNT_LAST_MO

今月顧客が行った苦情の数

CMPLNT_CNT_LFTM

生涯の間、顧客が行った苦情の数

CRDT_CTGRY_KEY

顧客の信用カテゴリ

CUST_RVN_BND_CD

顧客の利益帯コード

DAYS_BFR_FIRST_RCHRG

最初の決済から最初のリチャージまでの日数

DAYS_BFR_FIRST_USE

決済から最初の使用日までの日数

DRPD_CALLS_CNT_LAST_3MO

過去3か月で通話が切断された回数

DRPD_CALLS_CNT_LAST_MO

今月通話が切断された回数

DRPD_CALLS_CNT_LFTM

顧客の生涯の間、通話が切断された回数

DWLNG_OWNER

住居の所有者

DWLNG_STAT

居住状況

DWLNG_SZ

住居の規模

DWLNG_TENR

住居の保有権

DWNLD_DATA_LAST_3MO

過去3か月にダウンロードされたデータ(KB)

DWNLD_DATA_LAST_MO

過去1か月にダウンロードされたデータ(KB)

DWNLD_DATA_LFTM

顧客の生涯の間、ダウンロードされたデータ(KB)

ETHNCTY

顧客の人種

GNDR_CD

個人の顧客の性別コード

HH_SZ

世帯規模

HNGUP_CALLS_CNT_LAST_3MO

過去3か月で電話を切った回数

HNGUP_CALLS_CNT_LAST_MO

今月電話を切った回数

MMS_CNT_LAST_MO

過去1か月で送信したMMS

OFFNET_CALLS_LAST_MO

過去1か月のオフネット通話の回数

PAY_TV_IND

顧客に有料テレビ接続があるかどうかを示します

(51)

予測分析アプリケーション

SNA分析によって改善されたOCDM

の通信顧客離れ

OCDM、OBIEEとの統合、特殊なSNAコード

を使用したOracle Data Miningの利用

CDRデータからのソーシャル・

ネットワーク・コミュニティの特定

ノード・レベルでの顧客離れと

影響力に対する予測スコア、

潜在的なリスクのある収益/価値

ビジネス・ユーザー向けのユーザー・

インタフェースと柔軟な非定型レポート

(52)
(53)

Oracle Advanced Analyticsデータベース・オプション

Oracle Data Miner 4.X

の新機能のまとめ

Oracle Data Miner/SQLDEV 4.1 EA2

(Oracle Database 11gおよび12c向け)

新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム)

SQL問合せノード+Rスクリプトの統合

デプロイメント用のSQLスクリプトの自動生成

JSON問合せノードにより、ビッグ・データ外部表をマイニング

Oracle Data Minerで使用可能なOracle Advanced Analytics 12cの機能

新しいSQLデータ・マイニングのアルゴリズム/拡張機能

期待値最大化クラスタリング・アルゴリズム

PCAおよび特異値分解アルゴリズム

改善/自動化されたテキスト・マイニング、予測の詳細、

その他のアルゴリズムの改善

(54)

Oracle SQL Developer/Oracle Data Miner 4.0

新機能

グラフ・ノード

散布図、折れ線グラフ、

棒グラフ、箱ひげ図、

ヒストグラム

Group_byのサポート

R

(55)

Oracle SQL Developer/Oracle Data Miner 4.0

新機能

SQL問合せ

ノード

ODMrのワークフロー内で

どのような形式の問合せ/変換/

統計も可能

どこにいてもSQLを使って、特別/独自の

データ操作ユースケースを処理

最終購入日、購入頻度、購入金額(RFM:Recency,

Frequency, Monetary)

SQLウィンドウ関数。過去3か月と過去3日に切られ

た小切手の移動平均などを出す場合などに使用

Rスクリプトを統合可能

R

(56)

Oracle SQL Developer/Oracle Data Miner 4.0

新機能

SQLスクリプトの生成

手法全体を1つのSQLスクリプトとして

デプロイ

データ・アナリストの手法を即座に

デプロイ

R

(57)

Oracle SQL Developer/Oracle Data Miner 4.0

新機能

SQL問合せ

ノード

Rスクリプトを統合可能

(58)

Oracle SQL Developer/Oracle Data Miner 4.0

R

新機能

SQL問合せ

ノード

(59)

Oracle SQL Developer/Oracle Data Miner 4.0

R

Parallel Query On (All)

新機能

データベース/データ・マイ

ニング・パラレル

処理のオン/オフ制御

ユーザーは、Oracle Data Miner

ノードごとに、オラクルのパラレル

処理/スケーラビリティをフルに

利用することが可能

デフォルトは「オフ」

大規模なOracle Database、および

Oracle Exadataを使用する企業に

は重要

(60)

12c

の新機能

サーバーの新機能

3つの新しいOracle Data Mining SQL関数アルゴリズム

期待値の最大化(EM)クラスタリング

新しいクラスタリング手法

-

データの密度モデルを構築する確率論的クラスタリング・アルゴリズム

各種ドメインで発生したデータに対するアプローチの改善

(例:販売取引と顧客層、構造化データとテキ

スト/その他の非構造化データ)

データ・モデリングに必要なクラスタ数の最適値を自動的に決定

主成分分析(PCA)

データ削減および改善されたモデリング機能

強力な特徴抽出手法がSVDに基づいて直交線形投影を使用し、データの根底にある分散を

捕捉

特異値の分解(SVD)

行列演算用のビッグ・データの「主力」手法

非常に大きい数値データセットで、非常に大きいデータ・サイズ(行と属性の両方)を実現する

スケーラビリティ

(センサー・データ、テキストなど)

R

(61)

12c

の新機能

サーバーの新機能

テキスト・マイニング・サポートの

拡張

入力にテキスト・データが含まれる場合のデー

タ・マイニング・プロセス(モデルの構築、デプロ

イメント、スコアリング)を大幅に簡便化

テキスト・データに対する手動の前処理は不

テキスト索引の作成は不要

データ型サポートの追加:CLOB、

BLOB、BFILE

文字データはカテゴリ値またはテキストとし

て指定可能

R

(62)

12c

の新機能

サーバーの新機能

予測的問合せ

SQL問合せ内でODMモデルを

即座に構築/適用

分類と回帰

対象が複数ある問題

クラスタリングの問合せ

異常の問合せ

特徴抽出の問合せ

OAAは強力なSQL問合せを介したパーティ

ションによって、自動的に複数の異常検出

モデル「Grouped_By」と「scores」を作成

Select

cust_income_level, cust_id,

round(probanom,2) probanom, round(pctrank,3)*100 pctrank from ( select

cust_id, cust_income_level, probanom,

percent_rank()

over (partition by cust_income_level order by probanom desc) pctrank

from (

select

cust_id, cust_income_level, prediction_probability(of anomaly, 0 using *)

over (partition by cust_income_level) probanom from customers

)

)

where pctrank <= .05

order by cust_income_level, probanom desc;

(63)

12c

の新機能

サーバーの新機能

予測的問合せ

SQL問合せ内でODMモデルを

即座に構築/適用

分類と回帰

対象が複数ある問題

クラスタリングの問合せ

異常の問合せ

特徴抽出の問合せ

OAAは強力なSQL問合せを介したパーティ

ションによって、自動的に複数の異常検出

モデル「Grouped_By」と「scores」を作成

R

結果/予測

(64)

Oracle Data Miner 4.1

新機能

JSON問合せノード

R

JSON問合せノードは外部表を介し

てBDAを抽出し、JSONデータ型を

解析し、データをデータ・マイニン

グ用に組み立て

(65)

Oracle Data Miner 4.1

新機能

Oracle Data MinerワークフローAPIでワークフローを管理、スケジューリング、

および実行

-

PL/SQL APIにより、アプリケー

ションでワークフローを即座に実

行したり、スケジューリングしたり

することが可能

Oracle Schedulerによる

スケジューリング機能

ODMrリポジトリ・ビューを問合せ

て、プロジェクトやワークフローの

情報を取得することが

可能

アプリケーションでワークフロー

の実行や問合せで生成された結

R

CONNECT DMUSER/DMUSER

SET SERVEROUTPUT ON DECLARE

v_jobId v_status v_projectName

v_workflow_name v_node

v_run_mode v_failure

v_nodes BEGIN

v_nodes.extend();

VARCHAR2(30) := NULL; VARCHAR2(30) := NULL; VARCHAR2(30) :=

'Project';

VARCHAR2(30) := 'build_workflow';

VARCHAR2(30) := 'MODEL_COEFFCIENTS';

VARCHAR2(30) := ODMRSYS.ODMR_WORKFLOW.RERUN_NODE_PARENTS;

NUMBER := 0;

ODMRSYS.ODMR_OBJECT_NAMES := ODMRSYS.ODMR_OBJECT_NAMES();

v_nodes(v_nodes.count) := v_node;

v_jobId := ODMRSYS.ODMR_WORKFLOW.WF_RUN(p_project_name => v_projectName,

p_workflow_name => v_workflow_name, p_node_names => v_nodes, p_run_mode =>

v_run_mode,

p_start_date => '31-DEC-14 12.00.00 AM AMERICA/NEW_YORK',

p_repeat_interval => 'FREQ=MONTHLY;BYMONTHDAY=-1', p_end_date => '31-DEC-15 12.00.00

AM AMERICA/NEW_YORK');

(66)
(67)

OAAのリンクおよびリソース

Oracle Advanced Analyticsの概要:

プレゼンテーションのリンク —

Oracle Advanced Analyticsデータベース内オプションによるビッグ・データの分析

OAAデータ・シート

(OTN)

Oracle Internal

OAA Product Management Wiki and Workspace

YouTubeに録画されたOAAプレゼンテーションおよびデモ:

Oracle Advanced Analytics and Data Mining at the YouTube Movies

(ODM’r 4.0の新機能、小売、詐欺、ロイヤルティ、概要などに関する6 +

OAAの「ライブ」デモ)

Getting Started:

Getting Started w/ ODM blog entry

のリンク

New OAA/Oracle Data Mining 2-Day Instructor Led Oracle University course

のリンク

OAA/Oracle Data Mining 4.0 Oracle by Examples (free) Tutorials

(OTN)のリンク

Free Test Drive of Oracle Advanced Analytics (Oracle Data Miner GUI) on the Amazon Cloud

を試す

SQL Developer Days Virtual Event w/ downloadable VM of Oracle Database + ODM/ODMr and e-training for Hands on Labs

のリンク

OAA/Oracle R Enterprise (free) Tutorial Series

(OTN)のリンク

その他のリソース:

Oracle Advanced Analytics Option on OTN

ページ

OAA/Oracle Data Mining on OTN

ページ、

ODM Documentation

、および

ODM Blog

OAA/Oracle R Enterprise page on OTN

ページ、

ORE Documentation

、および

ORE Blog

(68)

Oracle Advanced

Analyticsの新刊

Amazonで購入可能な書籍

Predictive Analytics Using Oracle Data

Miner:Develop for ODM in SQL &

(69)

テスト・ドライブを受ける

オラクルのパートナー、Vlamis Softwareによる、Amazon Cloudの無料テスト・ドライブの提供

ステップ — リクエストに記入する

http://www.vlamis.com/td/

に移動

ステップ2 — 接続する

リモート・デスクトップで接続

ステップ3 — テスト・ドライブを開始する

Oracle Database +

Oracle Advanced Analytics Option

Oracle SQL Developer/Oracle Data Miner

GUI

学習用のデモ・データ

(70)

2016年1月26、27、28日

Oracle HQ Campusにて

(71)
(72)

参照

関連したドキュメント

 当教室では,これまでに, RAGE (Receptor for Advanced Glycation End-products) という分子を中心に,特に, RAGE 過剰発現トランスジェニック (RAGE-Tg)

Algebras, Lattices, Varieties Volume I, Wadsworth &amp; Brooks/Cole Advanced Books &amp;

Vondrák: Optimal approximation for the submodular welfare problem in the value oracle model, STOC 2008,

Let T be a reduced purely two-dimensional scheme, projective over an algebraically closed field of positive characteristic (resp. the algebraic closure of a finite field). Let L be

Functional Differential Equation, Advanced Equation, Difference Equation, Piecewise Constant Deviation, Initial-Value Problem, Solution, Existence, Uniqueness, Backward

このマニュアル全体を読んで、Oracle Diagnostics Pack に同梱の Oracle Performance Manager、Oracle Capacity Planner、Oracle TopSessions および Oracle Event

In this paper we study the hypercohomology of the relative (big) de Rham- Witt complex after truncation with finite truncation sets S.. In addition, we establish a Poincar´e

The Mixmaster (Bianchi IX) model of the early history of the universe is neatly explained in this picture by postulating that the reverse Wick rotation follows a hyperbolic