0 MARITAL_STATUS 0 MARITAL_STATUS

0 MARITAL_STATUS 0 YRS_CUST

M -4.531359e-05 S 4.531359e-05

1.264948e-04

kernel.function linear 5 0 (Intercept) 9.999269e-01

6 1 INCOME 2.032340e-05

7 1 MARITAL_STATUS M 2.636552e-06 8 1 MARITAL_STATUS S -2.636555e-06

9 1 YRS_CUST -1.588211e-04

10 1 (Intercept) -9.999324e-01

Oracle Advanced Analytics for Hadoop

データが

HDFS

内にある

Hadoop

上で、並列

/

分散方式で実行される予測アルゴリズム

Oracle R Advanced Analytics for Hadoop

• ORAAH = Oracle R Advanced Analytics for Hadoop 。 Oracle Big Data Software Connectors Suite の一部（ Oracle Big Data Appliance Option ）

• ORAAH の透過レイヤーにより、オーバーロードされた特定の R 関数は R

構文と動作（ R から HiveQL への透過的な変換）を使って、 Hive 表で機能させることが可能

• HDFS データを操作し、マッパー関数とリデューサ関数を R で作成できる R インタフェースでは、オープン・ソース CRAN パッケージを利用し、これらの Hadoop ジョブを R から起動することが可能

• データが HDFS 内にある Hadoop クラスタ上で、並列 / 分散方式で実行さ

れる幅広い予測アルゴリズムを提供

Oracle R Advanced Analytics for Hadoop

R

パッケージ群により、以下を提供：

• Apache Hive

表、

Apache Hadoop

インフラストラクチャ、ローカル

R

環境、および

Oracle Database

表とのインタフェース

• R

または

Java

で

Hadoop MapReduce

ジョブとして作成した予測分析手法を

HDFS

ファイルのデータに適用することが可能

• R

パッケージの場合と同様に、パッケージをインストール、ロードして、次のような処理を実行させる：

– Hive

対応透過レイヤーを使って、

HDFS

データのアクセスと変換を実行

– R

言語を使ってマッパーとリデューサを作成

– R

メモリ、ローカル・ファイル・システム、

HDFS

、

Hive

、

Oracle Database

間でデータをコピー

– R

プログラムを

Hadoop MapReduce

ジョブとして実行して、結果をそれらの場所に返すようにスケジューリング

• Oracle R Advanced Analytics for Hadoop

を使用するには、

MapReduce

プログラミング、

R

プログラミング、統計手法の十分な知識が必要

計算

ORAAH の Hadoop 内 MR 関数

関数説明

orch.cor

ピアソン相関係数で相関行列を生成

orch.cov

共分散行列を生成

orch.getXlevels model.matrix

呼出しの

xlev

引数で使用可能な要素レベルのリストを作成。

これは、

stats

パケージの

.getXlevels

関数に相当します。

orch.glm

一般化した線形モデルを、

HDFS

に保存したデータに適合させて使用

orch.kmeans HDFS

にファイルとした保存されたデータ行列に対し、

K-Means

クラスタリングを実行

orch.lm Tall-and-Skinny QR

（

TSQR

）因子分解とパラレル分散を使って、線形モデルを調整。この関数は、

Oracle R Enterprise ore.lm

関数と同じ統計パラメータを計算します。

orch.lmf jellyfish

アルゴリズムまたは

Mahout

交互最小二乗法と重み正則化（

ALS-WR

）アルゴリズムの

いずれかを使って、低ランクの行列因子分解を調整

ORAAH の Hadoop 内 MR 関数

関数説明

orch.neural

入出力間の複雑な非線形関係をモデル化したり、データのパターンを見つけたり

するためのニューラル・ネットワークを提供

orch.nmf jellyfish

アルゴリズムを使って、非負行列因子分解モデルを作成するためのおも

なエントリ・ポイントを提供。この関数は、入力データをメモリに収める必要がない

ため、

R NMF

パッケージよりはるかに大きいデータセットを扱うことができます。

orch.nmf.NMFalgo

カスタム・アルゴリズムとして、

R NMF

パッケージ・フレームワークに挿入。この関

数はベンチマーク・テストに使用されます。

orch.princomp

主成分のパフォーマンスを分析

orch.recommend

入力した

orch.mahout.lmf.asl

モデルを基にランキングが予測された各ユーザーに勧める上位

n

個の項目を計算

orch.sample

リザーバ・サンプリングを提供

orch.scale

スケーリングを実行

Oracle Big Data SQL

SQL

の述部をストレージ・レイヤーにプッシュ・ダウン

Oracle Exadata のパフォーマンスが卓越している理由

Oracle Database 12c

SQL

小さいデータ・サブセットを素早く返す

問合せを

Oracle Exadata Storage Server

にオフロード

Hadoop

および

NoSQL

データ分析の課題

別個のデータ・アクセッサ・インタフェースに別個のサイロ

お客様が求めているもの： Oracle Big Data SQL

全エンタープライズ・データへの機能が豊富で包括的な

SQL

アクセス

Oracle SQL

の威力

-

幅広い種類の

'

ビッグ・データ

'

構造化データ

数値、文字列、日付

...

非構造化データ

LOB

、テキスト、

XML

、

JSON

、空間、グラフ、マルチメディア

-

豊富な

SQL

分析関数のランキング、ウィンドウイング、

LAG/LEAD

、集計、パターン・

マッチング、クロス集計、統計、

線形回帰、相関、仮説検定、

分布適合度

...

Oracle Big Data SQL の導入

Oracle, Hadoop

、

NoSQL

にまたがる超並列

SQL

問合せ処理

問合せを

Oracle Exadata Storage Server

にオフロード

SQL

小さいデータ・サブセットを素早く返す

問合せをデータ・

ノードにオフロード

データサブセット

すべてのデータを管理、分析 - SQL および Oracle Big Data SQL

変換されていない

JSON

データを

Hadoop

に保存

ドキュメント内 Oracle Advanced Analytics　ビッグ・データと分析をシンプルに (ページ 33-44)

0 MARITAL_STATUS 0 YRS_CUST

M -4.531359e-05 S 4.531359e-05

1.264948e-04

kernel.function linear 5 0 (Intercept) 9.999269e-01

6 1 INCOME 2.032340e-05

7 1 MARITAL_STATUS M 2.636552e-06 8 1 MARITAL_STATUS S -2.636555e-06

9 1 YRS_CUST -1.588211e-04

10 1 (Intercept) -9.999324e-01

Oracle Advanced Analytics for Hadoop

HDFS

Hadoop

/

Oracle R Advanced Analytics for Hadoop

• ORAAH = Oracle R Advanced Analytics for Hadoop 。 Oracle Big Data Software Connectors Suite の一部（ Oracle Big Data Appliance Option ）

• ORAAH の透過レイヤーにより、オーバーロードされた特定の R 関数は R

構文と動作（ R から HiveQL への透過的な変換）を使って、 Hive 表で機能さ せることが可能

• HDFS データを操作し、マッパー関数とリデューサ関数を R で作成できる R インタフェースでは、オープン・ソース CRAN パッケージを利用し、これら の Hadoop ジョブを R から起動することが可能

• データが HDFS 内にある Hadoop クラスタ上で、並列 / 分散方式で実行さ

れる幅広い予測アルゴリズムを提供

Oracle R Advanced Analytics for Hadoop

R

• Apache Hive

Apache Hadoop

R

Oracle Database

• R

Java

Hadoop MapReduce

HDFS

• R

– Hive

HDFS

– R

– R

HDFS

Hive

Oracle Database

– R

Hadoop MapReduce

• Oracle R Advanced Analytics for Hadoop

MapReduce

R

計算

ORAAH の Hadoop 内 MR 関数

関数 説明

orch.cor

orch.cov

orch.getXlevels model.matrix

xlev

stats

.getXlevels

orch.glm

HDFS

orch.kmeans HDFS

K-Means

orch.lm Tall-and-Skinny QR

TSQR

Oracle R Enterprise ore.lm

orch.lmf jellyfish

Mahout

ALS-WR

ORAAH の Hadoop 内 MR 関数

関数 説明

orch.neural

orch.nmf jellyfish

R NMF

orch.nmf.NMFalgo

R NMF

orch.princomp

orch.recommend

orch.mahout.lmf.asl

n

orch.sample

orch.scale

Oracle Big Data SQL

SQL

Oracle Exadata のパフォーマンスが卓越している理由

Oracle Database 12c

SQL

構文と動作（ R から HiveQL への透過的な変換）を使って、 Hive 表で機能させることが可能

• HDFS データを操作し、マッパー関数とリデューサ関数を R で作成できる R インタフェースでは、オープン・ソース CRAN パッケージを利用し、これらの Hadoop ジョブを R から起動することが可能

関数説明

関数説明