• 検索結果がありません。

大規模・複雑化するデータ解析における問題点と、そのソリューション

N/A
N/A
Protected

Academic year: 2021

シェア "大規模・複雑化するデータ解析における問題点と、そのソリューション"

Copied!
15
0
0

読み込み中.... (全文を見る)

全文

(1)

© 2012 IBM Corporation

モデル駆動型システムズエンジニアリングに基づくモデル管理 およびデータ解析 - Nano-JASMINE データ解析への適用-

○初鳥陽一、宮下尚、清水淳也(日本IBM)、山田良透(京都大学)

This document is provided by JAXA.

(2)

© 2012 IBM Corporation 2

研究背景

大規模・複雑化するデータ解析における問題点と、そのソリューション

科学者(user)の要求

膨大なデータの効率的な解析

複数の学問領域にまたがる解析

様々な解析手法の適用

他のプロジェクトへの応用

問題の大規模・複雑化に伴い

情報共有・分散処理

が重要な課題

解析担当者(vendor)の作業

効果的なコードの実装

複雑なモデルの実装

モデルの管理

汎用的なコードの生成

モデル駆動型システムズエンジニアリングによる管理および解析 Model-based System Identification Cloud (MbSIC) の提案

大量のデータ 双方が理解しやすい形 コード生成 で問題を管理

ソリューション

クラウドコンピューティング による分散処理

【ソリューション】

システムズモデルによる モデル管理

【ソリューション】

MapReduce & GPGPUによる 分散処理系の構築

特徴ごとに行列を分割・格納形式 の選択

This document is provided by JAXA.

(3)

© 2012 IBM Corporation 3

大規模・複雑なデータ解析の例

JASMINE

計画(

Japan Astrometry Satellite Mission for Infrared Exploration

銀河系内の、特に銀河面、バルジなどのサーベイを行ない、数億個の星の位置・距離・固有運動を 高精度に測定(位置天文学)

JASMINE計画では、3種類の衛星が検討・開発中

Nano-JASMINE 口径5cm  zw-band 全天を観測 フライトモデル完成 2013年打ち上げ

Small-JASMINE 口径30cm Hw-band バルジ方向を観測 検討中

JASMINE 口径80cm Kw-band バルジ方向を観測 検討中

観測

JASMINE計画での観測のイメージ図 複数の観測結果から、螺旋のパラメータを推定

JASMINE計画でのデータ解析

星の固有運動と、地球の公転運動に起因する楕円運動により、

天球上での星の動きは螺旋運動にみえる。

星を複数回観測することにより、螺旋のパラメータを推定

      Nano-JASMINEでは約14万個の星に対して推定を行う

推定すべきパラメータ

人工衛星に搭載された望遠鏡を用いて星を観測するため、

星のパラメータ以外に観測機器、機器の劣化、衛星の姿勢 パラメータなども同時に推定する必要がある

This document is provided by JAXA.

(4)

© 2012 IBM Corporation 4

Nano-JASMINE で推定するパラメータの数

14万個の星を観測。それぞれの星は5つの位置天文パラメータを持つ。

星のパラメータ数 70万個(7×105

 3次のスプライン関数で衛星姿勢クオータニオンを近似。ミッション期間を2年間、

スプラインのknotの間隔を30秒とする

姿勢のパラメータ数 840万個(8.4×106 星のパラメータより多い!

星と姿勢のパラメータはカップリング項を持つため独立に解くことができない。

そのため、約107のパラメータで構成される疎行列を解く必要がある。

実際はカップリング項が最も情報量が多く、非対角項優位の大規模疎行列となる 参考

 ESAが打ち上げ予定のGAIAプロジェクトではおよそ1億個(108)の星に対して位置天文パラメータ を求めることを計画

パラメータ数はおよそ10億個(109

This document is provided by JAXA.

(5)

© 2012 IBM Corporation 5

Model-based System Identification Cloud の全体像

銀河系内の星を 複数回観測

大量の観測データ

TB or PB クラス)

観測画像

センサのノイズ

衛星の姿勢

熱の変化

・・・

Model-based System Identification

Cloud

システムズモデル

(モデルベースの情報共有)

科学者

星の数学モデル

衛星の数学モデル

・・・

解析担当者

実装

数式の提供

次のプロジェクト への応用

Small-JASMINE JASMINE

解析コードの 生成

分散処理による パラメータ推定

星のパラメータ

(銀河系内の星の 三次元地図)

衛星のパラメータ

(搭載機器等)

パラメータの更新

モデルの実装

得られる結果

モデルの更新

This document is provided by JAXA.

(6)

© 2012 IBM Corporation 6

Model-based System Identification Cloud の全体像

銀河系内の星を 複数回観測

大量の観測データ

TB or PB クラス)

観測画像

センサのノイズ

衛星の姿勢

熱の変化

・・・

Model-based System Identification

Cloud

システムズモデル

(モデルベースの情報共有)

科学者

星の数学モデル

衛星の数学モデル

・・・

解析担当者

実装

数式の提供

次のプロジェクト への応用

Small-JASMINE JASMINE

解析コードの 生成

分散処理による パラメータ推定

星のパラメータ

(銀河系内の星の 三次元地図)

衛星のパラメータ

(搭載機器等)

パラメータの更新

モデルの実装

得られる結果

モデルの更新

システムズモデルによる モデル管理

This document is provided by JAXA.

(7)

© 2012 IBM Corporation 7

モデル駆動型システムズエンジニアリング

Model Driven Systems Engineering (MDSE)

観測値

宇宙環境のモデル

■環境外乱

■熱

■放射線

■衛星軌道

衛星のモデル

■姿勢

天体のモデル

■視差

■固有運動 搭載機器のモデル

■ミッション機器

■バス機器

■機器の劣化

その他のモデル

■重力レンズ

■光行差

観測値に影響するさまざまな要素の例

JASIMINEプロジェクトの例)

要求から設計まで、システム全体を形式的に記述し、表現するための新しい手法のひとつ

システムズモデル

理学、工学など様々な分野の研究者・開発者の間で、機能・制約・要求・振る舞いなどを共通理解し コミュニケーションするためのモデル

システムズモデルの記述の例

要素をブロックで表現

ブロックの構造や、つながりを ダイアグラムで表現

理学的なモデル 工学的なモデル

This document is provided by JAXA.

(8)

© 2012 IBM Corporation 8

8

システムズモデル – ブロック定義図( Block Definition Diagram, BDD

µ r

µ µ ϖ δ

α , , , α , δ ,

データ解析に用いるブロック定義図(全体像)

星のモデル 姿勢のモデル 較正のモデル

観測値

予測値 データ解析

観測値モデル

Source

Parameters Source Model

データ解析に必要な数式や同定すべきパラメータ、

入力するパラメータなどの要素を、それぞれブロックと して定義し、全体の構成を記述する。

左図は星のモデルの一部で、星のモデルは星のもつ6 個の位置天文パラメータと、星の位置を計算する数式 から構成されていることがわかる

( ) ( ) ( )

[ ]

T

i

u G

ri i i

i i

i t t t A

δ α

δ α

δ

ϖ µ

µ

µα δ

sin sin

cos cos

cos

*

=

+

+

+

= r

b r

q p

r u

This document is provided by JAXA.

(9)

© 2012 IBM Corporation 9

9

システムズモデル – 内部ブロック図( Internal Block Diagram, IBD

星のモデル

姿勢の モデル

較正の モデル

予測値 観測値

- 衛星姿勢 - 位置 - 速度 - 時間 - 星の位置

∑ ( )

+

=

=

= l

M l n

n nB t q

q q q

1 4

3 2 1

a q

( ) <

= +

otherwise t t t t if

Bj j j

0

1 1

0 ,

( ) ( ) B ( )t

t t

t t t

t B t

t t t

B j n

j n j

n j n

j j n j

j n

j 1, 1

1 1

1 1

,

, +

+ + +

+ +

+

+

=

{

n

}

B

q 2sec lql S l,0

f =

ζ

入力 出力

内部の信号フロー

前頁のブロック定義図で定義されたブロック間 のつながりをダイアグラムに記述

観測値モデル

姿勢のモデル(一部)

ブロック (数式)

入力ポート 出力ポート

数式を計算するためのパラメータは、

ブロックのポートとして定義

ブロック間のパラメータの受け渡しは ポート間をリンクでつなげることで 表現

他のブロックか らのリンク

他のブロックへ のリンク

数式を提供する科学者(User)と解析担当者(Vendor の双方が共通理解することのできる形でモデルを管理

This document is provided by JAXA.

(10)

© 2012 IBM Corporation 10

システムズモデル –  Nano-JASMINE の解析モデル

観測値モデル 星の

モデル

姿勢の モデル

較正の モデル

予測値の モデル

姿勢のモデル

姿勢の パラメータ

姿勢の 数式

観測値

データ解析

観測値モデル

星のモデル 星の

パラメータ

星の 数式

BDD(上図)により定義されたブロック同士 の関係性をIBDにて記述する

階層ごとにIBDを作成することで、系統的に 解析モデルを取り扱う

データ解析 解析値モデル 星のモデル 姿勢のモデル

データ解析のBDD

This document is provided by JAXA.

(11)

© 2012 IBM Corporation 11

パラメータ推定のための連立方程式

b x

N ⋅ ∆ =

η

obs

( ) ( ) ( )

( ) ( )

( ) ( )

+ +

+

+

+

+

+

=

2 4 2 3 2 2 2 1 4 1 3 2 4 2 3 1

4 1 3 2 2 4 2 3 2 2 2 1 4 3 2 1

4 2 3 1 4 3 2 1 2 4 2 3 2 2 2 1

2 2

2 2

2 2

q q q q q q q q q q q q

q q q q q q q q q q q q

q q q q q q q q q q q q fq

( )

=

z y x

u u u fq δ

δ η

δ η

sin cos sin

cos cos

+ ( )

=

=

= l

M l n

n nBt q q q q

1 4 3 2 1

a q ( )= < +

otherwise t t t t if

Bj j j

0

1 1

0 ,

( ) ( ) B ( )t

t t

t t t tB t

t t t

B jn

j n j

n j n j j n j

j n

j 1,1

1 1

1 1 ,

, +

+ + +

+ +

+

+

=

( ) i (B ep)(i i ir) i G( ) u

it r t t p q r b t A

u = + µα+ µδ+ µ ϖ

( )

( uh)

h u

u +

+ +

=

h h

GSc2

ˆ 1γ

( )

e e c u

u u

z y

x 1

ˆ ˆ 1

+

+ +

=

= u v uv

u

最小二乗法による定式化

(User側から提供)

システムズモデル による管理

観測値 予測値

システムズモデルの一部

(観測値が入力されると、観測値と 予測値との差分が計算される)

データの流れ

predict

η

Nはn×nの対称行列

nはパラメータ数 ⊿xを求めたいが、パラメータ数が多いため反復法で計算

パラメータ推定の流れ

行列N107×107)の生成

N x=b⊿ の式より⊿xを反復法により求める

⊿xによりパラメータを更新

行列N 107×107)の生成

・・・・

大規模なデータに対応するため クラウドコンピューティングによる

分散処理

を実装 モデルさえ記述すれば、

解析コードは自動的に生成できる

( )

obs predict

l

l l l i

l l l

R

W p R d R

p W R p R

η

η −

=

− ∂

 =

 

∂ ′

c a s, ,

This document is provided by JAXA.

(12)

© 2012 IBM Corporation 12

Model-based System Identification Cloud の全体像

銀河系内の星を 複数回観測

大量の観測データ

TB or PB クラス)

観測画像

センサのノイズ

衛星の姿勢

熱の変化

・・・

Model-based System Identification

Cloud

システムズモデル

(モデルベースの情報共有)

科学者

星の数学モデル

衛星の数学モデル

・・・

解析担当者

実装

数式の提供

次のプロジェクト への応用

Small-JASMINE JASMINE

解析コードの 生成

分散処理による パラメータ推定

星のパラメータ

(銀河系内の星の 三次元地図)

衛星のパラメータ

(搭載機器等)

パラメータの更新

モデルの実装

得られる結果

モデルの更新

分散処理による パラメータ推定

This document is provided by JAXA.

(13)

© 2012 IBM Corporation 13

13

Hadoop

Map Phase

現在の構成

大規模疎行列の生成部分にはHadoop MapReduceを利用 反復法にてパラメータを解く部分にはGPGPUを利用

Observatory Data (CSV)

Distributed Database (hBase)

Compute Matrix Element

Splitted File

Compute Matrix Element

Splitted File

Compute Matrix Element

Splitted File

Reduce Phase

Shuffle By Key

Construct Matrix by aggregating the results

Construct Matrix by aggregating the results

Construct Matrix by aggregating the results

Construct Matrix by aggregating the results

Matrix Solver

Solve generated Matrix by CG method

GPGPU computing

This document is provided by JAXA.

(14)

© 2012 IBM Corporation 14

疎行列の分割と格納形式の選択

b x

N ⋅ ∆ =

星の パラメータ

姿勢の パラメータ

較正の パラメータ

星の パラメータ

姿勢の パラメータ

較正のパラメータ

星・姿勢・較正それぞれで疎行列の特性が大きく異なる 大規模疎行列を効率よく解くために

疎行列の分割

それぞれに対して格納形式を選択

システムズモデルからは以下の情報が得られる

パラメータの数

パラメータ同士の関係性

疎行列の非ゼロ要素位置を導出

0 5 10 15 20 25

Data1 Data2 Data3 Data4

 [秒]

提案手法 従来法

DIA ELL CSR

CSR DIA

CSR CSR CSR CSR

選択された格納形式

(比較したものは全てCSRで格納)

分割生成された疎行列

格納形式の判別に利用することで約2倍の効率化を実現

7×10-6

3×10-6 9×10-4

9×10-4

星の個数を3000,7000,15000,21000させた サンプルデータ解析の結果(toy model)

This document is provided by JAXA.

(15)

© 2012 IBM Corporation 15

まとめ

科学者(User)の様々な要求に対応するため、モデル駆動型システムズエンジニアリングに基づくモデ ル管理、データ解析のフレームワークを提案

– Model-based Systems Identification Cloud

大規模複雑なデータ解析の一例として、位置天文観測衛星Nano-JASMINEのデータ解析に適用解析モデルの生成

– Hadoop MapReduceによる疎行列生成

– GPGPUを用いた反復法によるパラメータ推定

現状は、別途数値解析により用意したサンプルデータを入力データとして、検証中

今後は実機から得られるデータの利用、Small-JASMINE等他のプロジェクトの検討への利用を検討 – HILSHardware In the Loop Simulator

軌道上データ(2013年打ち上げ後)

This document is provided by JAXA.

参照

関連したドキュメント

We analyzed the sinogram obtained from the profile data of each image and calculated the true rotational center.. Axial images were reconstructed using filtered

そのような発話を整合的に理解し、受け入れようとするなら、そこに何ら

(J ETRO )のデータによると,2017年における日本の中国および米国へのFDI はそれぞれ111億ドルと496億ドルにのぼり 1)

名の下に、アプリオリとアポステリオリの対を分析性と綜合性の対に解消しようとする論理実証主義の  

ベクトル計算と解析幾何 移動,移動の加法 移動と実数との乗法 ベクトル空間の概念 平面における基底と座標系

振動流中および一様 流中に没水 した小口径の直立 円柱周辺の3次 元流体場 に関する数値解析 を行った.円 柱高 さの違いに よる流況および底面せん断力

地盤の破壊の進行性を無視することによる解析結果の誤差は、すべり面の総回転角度が大きいほ

[r]