• 検索結果がありません。

StarBED を用いた大規模ネットワーク における分散システム検証 National Institute of Information and Communications Technology 原井洋明 情報通信研究機構 光ネットワーク研究所ネットワークアー

N/A
N/A
Protected

Academic year: 2021

シェア "StarBED を用いた大規模ネットワーク における分散システム検証 National Institute of Information and Communications Technology 原井洋明 情報通信研究機構 光ネットワーク研究所ネットワークアー"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

© National Institute of Information and Communications Technology

StarBED を用いた大規模ネットワーク

における分散システム検証

原井 洋明 (harai@nict.go.jp)

情報通信研究機構

光ネットワーク研究所 ネットワークアーキテクチャ研究室長

実験実施者:藤川賢治 、戸室知二、田崎創、大西真晶、森岡和行、福島裕介

2015年10月20日

新世代ネットワーク推進フォーラム

第22回テストベッドネットワーク推進WG

(2)

StarBEDといえば、、、。

• プロジェクトでは纏まった数のサーバ調達が困難

• 1000台を超える実機を用いて検証ができる

• 発表者の研究室スタッフの充実に伴ない、使わせて戴くことにした

方式

検討

シミュレーショ

ン検証

ソフトウェア

ハードウェア

開発

実験室

小規模検証

大規模

エミュレーション

検証

大規模検証

数学的検証

テストベッド

(3)

© National Institute of Information and Communications Technology

利用したStarBEDサーバ

3

グループ名

PCサーバの型式

設置数 導入年

利用数

NEC Express5800 110Rg-1 168 2006 HA R HI

Proside Amazelast neo920 150 2007

HP ProLiant DL320 G5p

240

2009

80

Cisco UCS C200 M2

192 2011

60

Cisco UCS C200 M2

82* 2011

10

Cisco UCS C200 M2

144

2011

10

20

Cisco UCS C200 M2

120

2011

100 60 100

M

Cisco UCS C200 M2

14

2011

N

DELL PowerEdge C6220

224

2013

10

O

SeaMicro SM15000-XE

64

2013

(4)

講演の内容

• 研究の方向性と内容

• StarBED

3

をさまざまな分散システムの検証に

• 階層型自動番号割当 HANA

• インターネット規模でサーバ協調によりアドレス空間

を配布

• 局所情報を用いた分散経路制御

• リンク・ノードのjoin/leaveが時々刻々と変動する環

境で全域情報の把握に頼らず到達性を求める

• ID・ロケータ分離機構 HIMALIS

• 故障時の経路切替検証

何度もStarBED を利用させていただき、

改めて、この場をお借りして御礼申し上げます

(5)

© National Institute of Information and Communications Technology

将来ネットワーク ITU-T勧告Y.3001

• 4つの目的

• 12個の設計目標

Rec ITU-T Y.3001, Future Networks: Objectives and Design Goals

Service

awareness

Data

awareness

Social and

economic

awareness

Environmental

awareess

Energy Consumption

Optimization

Service Universalization

Economic Incentives

Service Diversity

Functional Flexibility

Virtualization of Resources

Network Management

Mobility

Reliability and Security

Data Access

Identification

(6)

ネットワークアーキテクチャ研究室

研究開発ターゲット

Mobility

Data Access

Identification

Energy Consumption

Service Diversity

Functional Flexibility

Network Management

Reliability

Reliability and Security

Mobility

Data Access

(7)

© National Institute of Information and Communications Technology

ネットワーク設定が煩わしい...

大規模ネットワーク構築で設定ミスしたら

たいへんですね・・・

ネットワーク構築がメンドーで

しょ?

消費者向けサービス事業で、総務省に報告さ

れる規模の事故で人為要因は2013年133件

(全体の2%)

IP アドレス

割当

接続ポート

タグ付け

VLAN割当

冗長化

保全対策

ネットワーク

更改

安全対策

ネットワーク

増設

収容SW

ポート番号 サーバホスト名

備考

グループ

0/1

HRKc302kssv0100

1

0/2

HRKc302kssv0200

1

0/3

HRKc302kssv0300

1

0/4

HRKc302kssv0400

1

0/5

HRKc302kssv0500

1

0/6

HRKc302kssv0600

1

0/7

HRKc302kssv0700

1

0/8

HRKc302kssv0800

1

0/9

HRKc302kssv0900

1

0/10

HRKc302kssv1000

1

0/11

HRKc302kssv1100

1

0/12

HRKc302kssv1200

2

0/13

HRKc302kssv1300

2

0/14

HRKc302kssv1400

2

0/1

HRKc303kssv0100

2

0/2

HRKc303kssv0200

2

0/3

HRKc303kssv0300

2

0/4

HRKc303kssv0400

2

0/5

HRKc303kssv0500

2

0/6

HRKc303kssv0600

2

0/7

HRKc303kssv0700

2

0/8

HRKc303kssv0800

2

0/9

HRKc303kssv0900

3

0/10

HRKc303kssv1000

3

0/11

HRKc303kssv1100

3

0/12

HRKc303kssv1200

3

0/13

HRKc303kssv1300

3

HRKc302pf400100

サーバ本体

赤シールのポート

HRKc303pf400100

確認、確認、

指差し確認

ホスト名

IP

GW IP

HRKc104krsv0100

10.192.127.20

10.192.127.254

HRKc104krsv0101

10.192.127.1

10.192.127.254

HRKc104krsv0102

10.192.127.2

10.192.127.254

HRKc104krsv0103

10.192.127.3

10.192.127.254

HRKc104krsv0104

10.192.127.4

10.192.127.254

HRKc104krsv0105

10.192.127.5

10.192.127.254

HRKc104krsv0106

10.192.127.6

10.192.127.254

HRKc104krsv0107

10.192.127.7

10.192.127.254

HRKc104krsv0108

10.192.127.8

10.192.127.254

HRKc104krsv0109

10.192.127.9

10.192.127.254

HRKc104krsv01ma

10.192.127.17

10.192.127.254

KHNcd02krsv0100

10.194.127.20

10.194.127.254

KHNcd02krsv0101

10.194.127.1

10.194.127.254

KHNcd02krsv0102

10.194.127.2

10.194.127.254

KHNcd02krsv0103

10.194.127.3

10.194.127.254

KHNcd02krsv0104

10.194.127.4

10.194.127.254

7

(8)

階層型自動番号割当 [HANA]

人手をかけず稼働率の高いネットワークを構築する技術

ロケータ上位部

ロケータ上位部

ロケータ下位部は

ネット内部で割当

複数のロケータ上位部と

組合せ、ロケータを割当

特長

• 同時複数経路で耐障害性向上

• 自動割当で管理者負担軽減

PC千台の網で番号設定負担 1/100

• アドレス更新も簡単

• IPv4でも、もちろんIPv6でも

• 小さな経路表で網安定と

省エネ

ネットワーク検証実績

• JGN-Xにネットワーク構築、動作検証

• 46,000ネットワークでの動作検証

• SDNとの連携

• 耐災害の観点からの検証

 ZebOS

 AX-OS

(9)

© National Institute of Information and Communications Technology

9

StarBED

3

におけるHANA検証 (2011年)

• 10,000 AS エミュレーション

• Debian GNU/Linux 6.0の LXC に実装

Locator Assign Visualization

Setup Time

Control Overhead(10K AS)

Emulation on StarBED

3

Group H 80 nodes (HP ProLiant DL320)

Group L 100 nodes (Cisco UCS C200 M2)

K. Fujikawa, H. Tazaki, H. Harai, SAINT2012

(10)

HANAを、北陸StarBED技術センターの皆様に

宣伝いただきました。御礼申し上げます。

「これが世界最大規模のテストベッドの全貌だ:

潜入! 北陸StarBED技術センター」

IT Media Inc 記事 @IT Master of IP Network (2013.3.26)

記事によると「すでに1万ASでの検証は完了し、今は

3万6000ASで

の大規模検証が行われている

」とのこと。。。

発表文献をくださいと聞かれる...

やるにはやったんですが、発表はStarBEDのこの会までとっておきました

(11)

© National Institute of Information and Communications Technology

HANAのインターネット規模性検証

(2012~)

• 実インターネットAS規模の46,000ノードでHANAを稼動

• ノード間でのアドレス空間割当動作を検証

• IPv4およびIPv6アドレス体系ともに検証

• 制御量はAS平均10kbps

HANA 実験の構造

(CAIDAの実測データベースより作成)

最上位 AS数

821

中間 AS数

6,234

最下位 AS数

39,122

合計 AS 数

46,177

親を沢山もつASの親数

44

子を沢山もつASの子数

4,275

BGPで利用するリンク数

177,397

HANAで利用するリンク数

81,661

最下位ASへのアドレス空間割当

StarBED3 で利用した10 機の物理サーバの諸元

CPU Intel Xeon E5 2650 (2.00GHz 8 core ) x 2

Memory 128 GB (DDR3-1333)

機器毎のHANA

制御メッセージ量

平均値:ASごと10kbps

リンクごと6kbps

(12)

Simulation Example

(1) Initial Status

AS1: 1/8

AS2: 2/8

Each administrator of

top-level ASes assigns

(13)

© National Institute of Information and Communications Technology

Simulation Example

(2) TCP connection

TCP connection

established

(14)

Simulation Example

(3) Midfix allocation

M:0.1/8-16

M:0.1/8-16

(15)

© National Institute of Information and Communications Technology

Simulation Example

(4) Prefix distribution

P:1/8

P:2/8

(16)

Simulation Example

(5) TCP connection

TCP connection

established

TCP connection

(17)

© National Institute of Information and Communications Technology

Simulation Example

(6) Midfix allocation

M:0.0.1/16-24

M:0.0.1/16-24

M:0.0.2/16-24

(18)

Simulation Example

(7) Prefix distribution

P:1.1/16

P:1.1/16

P:2.1/16

P:2.2/16

P:2.2/16

(19)

© National Institute of Information and Communications Technology

Simulation Example

(8) Prefix is changed

Administrator

changes prefix

from 1/8 to 3/8.

(20)

Simulation Example

(9) Changed prefix

distribution

P:3.1/16

P:3.2/16

P:3/8

(21)

© National Institute of Information and Communications Technology

HANAのインターネット規模性検証

(可視化)

最下位ASへのアドレス空間割当

全体へのドレス空間割当

(22)

20VMs

StarBED利用者向けネットワークを

HANAで構築

• 階層的なIPネットワークをStarBEDで簡単に構築できるようになりました

• 実験の自由度が広がります

VM

VM

VM

VM

VM

VM

VM

VM

VM

L2SW

TOP HANA

Router

物理ノード

10台(200台まで拡張可能)。VMは計200台(計4,000台)

HANA

Router

Router

HANA

Router

HANA

172.16.

1

.0/24

172.16

.2

.0/24

172.16.

10

.0/24

L2スイッチは物理ノードの個数分

(10~200個)のMACアドレスを学習

L2SW

Server

DHCP

L2スイッチは、最大4,000個のMACア

ドレス学習が必要。障害切分けも困難

DHCPサーバもしくはネットワーク管

理者がアドレスを設定

従来までのフラットな構成

172.16.0.0/16

HANAがアドレスを自動設定。

外部接続時にリナンバリングや

マルチホーム構成も容易。

(VMの一つにより実装)

(23)

© National Institute of Information and Communications Technology

局所情報を用いた分散経路制御

ドロネーオーバレイ迂回ルーティング

• 災害時等トポロジーが変動する

• ネットワークの全体トポロジを把握せずに経路表を構築

• 全方位の近隣ノードに対してのみ経路表を作成

• 位置座標に基づいてデータを目的地に近い方向へ転送

• 近隣だが転送の仕組み上、到達不能の場所がある

• 近隣だが物理制約上、到達不能の場所がある

• 迂回経路を作る => 局所の情報で作る

• JAVA VM を用いた実装の2,500ノード検証

Cisco UCS C200 M2 を最大125機

 CPU Intel Xeon X5670 (2.93GHz 6 core ) x 2

 Memory 48 GB

Cf) M. Ohnishi, H. Harai, APSITT 2015.

(24)

ID通信機構 HIMALIS のホスト2000台

規模ネットワーク構築

ホスト2,000台規模検証環境

Cisco UCS C200 M2 (グループ K, L)

HG1-2

AAR1

LNS1

HNR1

DNR

HG2-2

HG3-2

AAR2

LNS2

AAR3

LNS3

MH

CH

RT3

RT1

RT2

RT4

Edge Network1

Edge Network2

Edge Network3

Transit Network

IPv6

IPv4

IPv4

IPv4

HG1-1

HG2-1

HG3-1

100 nodes

・・・

モバイルホスト

20VMs/node

4-hop 平均

RTT 706 µs

2-hop 平均

RTT 283 µs

Cf) Y. Fukushima et al., ICUFN 2014.

400 600 800 1000 1200 Pa ck e t I D 1 2 3 4 5 6 7 8 9 10 Time (s) (Received by CH) Send to HG1-1 (Droped packet)

Link failure injected

1st PT expired

2nd PT expired 3rd PT expired Handover Initialize PT Send to HG1-2 Send to HG1-2 (Received by CH) complete (Failure detected)

X

2000 2200 2400 2600 2800 2 4 6 8 10 12 Pa cke t ID Time (s) Link failure injected 1st PT expired

2nd PT expired 3rd PT expired Handover Initialize PT (Failure detected) complete

(Received by CH) Send to HG1-2 (Droped packet) Send to HG2-1 Send to HG2-1 (Received by CH)

X

1674 1676 1678 1680 1682 23.15 23.2 23.25 23.3 P a ck e t ID Time (s) 3rd PT expired failure detected switch from HG1-2 to HG1

location update for CH

packet redirection received datagrams 16 18 20 22 24 26 28 800 1000 1200 1400 1600 1800 2000 2200 2400 P a ck e t ID Time (s) Recv (Dump) Send (Dump) Recv (ID layer) Send (ID layer)

link failure injected

1st PT expired

2nd PT expired 3rd PT expired (failure detected)

recovery complete

received datagrams

path failure detection

lively path exploration

path recovery

• IPアドレスに依存しない通信、モビリティ、マルチホーム、認証、故障回復

• 通信障害検知・回復等のゲートウェイ間連携、レジストリ間連携など分散シ

(25)

© National Institute of Information and Communications Technology

HIMALISシグナリングストームの検出・改善

HNR

Edge Network

Transit Network

認証サーバ

ネームレゾルバ

HIMALISの認証付き制御プレーン

HG

名前解決

アクセス制御

ロケータ割振り

ホスト認証

位置情報

更新

20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Time [s]

locator allocation (DHCP)

host registration

host authentication

location update

ノード番号

ロケータ割振り (DHCP)

ホスト認証

ローカルホスト登録

位置情報更新

ホスト100台のネットワーク接続 (2014年4月時点)

 認証サーバ、ネームレゾルバの負荷増大によ

る接続シーケンスの爆発 (ストーム) を検出

=> ソフトウェアの改善策導出

 ホスト1,000台の接続を確認 (2015年現在)

mh 1 1.5 2 2.5 3 3.5 Time [s]

locator allocation (DHCP) host registration host authentication location update

ホスト1台のときのネットワーク接続時間 (秒)

1 1.5 2 2.5 3 3.5

ホ ス ト 2 千 台 の

ID・ロケータ情報

登録・検索

HG

25

発表者都合により非公開

ホスト認証の負荷増大により、接続

シーケンスタイムアウト・再接続多発

(26)

StarBED

3

利用 Tips (2013年12月)

• ノード操作がより簡単に、ディスク読み書込み速度が改善

• 今年度操作スクリプト一新、350GBのディスクコピーが2時間程度

• 以前は、信用のおける定量データがないので感覚で、割当てマシンスペックに大きく依

存と思いますが、2011年ごろのマシンでは終夜ディスクコピーしてた(250GB以上と思

います)。

• 100台使用すると数台は同じ作業を行っても結構な割合で不具合あると感じる

• 理由は色々:ディスク障害、メモリ障害、NIC、BIOS設定不備など)。

• 利用要望書は早め提出、時間が足りない時は延長申請可

• 来月の利用申請は毎月15日、2013年度現在の利用要望は300%超

• KVMコンソールが応答しない、昨日できたことができないとき

• StarBED側の問題である可能性大、すぐに連絡、あまり頑張らない

一部非公開

(27)

© National Institute of Information and Communications Technology

まとめ

• 分散システムの大規模検証

• 階層型自動番号割当 HANA

• 局所情報経路制御

• ID・ロケータ分離 HIMALIS

• レイヤ3のネットワークを組む際のアドレッシングが煩

わしい方、ご相談ください

• 新世代ネットワークの研究開発に大規模なサーバ群を

用いた検証は不可欠

• 動作実績

• 性能面でのバグ検出

• 5G、IoT など数が必要な場面は登場している

27

(28)

関連文献

• K. Fujikawa, H. Harai, and M. Ohta, “The Basic Procedures of Hierarchical Automatic

Locator Number Allocation Protocol HANA,” Proc. Asia Workshop on Future Internet

Technologies (AWFIT 2011), pp. 124--131, October 2011.

• K. Fujikawa, H. Tazaki, H. Harai, “Inter-AS Locator Allocation of Hierarchical

Automatic Number Allocation in a 10,000-AS Network, ”Proc. SAINT 2012, July 2012.

• M. Ohnishi, M. Inoue, and H. Harai, “Incremental distributed construction method of

Delaunay overlay network on detour overlay paths,” Journal of Information

Processing (JIP), Vol. 21, No. 2, February 2013.

• M. Ohnishi and H. Harai, "Delaunay Overlay Network Construction Method for

Super-Wide Area Disaster Situations," APSITT 2015 (10th Asia-Pacific Symposium on

Information and Telecommunication Technologies), pp. 88—90, August 2015.

• V. P. Kafle, R. Li, D. Inoue, H. Harai, "Design and Implementation of Security for

HIMALIS Architecture of Future Networks," IEICE Transactions on Information and

System 2013, Vol. E96-D, No. 2, pp. 226--237, February 2013.

• Y. Fukushima, V. P. Kafle, T. Tomuro, and H. Harai, “Implementation of

Communication Path Recovery Mechanism in a Multihomed ID/Locator-split

Network,” The Sixth International Conference on Ubiquitous and Future Networks

(ICUFN 2014), pp.322—327, July 2014.

参照

関連したドキュメント

情報理工学研究科 情報・通信工学専攻. 2012/7/12

Research Institute for Mathematical Sciences, Kyoto University...

瀬戸内千代:第 章第 節、コラム 、コラム 、第 部編集、第 部編集 海洋ジャーナリスト. 柳谷 牧子:第

【 大学共 同研究 】 【個人特 別研究 】 【受託 研究】 【学 外共同 研究】 【寄 付研究 】.

山階鳥類研究所 研究員 山崎 剛史 立教大学 教授 上田 恵介 東京大学総合研究博物館 助教 松原 始 動物研究部脊椎動物研究グループ 研究主幹 篠原

人類研究部人類史研究グループ グループ長 篠田 謙一 人類研究部人類史研究グループ 研究主幹 海部 陽介 人類研究部人類史研究グループ 研究員

世界規模でのがん研究支援を行っている。当会は UICC 国内委員会を通じて、その研究支

世界規模でのがん研究支援を行っている。当会は UICC 国内委員会を通じて、その研究支