• 検索結果がありません。

インターネット計測とデータ解析第 7 回 前回のおさらい

N/A
N/A
Protected

Academic year: 2021

シェア "インターネット計測とデータ解析第 7 回 前回のおさらい"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

インターネット計測とデータ解析 第 7 回

長 健二朗

2011

6

22

(2)

前回のおさらい

インターネットの特徴量を計る

I

遅延、パケットロス、ジッタ

I

フロー計測

I

相関と多変量解析

I

主成分分析

I

演習

:

多変量と相関

(3)

今日のテーマ

インターネットの多様性と複雑さを計る

I

サンプリング

I

統計解析

(

ヒストグラム、大数の法則

)

I

演習

:

ヒストグラム、

CDF

I

課題

2

3 / 31

(4)

複雑さ

複雑さの科学

I

多数の因子が相互に影響して複雑な挙動を示すシステム

I

世界は複雑系に満ちている

I

従来の還元主義的手法で解析が困難

I

複雑な現象を複雑なまま理解する必要

I 90

年台から盛んに研究

I

還元主義的手法で解ける未解決な問題が減ってきた

I

コンピュータによる解析やシミュレーション

(5)

インターネットの複雑さ

トポロジーの複雑さ

I

スケールフリー

:

ノードの次数にべき乗則の偏り

I

多数の小次数ノードと少数の大次数ノード

I

平均的なサイズがない

I

スモールワールド

:

I

コンパクト: 任意のノード間の距離は短い

I

クラスタ: 友達の友達は友達 トラフィックの挙動

(

時系列解析

)

I

自己相似性

I

長期依存性

5 / 31

(6)

ロングテール

オンライン小売サービスのビジネスモデル

I

ヘッド

:

少数の売れ筋商品、リアルの店舗の守備範囲

I

テール

:

多様な売上下位商品、オンライン店舗の売上の特徴 いまでは多様なニッチマーケットを指す言葉として広く使われる

source: http://longtail.com/

(7)

インターネットの AS 構造の例

CAIDA AS CORE MAP 2009/03

I AS

の登録都市の経度、

AS

out-degree

http://www.caida.org/research/topology/as core network/

7 / 31

(8)

ネットワークトラフィックの自己相似性

I (

)

指数関数モデル

(

)

実トラフィック

(

)

自己相似モデル

I

時間粒度

: (

)10sec (

)1 sec (

)0.1 sec

0 20 40 60 80 100

Time (10sec) 0

5000 10000 15000

Packet flow (byte)

0 20 40 60 80 100

Time (1sec) 0

500 1000 1500

Flow density

0 20 40 60 80 100

Time (0.1sec) 0

50 100 150

Flow density

0 20 40 60 80 100

Time (1sec) 0

500 1000 1500

Flow density

0 20 40 60 80 100

Time (0.1sec) 0

50 100 150

Flow density

0 20 40 60 80 100

Time (0.1sec) 0

50 100 150

Packet flow

0 20 40 60 80 100

Time (1sec) 0

500 1000 1500

Packet flow

0 20 40 60 80 100

Time (10sec) 0

5000 10000 15000

Flow density

0 20 40 60 80 100

Time (10sec) 0

5000 10000 15000

Flow density

(9)

インターネットのデータの多様性

I

観測する場所によって異なる挙動が見える

I

国、地域、時間

I

企業と大学と家庭、バックボーンとアクセスネットワーク

典型的なネットワークは存在しない

I

多様性をどうやって計るか、表すか

I

どうサンプリングするか

9 / 31

(10)

サンプリング

I

全数調査

:

ほとんどの場合は非現実的

I

サンプリングが必要になる

インターネット計測におけるサンプリング

I

測定場所

I

時間、期間

I

パケット、フロー

(11)

パケットのサンプリング方法

I

カウンタベースの

1/N

サンプリング

(

決定論的

)

I

実装が簡単、広く使われている

I

測定対象と同期してしまう可能性

I

確率的

1/N

サンプリング

I

パケットごとにサイコロを振って決める

I

時間によるサンプリング

I

例: 毎時最初の

1

分を計測

I

フローベースのサンプリング

I

新しいフローは確率的にサンプル

I

選んだフローのパケットは全部測定

I

フローの挙動解析が可能

I

他にも様々な方法が存在

11 / 31

(12)

サンプリング : 標本と母集団

要約と推測

I

要約統計量

(

平均、標準偏差など

)

は分布の特徴を要約して表 す数値

I

推測統計は標本

(

サンプル

)

から母集団の性質を統計的に推測 する

母集団

(population):

全体のデータ、多くの場合入手不可能

I

標本

(sample)

から母集団の性質を推定する必要

I

変数

:

母集団の特徴

(

固定

)

I

統計

:

標本からの推定値

(

ゆらぎを持つ変数

)

population samples

estimate

estimate

(13)

期待値

確率変数

X

の期待値

E (X ) (

平均を表す

)

I

離散型

E (X ) = µ =

n

i =1

x i p i

I

連続型

E(X ) = µ =

−∞ xf (x)dx

期待値の性質

I E (c ) = c

I E (X + c ) = E (X ) + c

I E (cX ) = cE (X )

I E (X + Y ) = E (X ) + E (Y )

13 / 31

(14)

標本平均

I

標本平均

(sample mean): ¯ x

¯ x = 1

n

n

i=1

x i

I

標本分散

(sample variance): s 2 s 2 = 1

n 1

n i =1

(x i x) ¯ 2

I

標本標準偏差

(sample standard deviation): s

I

:

二乗和を

n

ではなく

(n 1)

で割る

I

自由度

(degree of freedom):

二乗和の独立変数は

x ¯

があるた め

1

減る

(15)

大数の法則と中心極限定理

大数の法則

I

サンプル数が増えるに従い標本平均は母平均に近付く 中心極限定理

I

元の分布に関わらず

(

十分なサンプル数があれば

)

標本平均は 近似的に正規分布に従う

N(µ, σ 2 /n)

I

母集団が正規分布の場合は、

n

が小さくてもこの関係が成立 する

15 / 31

(16)

標準誤差 (standard error)

標準誤差

:

標本平均の標準偏差

(SE ) SE = σ/

n

I

サンプル数

n

を増やすと精度が改善

I

標準誤差は

1/

n

(ゆっくり)

減少

I

正規母集団

N(µ, σ)

から取った標本平均の分布は平均

µ

標準 偏差

SE = σ/

n

の正規分布となる

(17)

正規分布 (normal distribution)

I

つりがね型の分布、ガウス分布とも呼ばれる

I 2

つの変数で定義

:

平均

µ

、分散

σ 2

I

乱数の和は正規分布に従う

I

標準正規分布

: µ = 0, σ = 1

I

正規分布ではデータの

I 68%は (mean ± stddev )

I 95%は (mean ± 2stddev)

の範囲に入る

0 0.2 0.4 0.6 0.8 1

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(x)

x exp(-x**2/2) mean

median

68%

95%

17 / 31

(18)

ヒストグラム (1/2)

変数の分布の仕方を見る

I

データを同じ幅のビンに分ける

I

各ビンのデータ数を数える

I X

:

ビンの値

Y

:

データ数

0 50 100 150 200 250

-4 -3 -2 -1 0 1 2 3 4

frequency

normalized traffic volume

(19)

ヒストグラム (2/2)

ヒストグラムから分かる事

I

分布の中心

(

位置

)

I

分布の広がり

I

分布の偏り

I

外れ値の存在

I

複数のモードの存在

(

山が複数あるか

)

ヒストグラムの制約

I

適切なビン幅を選ぶ必要

I

小さ過ぎると各ビンのサンプル数が足りなくなる

I

大き過ぎると分布の詳細が分からない

I

偏りの大きい分布では適切なビン幅の選択は難しい

I

十分なサンプル数が必要

19 / 31

(20)

ビン幅の決め方

スタージェスの方法

:

ビン数

k

、サンプル数

n k = log 2 n + 1

スコットの方法

:

ビン幅

h

、標準偏差

σ

、サンプル数

n h = 3.5σ

n 1/3

I

あくまでも目安、分布の形状や変数の意味から読み易さを優 先する

(21)

確率密度関数 (probability density function; pdf)

I

合計面積が

1

となるように出現数を正規化

I

出現数を

(総データ数 x

ビン幅)で割る

I

確率密度関数

:

確率変数

X

x

という値をとる確率

f (x) = P [X = x]

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

-4 -3 -2 -1 0 1 2 3 4

pdf

normalized traffic volume 21 / 31

(22)

累積分布関数 (cumulative distribution function; cdf)

I

密度関数

: x

をいう値を観測する確率

f (x) = P [X = x]

I

累積分布関数

: x

以下の値を観測する確率

F (x) = P [X <= x]

I

分布の偏りが大きい、サンプル数が少ない、外れ値が無視で きない場合などは、ヒストグラムより有効

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-4 -3 -2 -1 0 1 2 3 4

cdf

(23)

ヒストグラムと CDF の比較

I CDF

の場合、ビン幅やサンプル数不足を考慮しなくていい

0 200 400 600 800 1000 1200 1400 1600 1800

300 400 500 600 700 800 900 1000

histogram

response time (msec) ping rtt

0 2 4 6 8 10 12 14 16 18

300 400 500 600 700 800 900 1000

histogram

response time (msec) requests: 8640

replies: 8606

average: 251 ms

min: 194 ms

10th: 195 ms

50th: 196 ms

90th: 376 ms

max: 20481 ms

loss rate: 0.4%

ping rtt

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

300 400 500 600 700 800 900 1000

CDF

response time (msec) 8241 samples

100 samples

(左)

元データ

(右)100

サンプル

(下)CDF

23 / 31

(24)

相補累積分布関数 (CCDF)

Complementary Cumulative Distribution Function (CCDF)

べき分布は分布のテイル部分

(

値の大きい要素

)

に特徴

CCDF: x

より大きい値の合計が全体に占める割合

F (x) = 1 P [X <= x]

I CCDF

はログログスケールで描画

I

テイル部分の分布や、スケールフリーな性質を見る

(25)

CCDF の例

I

元データとサンプルのテイル部分の比較

0.0001 0.001 0.01 0.1 1

1000

CCDF

response time (msec)

8241 samples 100 samples

25 / 31

(26)

演習 : ヒストグラムと CDF

I

ある市民マラソンの完走タイムの分布

(

2

回授業演習

)

I

今回は

CDF

をプロットする

0 20 40 60 80 100 120 140 160 180

120 140 160 180 200 220 240

count

finish time (minutes)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

120 140 160 180 200 220 240

CDF

finish time (minutes)

(27)

演習 : ヒストグラムと CDF ( つづき )

I

ある市民マラソンの完走タイムの分布

(

2

回授業演習

)

I

今回は

CDF

をプロットする

original:

# Minutes Count 133 1

134 7 135 1 136 4 137 3 138 3 141 7 142 24 ...

add cumulative count:

# Minutes Count CumulativeCount 133 1 1

134 7 8 135 1 9 136 4 13 137 3 16 138 3 19 141 7 26 142 24 50

... 27 / 31

(28)

課題 2

I

課題

2:

最短経路木の計算、距離の分布と次数分布のプロット

I

ねらい

:

トポロジーデータから特徴量を抽出しプロット

I

データ

: AS

トポロジー

(as-topology.txt)

I CAIDA

skitter

データから

AS

の隣接情報を抽出したデータ

I

提出項目

1.

慶應

(38635)

から他の

AS

への距離

(ホップ数)

の分布のプ ロット

I

慶應からの最短経路木を計算し、全ノードへの距離を求める

2.

この距離の分布を求めるスクリプト

I

演習

2

のスクリプト実行結果を変換してもよい

3. AS

の次数分布の散布図

I X

軸は次数

(

ログスケール

)

Y

軸はノード数

4. AS

の次数分布の

CCDF

プロット

I X

軸は次数

(

ログスケール

)

Y

軸は

CCDF 5.

この次数分布の

CCDF

を求めるスクリプト

I

提出形式

:

レポートをひとつの

PDF

ファイルにして

SFC-SFS

から提出

I

提出〆切

: 2011

7

8

(29)

課題 2 データ : AS トポロジー (as-topology.txt)

I AS

間の隣接関係

(23,660 nodes, 65,679 edges)

I

エッジは無向、コストはすべて

1

としている

3 - 27724 1 3 - 291 1 3 - 3356 1 12 - 3754 1 13 - 668 1 14 - 3356 1 17 - 6503 1 18 - 6922 1 20 - 3356 1 22 - 668 1 24 - 127 1 25 - 2152 1 29 - 10578 1 32 - 174 1 ...

29 / 31

(30)

まとめ

インターネットの多様性と複雑さを計る

I

サンプリング

I

統計解析

(

ヒストグラム、大数の法則

)

I

演習

:

ヒストグラム、

CDF

I

課題

2

(31)

次回予定

8

回 ロングテールとさまざまな分布

(6/26)

I

正規分布

I

その他の主要な分布

I

信頼区間と検定

I

演習

:

分布の生成、信頼区間

31 / 31

参照

関連したドキュメント

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

水平方向設計震度 機器重量 重力加速度 据付面から重心までの距離 転倒支点から機器重心までの距離 (X軸側)

• AF/AE ロック機能を使って、同じ距離の他の被写体にピントを 合わせてから、構図を変えてください(→ 43 ページ)。. •

「欲求とはけっしてある特定のモノへの欲求で はなくて、差異への欲求(社会的な意味への 欲望)であることを認めるなら、完全な満足な どというものは存在しない

敷地と火山の 距離から,溶 岩流が発電所 に影響を及ぼ す可能性はな

敷地と火山の 距離から,溶 岩流が発電所 に影響を及ぼ す可能性はな

敷地からの距離 約48km 火山の形式・タイプ 成層火山..

敷地からの距離 約66km 火山の形式・タイプ 複成火山.. 活動年代