近畿大学工学部研究報告 NQ40, 2
∞
6年,pp.67‑72 Research Reports of the School of Engineering,Kinki University NQ40, 2006, pp.67‑72
転送性能予測を用いたミラーサーバ選択方式
坂 本 昭 彦 * 僕 英 宰 ベ 相 本 征 彦 * * 稲 見 雅 之 料
M i r r o r S e r v e r S e l e c t i o n w i t h P r e d i c t i o n o f T r a n s f e r P e r f o r m a n c e
Ak i h i k o SAKAMOTO へ Young J a e SHIN
対 ,Y u k i h i k o AI l ¥ 10TO
州 ,Masayuki INAMI
枇}l6stract
The Server mirroring technique that dispersing contents in more than one network organization is being used widely. This is to avoid access concentration to the server from the increase of the Internet user. In such a case, route to each server is different to every user. And network condition changes by the time. So.the technique that the server which is always the most suitable is chosen becomes necessary in consideration of the network traffic. In this paper server selection method is proposed. The technique that server selection uses information when contents are transferred. And the transfer performance is predict by using the back propagation method of the neural network and it selects it. Then the evaluation that the information measured over the actual network is applied to the proposal technique is done. We show its validity.
?にり'Woras,'server selection, mirror server, Internet, neural network, throughput
1 .
はじめに近年のインターネットの急激な普及に伴い,特定サーバ に対してアクセスが過度に集中する傾向が見られる.また,
そのためサーバ周辺のネットワークの混雑が激しくなる という問題も生じている.一方,ネットワーク自体もその 構成機器の性能が向上し,高速化,大容量化が進んでいる.
利用者の観点から見ると,それらの性能を生かし,いか に早く目的のコンテンツへアクセスできるかが,便利性を 高める上で重要な問題である.
これらの問題を改善する対策として,サーバを複数のネッ
*近畿大学工学部電子情報工学科
**近畿大学大学院システム工学研究科
67
トワーク組織に分散配置するミラー方式が広く利用され ている. これにより,特定のサーバやその周辺のネット ワークに負荷が集中することを防ぐことができる.しか し,ミラーサーバ群の各サーバでは,通過経路ノード数や ネットワーク特性が異なり,利用者ごとに最適なサーバは 異なったものとなるため,何らかの手段を用いて調べる必 要がある.とれらの処理方法として, 経路制御プロトコ ルから得られる情報を処理し,サーバと利用者聞を経由す るAS(AutonomousSystem)数を用いる手法などが提案
Department of盟副・onicEn卵 細 血gand仁hmpu胞rSciena, Sch
∞
Jo f
Engineering,路地iUniv1町sityGraduate Sch
∞
11of Systems Engin白 血g,回nkiUniversity6 8
近畿大学工学部研究報告 NQ40されているが,経由AS数は単独では十分でないことが示 されている[1].また,ネットワーク特性は時間帯によっ て変動することが知られているため[2],利用者はサーバ 自体の負荷とサーバまでのネットワーク特性の変化を総 合的に評価し,選択する必要がある.
本研究では,利用者からみたコンテンツの転送時間を最 適化するために,文献[3]で示されたミラーサーバの統計 的選択方式の有効性を検討し,その結果に基づいた改良法 の提案を行った.
本研究では,まず,統計的選択方式の性能をラウシドロ ビン方式との比較によって評価した.その結果,統計的選 択方式の性能は,ラウンドロビンのそれに比べて優れて
Client Server
Access to HTTP ‑ ‑H打Pd,FTPd ー再送制御 Access to ICMP ‑
図1ICMPechoによる往復遅延の測定
いるととがわかった.しかし,この方式では過去の履歴を 用いて判断しているために将来の転送性能について考慮 されておらず,転送性能の変動が大きなサーバが候補に含 まれている場合,選択時刻から転送完了時刻までの期間に おいて,逆転が起こる可能性がある.そこで,統計的選択 方式の選択精度の向上を目的として,ニューラルネットワ ークによる転送性能の予測値をメトリックとして採用す る改良法を提案し,その有効性を実計測によって検証した.
2.転送性能に関する評価指標
利用者からみたコンテンツの転送時間を最適化するた めには,サーバ選択時に利用する評価指標が総合的な転送 性能を示す必要がある.例えば図 1のように, pingを用 いたICMPechoによる往復遅延測定などでは,応答性を 劣化させるサーバ内部の要因や, TCPの再送制御などの 影響について評価することは困難である.
そとで,本実験では,各ミラーサーバから得られる転送 性能を評価する指標として,スループットを用いた.スル ープットを用いることでサーバやルータなどの各種ネッ トワーク機器の負荷また通過経路のネットワーク帯域の 利用率や転送パケットの損失や再送制御など,転送性能へ の影響が時間変化する各種の要素を総合的に扱うことが できる[4J.
3.時間変化の分析
スルーフsツトの測定は, Ring Server Project[5]に参加 し,互いに同ーのコンテンツを保持している5つのサーバ に対してHTTP経由で行った.対象となるサーバは図 2 のように,異なるネットワーク上に存在している.括弧内 の値はルータホップカウントを示す.
統計的選択方式では, トラヒックの変化が
2 4
時間の周 期性を持つという前提で成立している.そこで,スループ ットの詳細な時間変動を調べるため,5分毎に600[Kbyte] のコンテンツの転送を行い,その時刻の前後一時間の平均 スループットの推移を求めたものが図3である.図2対象サーバまでのネットワーク経路
図3より転送性能に周期性があることが確認された.さ らに,各ミラーサーバの転送性能は時刻によって逆転を起 こしていることがわかる.これは各時刻によって,最適サ ーバが変化することを示している.また,サーバ聞におい て明らかに転送性能差がある場合,最適サーバの選択は容 易であるが,転送性能差が僅かな場合では,最適サーバを 判定するための選択基準を与える必要がある.
また, server BのホッフカウントはserverDのそれに 比べ多いにも関わらず, server Dより高い性能を示して いる.さらに,ホッフカウントが同一のserver ,AC, server
D
,E
において,スルーフットが異なることからも,選択基 準としてネットワーク構成情報を単独で用いる手法では,転送性能を評価することが困難であることがわかる.
4 .
統計的選択方式統計的選択方式では,過去
2 4
時間の履歴から平均値M
と標準偏差
D
を求め,各サーバが変動し得る分布範囲の 上限と下限を,T
max
=M+DT min=M‑D (1)
69
転送性能予測を用いたミラーサーバ選択方式
5 .
統計的選択手法の評価実際のネットワークから得られた複数のサーバのスル ープットに対して統計的選択方式を適用し,評価を行う.
5.1履歴の適用期間
転送性能の逆転を検出するため,過去の履歴をどの程 度適用すれば最適であるかを検討する必要がある.つまり,
図4において
T
を決定する必要がある.そこで,選択時 刻における過去の履歴との 2点聞の時間相関性の強さを 調べるため,各サーバにおけるスループットの自己相関を 求めた.その結果, 2点聞の時間が近接するほど自己相関が強い ことがわかった.したがって,サーバ選択時には,選択時 刻により近い履歴を扱うことが重要である.そこで,取り 扱う過去の履歴を10‑100分の間で10分間隔に変動させ て選択した結果を図5に示す.図 5より,選択精度が最 も高かった過去60分間の履歴を採用する.
ー一ー.server̲A ‑ーー‑server̲B server̲D ‑‑server̲E
図3スループットの変動
と定義し,重複の有無を調べる.つまり,候補サーバ
i
,} 聞において,(2)
T ̲min;
>T ̲max
j,
・
h./ 込 ?
入 L 〆
内d n t 4 1 n E n B n U
守' nロ rD
白川町由日押
RM nu h 守
︐ ・
?J7J
守 ︐・ 守
︐ ‑
nunu︽
U n u n u n u n u n U
[畠 制禦 思捌
が成立するか否かを調査する.式(2)が成立する場合は,
重複が検出されず、平均スループットが最大のサーバを最 適であると判断する.式(2)が成立しない場合は,重複が 検出され,スループットの逆転が起こり得ると判断し,よ り詳細に分布範囲を求め,重複の検知を行う.図4におい て,時刻伊では分布範囲の重複は起こらず容易に最適サ ーバを選択できるが,時刻
t q
においては分布範囲が重複 し選択が困難になるため,転送性能差が僅差であるとして 同等の性能でみなし 無作為に選択を行う.100 90 30 40 50 60 70 80
過去履歴の適用期間 [min] 20
10
図 5 履歴の適用期間と選択精度の関係
5.2選択されたサーバの選択精度
図 2の経路上に存在するミラーサーバを対象に全体で 576回の選択を行った結果を,表1に示す.期間は2005 年10月17日午前5時から19日午前5時までの2日間で ある.
表1実験結果
348.81 562.59 685.22 ラウンドロビン方式
統計的選択方式 各時刻での最適サーバ
/ ノ T̲min i
リFコ a z
凶 コ
OLZト
統計的選択方式によって選択されたサーバの平均スル ープットは 562.59区B/s]でラウンドロビン方式のそれに 比べて約1.
6
倍の選択精度を示している.この結果より,最適なミラーサーバ選択問題において,統 計的選択方式が有効であることが確認できた.
Time
t q
図4逆転サーバの検出 tp
70 近畿大学工学部研究報告 No40
しかし,今回の実験では,式(2)が成立しない場合が509 回検出されている. とれは,全選択回数の約 88%に相当 する.よって,式(2)が成立しない場合での処理を改良す れば,より選択精度が向上すると考えられる.この方式で は過去の履歴のみによって最適サーバを判定しているた め,性能が下降していくにも関わらず,選択時点より以前 の履歴の値が高いサーバを最適サーバであると判断する 場合がある.
本論文では,統計的選択方式において式(2)が成立しな
0.893 0.892
岨審 思 割百0.891
0.89 0.889 0.888 0.887
2 3 4 5 6
素子数
い場合,ニューラルネットワークによる転送性能予測をメ 図7入力素子数と選択精度の関係 トリックとして付加することでこの問題を解決する.
そのため,入力層には選択時刻より近い履歴から順に適
6 .
提案方式 用する.入力層の素子数を変化させた結果を図7
に示す.サーバ聞の転送性能分布範囲が重複した場合,一定間隔 この結果,ほぼ同等の選択精度であることから計算量を考 で測定した評価指標を時系列データとして扱い,過去の履 慮し, 2入力を採用する.
歴を入力,次時刻の転送性能を教師信号として転送性能の
未来値を出力する階層型ニューラルネットワークを考え 6.2選択されたサーバの選択精度
t‑1 t‑2
t+1
t‑n
履 歴
図6BPネットワークモデル
バックプロパゲーション法(以下, BP法と呼ぶ)を適用す る.選択時刻
t
において,直前の履歴をt
‑1, 次時刻の 転送性能をt+1
とした場合,図6にBP法のモデルを示 す.すなわち,図4の時刻伊において無作為に選択を行 うのではなく転送性能を予測し, Server jを選択するもの である.図 2 の経路上に存在するミラーサーバを対象に全体で 864回の選択を行った結果を,表2に示す.期間は2005 年11月16日午前0時から 19日午前0時までの3日間で ある.表 2より,提案方式によって選択されたサーバの平 均スループットは 607.98[KB/s]で,統計的選択方式のそ れよりも高い数値を示すことがわかった.さらに,時刻毎 の詳細な選択結果を比較するために,各時刻における最適 サーバのスルーフsットを1として、各選択方式によって選 択されたサーバのスループット比を求めた結果を,図8,9 に,それぞれの結果の詳細を表 3,4に示す.
統計的選択)j式 提案β式 各時刻での最適サーバ
表 2実験結果 平均スループット(日!s)
565.57 607.98 682.65
この結果,統計的選択方式のプロットにばらつきが生じ 6.1履歴の適用期間 ているのに対して,提案方式におけるスルーフcット比の各 入力素子に与える過去の履歴について考える.5.1でも述 プロットは,グラフ上部の 0.6‑1.0に集中して分布して べたように,選択時刻により近い履歴が大きな影響を与え いることがわかる.また,全選択回数の62.73%にあたる る 542回が0.9‑1.0に属し 0.5以下の選択回数はOであっ
た.
転送性能予測を用いたミラーサーバ選択方式 71
図8統計的選択方式での選択サーバの スループット比
表3統計的選択方式における選択回数の割合
スループット比 選択回数 選択精度(%)I
0.9‑1.0 446 51.62 0.8‑0.9 62 7.17 0.7‑0.8 95 10.99 0.6‑0.7 171 19.79 0.5‑0.6 29 3.35 0.0‑0.5 61 7.06
図8の結果より,統計的選択方式では特定期間(18日,午 前8時から午後8時)において選択精度が低下しているこ とがわかる.特定期間におけるミラーサーバの選択結果を,
表5に示す.この結果,統計的選択方式における特定期間 での選択精度は,平均値と比較して,約3割程度低下して いる.
この現象は,それまで高い性能を示していたサーバの著 しい転送性能の低下,あるいは,スループットの急激な変 動が原因である.過去の履歴によって選択を行う方式では,
選択時刻より以前の転送性能が高いサーバを選択するた めにとのような場合には最適サーバを選択することが難 しい.このように, 3日間の平均では選択精度の差は僅か であるが,転送性能の未来値を予測しサーバ選択のメトリ ックとして扱うことで,以前は時刻によって偏りが見られ
0.9 0.8 0.7 o 0.6 晋0.5
~ 0.4 0.3 0.2 0.1
0
。
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! c;:! o 守 田 N 唱 。 。 叶 ∞ N 由。。サ∞C¥Ico。v・干‑c'叫 F・,....c'叫 ,.... ,.... c'、J
Time
図9提案方式での選択サーバのスループット比
表4提案方式における選択回数の割合
スループット比 選択回数 選択精度(%) 0.9‑1.0 542 62.73 0.8ー0.9 24 2.77 0.7‑0.8 56 6.48 0,6‑0.7 224 25.92 0.5‑0.6 18 2.08 0.0‑0.5 O O
表5特定期間における選択結果
統計的選択方式 提案方式 各時刻での最適サーバ
平均スループット (KB/s) 401.62 591.42 633.54
ていたミラーサーバ選択が安定して行われるととがわか る.対象のコンテンツサイズが巨大な場合,との特性は重 要である.それは,コンテンツのサイズに比例して,コン テンツの取得に要する期間もミラーサーバへの負担も増 大するためである.
7.おわりに
広域ネットワーク上に分散配置されている複数のミラ ーサーバの中から,最適なものを選択するとき,ネットワ ークやサーバ自体の変化を考慮した選択が必要である.本 研究では,これらの変化を総合的に評価する指標としてス
jレープットの履歴を使用し,統計的選択方式の有効性を検 証した.この方式では,過去の履歴のみを用いた選択であ るため,サーバの転送性能が急変する場合やその変動 が激しい場合,選択精度が低化する問題が生じた.とれを 解決するため,ニューラルネットワークの
BP
法による転 送性能の未来値予測をメトリックとして導入し,実際のネ ットワークから得られた情報に適用することで選択精度 の向上を確認した.また,提案方式では特定期間に著しく 選択精度が低下することなく,安定した選択が可能となる ことがわかった.これは,巨大コンテンツを扱う場合など には重要な特性である.今後の課題としては,今回用いた評価指標は測定トラフ イツクが発生するため,より軽負荷な評価指標が求められ る.大規模な施設などでこの方式を適用すると,膨大な量 のトラフィックが発生し,ネットワークに多大な影響を及 ぼす.また,その指標を提案手法に適用した場合にも有効 な選択が可能となるかも検討する必要がある.さらに,今 回の方式で測定トラフィックの軽減を考えた場合,条件に よって選択方式を切り替えられるシステムも考えられる.
つまり,候補となるすべてのミラーサーバ聞の転送性能差
7 2
近畿大学工学部研究報告 NQ40が僅かで,どのサーバを選択しても同じような場合にはラ ウンドロビン方式を,ミラーサーバ間の転送性能差が一定 量以上に変化した場合には提案方式を,というように処理 を切り替えられえるシステムである.ラウンドロビン方式 では,測定トラフイツクが発生しないため,一定の効果が 期待できるだろう.しかし,このような方式も根本的な解 決には至らず,結局は新たな評価指標を発見までの暫定的 な対処法である.この点に関しては,測定トラフィックと 選択精度のバランスが重要であり,利用者の判断に委ねら れる.
次に,実際の運用を考えた場合,ニューラルネットワー クの学習機能を応用して選択時に利用したが,一度学習さ せたデータがどれだけの期間有効に機能するか,つまりど のようなタイミングで学習を繰り返せばよいかについて も検討する必要があり,そのタイミングを自動的に判別し,
学習する仕組みも求められる.さらに,本研究では比較的 小さなコンテンツ(600Kbyte)をダウンロードすることに よりその選択精度を計測したが,今後はより巨大なコンテ ンツにおいて同様の結果が得られるかどうかについても 検討が必要である.
参考文献
[1]
H . K a m i y a m a
, K.O h t a
,N . K a t o
,G . M a n s f i e l d a n d Y . N e m o t o . A n l m p r o v e d C o n t e n t S e a r c h E n g i n e ‑ U s a g e o f N e t w o r k C o n f i g u r a t i o n I n f o r m a t i o n ‑ . " P r o c . I E E E T E N C O N ' 9 8 . v o
l. .1p p . 2 1 ‑ 2 4 . N e w D e l h i
,I n d i a . D e c . 1 9 9 8 .
[2]川原亮一,石橋圭介,平野聡之,斉藤洋,大原久樹,佐 藤大輔, インターネットパックボーントラヒック解 析ブ信学技報,
I N 9 9 ‑ 4 4 . p p . 1 3 ‑ 2 0 . S e p . 1 9 9 9 . [ 3 ]
真壁知,大田耕平,加藤寧/G 1 e n n M A N S F I E L D
,根元義章,ネットワークの負荷変動を考慮した動的なミラーサ ー バ 選 択 方 式 電 気 情 報 通 信 学 会 論 文 誌 B
V o
l.J 8 4 ‑ B . N o . 3 . p p . 4 3 5 ‑ 4 4 2 . M a r . 2 0 0
. 1[4] 住本順一,ルンキーラクティンスワン, モニターデ ータを用いた