バックオフ機能の改良

第 4 章再送タイムアウト改良による改善 37

4.3 バックオフ機能の改良

前節でみたように，FGTCPを使用したとき，かつ，サーバ数が多いときには，再送が繰り返し発生するために，RTOが指数的に増加して，その結果，アイドル時間の長期発生によるグッド

Ϭ ϮϬϬϬ ϰϬϬϬ ϲϬϬϬ ϴϬϬϬ ϭϬϬϬϬ ϭϮϬϬϬ

Ϭ ϰϬ ϴϬ ϭϮϬ ϭϲϬ ϮϬϬ ϮϰϬ ϮϴϬ

&'dWͺϬ͘ϮŵƐ &'dWͺϭŵƐ &'dWͺϱŵƐ &'dWͺϭϬŵƐ EdW

dŚĞŶƵŵďĞƌŽĨĂĐƚŝǀĞƐĞƌǀĞƌƐ

'ŽŽĚƉƵƚ΀DďƉƐ΁

図4.4: V = 10 Gbps，S = 512 KBのときのグッドプット

Ϭ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ

Ϭ ϰϬ ϴϬ ϭϮϬ ϭϲϬ ϮϬϬ ϮϰϬ ϮϴϬ

&'dWͺϬ͘ϮŵƐ &'dWͺϭŵƐ &'dWͺϱŵƐ &'dWͺϭϬŵƐ EdW

dŚĞŶƵŵďĞƌŽĨƌĞƚƌĂŶƐŵŝƐƐŝŽŶƚŝŵĞŽƵƚƐƉĞƌĐŽŶŶĞĐƚŝŽŶ

dŚĞŶƵŵďĞƌŽĨĂĐƚŝǀĞƐĞƌǀĞƌƐ

図4.5: V = 10 Gbps^，S= 512 KBのときのコネクションごとの平均再送タイムアウト回数

Ɨ Ɨ Ɨ Ɨ Ɨ Ɨ Ɨ WLPH 1HWZRUN

D([SRQHQWLDO GHIDXOW

$OOVHUYHUVVWDUW658WUDQVPLVVLRQV VWUHWUDQVPLVVLRQIDLOXUH

QGUHWUDQVPLVVLRQIDLOXUH UGUHWUDQVPLVVLRQ

IDLOXUH WKUHWUDQVPLVVLRQ

VXFFHVV

572 572 572 572

EXV\VWDWH FRQJHVWLRQRFFXUV

LGOHVWDWH FRQJHVWLRQILQLVKHV

000000000000000

000000000000000 00000000000000000000

00000000000000000000 00000000000000000000

00000000000000000000

'DWDWUDQVPLVVLRQ

E/LQHDU

572 572 572 572

000000000000000

000000000000000 0000000000000000000

0000000000000000000

F+\EULG

572 572 572

1'PD[ 1'PD[ 572

000000000000000

000000000000000 00000000000000000000

00000000000000000000

図4.6: バックオフの改良

プットの低下が起こることを見た．本節では，データセンターのネットワークを前提に，RTOが，

過度に大きな値にならないように制限する方法を2つ提案する．

ネットワークの輻輳状態が長期化して，再送が繰り返し発生すると，指数バックオフによって，

RTOが再送の度に指数倍されるため，非常に大きな値になる．例えば，6^{回再送タイムアウトが} 連続した場合，7回目の再送タイムアウトに必要な時間は，RTO^の64^（= 2⁶^{）倍になる．この方} 式は，インターネットのように，通信先までの経路が特定できないネットワークでは，パケットを送信してから対応するACKを受信するまでの時間が大きく変動する可能性があるため，有効に機能する．一方で，データセンターのネットワークのように，通信先までの経路が特定できるネットワークでは，RTTの変動が少ないため，再送時に設定する再送タイムアウトの値は，インターネットのときよりも変動幅を小さく設定することにより，より適切なタイミングで再送が行える可能性がある．

この考え方に基づいて，データセンター内で使用するTCP^のRTOのバックオフ方法の改良について検討を進める．まず，バックオフによるRTOの増加幅をゆるやかにするために，タイムアウトの値を線形的に増加させるような改良が考えられる．すなわち，i回目の再送タイムアウト時間には，i×RTOを設定する方法である．この方法使ったTCPのことを，線形バックオフTCP

（LNRTCP: Linear backoﬀ TCP）と呼ぶ．

次に，2つ目の方法について述べる．上述したLNRTCPを単純に使おうとすると，図4.6^の (b)^{に例示するように，}3回目の再送タイムアウト時間は，指数バックオフ（図中(a)^{）よりも短}

い3×RTO^{が設定がされる．}RTOが小さい値になると，再送がより早いタイミングで行われるため，ネットワークのアイドル状態を早く解消できる可能性があるが，一方で，輻輳状態が続いている場合にも関わらず，再送による追加のパケットをネットワークに流入させることで，輻輳がさらに悪化する可能性も増える．そのため，最初は指数バックオフによりRTOを増加させて，どこかのタイミングで線形バックオフに切り替える方法を検討する．そこで，再送発生時にセットするRTOを計算するときに，指数バックオフを利用するか，または，線形バックオフを利用するか，判定する基準を導入する．

バックオフの計算方法の使い分けをするための検討にあたって，データセンターのネットワークは，通常，冗長化がなされているため，厳密には通信経路を固定化することはできないが，サーバからクライアントまでのスイッチの最大段数は，ほぼ特定できると仮定する．また，各スイッチの最大バッファ容量は，設計書や仕様書などから事前に知ることができると想定する．この2^つの前提のもとでは，サーバがパケットを送信してから，対応するACKを受信するまでの時間の最大値（NDmax）は，以下のように求めることができる．

NDmax= Bmax×Hmax

V + BaseRTT (4.1)

ただし，Bmaxはデータセンターのネットワークにあるスイッチの最大ポートバッファ容量で，Hmax

はサーバからクライアントまでに経由するスイッチの最大段数を示す．また，V ^{は帯域幅を示す．}

帯域幅が異なるリンクが混在する場合は，その中で最も小さい帯域幅を計算に使う．なお，クライアントは，サーバからパケットを受信すると，最速でACKを返送するものとし，途中のスイッチは，伝送のための計算時間は無視できるほど小さいものと仮定する．

上述したように，データセンターのネットワークでは，ネットワーク構成の概略や利用するスイッチの性能の情報があるため，RTTの最大値を事前に知ることができる．すなわち，仮に，すべてのスイッチのポートバッファが満杯だったとしても，サーバがパケットを送信してから，対応するACK^{を受け取るまでに，}NDmaxよりも多くかかることはない．従って，この時間待っても ACKが返送されなければ，そのパケットは消失している可能性が高いとみなせる．そこで，バックオフの計算方法を使い分ける基準として，前回再送タイマに設定したRTOがこの値を超えるときは，増加分dがND_maxである線形バックオフを利用することとする．この方式のバックオフのことをハイブリッドバックオフと呼び，このバックオフを使ったTCPのことを，ハイブリッドバックオフTCP^（HYBTCP: Hybrid backoﬀ TCP^{）と呼ぶ．}

図4.6^の(c)に，ハイブリッドバックオフTCPにおける指数バックオフと線形バックオフを，

NDmaxを閾値として使い分ける例を示す．ここではNDmax = 4 RTO^{と想定している．}RTO^がこの値を超えているときに，再送タイムアウトが発生すると，指数バックオフではなく，ND_max を基準にして，ND_maxずつ線形に増加させる．すなわち，この方法を使った時のRTOの変化を図4.7に示す．

このように，RTO^がNDmaxに対して小さいときには，標準のTCPと同様に，指数バックオフにより指数的にRTO^{を増加させる．他方，}RTO^がNDmaxに対して大きいときは，そのRTO^がデータセンターのネットワークの最大遅延時間に対して十分に大きいと判断して，線形バックオフに切り替える．そのため，線形バックオフを単純に使用するときよりも，アグレッシブの度合いは小さくなる．これにより，輻輳を悪化させることなく，インキャストの原因であるアイドル状態の発現期間を小さくすることが期待できる．

EŵĂǆ

ZdKŵŝŶ

dŚĞŶƵŵďĞƌŽĨĐŽŶƚŝŶƵŽƵƐƌĞƚƌĂŶƐŵŝƐƐŝŽŶƚŝŵĞŽƵƚ ǆƉŽŶĞŶƚŝĂůďĂĐŬŽĨĨ

>ŝŶĞĂƌďĂĐŬŽĨĨ

;ĚсEŵĂǆͿ

ZdK

図4.7: 再送回数とハイブリッドバックオフTCP^のRTO^の関係

ドキュメント内要約 (ページ 47-51)

第 4 章 再送タイムアウト改良による改善 37

4.3 バックオフ機能の改良

第 4 章再送タイムアウト改良による改善 37