組合せバンディットを用いたコグニティブ無線におけるグループ形成方策

(1)

組合せバンディットを用いたコグニティブ無線における

グループ形成方策

Coalition Formation Policy in Cognitive Radio Networks

by Combinatorial Bandits

飯塚翔

1∗

_川原純

1

_{笠原正治}

1

Sho Iizuka

1

Jun Kawahara

1

Shoji Kasahara

1

_{奈良先端科学技術大学院大学情報科学研究科}

1

_{Graduate School of Information Science, Nara Institute of Science and Technology}

Abstract: In cognitive radio networks (CRN), secondary users (SUs) find idle times of a wire-less channel and utilize them secondarily in order to eliminate the shortage of usable frequency bands. Cooperative spectrum sensing (CSS), with which multiple secondary users form a coalition and sense a wireless channel cooperatively, is a scheme to improve sensing performance by SUs. In order to reduce sensing errors by CSS, it is necessary to form a coalition in consideration of the sensing performance of each SU. In this study, we discuss coalition formations in the absence of prior information about the performance of each SU, that is, each SU knows neither his/her sensing performance nor other SUs’ one. In order to minimize sensing errors under this constraint, we propose a statistical coalition formation policy based on the multi-armed bandit problem. In the proposed method, coalition selections are regarded as arm selections, and Thompson sampling performs coalition selections by considering exploitation-exploration trade-oﬀs. Numerical exam-ples show that the proposed method particularly reduces sensing errors in a scenario where there are many SUs and the performance diﬀerence among SUs is large.

1 はじめに

無線資源の有効利用を目的としてコグニティブ無線システム(CRN) [1, 2]が提案されている．CRNではチャネルを割り当てられた一次ユーザ(PU)によるチャネルの利用状況を二次ユーザ(SU) がセンシングし，PUによってチャネルが利用されていない期間にSUがチャネルを利用することによって，チャネルの利用効率を改善することを目的としている． SUがチャネルをセンシングする際には誤検知(miss

detection)と誤警報(false alarm) という二種類の誤り

が生じる．誤検知は，実際にはチャネルが利用中(busy) であるにも関わらず，SUはチャネルが利用中でない (idle)と判断する誤りである．誤警報は，実際にはチャネルが利用中でない(idle)でないにも関わらず，SUはチャネルが利用中である(busy)と判断する誤りである． ∗奈良先端科学技術大学院大学情報科学研究科〒630-0192 奈良県生駒市高山町 8916-5 E-mail: [email protected] 誤検知が生じると，PUの通信との衝突が生じ，PUの通信品質が悪化する．誤警報が生じると，SUが通信可能であったはずの機会を失い，SUのスループットが低下する． SUによるチャネルのセンシング精度を改善するために，複数のSUがグループを形成し，個々のSUのセンシング結果を共有することでセンシング精度を改善することを目的とした協調センシング (CSS) [3, 4]が提案されている．協調センシングのためのグループ形成手法として，ゲーム理論に基づくアプローチが提案されている[5, 6]．このアプローチでは，グループ内の個々のSU のセンシング精度から計算されるグループのセンシング精度を用いて効用が定義され，個々のSUは独立に自分自身の効用を最大化するようにグループを形成する．しかしながら，このアプローチは個々のSUは自分自身のみならず他のSUのセンシング精度も把握しているということを仮定している．本稿ではSUのセンシング精度についての事前情報を必要としない統計的グループ形成法を提案する．この手人工知能学会研究会資料 SIG-FPAI-B509-15

(2)

法ではグループ形成の問題を多腕バンディット問題として定式化し，誤検知・誤警報を削減することを目的としてグループ形成の試行錯誤が行われる．試行錯誤の各ステップでは，SU自身が得ることができる情報のみから個々のSUのセンシング精度を推定した後，アルゴリズムによって提案されたグループで協調センシングを行い，通信を試みる．その後，協調センシングの結果と通信の結果を用いて個々のSUのセンシング精度についての信念を更新する．提案手法はコグニティブ無線システムにおいてSUの設置場所の電波環境が不明な場合や， SUが劣悪な環境に置かれることでセンシング精度が劣化するような場合に有用であると考えられる．本稿の構成は以下のとおりである．第2節ではモデルの説明と問題の定式化を行う．第3節ではベースラインであるε-first戦略に基づくグループ形成方策とその問題点，および提案手法である組合せバンディットに基づく方策について述べる．第4節では数値実験により提案手法の評価を行う．第5節ではまとめと今後の課題を述べる．

2 モデルと定式化

本稿では，SUがグループを1つ形成し，そのグループでチャネルの協調センシングを行い，チャネルを用いた通信を試みるという手続きを時間ステップの集合 T = {1, 2, . . . , T }それぞれで行うことを考える．N をシステム全体のSU数，_{N = {1, 2, . . . , N}}をSUの集合として，形成されるグループは_N中のM (1≤ M ≤ N) 台のSUからなる．_N の中で1はグループ形成を主導するSUであり，必ずグループに含まれると仮定する．すなわち，t回目の時間ステップに形成されるグループ Ctは Ct={1} ∪ C, where C ⊆ N \ {1} and |C| = M − 1 と表される． t回目の時間ステップにおけるグループ_Ctの形成後， SUは協調センシングを行い，チャネルを用いた通信を試みる．協調センシングの結果，チャネルがidleであると判断されたならば，グループはチャネルを利用した通信を試みる．一方で，チャネルがbusyであると判断されたならば，グループはその時間ステップ中は通信を試みない．グループが通信を試みたとき，PUがチャネルを利用していなかったならば通信は成功する一方で， PUがチャネルを利用していたならばPUの通信と衝突が生じることにより通信は失敗する．また，PUがチャネルを利用していなかったにも関わらずグループがチャネルをbusyと判断した場合，グループは本来は通信可能であったはずの通信機会を失う．PUによるチャネル利用はパラメータρ (0≤ ρ ≤ 1)のベルヌーイ過程に従う．すなわち，各時間ステップにおいてチャネルは確率 ρでbusyであり，確率1− ρでidleである．ここでρ をPUのチャネル利用率と呼ぶ．SUはρについて事前情報を持たないと仮定する． i (i∈ N )番目のSUの検知率をλ(i)_D (0≤ λ(i)_D ≤ 1)，誤警報率をλ(i)_F (0≤ λ(i)_F ≤ 1) と表す．ここでλ(i)_D は

PU がチャネルを使用していた場合にi番目の SUがチャネルをbusyと判断する確率であり，λ(i)_F はPUがチャネルを使用していなかった場合にi番目のSUがチャネルをbusyと判断する確率である．SUはすべてのi∈ N についてλ(i)_D とλ(i)_F について事前情報を持たないと仮定する．協調センシングによる意思決定はグループ内の個々の SUのセンシング結果を用いてk-out-of-Nルール [7]によって行われる．これは，グループ内のk台以上のSU がチャネルをbusyと判断した場合に，グループがチャネルをbusyと判断するというルールである．誤検知と誤警報がSU間で独立に生じると仮定すると，グループの検知率ΛD(Ct)と誤警報率ΛF(Ct)はそれぞれ ΛD(Ct) = ∑ C⊆Ct,|C|≥k ∏ i_∈C λ(i)_D ∏ i∈Ct\C ( 1− λ(i)_D ) ΛF(Ct) = ∑ C⊆Ct,|C|≥k ∏ i_∈C λ(i)_F ∏ i∈Ct\C ( 1− λ(i)_F ) と表される． SUは全時間ステップ_T の中でPUの通信と衝突する回数を減らしつつ，通信に成功する回数を増やすことを目的として振る舞う．よって，時間ステップの集合_T におけるグループ形成の試行錯誤の良さは，効用関数 U (T ) = αNS(T ) − (1 − α)NMD(T ) によって評価される．ここでNS(T )は通信に成功した回数，NMD(T )はPUの通信と衝突が発生した回数である．αはNS(T )とNMD(T )のバランスをとるパラメータであり，SUにとって既知の情報である．この効用U (T )の期待値は，1ステップあたりの期待値 u(Ct) = α(1− ρ)(1 − ΛF(Ct))− (1 − α)ρ(1 − ΛD(Ct)) を用いることで E[U(T )] =∑ t∈T u(Ct) と表すことができる．すなわち，ρ, λ(i)_D, λ(i)_F が既知の場合は1ステップあたりの期待値u(Ct)を最大にするグループを選び続けることでU (T )の期待値を最大にすることができる．

(3)

3 提案手法

個々のSUのセンシング精度についての事前情報が得られず，1 ステップあたりの効用の期待値u(Ct)を最大にするグループが不明な場合の素朴な方策として， ε-first戦略[8]に基づく方策が考えられる．この方策では全体の時間ステップ_T を探索ステップ_{{1, 2, . . . , T}′_} と活用ステップ_{T′+ 1, T′+ 2, . . . , T}に分割する．探索ステップではM 台のSUを一様にランダムに選択し，そのグループで協調センシングを行い，通信を試みることで，SUのセンシング精度を推定するために必要なデータを得る．探索ステップが終了した時点で，それまでに得られたデータからρ, λ(i)_D, λ(i)_F を推定する．活用ステップでは推定されたρ, λ(i)_D , λ(i)_F を用いてu(Ct)を最大にすると推定されたグループを選択する．この方策は，SU自身が得ることができる情報のみからSUのセンシング精度を推定し，そこから高いセンシング精度をもつと推定されたグループを選択することができる．しかしながら，探索ステップの長さを決めるT′ の設定において探索と活用のトレードオフが存在する．すなわち，T′を大きく設定した場合，推定に利用可能なデータの増大によってρ, λ(i)_D, λ(i)_F の推定は正確になるが，活用ステップが短くなることによってu(Ct)を最大にすると推定されたグループを選択することができる回数が減少する．一方でT′を小さく設定した場合，u(Ct) を最大にすると推定されたグループを多く選択することができるが，学習データの不足によりρ, λ(i)_D, λ(i)_F の推定は不正確になる．このような探索と活用のトレードオフがある状況において最適な方策を考える問題として多腕バンディット問題[9]がある．多腕バンディット問題とは，報酬の確率分布が異なる多数のスロットマシンのアームがあり，アームを動かすことができる回数に制限があるときに，得られる報酬の合計を最大化するようなアームの選択を行う方策を考える問題である．この問題においても，個々のアームから得られる報酬の確率分布を正確に推定しようとすると，報酬の期待値が最大と推定されたアームを選択できる回数が減少してしまうというトレードオフがある．提案手法では，多腕バンディット問題をグループ形成の問題に応用するために，形成するグループの選択をアームの選択と考え，多腕バンディット問題に対する方策を適用する．しかしながら，形成可能なグループの組合せのそれぞれを単純に1つのアームとみなす方法には 2つの問題点がある．1つめは，全SU数N やグループ内に含まれるSU数M の増加にともなって形成可能なグループの組合せの数が急激に増加するため，アームの本数が増大してしまうことである．2つめは，あるグループを形成し，そのグループに含まれるSUのセンシング精度についてのデータが得られたとき，そのグループ以外の他のグループについての情報が部分的に得られているにも関わらず，それを活用していないことである．たとえば，SU{1, 2, 3}からなるグループで協調センシングを行ってSUのセンシング精度に関する情報が得られた場合に，いくつかのSUを共有する_{{1, 2, 4}}や {1, 3, 5}といったグループについての情報も部分的に得ることができる．1つのグループを1つのアームとみなす単純な方法では，あるアームを選んだ際に他のアームについて得られる情報を活用しないため，本稿の問題設定において効果的に機能しないと考えられる．提案手法では，組合せバンディットに対する Thomp-son sampling [10]に基づいてグループの選択を行う． Thompson sampling [11, 12]では，i番目のアームを引いたときの過去の報酬の履歴xiからアームの平均報酬 µi の推定値の事後分布P (µi | xi)を推定する．この事後分布から，それぞれのアームiについてそのアームが最適である確率P (µi > maxj_̸=iµj | xi, xj)を計算し，その確率に一致するようにアームを選択する．ここで P (µi> maxj_̸=iµj | xi, xj)を解析的に求めることは必ずしも簡単ではないが，それぞれのアームiについて事後分布P (µi | xi)からµiのサンプルを生成し，µi のサンプルが最も大きいアームiを選択することで等価な方策が実現できる．Thompson samplingは組合せバンディットに対しても優れた性能を示すことが実験的に示されており [13]，単純な場合では性能の最適性が理論的に示されている[14]．提案手法の擬似コードをAlgorithm 1に示す．この手続きでは，1ステップの中で最初に_{EstimateVB(·)} でρ, λ(i)_D , λ(i)_F の事後分布の推定を行い，事後分布からの乱数サンプルを生成したあと，生成された乱数サンプルを用いて_{FindOptimal(·)}でu(Ct)を最大にするグループ_Ctを探索する．その後，Collect(·)で協調センシングのためにグループ_Ctに含まれる個々のSUのセンシング結果を収集し，_{Communicate(·)}で協調センシングの結果に応じてチャネルを用いて通信を試みる．グループ_Ctに含まれる個々のSUのセンシング結果s(i)_t は，t回目の時間ステップにi番目のSUがチャネルをbusyと判断した場合には1，チャネルをidleと判断した場合には0となる．_{Communicate(·)}の結果 ytは，グループがチャネルをidleと判断し，通信を試みた結果，通信に成功した場合には1，通信を試みたがPU の通信と衝突が発生した場合には2，グループがチャネ

(4)

Algorithm 1 組合せバンディットに基づくグループ形成

procedure CoalitionFormation(N , M , T , α)

Create lists CS [1, T ], S[1, T ], and Y [1, T ] to storeCt, st, and yt

for t = 1, 2, . . . , T do

(a[·], b[·]) ← EstimateVB(CS, S, Y ) Sample ρ∼ β(ρ; a [ρ] , b [ρ])

for i = 1, 2, . . . , N do

Sample λ(i)_D ∼ β(λ(i)_D ; a[λ(i)_D], b[λ(i)_D]) Sample λ(i)_F ∼ β(λ(i)_F ; a[λ(i)_F ], b[λ(i)_F ])

end for Ct← FindOptimal(N, M, α, ρ, λD, λF) ▷ 乱数サンプルρ, λ(i)_D, λ(i)_F を用いてu(Ct)を最大化するグループ_C_tを探索する for all i∈ Ctdo s(i)_t ← Collect(i) ▷ i番目のSUのセンシング結果を取得する end for yt← Communicate(st) ▷ センシング結果 stから通信の意思決定を行い通信を試みる CS [t]← Ct S[t]← st Y [t]← yt end for end procedure ルをbusyと判断して通信を行わなかった場合には3となる．

EstimateVB(·)でのρ, λ(i)_D, λ(i)_F の事後分布の推定

では，PUのチャネル利用状況の一部を隠れ変数と扱って推定する必要がある．yt = 1の場合にはチャネルが idle，yt = 2の場合にはチャネルがbusyであることが確定する一方で，yt= 3の場合にはチャネルがbusyであることをSUが正しくセンシングしたのか，チャネルがidleであるにも関わらず誤警報によってSUが誤って busyと判断したのか不明であるためである．このため，事後分布の推定にはマルコフ連鎖モンテカルロ法を用いた推定[15]や隠れ変数を考慮した変分ベイズ推定[16] が必要となる．本稿では後者の変分ベイズ推定を用いた方法を用いる．この方法ではρ, λ(i)_D, λ(i)_F の事後分布をベルヌーイ分布の共役事前分布 [17]であるベータ分布

β(·, ·)として，それぞれβ(a [ρ] , b [ρ]), β(a[λ(i)_D], b[λ(i)_D]),

β(a[λ(i)_F ], b[λ(i)_F ])とする．ここでa[·], b[·]は角括弧中の変数が従うベータ分布のパラメータを表す．推定では最初にa[·], b[·]を1で初期化したあと，a[·], b[·]の変化が十分小さくなるまで変分Eステップと変分Mステップを繰り返す．変分Eステップではyt= 3となるtそれぞれについて rt= 1/(1 + exp(−ηt)) を計算する．ここで ηt= (ψ(a[ρ])− ψ(b[ρ])) +∑ i∈Ct s(i)_t ( ψ ( a[λ(i)_D] )

− ψ(a[λ(i)_D] + b[λ(i)_D] )) +∑ i∈Ct (1− s(i)_t ) ( ψ ( b[λ(i)_D ] )

− ψ(a[λ(i)_D ] + b[λ(i)_D ] )) −∑ i∈Ct s(i)_t ( ψ ( a[λ(i)_F ] )

− ψ(a[λ(i)_F ] + b[λ(i)_F ] )) −∑ i∈Ct (1− s(i)_t ) ( ψ ( b[λ(i)_F ] )

− ψ(a[λ(i)_F ] + b[λ(i)_F ] )) である．ψはディガンマ関数 [18]を表す．変分Mステップではρ, λ(i)_D, λ(i)_F の事後分布のパラメータをそれぞれ a[ρ] =|T2| + ∑ t∈T3 rt+ 1 b[ρ] =|T1| + ∑ t_∈T3 (1− rt) + 1 a[λ(i)_D] = ∑ t∈T₂(i) s(i)_t + ∑ t∈T₃(i) rts (i) t + 1 b[λ(i)_D] = ∑ t∈T₂(i) (1− s(i)_t ) + ∑ t∈T₃(i) rt(1− s (i) t ) + 1 a[λ(i)_F ] = ∑ t_∈T₁(i) s(i)_t + ∑ t_∈T₃(i) (1− rt)s (i) t + 1 b[λ(i)_F ] = ∑ t_∈T₁(i) (1− s(i)t ) + ∑ t_∈T₃(i) (1− rt)(1− s (i) t ) + 1 と計算する．ここで_Tj (j = 1, 2, 3)は{t | t ∈ T ∧ yt= j}を表し，_T(i) j (i∈ N , j = 1, 2, 3)は{t | t ∈ Tj∧ i ∈ Ct}を表す． FindOptimal(·)でのu(Ct)を最大にするグループ Ctの探索では，N が小さい場合には全探索によって探索が行えるが，N が大きい場合には全探索での探索は時間計算量の観点で難しい．そこで，本稿ではN が大きい場合にAlgorithm 2に示すヒューリスティックを利用する．これは最初に _Copt = N の状態から始め，

u(Copt\ {i})を最大にするSU iをCoptから取り除くこ

(5)

Algorithm 2 u(Copt)を最大にするグループCoptを探

索するヒューリスティック

function FindOptimal(N , M , α, ρ, λD, λF)

Copt← N

while |Copt| > M do

CS ← {Copt\ {i} | i ∈ Copt\ {1}}

Copt← arg max_C∈CSu(C)

end while returnCopt end function 表1 評価実験におけるパラメータ設定パラメータ名設定値 N 50 M 5 k 3 ρ 0.5 λ(i)_D (0.7, 0.95, 0.95, 0.95, 0.95, 0.7× 45) λ(i)_F (0.3, 0.05, 0.05, 0.05, 0.05, 0.3× 45) α 0.2

4 評価実験

本節では，提案手法の評価を行う．ベースラインは第 3節で述べたε-first戦略に基づく方策である．SUは時間ステップ集合_T のそれぞれの各ステップにおいて方策に従ってグループを形成し，通信の成功回数NSと PUの通信との衝突回数NMDからなる効用関数U (T ) を最大化することを目的とする．評価実験におけるパラメータ設定を表1に示す．この設定はSUの台数が多く，SU間のセンシング精度の差が大きい状況を想定している．SU{2, 3, 4, 5}のセンシング精度は検知率・誤警報率ともにSU{1, 6, 7, . . . , 50}のものよりも優れているため，SUのセンシング精度が既知であればSU{1, 2, 3, 4, 5}からなるグループが_{E[U(T )]} を最大にする．このグループの検知率は0.995，誤警報率は= 0.00454である．一方でSU{1, 6, 7, 8, 9}からなるグループはE[U(T )]を最小にするが，このグループの検知率は0.837，誤警報率は0.163である．ベースラインであるε-first戦略に基づく方策ではT′の値を200, 300, 400に設定した3種類で実験を行う．実験は乱数生成器のシード値を変更して70回行う．図1に効用関数の変化を示す．この図から，すべての時間ステップにおいて提案手法はベースラインを上回っていることがわかる．ε-first戦略に基づく方策では時間 0 200 400 600 800 1000 # of steps 0 20 40 60 80 cummulative reward -first (200) -first (300) -first (400) bandit 図1 効用の時間変化 0 200 400 600 800 1000 # of steps 0 5 10 15 20 25 30 35

# of occurences of miss detection

-first (200) -first (300) -first (400) bandit 図2 誤検知の累積発生回数ステップT′ において傾向が変化しているが，これは時間ステップT′ において探索ステップから活用ステップに移行し，探索ステップで得られたデータを用いて最適と推定されたグループを形成するようになるからである．図 2, 3にそれぞれ誤検知と誤警報の累積発生回数を示す．この図から，本実験設定においては，1000回の時間ステップが経過した時点で，提案手法はベースラインと比較して誤検知と誤警報の発生回数を約3分の1に削減していることがわかる．

5 おわりに

本稿では，個々のSUのセンシング精度についての事前情報が得られない状態での協調センシングのためのグループ形成法について議論し，組合せバンディットに基づくグループ形成方策を提案した．提案手法では組合せバンディットに対するThompson samplingに基づいてグループの選択を行うため，変分ベイズ推定によりSU のセンシング精度の事後分布の推定を行い，事後分布か

(6)

0 200 400 600 800 1000 # of steps 0 5 10 15 20 25 30 35

# of occurences of false alarm

-first (200) -first (300) -first (400) bandit 図3 誤警報の累積発生回数ら生成した乱数サンプルを用いて，効用関数の1ステップあたりの期待値を最大化するグループをヒューリスティックによって探索した．今後の課題としては，本稿の問題設定においては1グループのみの形成を目的としていたが，これを複数グループの形成に拡張することが考えられる．

謝辞

本研究の一部は，科研費基盤 (B) 15H04008および SCAT研究助成による支援を受けて実施している．

参考文献

[1] J. Mitola and G.Q. Maguire, “Cognitive radio: making software radios more personal,” IEEE Pers. Commun., vol.6, no.4, pp.13–18, 1999. [2] S. Haykin, “Cognitive radio: brain-empowered

wireless communications,” IEEE J. Sel. Areas Commun., vol.23, no.2, pp.201–220, 2005. [3] A. Ghasemi and E.S. Sousa, “Collaborative

spec-trum sensing for opportunistic access in fad-ing environments,” IEEE DySPAN, pp.131–136, 2005.

[4] I.F. Akyildiz, B.F. Lo, and R. Balakrishnan, “Cooperative spectrum sensing in cognitive ra-dio networks: A survey,” Phys. Commun., vol.4, no.1, pp.40–62, 2011.

[5] W. Saad, Z. Han, T. Basar, M. Debbah, and A. Hjorungnes, “Coalition formation games for col-laborative spectrum sensing,” IEEE Trans. Veh. Technol., vol.60, no.1, pp.276–297, 2011.

[6] T. Nishida, M. Sasabe, and S. Kasahara, “Max-imizing communication opportunity for

collabo-rative spectrum sensing in cognitive radio net-works,” ITNAC, pp.1–6, 2017.

[7] C. Sun, W. Zhang, and K. Ben Letaief, “Cooper-ative spectrum sensing for cognitive radios under bandwidth constraints,” IEEE WCNC, pp.1–5, 2007.

[8] J. Vermorel and M. Mohri, “Multi-armed ban-dit algorithms and empirical evaluation,” ECML, pp.437–448, 2005.

[9] H. Robbins, “Some aspects of the sequential de-sign of experiments,” Bull. Amer. Math. Soc., vol.58, no.5, pp.527–536, 1952.

[10] W. Chen, Y. Wang, and Y. Yuan, “Combinato-rial multi-armed bandit: General framework and applications,” ICML, pp.151–159, 2013.

[11] O. Chapelle and L. Li, “An empirical evaluation of Thompson sampling,” NIPS, pp.2249–2257, 2011.

[12] S. Agrawal and N. Goyal, “Analysis of Thompson sampling for the multi-armed bandit problem,” COLT, vol.23, pp.39.1–39.26, 2012.

[13] A. Gopalan, S. Mannor, and Y. Mansour, “Thompson sampling for complex online prob-lems,” ICML, pp.100–108, 2014.

[14] J. Komiyama, J. Honda, and H. Nakagawa, “Op-timal regret analysis of Thompson sampling in stochastic multi-armed bandit problem with mul-tiple plays,” ICML, pp.1152–1161, 2015.

[15] 飯塚翔，川原純，笠原正治，“k-out-of-Nルールによる協調センシングのためのマルコフ連鎖モ

ンテカルロ法を用いたパラメータ推定法，” 信学技

報，vol.117，no.204，pp.67–72，2017．

[16] M.J. Beal and Z. Ghahramani, “The variational bayesian EM algorithm for incomplete data: with application to scoring graphical model struc-tures,” Bayesian Stat., vol.7, pp.453–464, 2003. [17] S.J.D. Prince, Computer vision: models,

learn-ing, and inference, Cambridge University Press, 2012.

[18] M. Abramowitz and I.A. Stegun, Handbook of mathematical functions with formulas, graphs, and mathematical tables, Dover, 1972.

組合せバンディットを用いたコグニティブ無線におけるグループ形成方策