ラベル無しデータを用いた回帰の改良

(1)

ラベル無しデータを用いた回帰の改良

Improvement of regression with unlabeled data

川喜田雅則

1∗

竹内純一

1

Masanori KAWAKITA

1

_{Jun’ichi TAKEUCHI}

1

_九州大学

1

_{Kyushu University}

Abstract: This paper studies a technique to improve regression with unlabeled data. The key idea of our proposal is that the semi-supervised learning can be recasted as a regression problem under covariate shift. The weighted likelihood approach is a natural choice for estimating regression parameters under covariate shift. Literature [9] showed that the optimal choice of weight function is the ratio of labeled data density to unlabelled data density. In application of this idea to our setting, the optimal weight function is trivially taking always the value one. However, our proposal is to discard this optimal weight function and to estimate it. This is deeply related to the work by [5]. The resultant algorithm is shown to perform well by some experiments.

1 はじめに

本研究では密度比推定量を用いたシンプルな半教師付き回帰法を提案する. 半教師付き学習問題は現実のデータ解析でしばしば現れる重要な問題であり，近年盛んに研究が行われている．通常教師付き学習の設定では共変量とそれに対応するラベル（教師）の組（ラベル付きデータ）が多数与えられたとき，共変量とラベルの関係を推定することが目標である．しかし現実のデータでは共変量だけが多く観測される一方，ラベルは少数しかないということがしばしば起こりうる．この理由は一般に共変量は機械により自動収集できることが多いのに対して，その共変量にラベルを付けるのは人手で行わなければならないからである．逆に与えられた共変量に対して精度良くラベルを自動で割り当てられる方法があるならば，そもそも最初から問題を解く必要がない．故に少数のラベル付きデータと大量のラベル無しデータ（共変量のみのデータ）が多数与えられているという状況を想定するのは現代では自然な設定といえる．このような設定のもとでラベル付きデータのみではなくラベル無しデータを有効活用して学習を行う方法は半教師付き学習と呼ばれ近年盛んに研究されている [12]．半教師付き学習には様々なアプローチが提案されている．初期の頃は判別問題について生成モデルに基づいたアプローチ [8] が提案された．その後グラフに基づいたアプローチ [3] や S3_{VM[1]，co-training に基づいた} ∗_{連絡先： (九州大学)} (福岡県福岡市西区元岡 744 ウエスト二号館) E-mail: [email protected] アプローチ [11] などが提案された．これらの方法が扱っている半教師付き問題は統計的な視点から捉えたときに設定にいくらかばらつきが見られる．ここでは半教師 付き問題を以下のように定式化する．共変量 x とラベル yの結合分布 p(x, y) が一つ存在し、ラベル付きデータ は p(x, y) からの i.i.d.（独立同一分布）サンプルである とする．またラベル無しデータは p(x) :=∫ p(x, y0)dy0 からの i.i.d. サンプルとする．すなわち一般に共変量シフトのような状況は考えていないことに注意されたい．本論文では密度比推定量を用いたシンプルな半教師付き回帰法を提案する．仮にラベル無しデータの密度関 数が p0(x)6= p(x) で与えられているとする．この場合 共変量シフトの問題となり，回帰係数の推定について重み付き尤度を用いた推定を行う場合，漸近的な意味で最 適な重みは密度比 p0(x)/p(x)である [9]．我々の問題に おいては共変量シフトを起こしていない (p0(x)≡ p(x)) ので密度比の値はどこでも 1 を取る関数であることがわる．鍵となるアイデアは「真の密度比がわかっているにも関わらずその値を敢えて廃棄して，適当なパラメトリックモデルを用いて密度比を推定すれば性能の向上が見込める」という点にある．この事実は節 6 で述べるようにインポータンスサンプリングにおけるパラドックス的効果 [5] と深く関連している．しかし密度比の推定は一般には必ずしも容易ではない．ところが近年密度比を推定するときに，分母分子に現れる密度関数を推定してから比をとるより密度比自身を直接パラメトリックモデルで推定するほうが性能がよいことがわかってきている [6][2][10][7]．提案手法ではモデル選択まで含めた密度比推定が高速かつ安定して行われ人工知能学会研究会資料 SIG-DMSM-A903-12 (03/30)

(2)

る uLSIF[7] を採用している．シミュレーションによる性能評価により提案手法は従来の回帰と比較して安定して推定を改善できることが確認された．本論文の構成は以下の通りである．節 2 では半教師付き回帰問題を定式化する．次に節 3 において共変量シフト下での重み付き尤度に基づく回帰法を紹介する．また重み付き尤度の重みを実際に求めるために必要な密度比推定量 uLSIF について節 4 で簡単に紹介する．節 5 では密度比推定量に基づく半教師付き回帰法を提案し，なぜ性能が向上するかを直感的に説明する．また節 6 では提案手法とインポータンスサンプリングにおけるパラドックス的効果の関係について述べる．節 7ではシミュレーションによる提案法の性能評価を行い，節 8 では考察及び結論を述べる．

2 半教師付き回帰問題

この節では半教師付き回帰問題を定式化する．このような設定は半教師付き学習の文献において必ずしも一貫した設定ではないことに注意する．最初に従来の教師付き問題おける回帰問題をセットアップする．二つの集合X := <M_，_{Y := < 上の結合} 密度関数 p(x, y) から生成された i.i.d. 標本 DL:={(xi, yi)∈ X × Y | i = 1, 2, · · · , n} が与えられたとする．ここで各 i について (xi, yi)は回帰モデル yi= f (xi; α∗) + ξi (1) に従うとする．ただし ξi は各 i について Eξi = 0， var(ξi) = σ2 を満たす i.i.d. なノイズ系列とする．ま た f :X → Y は回帰関数と呼ばれ，無限個の非線形関 数 φk:X → Y と係数 α = (α1, α2,· · · ) によって f (x; α) := ∞ ∑ k=1 αkφk(x) と表されるとする．非線形関数の組{φk(x)} はそれを 基底とするベクトル空間が関数空間内で稠密となるよ うに選ぶことが多い．データセット DLが与えられた とき，f (x; α∗)を推定するのがいわゆる教師付き学習における回帰問題である．次に半教師付き回帰問題について述べる．今新たに 密度関数 p0(x)から n0個の i.i.d. 標本 DU D_Ux :={x0₁, x0₂,· · · , x0_n0} が与えられたとする．ここで簡便のため D := DL∪DxU と定義する．データ D が与えられたとき f (x; α∗)を推 定する回帰問題を考える．ここで p(x) =∫p(x, y0)dy0 と定義する．もし p0(x)6= p(x) なら共変量シフトの下 での回帰問題と呼ばれる．本論文では p≡ p0のときを半教師付き回帰問題と定義する．

3 共変量シフト下の回帰法

本論文で提案するアイデアは共変量シフト下（すな わち p6= p0）での重み付き尤度に基づく回帰法 [9] のアプローチを土台にしている．以下にそれを簡単に紹介する．最初に教師付き学習における回帰法をまとめる．真 の回帰関数 f (x; α) を得るためには無限個の係数を決 定する必要があるが，有限個のデータの情報から無限個のパラメータを推定するのは不可能なので実際にはデータ数に応じて有限次数のモデル fd(x; α) := d ∑ k=1 αkφk(x) を用いて推定を行う．このときリスク (Mean Squared Error) R(α) := Ep(x,y)(Y − fd(X; α))2 を最小にするパラメータを見つけるのが理想的ではあ るが，リスクは未知量 p(x，y) を含むために利用できな い．そこでデータ DLが与えられたとき，次の経験リスク RDL(α) := 1 n n ∑ i=1 (yi− fd(xi; α))2 を最小にする ˆαを考えるのが普通である．この推定量は最小二乗推定量 LSE(Least Squares Estimator) と呼ばれる．LSE ˆαは以下のように陽に記述可能な推定量である．まず以下の記号 y := (y1, y2,· · · , yn)T, Φ := [Φik], Φik:= φk(xi) を導入する．この記法により経験リスクは RDL(α) = 1 nky − Φαk 2 と書き直せる．LSE ˆαは RDL の α による偏微分を 0 とおいた方程式の解として ˆ α =(ΦTΦ)−1ΦTy (2) となることが簡単にわかる．統計学的には ˆαは最尤推 定量と解釈できる．なぜなら経験リスク RDLは，系列 ξiが i.i.d. に正規分布に従うとしたときの尤度と定数倍の違いを除いて一致するからである．次に共変量シフトの下での回帰について述べる．共変量シフト下での推定法には様々なものが考えられるが，ここでは重み付き尤度に基づくアプローチ [9] を考える．文献 [9] では一般的な推定論を論じているが，ここではその結果を回帰に当てはめた結果のみ紹介する．

(3)

今，経験リスクに含まれる各標本についての尤度を実 数値関数 w(x) により重み付けした重み付き経験リス ク（尤度）を考える．すなわち (n× n) 行列 W を i 番 目の対角要素が w(xi)である対角行列と定義すると重み付き経験リスクは RW_D_L(α) := 1 n(y− Φα) T_{W (y}_{− Φα)} ₍₃₎ と定義できる．文献 [9] は漸近的な状況では p0で期待値 をとったリスクを最小にする最適な重み関数は w∗(x) = p0(x)/p(x)であることを示している．故に共変量シフトの下での回帰問題を解く一つのアプローチとして，適 当な方法で密度比 w∗(x)の推定値 ˆw(x)を求め，その W を用いた RW DLを最小にするeα を推定量（以下重み 付き最尤推定量と呼ぶ）とすることが考えられる．このときeα も陽に求まり eα =(ΦTW Φ)−1ΦTW y (4) と与えられる．しかし一般に w∗(x)を推定するのは必ずしも容易ではない．しかし近年密度比推定に顕著な進展があり，実時間で計算可能な安定した推定量が提案されたため，このアプローチも実用的になりつつある．具体的な密度比推定量については次節で説明する．上記の密度比を用いた回帰の考え方を単純に半教師付き回帰に適用することは意味がない．なぜならば半教 師付き回帰では p≡ p0なので，最適な重みは w∗(x) = p0(x)/p(x)≡ 1 であり，DLだけを用いた LSE と同じになるからである．

4 密度比推定量

この節では提案手法に用いる密度比推定量 uLSIF について簡単に紹介する．詳細については文献 [7] を参照されたい． 前節でも述べたように密度比 p0(x)/p(x)の推定は必ずしも容易ではない．もっとも簡単なアプローチとし ては p(x) と p0(x)を別々に推定したのちに両者の比をとる方法であろう．しかし高次元の状況では密度の推定そのものが一般的には困難であることが知られている．ところが近年密度の推定を経由せずに尤度比そのものをパラメトリックモデルによって直接推定すると良いことがわかってきた．本節ではそのようなアプローチの一つである uLSIF[7] について簡単に説明する．今 p6= p0という状況で，DxL は p(x) に従うとし，DxUは p0(x)に従うとする．ULSIF では密度比 w∗(x) = p0(x)/p(x)を推定するために密度比そのもののパラメトリックモデル ˆ w(x; θ) := B ∑ b=1 θbψb(x) を用いる．ここで θbは正の実数係数であり，θ はそれ らをまとめたベクトルとし，ψb(x)は適当な非線形関数とする．特に文献 [7] では非線形関数としてガウシアンカーネル ψb(x) := exp ( kx − x0 bk 2 2h ) が用いられている．ただしカーネルセンター{x0b} は Dx U からランダムに最大で 100 個の標本を選んできた ものである．パラメータ θ の推定量は Ep(x)[(w∗(X)− ˆ w(x; θ))2_]_{をデータから推定した値と正則化項 λ}_kθk2_の和を最小にするものと定義されている．そのような推定量 ˆθは結果的に以下の最適化問題 min θ_∈<B 1 2θ T_Hθ_{− 2θ}T_{h +}λ 2kθk 2 where H := 1 n n ∑ i=1 ψ(xi)ψ(xi)T, h := 1 n0 n0 ∑ j=1 ψ(x0_j) の解 (ただし負の成分は 0 とする) になる．ただし ψ(x) = (ψ1(x),· · · , ψB(x))T である．この最適化問題は線形演算で簡単に解くことができる．またガウシアンカーネル のバンド幅 h と正則化係数 λ については leave-one-out crossvalidationで求められている．uLSIF はこれらの計算を効率的に計算し高速に解を求めることができる．

5 密度比推定量に基づく半教師付き

回帰法の提案

本節では密度比を用いた半教師付き回帰を提案する．節 3 で述べたように密度比を用いた回帰の考え方を直接半教師付き回帰に適用すると無意味な結果になる．し かし本節では敢えて最適な重み関数 w∗(x)≡ 1 を用い ずにデータから密度比推定アルゴリズム uLSIF により推定した ˆw(x; ˆθ)を用いて重み付き最尤推定することを提案する (図 1)．敢えて最適な重み関数を破棄して推定しなおすと推定量が改善されるのかをここでは直感的に説明する．また次節ではインポータンスサンプリングにおけるパラドックス的効果の視点から説明する． なぜ偽の想定「p6= p0」を置いて改めて密度比を推定しなおすと推定が改善されるのだろうか？これは直感的には以下のように解釈できる．実は推定された密度 比は確かに p(x)/p0(x)の比を推定するために考案され たものであるが，実際には p(x)/p0(x)の良い推定量とはいえない．もしラベル無しデータとラベル付きデータがともに十分な量が観測できる状況であれば真の密 度比 w∗(x)に近い密度比が推定される．しかし半教師付き回帰ではラベル無しデータ数は非常に多いのに対してラベル付きデータ数は非常に少数である．結果と

(4)

Input: データセット D Output: 推定された回帰関数 fd(x; ˆα) 1. 偽の想定「ラベル無しデータセットは DxU ∼ p0(x), i.i.d.であり，ラベル付きデータセットは Dx L∼ p(x), i.i.d. であり，p 6= p0である」の下で 密度比 p(x)/p0(x)を uLSIF を用いて W を計算 2. 重み付き最尤推定量 ˆα =(ΦT_{W Φ})−1_ΦT_{W y}_を計算 3. fd(x; ˆα)を出力図 1: 提案する半教師付き回帰アルゴリズム してラベル無しデータからはおおよそ p(x) に近いもの が復元される一方で，ラベル付きデータからは必ずし も p(x) に近い分布を復元する情報が十分ではないため， 一般に w∗(x)とはかけ離れたものが推定される．ここで重要な事実は ˆw(x; ˆθ)は w∗(x)の良い推定量ではないが，その一方で以下の密度比 ¯w(x)の良い推定 量となっていることである．今 p(x) について適当な正 則なパラメトリックモデル g(x; τ ) を考える．ただしあ る τ∗が存在して p(x) = g(x; τ∗)と仮定する．そして 任意のデータセット D0が与えられたときの最尤推定量を ˆτ : D0 7→ ˆτ(D0)と書く．このモデル g(x; τ ) と最尤 推定量 ˆτを用いて密度比 ¯ w(x) := g(x; ˆτ (D x U)) g(x; ˆτ (Dx L)) を定義する．このとき最尤推定量の性質からデータセッ ト DxUと D x Lは p(x) からの実現値であるにも関わらず， D_Ux は g(x; ˆτ (Dx_U))からの，DLxは g(x; ˆτ (D x L))からの実現値とみなす方が尤もらしい（尤度が高いという意味で）．従って uLSIF の推定量 ˆw(x; ˆθ)は密度比 ¯w(x) についての精度の良い推定量と解釈することができる． ただし uLSIF を用いると g(x; τ ) を陽に定めることな く ¯w(x)が推定できることに注意する．またラベル無し データ Dx U の数は多いと仮定しているため， ¯w(x)はお およそ p(x)/g(x; ˆτ (Dx L))と近いことに注意する．提案手法は密度比 ¯w(x)を推定することで DLに含まれる標本のインポータンス（重要度）を決定し，インポータンスの高い標本を優先してフィッティングすることで推定精度を改善していると考えられる．今，図 2 のような状況を考える．図からわかるようにこのデータは推定しやすい中央付近は，推定が難しい両端の部分と比較してややデータが発生しやすい．このような状況では両端に現れるデータよりも中央付近のデータを優先してフィッティングした方が，リスクの意味で明らかに有利である．しかしラベル付きデータが少数しかない場合，例えば中央より両端に本来より多めに データが発生するなど本来の p(x) の分布に従わないこ ともしばしば起こる．そのとき Dx Lのみを用いた LSE では両端のデータにも平等にフィッティングしようとして推定精度が悪化する．ここで ¯w(x) の良い推定値 ˆ w(x; ˆθ)を用いて式 (3) のような重み付き尤度を考える．すると偶然両端のデータが多めに出たとしても両端で は p(x) が小さく g(x; ˆτ (Dx L))は大きいため ˆw(x; ˆθ)は小さくなり，両端のデータのフィッティングは無視されやすくなる．逆に本来データの発生確率が高いにも関わらずラベル付きデータが少ない領域では ˆw(x; ˆθ)が大きくなるため，それらのデータは優先してフィッティングされる．従って ˆw(xi; ˆθ)は DLxに含まれる標本の割 合を正しい割合 p(x) に向かって補正する役割を果たす． これはフィッティングに重要な標本ほど高い重みを与えているとも解釈できるのでインポータンスと呼ばれる．結果として式 (3) を用いることでラベル付きデータからは同定できなかった，真に出現確率が高い標本に優先してフィッティングすることで推定が改善される．

6 インポータンスサンプリングとの

関係

本節では節 5 で述べたように真の w∗を捨ててわざわざ推定しなおした ˆwを用いると推定が改善されるという一見不思議に思える現象がインポータンスサンプリングにおけるパラドックス的効果と解釈できることを論じる．最初にインポータンスサンプリングを簡単に復習しておく．インポータンスサンプリングの目的は適当な 関数 q(x) が与えられたとき，その積分 γ := ∫ q(x)dx を精度よく計算することである．今任意の確率モデル p(x; η) を考える．ここで η は適当なパラメータであ る．パラメータを任意の値 η∗ に固定して p(x; η∗)に 従う乱数 x1, x2,· · · , xn を発生する．このとき密度比 q(x)/p(x; η∗)(インポータンスと呼ばれる) の標本平均 ˆ γ := 1 n n ∑ i=1 q(xi) p(xi; η∗) は γ の不偏推定量であり標本数 n を十分多くとると大 数の法則から ˆ γ→ ∫ p(x; η∗) q(x) p(x; η∗)dx = ∫ q(x)dx = γ に収束することがわかる．インポータンスサンプリングについて以下のパラドッ クス的効果が知られている．今既知の分布 p(x; η∗)を

(5)

知っているにも関わらず，敢えて得られた標本から最尤推定したパラメータ ˆηを用いて eγ := 1 n n ∑ i=1 q(xi) p(xi; ˆη) とすることを考えてみる．勿論eγ は不偏推定量ではな くなるが，漸近的にはやはり不偏推定量である．ここで興味深い事実はeγ の漸近分散は必ず ˆγ より小さくな る（推定精度が改善される）ことである [5]．これは推定関数の撹乱パラメータについてのパラドックス的効果 [4] と深く関係している．前節の提案手法に用いられている重み付き経験リス ク RWDLは R の推定量とみなしたとき上述のパラドッ クス的効果により経験リスク RDLと比較して漸近分散 を改良しているとみなせる．今 q(x, y) := p(x, y)(y− fd(x; α))2と定義してリスク γ := ∫ q(x, y)dxdy = R(α) をインポータンスサンプリングで推定することを考える． 与えられているデータ DLは p(x, y) = g(x; τ∗)p(y| x) から発生していることを利用して通常のインポータンスサンプリングを考えるとその推定量は ˆ γ = 1 n n ∑ i=1 q(xi, yi) p(xi, yi) = 1 n n ∑ i=1 (yi− fd(xi; α))2 となり RDLと一致する．しかし上述のパラドクス的効 果を利用すれば p(x, y) に含まれる真のパラメータ τ∗ を捨てて最尤推定 ˆτを代入した eγ = 1 n n ∑ i=1 q(xi, yi) g(xi; ˆτ )p(yi| xi) = 1 n n ∑ i=1 g(x; τ∗) g(x; ˆτ )(yi− fd(xi; α)) 2 の方がリスクの推定量の意味で漸近分散が小さいこと がわかる．提案手法の RW DLに用いられているインポータンス ˆw(x; ˆθ)は前節で述べたようにeγ に含まれるイ ンポータンスそのものではないものの，その良い近似値になっていると考えられる．

7 シミュレーション

人工データを用いて提案法した半教師付き回帰 (以降 SSR と呼ぶ) の性能評価を行った．今X = < として データを以下のように作成した．真の回帰関数として f (x) = sin (( 1.5 + ( 3x 2π )4) x ) + ( 3x 2π )4 を用い，p(x) は p(x) =      0.15 π_−1.5 x∈ [−π, −1.5] 0.7 3 x∈ [−1.5, 1.5] 0.15 π−1.5 x∈ [1.5, π] とした．ノイズ{ξi} は正規分布 N(0, 0.25) に従うと し，式 (1) の回帰モデルに従って，ラベル付きデータ は n = 20 個，ラベル無しデータは n0 = 500個用意した．図 2 は上記の状況を表している．

−3

−2

−1

0

1

2

3 −2

0

2

4

6 x

y

−3

−2

−1

0

1

2

3 −2

0

2

4

6 x

y

−3

−2

−1

0

1

2

3 −2

0

2

4

6 x

y

図 2: シミュレーション：実線は真の回帰関数を表 し，点線は x の密度関数 p(x) を表す．ただし p(x) は 見やすくするために適当な拡大とシフトをしている．また点はラベル付きデータを表す．また回帰関数のモデルに用いる非線形関数は φk(x) := { _√ 2 sin((k/2)x) (kが奇数) √ 2 cos(((k + 1)/2)x) (kが偶数) とした．LSE 推定量を ˆαと記し，SSR 推定量をeα と 記す．それらの推定量のリスク R を評価するために 上記と同じ方法で独立に 500 点のラベル付きデータ {(˜xi, ˜yi)| i = 1, 2, · · · , 500} を発生させて fd(x; ˆα) のリスクを 1 500 500 ∑ i=1 (˜yi− fd(˜xi; ˆα))2 を用いて近似した．fd(x;eα) についても同様である．こ の近似リスクを用いてリスクの意味で最適なモデルを 実験的に求めると最適な次数 d∗は 3 となった．すなわち次数が 3 より大きいモデルでは関数近似能力としては過剰であることに注意する．

(6)

上記の実験を次数 d = 1, 2,· · · , 12 について 500 回く り返した結果が図 3 である．ここで注意すべきは図 3 の縦軸のレンジは箱ヒゲ図全体を表示するようになっていないことである．実は正の側も負の側も次数 4 以上については異常に絶対値の大きい値が存在するため表示されていない．このことは性能比較をリスクの平均値で行わなかった理由にもなっている．なぜならそれらのたった数回の異常値により両手法のリスクの平均値が著しく不安定になるからである．そのためここでは箱ヒゲ図による評価を行った．なお，500 回の試行のリスクの差の中央値 (メジアン) のみ拡大して別途図 4 に示した． これらの実験結果より次数 1, 2 は両者のリスクはほ とんど変わらず，次数 3 以降 SSR によるリスクの改善 が顕著であることが見て取れる．次数 1, 2 はそもそも 回帰関数を表現するには単純過ぎる形であるため，LSE であってもオーバーフィットしにくいのであまり差が出ていない．しかし回帰関数の推定値としては大きく外れている．一方次数 3 以降では回帰関数の形を大体表現することができる一方で，過剰な表現能力により LSE はデータにオーバーフィットしている．しかし SSR はフィッティングすべきデータとそうでないデータを区別できるため，次数があがっても比較的オーバーフィットを避けられるため次数があがるにつれて LSE を著しく改善する． 1 2 3 4 5 6 7 8 9 10 11 12 −2 −1 0 1 2 d R ( α ^) − R ( α ~) 図 3: 各次数 d について，ラベル付き付きデータのみ を用いた LSE の推定量のリスク R( ˆα)から提案した半 教師付き回帰 (SSR) のリスク R(eα) の差の箱ヒゲ図． 多くの場合 SSR は LSE と同じか改良する場合が多いが，上述したリスクの異常値については LSE より SSR のほうが数回多く，しかも必ず多く出現する．この現 象は密度比推定量 uLSIF により推定された行列 W が ランク落ちするため起きることが予備実験によってわかっている．uLSIF はパラメータに正則化を行うため重みはやや 0 に近づきやすい．今，ラベル付きデータ 数が n = 20 であるので，重み行列 W は 20× 20 行列 である．実験中に SSR のリスクが著しく悪化したとき の W の様子を観察すると，W のランクは例えば 4 ま で減少していることがあった．このような場合 d を 5 以上にすると，式 (4) に含まれる (ΦT_{W Φ)}_{はフルラン} クでなくなるため逆行列が発散する．これがリスクの暴れる原因である．そのようなケースを除けば SSR は大抵安定した挙動を示した． 2 4 6 8 10 12 0.00 0.05 0.10 0.15 d Median of r isk diff erence 図 4: 各次数 d についてリスクの差 R( ˆα)− R(eα) のメ ジアンのプロット

8 考察及び結論

本論文では密度比推定量に基づく半教師付き回帰法を提案した．この方法はラベル付きデータの標本の出現頻度を，重み（インポータンス）をかけて正しい出現頻度へ修正することで安定した推定を行っている．節 5に詳しく述べたように提案した半教師付き回帰法が有効に働く典型的な状況とは「回帰関数が複雑で推定が難しいがデータの出現頻度はやや低い領域がある場合で，かつラベル付きデータ数が少ないとき」である．通常の LSE はラベル付きデータ数が少ない場合にそのような領域に標本が発生すると正しい出現頻度以上に重要視してフィッティングしてしまう．提案法ではそのような標本のインポータンスを下げて適切に無視することができる．このような仕組みは節 6 で述べたよう

(7)

にインポータンスサンプリングにおけるパラドックス的効果を用いて推定量の分散を抑えているとも解釈できる．また提案手法は回帰問題のみ考慮したが，上述したことは回帰に限らず判別など尤度や標本について加法的なロス関数に基づく教師付き学習全般に適用できることを述べておく．特に本研究ではリッジ回帰など正則化付き回帰への拡張を検討中である．なぜなら実験で述べたように標本数が少ないときや密度比推定量が著しくスパースになったときは推定量が暴れるため，正則化を考えることが重要になるからである．提案手法の一つの利点として他の多くの半教師付き回帰法と比較して複雑な処理は一切なく，教師付き学習の方法をほとんどそのまま用いることができる点が挙げられる．本論文では簡潔さのために重み付き尤度を用いてアルゴリズムを作り直したが，既存の教師付き学習の中には尤度やロス関数を重み付きに変更することが容易でないような方法もある．その場合でも以下の方法により既存の教師付き学習の実装コードを変更することなく半教師付き学習が適用可能である．ま ず各標本の重み w(xi, ˆθ)は正であり和が 1 であるので，確率とみなせることに注意する．今ラベル付きデータ DLから各標本を確率 w(xi, ˆθ)に従ってリサンプリング したデータセットを DL0 と書く．リサンプリングする データの数が十分であれば，このデータセット DL0 に基づく教師付き学習の結果は重み付き尤度（ロス）を用いた結果とほぼ一致する．従って我々の考え方は様々な教師付き学習を容易に教師付き学習に拡張できる．このような方法が既存の複雑な半教師付き学習法と比較して精度と計算量の観点でどのような違いがあるのか比較することは興味深い今後のテーマである．

謝辞

本研究の一部は科研費 (21700308) 及び科研費 (19300051) の助成を受けたものである．また九州大学の尾家遥子さんには実験の一部，及び密度比行列の縮退による問題の解決に協力いただいた．また九州大学数理学府の川野秀一博士には半教師付き学習の分野のサーベイに関して有用な情報をいただいた．名古屋大学金森敬文准教授には様々な有用なコメントをいただいた．特に文献 [5] との関係は同氏の指摘が発端となり明らかにされた．

参考文献

[1] K. Bennett and A. Demiriz. Semi-supervised sup-port vector machines. Advances in Neural Infor-mation Processing Systems, 11:368–374, 1999.

[2] S. Bickel, M. Brückner, and T. Scheffer. Discrim-inative learning for differing training and test dis-tributions. Proceedings of the 24th International Conference on Machine Learning, 2007.

[3] A. Blum and S. Chawla. Learning from labeled and unlabeled data using graph mincuts. Pro-ceedings of the 18th International Conference on Machine Learning, 2001.

[4] M. Henmi and S. Eguchi. A paradox concern-ing nuisance parameters and projected estimat-ing functions. Biometrika, 91(4):929–941, 2004.

[5] M. Henmi, R. Yoshida, and S. Eguchi. Im-portance sampling via the estimated sampler. Biometrika, 94(4):985–991, 2007.

[6] Jiayuan Huang, Arthur Gretton, Bernhard Sch¨olkopf, Alexander J. Smola, and Karsten M. Borgwardt. Correcting sample selection bias by unlabeled data. In NIPS. MIT Press, 2007.

[7] T. Kanamori, S. Hido, and M. Sugiyama. A least-squares approach to direct importance esti-mation. Journal of Machine Learning Research, 10:1391–1445, 2009.

[8] K. Nigam, A.K. McCallum, S. Thrun, and T. Mitchell. Text classiﬁcation from labeled and unlabeled documents using em. Machine Learn-ing, 39:103–134, 2000.

[9] H. Shimodaira. Improving predictive infer-ence under covariate shift by weighting the log-likelihood function. Journal of Statistical Plan-ning and Inference, 90:227–244, 2000.

[10] M. Sugiyama, T. Suzuki, S. Nkajima, H. Kashima, P. von B¨unau, and M. Kawanabe. Direct importance estimation for covariate shift adaptation. Annals of the Institute of Statistical Mathematics, 60(4):699–746, 2008.

[11] Z.-H. Zhou and M. Li. Semisupervised regression with cotraining-style algorithms. IEEE trans-actions on Knowledge and Data Engineering, 19(11):1479–1493, 2007.

[12] X. Zhu. Semi-supervised learning literature sur-vey. Computer Sciences TR 1530, University of Wisconsin-Madison, pages 1–60, 2008.

ラベル無しデータを用いた回帰の改良