• 検索結果がありません。

ラベル無しデータを用いた回帰の改良

N/A
N/A
Protected

Academic year: 2021

シェア "ラベル無しデータを用いた回帰の改良"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

ラベル無しデータを用いた回帰の改良

Improvement of regression with unlabeled data

川喜田 雅則

1

竹内 純一

1

Masanori KAWAKITA

1

Jun’ichi TAKEUCHI

1

1

九州大学

1

Kyushu University

Abstract: This paper studies a technique to improve regression with unlabeled data. The key idea of our proposal is that the semi-supervised learning can be recasted as a regression problem under covariate shift. The weighted likelihood approach is a natural choice for estimating regression parameters under covariate shift. Literature [9] showed that the optimal choice of weight function is the ratio of labeled data density to unlabelled data density. In application of this idea to our setting, the optimal weight function is trivially taking always the value one. However, our proposal is to discard this optimal weight function and to estimate it. This is deeply related to the work by [5]. The resultant algorithm is shown to perform well by some experiments.

1

はじめに

本研究では密度比推定量を用いたシンプルな半教師 付き回帰法を提案する. 半教師付き学習問題は現実の データ解析でしばしば現れる重要な問題であり,近年 盛んに研究が行われている.通常教師付き学習の設定 では共変量とそれに対応するラベル(教師)の組(ラベ ル付きデータ)が多数与えられたとき,共変量とラベ ルの関係を推定することが目標である.しかし現実の データでは共変量だけが多く観測される一方,ラベル は少数しかないということがしばしば起こりうる.こ の理由は一般に共変量は機械により自動収集できるこ とが多いのに対して,その共変量にラベルを付けるの は人手で行わなければならないからである.逆に与え られた共変量に対して精度良くラベルを自動で割り当 てられる方法があるならば,そもそも最初から問題を 解く必要がない.故に少数のラベル付きデータと大量 のラベル無しデータ(共変量のみのデータ)が多数与 えられているという状況を想定するのは現代では自然 な設定といえる.このような設定のもとでラベル付き データのみではなくラベル無しデータを有効活用して 学習を行う方法は半教師付き学習と呼ばれ近年盛んに 研究されている [12]. 半教師付き学習には様々なアプローチが提案されて いる.初期の頃は判別問題について生成モデルに基づい たアプローチ [8] が提案された.その後グラフに基づい たアプローチ [3] や S3VM[1],co-training に基づいた 連絡先: (九州大学)        (福岡県福岡市西区元岡 744 ウエスト二号館)        E-mail: [email protected] アプローチ [11] などが提案された.これらの方法が扱っ ている半教師付き問題は統計的な視点から捉えたとき に設定にいくらかばらつきが見られる.ここでは半教師 付き問題を以下のように定式化する.共変量 x とラベル yの結合分布 p(x, y) が一つ存在し、ラベル付きデータ は p(x, y) からの i.i.d.(独立同一分布)サンプルである とする.またラベル無しデータは p(x) :=p(x, y0)dy0 からの i.i.d. サンプルとする.すなわち一般に共変量シ フトのような状況は考えていないことに注意されたい. 本論文では密度比推定量を用いたシンプルな半教師 付き回帰法を提案する.仮にラベル無しデータの密度関 数が p0(x)6= p(x) で与えられているとする.この場合 共変量シフトの問題となり,回帰係数の推定について重 み付き尤度を用いた推定を行う場合,漸近的な意味で最 適な重みは密度比 p0(x)/p(x)である [9].我々の問題に おいては共変量シフトを起こしていない (p0(x)≡ p(x)) ので密度比の値はどこでも 1 を取る関数であることが わる.鍵となるアイデアは「真の密度比がわかってい るにも関わらずその値を敢えて廃棄して,適当なパラ メトリックモデルを用いて密度比を推定すれば性能の 向上が見込める」という点にある.この事実は節 6 で 述べるようにインポータンスサンプリングにおけるパ ラドックス的効果 [5] と深く関連している.しかし密度 比の推定は一般には必ずしも容易ではない.ところが 近年密度比を推定するときに,分母分子に現れる密度 関数を推定してから比をとるより密度比自身を直接パ ラメトリックモデルで推定するほうが性能がよいこと がわかってきている [6][2][10][7].提案手法ではモデル 選択まで含めた密度比推定が高速かつ安定して行われ 人工知能学会研究会資料 SIG-DMSM-A903-12 (03/30)

(2)

る uLSIF[7] を採用している.シミュレーションによる 性能評価により提案手法は従来の回帰と比較して安定 して推定を改善できることが確認された. 本論文の構成は以下の通りである.節 2 では半教師 付き回帰問題を定式化する.次に節 3 において共変量 シフト下での重み付き尤度に基づく回帰法を紹介する. また重み付き尤度の重みを実際に求めるために必要な 密度比推定量 uLSIF について節 4 で簡単に紹介する. 節 5 では密度比推定量に基づく半教師付き回帰法を提 案し,なぜ性能が向上するかを直感的に説明する.ま た節 6 では提案手法とインポータンスサンプリングに おけるパラドックス的効果の関係について述べる.節 7ではシミュレーションによる提案法の性能評価を行 い,節 8 では考察及び結論を述べる.

2

半教師付き回帰問題

この節では半教師付き回帰問題を定式化する.この ような設定は半教師付き学習の文献において必ずしも 一貫した設定ではないことに注意する. 最初に従来の教師付き問題おける回帰問題をセット アップする.二つの集合X := <MY := < 上の結合 密度関数 p(x, y) から生成された i.i.d. 標本 DL:={(xi, yi)∈ X × Y | i = 1, 2, · · · , n} が与えられたとする.ここで各 i について (xi, yi)は回 帰モデル yi= f (xi; α∗) + ξi (1) に従うとする.ただし ξi は各 i について Eξi = 0, var(ξi) = σ2 を満たす i.i.d. なノイズ系列とする.ま た f :X → Y は回帰関数と呼ばれ,無限個の非線形関 数 φk:X → Y と係数 α = (α1, α2,· · · ) によって f (x; α) := k=1 αkφk(x) と表されるとする.非線形関数の組{φk(x)} はそれを 基底とするベクトル空間が関数空間内で稠密となるよ うに選ぶことが多い.データセット DLが与えられた とき,f (x; α∗)を推定するのがいわゆる教師付き学習 における回帰問題である. 次に半教師付き回帰問題について述べる.今新たに 密度関数 p0(x)から n0個の i.i.d. 標本 DU DUx :={x01, x02,· · · , x0n0} が与えられたとする.ここで簡便のため D := DL∪DxU と定義する.データ D が与えられたとき f (x; α∗)を推 定する回帰問題を考える.ここで p(x) =p(x, y0)dy0 と定義する.もし p0(x)6= p(x) なら共変量シフトの下 での回帰問題と呼ばれる.本論文では p≡ p0のときを 半教師付き回帰問題と定義する.

3

共変量シフト下の回帰法

本論文で提案するアイデアは共変量シフト下(すな わち p6= p0)での重み付き尤度に基づく回帰法 [9] のア プローチを土台にしている.以下にそれを簡単に紹介 する. 最初に教師付き学習における回帰法をまとめる.真 の回帰関数 f (x; α) を得るためには無限個の係数を決 定する必要があるが,有限個のデータの情報から無限 個のパラメータを推定するのは不可能なので実際には データ数に応じて有限次数のモデル fd(x; α) := dk=1 αkφk(x) を用いて推定を行う.このときリスク (Mean Squared Error) R(α) := Ep(x,y)(Y − fd(X; α))2 を最小にするパラメータを見つけるのが理想的ではあ るが,リスクは未知量 p(x,y) を含むために利用できな い.そこでデータ DLが与えられたとき,次の経験リ スク RDL(α) := 1 n ni=1 (yi− fd(xi; α))2 を最小にする ˆαを考えるのが普通である.この推定量 は最小二乗推定量 LSE(Least Squares Estimator) と呼 ばれる.LSE ˆαは以下のように陽に記述可能な推定量 である.まず以下の記号 y := (y1, y2,· · · , yn)T, Φ := [Φik], Φik:= φk(xi) を導入する.この記法により経験リスクは RDL(α) = 1 nky − Φαk 2 と書き直せる.LSE ˆαは RDL の α による偏微分を 0 とおいた方程式の解として ˆ α =TΦ)−1ΦTy (2) となることが簡単にわかる.統計学的には ˆαは最尤推 定量と解釈できる.なぜなら経験リスク RDLは,系列 ξiが i.i.d. に正規分布に従うとしたときの尤度と定数倍 の違いを除いて一致するからである. 次に共変量シフトの下での回帰について述べる.共 変量シフト下での推定法には様々なものが考えられる が,ここでは重み付き尤度に基づくアプローチ [9] を考 える.文献 [9] では一般的な推定論を論じているが,こ こではその結果を回帰に当てはめた結果のみ紹介する.

(3)

今,経験リスクに含まれる各標本についての尤度を実 数値関数 w(x) により重み付けした重み付き経験リス ク(尤度)を考える.すなわち (n× n) 行列 W を i 番 目の対角要素が w(xi)である対角行列と定義すると重 み付き経験リスクは RWDL(α) := 1 n(y− Φα) TW (y− Φα) (3) と定義できる.文献 [9] は漸近的な状況では p0で期待値 をとったリスクを最小にする最適な重み関数は w∗(x) = p0(x)/p(x)であることを示している.故に共変量シフト の下での回帰問題を解く一つのアプローチとして,適 当な方法で密度比 w∗(x)の推定値 ˆw(x)を求め,その W を用いた RW DLを最小にするeα を推定量(以下重み 付き最尤推定量と呼ぶ)とすることが考えられる.こ のときeα も陽に求まり eα =TW Φ)−1ΦTW y (4) と与えられる.しかし一般に w∗(x)を推定するのは必 ずしも容易ではない.しかし近年密度比推定に顕著な 進展があり,実時間で計算可能な安定した推定量が提 案されたため,このアプローチも実用的になりつつあ る.具体的な密度比推定量については次節で説明する. 上記の密度比を用いた回帰の考え方を単純に半教師 付き回帰に適用することは意味がない.なぜならば半教 師付き回帰では p≡ p0なので,最適な重みは w∗(x) = p0(x)/p(x)≡ 1 であり,DLだけを用いた LSE と同じ になるからである.

4

密度比推定量

この節では提案手法に用いる密度比推定量 uLSIF に ついて簡単に紹介する.詳細については文献 [7] を参照 されたい. 前節でも述べたように密度比 p0(x)/p(x)の推定は必 ずしも容易ではない.もっとも簡単なアプローチとし ては p(x) と p0(x)を別々に推定したのちに両者の比を とる方法であろう.しかし高次元の状況では密度の推 定そのものが一般的には困難であることが知られてい る.ところが近年密度の推定を経由せずに尤度比その ものをパラメトリックモデルによって直接推定すると 良いことがわかってきた. 本節ではそのようなアプローチの一つである uLSIF[7] について簡単に説明する.今 p6= p0という状況で,DxL は p(x) に従うとし,DxUは p0(x)に従うとする.ULSIF では密度比 w∗(x) = p0(x)/p(x)を推定するために密度 比そのもののパラメトリックモデル ˆ w(x; θ) := Bb=1 θbψb(x) を用いる.ここで θbは正の実数係数であり,θ はそれ らをまとめたベクトルとし,ψb(x)は適当な非線形関 数とする.特に文献 [7] では非線形関数としてガウシア ンカーネル ψb(x) := exp ( kx − x0 bk 2 2h ) が用いられている.ただしカーネルセンター{x0b} は Dx U からランダムに最大で 100 個の標本を選んできた ものである.パラメータ θ の推定量は Ep(x)[(w∗(X)− ˆ w(x; θ))2]をデータから推定した値と正則化項 λkθk2 和を最小にするものと定義されている.そのような推 定量 ˆθは結果的に以下の最適化問題 min θ∈<B 1 2θ T− 2θTh +λ 2kθk 2 where H := 1 n ni=1 ψ(xi)ψ(xi)T, h := 1 n0 n0j=1 ψ(x0j) の解 (ただし負の成分は 0 とする) になる.ただし ψ(x) = 1(x),· · · , ψB(x))T である.この最適化問題は線形演 算で簡単に解くことができる.またガウシアンカーネル のバンド幅 h と正則化係数 λ については leave-one-out crossvalidationで求められている.uLSIF はこれらの 計算を効率的に計算し高速に解を求めることができる.

5

密度比推定量に基づく半教師付き

回帰法の提案

本節では密度比を用いた半教師付き回帰を提案する. 節 3 で述べたように密度比を用いた回帰の考え方を直 接半教師付き回帰に適用すると無意味な結果になる.し かし本節では敢えて最適な重み関数 w∗(x)≡ 1 を用い ずにデータから密度比推定アルゴリズム uLSIF により 推定した ˆw(x; ˆθ)を用いて重み付き最尤推定することを 提案する (図 1).敢えて最適な重み関数を破棄して推 定しなおすと推定量が改善されるのかをここでは直感 的に説明する.また次節ではインポータンスサンプリ ングにおけるパラドックス的効果の視点から説明する. なぜ偽の想定「p6= p0」を置いて改めて密度比を推定 しなおすと推定が改善されるのだろうか?これは直感 的には以下のように解釈できる.実は推定された密度 比は確かに p(x)/p0(x)の比を推定するために考案され たものであるが,実際には p(x)/p0(x)の良い推定量と はいえない.もしラベル無しデータとラベル付きデー タがともに十分な量が観測できる状況であれば真の密 度比 w∗(x)に近い密度比が推定される.しかし半教師 付き回帰ではラベル無しデータ数は非常に多いのに対 してラベル付きデータ数は非常に少数である.結果と

(4)

Input: データセット D Output: 推定された回帰関数 fd(x; ˆα) 1. 偽の想定「ラベル無しデータセットは DxU p0(x), i.i.d.であり,ラベル付きデータセットは Dx L∼ p(x), i.i.d. であり,p 6= p0である」の下で 密度比 p(x)/p0(x)を uLSIF を用いて W を計算 2. 重み付き最尤推定量 ˆα =TW Φ)−1ΦTW y 計算 3. fd(x; ˆα)を出力 図 1: 提案する半教師付き回帰アルゴリズム してラベル無しデータからはおおよそ p(x) に近いもの が復元される一方で,ラベル付きデータからは必ずし も p(x) に近い分布を復元する情報が十分ではないため, 一般に w∗(x)とはかけ離れたものが推定される. ここで重要な事実は ˆw(x; ˆθ)は w∗(x)の良い推定量 ではないが,その一方で以下の密度比 ¯w(x)の良い推定 量となっていることである.今 p(x) について適当な正 則なパラメトリックモデル g(x; τ ) を考える.ただしあ る τ∗が存在して p(x) = g(x; τ∗)と仮定する.そして 任意のデータセット D0が与えられたときの最尤推定量 を ˆτ : D0 7→ ˆτ(D0)と書く.このモデル g(x; τ ) と最尤 推定量 ˆτを用いて密度比 ¯ w(x) := g(x; ˆτ (D x U)) g(x; ˆτ (Dx L)) を定義する.このとき最尤推定量の性質からデータセッ ト DxUと D x Lは p(x) からの実現値であるにも関わらず, DUx は g(x; ˆτ (DxU))からの,DLxは g(x; ˆτ (D x L))からの 実現値とみなす方が尤もらしい(尤度が高いという意 味で).従って uLSIF の推定量 ˆw(x; ˆθ)は密度比 ¯w(x) についての精度の良い推定量と解釈することができる. ただし uLSIF を用いると g(x; τ ) を陽に定めることな く ¯w(x)が推定できることに注意する.またラベル無し データ Dx U の数は多いと仮定しているため, ¯w(x)はお およそ p(x)/g(x; ˆτ (Dx L))と近いことに注意する. 提案手法は密度比 ¯w(x)を推定することで DLに含ま れる標本のインポータンス(重要度)を決定し,イン ポータンスの高い標本を優先してフィッティングする ことで推定精度を改善していると考えられる.今,図 2 のような状況を考える.図からわかるようにこのデー タは推定しやすい中央付近は,推定が難しい両端の部 分と比較してややデータが発生しやすい.このような 状況では両端に現れるデータよりも中央付近のデータ を優先してフィッティングした方が,リスクの意味で 明らかに有利である.しかしラベル付きデータが少数 しかない場合,例えば中央より両端に本来より多めに データが発生するなど本来の p(x) の分布に従わないこ ともしばしば起こる.そのとき Dx Lのみを用いた LSE では両端のデータにも平等にフィッティングしようと して推定精度が悪化する.ここで ¯w(x) の良い推定値 ˆ w(x; ˆθ)を用いて式 (3) のような重み付き尤度を考える. すると偶然両端のデータが多めに出たとしても両端で は p(x) が小さく g(x; ˆτ (Dx L))は大きいため ˆw(x; ˆθ)は 小さくなり,両端のデータのフィッティングは無視され やすくなる.逆に本来データの発生確率が高いにも関 わらずラベル付きデータが少ない領域では ˆw(x; ˆθ)が大 きくなるため,それらのデータは優先してフィッティン グされる.従って ˆw(xi; ˆθ)は DLxに含まれる標本の割 合を正しい割合 p(x) に向かって補正する役割を果たす. これはフィッティングに重要な標本ほど高い重みを与え ているとも解釈できるのでインポータンスと呼ばれる. 結果として式 (3) を用いることでラベル付きデータか らは同定できなかった,真に出現確率が高い標本に優 先してフィッティングすることで推定が改善される.

6

インポータンスサンプリングとの

関係

本節では節 5 で述べたように真の w∗を捨ててわざ わざ推定しなおした ˆwを用いると推定が改善されると いう一見不思議に思える現象がインポータンスサンプ リングにおけるパラドックス的効果と解釈できること を論じる. 最初にインポータンスサンプリングを簡単に復習し ておく.インポータンスサンプリングの目的は適当な 関数 q(x) が与えられたとき,その積分 γ :=q(x)dx を精度よく計算することである.今任意の確率モデル p(x; η) を考える.ここで η は適当なパラメータであ る.パラメータを任意の値 η∗ に固定して p(x; η∗)に 従う乱数 x1, x2,· · · , xn を発生する.このとき密度比 q(x)/p(x; η∗)(インポータンスと呼ばれる) の標本平均 ˆ γ := 1 n ni=1 q(xi) p(xi; η∗) は γ の不偏推定量であり標本数 n を十分多くとると大 数の法則から ˆ γ→p(x; η∗) q(x) p(x; η∗)dx =q(x)dx = γ に収束することがわかる. インポータンスサンプリングについて以下のパラドッ クス的効果が知られている.今既知の分布 p(x; η∗)を

(5)

知っているにも関わらず,敢えて得られた標本から最 尤推定したパラメータ ˆηを用いて eγ := 1 n ni=1 q(xi) p(xi; ˆη) とすることを考えてみる.勿論eγ は不偏推定量ではな くなるが,漸近的にはやはり不偏推定量である.ここ で興味深い事実はeγ の漸近分散は必ず ˆγ より小さくな る(推定精度が改善される)ことである [5].これは推 定関数の撹乱パラメータについてのパラドックス的効 果 [4] と深く関係している.  前節の提案手法に用いられている重み付き経験リス ク RWDLは R の推定量とみなしたとき上述のパラドッ クス的効果により経験リスク RDLと比較して漸近分散 を改良しているとみなせる.今 q(x, y) := p(x, y)(y− fd(x; α))2と定義してリスク γ :=q(x, y)dxdy = R(α) をインポータンスサンプリングで推定することを考える. 与えられているデータ DLは p(x, y) = g(x; τ∗)p(y| x) から発生していることを利用して通常のインポータン スサンプリングを考えるとその推定量は ˆ γ = 1 n ni=1 q(xi, yi) p(xi, yi) = 1 n ni=1 (yi− fd(xi; α))2 となり RDLと一致する.しかし上述のパラドクス的効 果を利用すれば p(x, y) に含まれる真のパラメータ τ∗ を捨てて最尤推定 ˆτを代入した eγ = 1 n ni=1 q(xi, yi) g(xi; ˆτ )p(yi| xi) = 1 n ni=1 g(x; τ∗) g(x; ˆτ )(yi− fd(xi; α)) 2 の方がリスクの推定量の意味で漸近分散が小さいこと がわかる.提案手法の RW DLに用いられているインポー タンス ˆw(x; ˆθ)は前節で述べたようにeγ に含まれるイ ンポータンスそのものではないものの,その良い近似 値になっていると考えられる.

7

シミュレーション

人工データを用いて提案法した半教師付き回帰 (以 降 SSR と呼ぶ) の性能評価を行った.今X = < として データを以下のように作成した.真の回帰関数として f (x) = sin (( 1.5 + ( 3x )4) x ) + ( 3x )4 を用い,p(x) は p(x) =      0.15 π−1.5 x∈ [−π, −1.5] 0.7 3 x∈ [−1.5, 1.5] 0.15 π−1.5 x∈ [1.5, π] とした.ノイズ{ξi} は正規分布 N(0, 0.25) に従うと し,式 (1) の回帰モデルに従って,ラベル付きデータ は n = 20 個,ラベル無しデータは n0 = 500個用意し た.図 2 は上記の状況を表している.

−3

−2

−1

0

1

2

3

−2

0

2

4

6

x

y

−3

−2

−1

0

1

2

3

−2

0

2

4

6

x

y

−3

−2

−1

0

1

2

3

−2

0

2

4

6

x

y

図 2: シミュレーション: 実線は真の回帰関数を表 し,点線は x の密度関数 p(x) を表す.ただし p(x) は 見やすくするために適当な拡大とシフトをしている. また点はラベル付きデータを表す. また回帰関数のモデルに用いる非線形関数は φk(x) := { 2 sin((k/2)x) (kが奇数) 2 cos(((k + 1)/2)x) (kが偶数) とした.LSE 推定量を ˆαと記し,SSR 推定量をeα と 記す.それらの推定量のリスク R を評価するために 上記と同じ方法で独立に 500 点のラベル付きデータ {(˜xi, ˜yi)| i = 1, 2, · · · , 500} を発生させて fd(x; ˆα) の リスクを 1 500 500 ∑ i=1yi− fdxi; ˆα))2 を用いて近似した.fd(x;eα) についても同様である.こ の近似リスクを用いてリスクの意味で最適なモデルを 実験的に求めると最適な次数 d∗は 3 となった.すなわ ち次数が 3 より大きいモデルでは関数近似能力として は過剰であることに注意する.

(6)

上記の実験を次数 d = 1, 2,· · · , 12 について 500 回く り返した結果が図 3 である.ここで注意すべきは図 3 の縦軸のレンジは箱ヒゲ図全体を表示するようになっ ていないことである.実は正の側も負の側も次数 4 以 上については異常に絶対値の大きい値が存在するため 表示されていない.このことは性能比較をリスクの平 均値で行わなかった理由にもなっている.なぜならそ れらのたった数回の異常値により両手法のリスクの平 均値が著しく不安定になるからである.そのためここ では箱ヒゲ図による評価を行った.なお,500 回の試 行のリスクの差の中央値 (メジアン) のみ拡大して別途 図 4 に示した. これらの実験結果より次数 1, 2 は両者のリスクはほ とんど変わらず,次数 3 以降 SSR によるリスクの改善 が顕著であることが見て取れる.次数 1, 2 はそもそも 回帰関数を表現するには単純過ぎる形であるため,LSE であってもオーバーフィットしにくいのであまり差が出 ていない.しかし回帰関数の推定値としては大きく外 れている.一方次数 3 以降では回帰関数の形を大体表現 することができる一方で,過剰な表現能力により LSE はデータにオーバーフィットしている.しかし SSR は フィッティングすべきデータとそうでないデータを区 別できるため,次数があがっても比較的オーバーフィッ トを避けられるため次数があがるにつれて LSE を著し く改善する. 1 2 3 4 5 6 7 8 9 10 11 12 −2 −1 0 1 2 d R ( α ^) − R ( α ~) 図 3: 各次数 d について,ラベル付き付きデータのみ を用いた LSE の推定量のリスク R( ˆα)から提案した半 教師付き回帰 (SSR) のリスク R(eα) の差の箱ヒゲ図. 多くの場合 SSR は LSE と同じか改良する場合が多い が,上述したリスクの異常値については LSE より SSR のほうが数回多く,しかも必ず多く出現する.この現 象は密度比推定量 uLSIF により推定された行列 W が ランク落ちするため起きることが予備実験によってわ かっている.uLSIF はパラメータに正則化を行うため 重みはやや 0 に近づきやすい.今,ラベル付きデータ 数が n = 20 であるので,重み行列 W は 20× 20 行列 である.実験中に SSR のリスクが著しく悪化したとき の W の様子を観察すると,W のランクは例えば 4 ま で減少していることがあった.このような場合 d を 5 以上にすると,式 (4) に含まれる (ΦTW Φ)はフルラン クでなくなるため逆行列が発散する.これがリスクの 暴れる原因である.そのようなケースを除けば SSR は 大抵安定した挙動を示した. 2 4 6 8 10 12 0.00 0.05 0.10 0.15 d Median of r isk diff erence 図 4: 各次数 d についてリスクの差 R( ˆα)− R(eα) のメ ジアンのプロット

8

考察及び結論

本論文では密度比推定量に基づく半教師付き回帰法 を提案した.この方法はラベル付きデータの標本の出 現頻度を,重み(インポータンス)をかけて正しい出現 頻度へ修正することで安定した推定を行っている.節 5に詳しく述べたように提案した半教師付き回帰法が 有効に働く典型的な状況とは「回帰関数が複雑で推定 が難しいがデータの出現頻度はやや低い領域がある場 合で,かつラベル付きデータ数が少ないとき」である. 通常の LSE はラベル付きデータ数が少ない場合にその ような領域に標本が発生すると正しい出現頻度以上に 重要視してフィッティングしてしまう.提案法ではその ような標本のインポータンスを下げて適切に無視する ことができる.このような仕組みは節 6 で述べたよう

(7)

にインポータンスサンプリングにおけるパラドックス 的効果を用いて推定量の分散を抑えているとも解釈で きる.また提案手法は回帰問題のみ考慮したが,上述 したことは回帰に限らず判別など尤度や標本について 加法的なロス関数に基づく教師付き学習全般に適用で きることを述べておく.特に本研究ではリッジ回帰な ど正則化付き回帰への拡張を検討中である.なぜなら 実験で述べたように標本数が少ないときや密度比推定 量が著しくスパースになったときは推定量が暴れるた め,正則化を考えることが重要になるからである. 提案手法の一つの利点として他の多くの半教師付き 回帰法と比較して複雑な処理は一切なく,教師付き学 習の方法をほとんどそのまま用いることができる点が 挙げられる.本論文では簡潔さのために重み付き尤度 を用いてアルゴリズムを作り直したが,既存の教師付 き学習の中には尤度やロス関数を重み付きに変更する ことが容易でないような方法もある.その場合でも以 下の方法により既存の教師付き学習の実装コードを変 更することなく半教師付き学習が適用可能である.ま ず各標本の重み w(xi, ˆθ)は正であり和が 1 であるので, 確率とみなせることに注意する.今ラベル付きデータ DLから各標本を確率 w(xi, ˆθ)に従ってリサンプリング したデータセットを DL0 と書く.リサンプリングする データの数が十分であれば,このデータセット DL0 に 基づく教師付き学習の結果は重み付き尤度(ロス)を用 いた結果とほぼ一致する.従って我々の考え方は様々な 教師付き学習を容易に教師付き学習に拡張できる.こ のような方法が既存の複雑な半教師付き学習法と比較 して精度と計算量の観点でどのような違いがあるのか 比較することは興味深い今後のテーマである.

謝辞

本研究の一部は科研費 (21700308) 及び科研費 (19300051) の助成を受けたものである.また九州大学の尾家遥子 さんには実験の一部,及び密度比行列の縮退による問 題の解決に協力いただいた.また九州大学数理学府の 川野秀一博士には半教師付き学習の分野のサーベイに 関して有用な情報をいただいた.名古屋大学金森敬文 准教授には様々な有用なコメントをいただいた.特に 文献 [5] との関係は同氏の指摘が発端となり明らかにさ れた.

参考文献

[1] K. Bennett and A. Demiriz. Semi-supervised sup-port vector machines. Advances in Neural Infor-mation Processing Systems, 11:368–374, 1999.

[2] S. Bickel, M. Br¨uckner, and T. Scheffer. Discrim-inative learning for differing training and test dis-tributions. Proceedings of the 24th International Conference on Machine Learning, 2007.

[3] A. Blum and S. Chawla. Learning from labeled and unlabeled data using graph mincuts. Pro-ceedings of the 18th International Conference on Machine Learning, 2001.

[4] M. Henmi and S. Eguchi. A paradox concern-ing nuisance parameters and projected estimat-ing functions. Biometrika, 91(4):929–941, 2004.

[5] M. Henmi, R. Yoshida, and S. Eguchi. Im-portance sampling via the estimated sampler. Biometrika, 94(4):985–991, 2007.

[6] Jiayuan Huang, Arthur Gretton, Bernhard Sch¨olkopf, Alexander J. Smola, and Karsten M. Borgwardt. Correcting sample selection bias by unlabeled data. In NIPS. MIT Press, 2007.

[7] T. Kanamori, S. Hido, and M. Sugiyama. A least-squares approach to direct importance esti-mation. Journal of Machine Learning Research, 10:1391–1445, 2009.

[8] K. Nigam, A.K. McCallum, S. Thrun, and T. Mitchell. Text classification from labeled and unlabeled documents using em. Machine Learn-ing, 39:103–134, 2000.

[9] H. Shimodaira. Improving predictive infer-ence under covariate shift by weighting the log-likelihood function. Journal of Statistical Plan-ning and Inference, 90:227–244, 2000.

[10] M. Sugiyama, T. Suzuki, S. Nkajima, H. Kashima, P. von B¨unau, and M. Kawanabe. Direct importance estimation for covariate shift adaptation. Annals of the Institute of Statistical Mathematics, 60(4):699–746, 2008.

[11] Z.-H. Zhou and M. Li. Semisupervised regression with cotraining-style algorithms. IEEE trans-actions on Knowledge and Data Engineering, 19(11):1479–1493, 2007.

[12] X. Zhu. Semi-supervised learning literature sur-vey. Computer Sciences TR 1530, University of Wisconsin-Madison, pages 1–60, 2008.

図 4: 各次数 d についてリスクの差 R( ˆ α) − R( α) e のメ ジアンのプロット 8 考察及び結論 本論文では密度比推定量に基づく半教師付き回帰法 を提案した.この方法はラベル付きデータの標本の出 現頻度を,重み(インポータンス)をかけて正しい出現 頻度へ修正することで安定した推定を行っている.節 5 に詳しく述べたように提案した半教師付き回帰法が 有効に働く典型的な状況とは「回帰関数が複雑で推定 が難しいがデータの出現頻度はやや低い領域がある場 合で,かつラベル付きデータ数が少ないとき

参照

関連したドキュメント

Kilbas; Conditions of the existence of a classical solution of a Cauchy type problem for the diffusion equation with the Riemann-Liouville partial derivative, Differential Equations,

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

Variational iteration method is a powerful and efficient technique in finding exact and approximate solutions for one-dimensional fractional hyperbolic partial differential equations..

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

Under small data assumption, we prove the existence and uniqueness of the weak solution to the corresponding Navier-Stokes system with pressure boundary condition.. The proof is

(Non periodic and nonzero mean breather solutions of mKdV were already known, see [3, 5].) By periodic breather we refer to the object in Definition 1.1, that is, any solution that

The proof of the existence theorem is based on the method of successive approximations, in which an iteration scheme, based on solving a linearized version of the equations, is

discrete ill-posed problems, Krylov projection methods, Tikhonov regularization, Lanczos bidiago- nalization, nonsymmetric Lanczos process, Arnoldi algorithm, discrepancy