転移学習のサーベイ
Survey on Transfer Learning from Taxonomic Perspective
神嶌 敏弘
1∗Toshihiro Kamishima
1
産業技術総合研究所
1
National Institute of Advanced Industrial Science and Technology (AIST)
Abstract: We overview resent researches in transfer learning.
1
はじめに
転移学習 (transfer learning) という語は,かなり幅広 い機械学習の枠組みに対して使われており,統一され た形式的定義を与えることは難しい.だが,形式的で はない定義としては,転移学習のワークショップの論 文募集 [2] にある,次のものが広く受け入れられるだ ろう.the problem of retaining and applying the knowl-edge learned in one or more tasks to efficiently develop an effective hypothesis for a new task 新規タスクの効果的な仮説を効率的に見つ け出すために,一つ以上の別のタスクで学 習された知識を得て,それを適用する問題 すなわち,ある問題を効果的かつ,効率的に解くため に,別の関連した問題のデータや学習結果を再利用す るのが転移学習である. 最近は,Web などから大量のテキストデータはかな り容易に収集できるようになり,教師なしで作れる言 語モデルなどは格段に精度が向上した.一方,学習に 教示情報が必要な場合,例えば音声認識の音響モデル や,文書分類のモデルとかはそれほど向上していない. これらのタスクには,教示情報付きの学習データが必 要であり,その教師情報は人手で与えなければならな い.そのため,こうしたデータを大量に準備するのは, 費用,人的資源,時間などの制約から,一般には困難で ある.この問題に対処するための機械学習の方針は三 つあるだろう.一つ目は,少数のラベルありデータを 準備し,多数のラベルなしデータを活用して予測精度 を向上させる半教師あり学習 (semi-supervised learning) [7] である.二つ目は,より効率的な分類ができるよう に選んだ事例に対して,教示情報を与えさせる能動学 習.そして,最後がこの転移学習である.上記のよう ∗連絡先:http://www.kamishima.net/ な需要に応えるため,転移学習に関する発表は増えて いる. 転移学習の考えはかなり以前からあり,1995 年の NIPS のワークショップ [1] から,機械学習の一分野と して認識されるようになった.転移学習の呼び方が定 着しつつあるようなので,この呼び方を本稿では採用 するが,10 数年にわたっていろいろな呼び方をされて きた.例えば,帰納転移 (inductive transfer),ドメイン 適応 (domain adaptation),マルチタスク学習 (multi-task learning),knowledge transfer, learning to learn,lifetime learning といろいろある.さらに,共変量シフト (co-variate shift) [29, 30] や標本選択バイアス [38] なども, 転移学習のより限定された分野とみなしてよいだろう. Pan & Yang の転移学習のサーベイ [23] では,体系的 な議論が試みられている.また,自然言語処理で,この 転移学習に取り組んでいる Daum´e は,ブログ [11] で, 転移学習に対する考えを示している.本稿では,これ らの考えを取り入れつつ,私自身の考えも含めて,転 移学習の分野を俯瞰したい.2 節はタスク間の関係に ついて, 3 節では転移学習の設定について,4 節では転 移のモデル化について考察する.最後の 5 節では転移 学習の各研究の概要を示す.
2
転移学習
前節で述べたように,転移学習の見方は研究者によ り様々だが,そうしたいくつかの見解を,私の考えも 交えて紹介する. その前に,本稿での表記を示しておく.転移する知 識の送り手側を元ドメイン (source domain),受け手側 を目標ドメイン (target domain) とよび,それぞれ,上 付きの (S) と (T ) で表す.元ドメインが複数ある場合 は (S1), (S2), . . . , (SK) のように表すが,一つだけの場 合は添え字は省略する.いずれかのドメインであるこ とを示すには D∈ {S, T } を用いる.各ドメインの入力 人工知能学会研究会資料 SIG-DMSM-A803-06 (3/3)に該当する確率変数を X(D)とする.これらの定義域 はX(D)で,一般に,p(D)次元の実数ベクトルである. 各ドメインに出力が存在するとき,その出力に該当す る確率変数をそれぞれ Y(D).これらの定義域はY(D) で,二値分類問題なら{0, 1},回帰問題なら実数とな る.ラベルありの事例は入力と出力の対 (x(D) i , y (D) i ) で,(X(D), Y(D)) の実現値である.ラベルなし事例は 入力 x(D)i のみで,X(D)の実現値である.訓練事例集 合の数は N(D)である. Daum´e は,ドメイン適応/転移学習と,マルチタスク 学習とを,それぞれ異なるドメインからの転移と,異 なるタスクからの転移と区別している.しかし,ドメ インの違いとタスクの違いというのは,それほど自明 な概念ではないと私は考える.Daum´e は自然言語処理 の研究者なので,異なるタスクとして,文書分類,固 有表現抽出,形態素解析などを想定し,異なるドメイ ンとして訓練に使うコーパスの違いを想定しているだ ろう.例えば,ブログ記事を対象とした文書分類問題 を考えてみよう.一つ目の分類は内容のカテゴリ(趣 味や社会など)に応じた分類,もう一つはセンチメン ト分類(商品の善し悪し)としよう.文書分類として 見れば同じタスクだが,出力の定義域Y(D)が異なる ので違うタスクといっても良いだろう.なお,Caruana のマルチタスク学習の基本文献 [6] では違うタスクと して扱われている.さらに,一方がブログ記事コーパ ス,もう一方が新聞記事コーパスでも,この場合は何 らかの転移はできそうだが,Daum´e 流ではどのように 分類すべきかは難しいだろう.ここでは,ドメインと タスクという言葉は特に区別せず,ドメインという言 葉を用いる.ただし,定義域X(D)やY(D)が両ドメイ ンで異なるかどうかは区別することがある.
Pan & Yang は,転移学習とマルチタスク学習を次の ように区別している.マルチタスク学習は,元ドメイン と目標ドメインの役割が入れ替わってもよく,対称で ある.両ドメインに共通する知識を見つけ出し,互いの 知識を相互に転移して,両方のドメインでの予測精度 を向上させることが目的である.最も典型的な応用は, 音声認識での話者適応だろう.一方の,転移学習の目標 は,元ドメインの訓練事例集合を利用することで,目 標ドメインでの予測精度を向上させることである.ほ とんどの応用はこちらの場合だろう.私も,このように 分類するのは妥当だと考えている.ただし,両者を統 合する用語も転移学習になってしまうので,両者をあ わせて転移学習,Pan & Yang の狭義の転移学習はドメ イン適応と呼ぶのがよいと考えていた.しかし,Pan & Yang に合わせて,本稿では,Pan & Yang の意味で転移 学習とマルチタスク学習の語を用いる.これらの違い は,アルゴリズムの設計に次のように影響するだろう. 転移できる知識の総量だが,ドメインが三つ以上にな ると,マルチタスクで利用できる知識は,転移学習での それより大きくはならない.各ドメインの知識をK(D) と書くと,マルチタスク学習では全タスクで共通な知 識{∩iK(Si)} ∩ KT のみが利用できる.それに対し,転 移学習では,目標ドメインと各元ドメインに共通する 知識を全て合わせた知識,すなわち,∪i{K(Si)∩ K(T )} が利用できる.よって,転移学習の方が,より多くの 知識を再利用できる.一方,マルチタスク学習で転移 される知識は,新規のドメインでも利用できる場合が 多い.音声認識の話者適応の例だと,100 人に利用で きた知識は,101 人目にも利用できるだろう.一方,転 移学習では,新たなドメインに対しては,転移する知 識を再度決める必要がある.よって,マルチタスク学 習の方が知識を再利用できるドメインは広範囲になる. 最後に,その他の転移学習問題に対する呼称につい ても元の意味合いを紹介しておく.lifetime learning は, 強い人工知能にやや踏み込んだ意図がある.人間は,一 つの作業ごとに,白紙の状態からではなく,過去の経 験をもとに学習を行う.それを計算機上で実現するこ とを意図した呼称である.learning to learn には,メタ 学習 [33] と近い意図がある思う.問題ごとに適切な学 習アルゴリズムは変わるが,メタ学習は,このアルゴ リズムの選択を機械学習によって行う試みである.過 去の学習結果と,訓練データの特徴の対から適切な学 習器を選ぶ分類器を獲得する.
3
転移学習の設定
転移学習は元と目標の各ドメインの事例にラベル情報 (出力情報)が与えられているかどうかによって,4 種類 の設定が考えられる.Daum´e の表記に従ってまとめる と,次の表になる.例えば,(1) の S+T + の場合は,両 ドメインの訓練集合は{(x(S) i , y (S) i )} と {(x (T ) i , y (T ) i )} のように,どちらも入力と出力の実現値の対の集合で ある. 目標ドメインラベル あり なし 元ドメイン あり (1) S+T + (2) S+T− ラベル なし (3) S−T + (4) S−T − Pan & Yang は,目標ドメインにラベルがある (1) と (3) の場合を合わせて帰納転移学習 (inductive transfer learning),(2) をトランスダクティブ転移学習 (transduc-tive transfer learning),そして (4) の場合を教師なし転移 学習 (unsupervised transfer learning) と呼んでいる.だ が,Daum´e などの議論も参考にし,(1) と (3) を区別し て考えた方がよいと私は考える.よって本稿では,帰 納転移学習という語は (1) のみをさし,(3) については 自己教示学習 (self-taught learning) [24] の語を用いる. (1) 帰納転移学習の研究は最も多い [32, 26, 10, 25, 14, 35, 19, 21, 13, 12, 6, 37, 18, 16, 17].ドメインの違いを,分布の違い P[X(S), Y(S)]̸= P[X(S), Y(S)] に帰する研 究がほとんどである.定義域の違い X(S) ̸= Y(T ) や Y(S) ̸= Y(T )を考慮した研究をまだ知らない.定義域 が違う場合は,一部には写像で関係が定義できる必要 があるだろう.例えば,自然言語処理のベクトルモデ ルで,両ドメインの語彙には共通部分があるといった ものである. (2) トランスダクティブ転移学習の研究は次に多い [20, 15, 9, 3, 36, 27, 29].ラベルのない目標ドメインのデータ の適切なラベルを予測することが目的である.Daum´e や Pan & Yang も共に指摘することだが,P[Y(S)|X(S)] = P[Y(T )|X(T )] を暗黙的,もしくは明示的に仮定してい る.そして,P[X(S)] ̸= P[X(T )] であることがドメイ ンの違いとみなしており,この点で半教師あり学習と は異なる.また,実際に,半教師あり学習アルゴリズ ムの予測精度は,この種の転移学習アルゴリズムのそ れを下回る. (3) の自己教示学習については議論すべき点がある. Daum´e はこの種の転移学習については,P[X(S)] = P[X(T )] の仮定が必要だと述べている.すると,統計的翻訳で, 言語モデル P[X(S)] を大規模な英語コーパスから,P[Y(T )|X(T )] を対訳コーパスから獲得するような問題になる.P[X(S)] = P[X(T )] をするならば,転移学習よりも,特徴構築と みなした方がよいかもしれない.この種の研究である と主張する自己教示学習の論文 [24] についてもう少し 議論する.この方法は,元ドメインデータを使って特 徴の部分空間を求め,その部分空間を使って目標ドメ インのラベルありデータから学習する.特徴構築など の既存研究と異なるとの主張は,P[X(S)] = P[X(T )] を仮定しないことと,目標ドメインにないラベルが付 けられるべきデータが元ドメインにはある,すなわち, Y(S) ⊇ Y(T )であることを根拠としている.前者に関
しては,Pan & Yang も指摘しているが,次元削減の一 種なので,P[X(S)]̸= P[X(T )] の状況に対応できている かどうか明確ではないように思う.Y(T )にないラベル を持つ事例が含まれるので分布が異なると主張してい るが,分布の違いに充分に対応できるかどうかは,論 文の実験だけでは充分に示せていないように思う.後 者の定義域の違いに関しては,両者の要素は容易に対 応付けられ,目標ラベルの定義域に「未知ラベル」を 加えれば等しく扱えるようにも思う.また,提案手法 は,未知目標ラベルに対応する事例を排除するように 明示的には設計されてはいないと思う. 最後の (4) も P[X(S)] = P[X(T )] ではないかと私は 考える.Daum´e もこの場合は通常の教師なし学習と等 価と述べている.ただし,定義域が異なる場合,すな わち,X(S)̸= X(T )であれば,新たな枠組みとみなせ るかもしれない.しかし,定義域中の要素間の写像は 必要となり,その像の分布はやはり等しいとの仮定は 必要になるかもしれない.[34] など,いくつかの研究 が提案され始めた時期なので,その位置づけは今後と も考察を続けたい. Daum´e は,P[X(S)] = P[X(T )] を仮定した場合を転 移学習,P[Y(S)|X(S)] = P[Y(T )|X(T )] を仮定した場合 をドメイン適応とよんでいる.だが,これらの仮定は, 上記の分類とおそらく密接に関係しており,また,名 称も直接的なので Pan & Yang の帰納転移学習などの呼 称をここでは用いる. その他,実問題への適用を考える場合には,P[X] が 変わって,P[Y|X] が不変という状況がありえるのかは 議論され続けている.また,有限事例集合から,分布 が違うかどうかは充分に検証できるのか,また,分布 の違いが精密に求められるほど十分なデータがあるな らば,そもそも知識の転移は必要なのかといった,抜 本的な問題もある.
4
転移仮定と転移モデル
転移学習を形式的に定義できない最大の原因は『ドメ インが似ている』ことを定義することの難しさにある. これは,転移学習研究の黎明期から最も重要な課題と して認識されているが [6],未だに明確な解は示されて いない.おそらく問題の類似性を一つの物差しで測る のは不可能だと私は考える.機械学習手法を適用して よい結果を得るには,問題に対して適切なモデルを採 用していることが重要であり,また,No Free Lunch 定 理の示すように,万能なモデルは存在しえない.知識の 転移においても,何が似ていて,どのように転移できる かを仮定し,その仮定をどのように数学的モデルで表 すかということが必要になるだろう.これらを,転移仮 定と転移モデルとそれぞれよぶ.転移するドメイン間 で,転移仮定と転移モデルが適切なら転移学習は成功 し,不適切ならかえって悪くなる『負の転移 (negative transfer) [26]』が生じるだろう.さらに,モデルの場合 と同じように “No Free Lunch in Transfer” も成立し,万 能な転移モデルは存在しえないだろう. それでは,転移仮定について考察を深める.最も一 般的な形での転移仮定は,二つのドメインの分布間の ダイバージェンスで測り,それが十分に小さい場合を 想定する [4, 5, 8].この種の仮定は,両ドメインの知識 が非常に少ない場合には有用だろう.しかし,もし両 ドメインについてより多くのことが分かっているので あれば,それを表すより特殊な仮定を導入し,より多 くの知識を転移できるだろう.例えば,正と負クラス の目標データが,それぞれ,別のガウス分布から生成 されているとする.元データもやはりガウス分布に従 うのだが,その分布の中心は目標データのそれと等し いが,分散はずっと小さいとしよう.この場合,決定 平面は不変なので,そのまま元ドメインのデータは活用できるだろう.しかし,これら二つドメインの分布 間のダイバージェンスは 0 ではないので,上記のよう な一般的な転移仮定では,転移される知識はある程度 制限を受ける.Pan & Yang も指摘しているが,転移で きる状況を明確にし,それらの状況に合わせた転移学 習の手法を考えていく必要があるだろう. 転移仮定を数学的にモデル化したものを転移モデル と呼ぼう.このモデル化のアプローチを,モデルベー ス,特徴ベース,および事例ベースの 3 種類に分ける. 最初のモデルベースは,受け手の目標ドメインで,明 示的に転移仮定をモデルに組み込む.例えば,共通す る知識を事前分布にした階層ベイズ [25],異なる知識 を要素分布で表現した混合分布 [13],隠れ層を共有す るニューラルネットワーク [6, 32] などのモデルがこの 場合に該当する.残り二つのアプローチは,受け手の目 標ドメインではなく,元ドメインのデータを送り手側 で整形する.この整形を,特徴空間の変換によって行う のが特徴ベースである [3, 12, 20, 21, 27].特徴空間中で の距離を利用する方法 [9, 32, 36] もこの種の方法と見 なすべきだろう.事例ベースアプローチでは,元ドメイ ンの各訓練事例を,目標ドメインへの関連性に応じて, 重み付けしたり,選択したりする [10, 19, 29, 31, 35]. 複数の仮説を重み付け・選択する方法 [15, 18, 16, 17] もこの種の方法とみなしてよいだろう.
Pan & Yang も同様の分類を示している.転移学習の 研究課題として,何を転移するのか (What to transfer), どのように転移するのか (How to transfer),そして,い つ転移するのか (When to transfer) があると述べてい る.このうち,何を転移するのかによって,転移学習 の方法は,事例転移 (instance-transfer),特徴表現転移 (feature representation transfer),パラメータ転移 (param-eter transfer),および関係知識転移 (relational knowledge transfer).これらのうち,最後のものは,確率的な論理 を対象としていてやや特殊なので,ここでは議論しな い.私の,事例ベース,特徴ベース,およびモデルベー スが,それぞれ,Pan & Yang の事例転移,特徴表現転 移,およびパラメータ転移と対応付けられる.しかし, 彼らは何を転移するのかによって,これらの分類が決ま ると述べているが,この点については私の考えは異な る.私が述べる転移仮定は,何をどのように転移するか の仮定だが,これは異なるカテゴリの転移モデルによっ て具体化することが可能だと考える.例えば,Daum´e は,自然言語処理において,タスク達成に有用な素性の 集合が異なっているという転移仮定を示している.そ して,この仮定をモデルベースで実現した [13] と,特 徴ベースで実現した [12] の二つの方法を提案している. より一般的に,ある転移仮定は,受け手側のモデルベー スによるものと,送り手側の事例・特徴ベースによる ものの,少なくとも二通りの実現方法が常に可能では と予測している.あと,Pan & Yang は,パラメータ転
移と呼んでいるが,ノンパラメトリックなモデルも現 れ始めているので,モデルという語を使う方が適切だ と思う. 私の分類は自明のように述べたが,議論すべき余地 もある.事例を重み付けするので [19] は事例ベースと したが,その重みの決定は最適化関数の中に密接に組 み込まれているためモデルベースとすべきかもしれな い.また,複数の仮説を重み付け・選択する方法は,事 例ベースとしたが,モデルベースとすべきか議論の余 地があるようにも思う.
最後に,Pan & Yang も,Daum´e も論じていないが, 転移学習アルゴリズムは統合型とラッパー型という視 点からも分類できるだろう.ラッパー型 (wrapper) と は,目標ドメインで帰納的な学習を行うアルゴリズム と,知識を転移するプロセスとが独立しているもので ある.一方,統合型 (integrated) は,学習アルゴリズム と転移手法が密接に結合していて分離できないもので ある.前者の代表としては,特徴空間合成する [12] や アンサンブル学習による方法 [10, 18] が挙げられる.後 者の方法としては,ほとんどのモデルベース手法が該 当する.統合型は受け手側のモデルベース,ラッパー 型は送り手側の事例・特徴ベースに対応しているよう にも思うので,今後,考察を深めてゆきたい.両手法の 長所と短所について考察しておく.ラッパー型は,転 移モデルと,学習モデルを分離できるので,転移仮定 に合わせた選択がしやすいだろう.一方,統合型では, 転移と学習を同時に実行できたりするため,計算効率 的には有利な点もある.また,学習手法の特性を生か した転移も可能かもしれない.
5
転移学習手法
A Survey on Transfer Learning [23] 転移学習のサー ベイ.
Is Learning The n-th Thing Any Easier Than Learning The First [32] 転移学習の先駆的研究の一つ.ある対 象の画像を正例,他の対象の画像を負例として,これ らを区別する問題.これら以外の画像のデータが別に あるとき,これらを識別器の学習に利用する.最近隣 法で,データの空間を変換する方法と,距離関数を学 習する方法.ニューラルネットで,多クラス分類の用 にする方法と,EBNN(explanation-based NN) を用いる 方法を提案.
To Transfer or Not To Transfer [26] 補助データと目 標データそれぞれを単純ベイズでモデル化.さらに,そ のモデルのパラメータに超事前分布を導入した階層ベ イズモデル.補助データと目標データの分布が似ていれ
ば,超事前分布の効果で転移学習がうまくいくが,違っ ていると逆効果になってしまう現象の報告.
Boosting for Transfer Learning [10] 目標の分類問題 と同分布からサンプルされたデータと,それと関連し た違う分布からサンプルされたデータとの両方を用い るブースティングである TrAdaBoost.同分布・異分布 の両方を併せたデータで弱分類器を作り,誤分類され た異分布データの重みを徐々に下げてゆく.理論的に, 異分布データの重み付経験誤差を 0 にできるが,重み が 0 になっている場合もあるので,異分布データを必 ず活用できることは保証されない. 飼いならし — 飼育・野生混在データからの学習 [18] bagging を使った転移学習.元ドメインからサンプリン グしたデータで幾つもの弱学習器を生成する.それら の学習器で,目標データを分類し,予測精度が高かっ たものだけを集めて,多数決投票を行う.
Constructing Informative Priors using Transfer Learn-ing [25] 文書分類を対象に,目標問題の精度を,補助 問題から求めたパラメータの事前分布を用いた MAP 推 定によって向上させる.事前分布にはガウス分布を想 定し,その共分散行列を計算する.ところが,普通に 計算するのは計算量が大きく,また,半正定値性を満 たさない問題もある.そこで,いくつかの対について のみモンテカルロ法でまじめに共分散を推定.その他 は,特徴に対応する語の特徴を考え,まじめに推定し た共分散を教師信号として残りは推定する.このとき, 半正定値性も満たすように,推定と半正定値性を満た す射影とを交互に繰り返して推定.
Transfer Learning for Text Classification [14] 文書の 統計量を入力とするスコア関数 g が最大になるクラス へ,文書を分類するモデルを考える.単純ベイズや tf-idf では,この g は線形関数.いろいろなコーパスに使 えるように,この g を,複数のコーパスから訓練する 方法を提案.他のコーパスで学習した g を用いて,単 純ベイズや識別モデルベース手法を上回る分類精度が 達成できることを示した.
Improving SVM Accuracy by Training on Auxiliary Data Sources [35] 目的の問題用のデータに加え,精 度の劣る補助データを併用する転移学習の一種.k 近 傍法では,主データと補助データで投票の重みを変え る.SVM では,補助データはサポートベクトルとして 記述を変えるのと,誤差として考慮するのとの 2 種類 の利用法.主と補助データではやはり重み付けによっ て,その解への影響度を変える.
Logistic Regression with an Auxiliary Data Streams [19] 主データと補助データがあるとき,補助データの中で 主データを矛盾するようなデータを無視するような変 数を導入.その変数と,モデルのパラメータを同時に 最適化するロジスティック回帰.
An Algorithm for Transfer Learning in a Heteroge-neous Environment [21] 関連タスクが均一ではなく, いくつかのグループに分けられる場合のマルチタスク 学習.タスクをクラスタリングし,各タスクごとに有 用な特徴の部分空間を求める.タスクのクラスタへの 割り当てと,部分空間の計算を交互に繰り返すことで 解く.
Spectral Domain-Transfer Learning [20] 転移先のタ スクにはラベルがないテスト事例である転移学習.テ スト事例と訓練事例を合わせたデータを,テスト事例 の類似性が強調されるようにスペクトラルグラフを使っ て次元削減.同時に,訓練データのラベルが維持され るような罰則項をもつ.そうして,次元削減後の空間 で,クラス分類問題と解くことでラベル付けをする. Knowledge Transfer via Multiple Model Local Struc-ture Mapping [15] 複数のモデルがあり,それを組み 合わせて,与えられたドメインの異なるテストデータ を分類する.どのモデルを選ぶかは,モデルとテスト の分布が一致しているものを重視する.一致は,クラ スの境界が低密度部分にあるとするクラスタリング多 様体仮定に基づいて,テストデータをクラスタリング した分類結果と,訓練データのクラスが一致している かで測る.
Self-taught Learning: Transfer Learning from Unla-beled Data [24] 教師なし・ありデータを使う点では半 教師あり学習と同じだが,教師なしデータには,クラ スラベル集合中のどのラベルも適切ではないデータが 含まれる点が異なる.教師なしデータから,特徴を構 築することで,高次の表現を獲得し,その表現を使っ て教師ありデータから学習することで,より高精度の 予測を実現.
Co-clustering based Classification for Out-of-domain Documents [9] 半教師あり学習のようにラベルあり・ なしの二つの文書データを使うが,ラベルありデータ とラベルなしデータでデータのドメインが異なる.ラ ベルありデータのクラス情報を反映させた語クラスタ を作り,その語クラスタと共クラスタリングすること で,ラベルなしデータをクラス分類する.クラスタリ ングは情報量に基づく評価関数を基に行う.
A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data [3] 半教師あり学 習の,ラベルなしデータから,目標問題に関連した補 助問題をいくつか作る.例えば,ある特徴から,別の 特徴の値を予測するなど.それらの補助問題を共通に 解くのに有用な部分空間や構造を見つける.その部分 空間を使って学習することで,目標問題の予測精度を 向上させる.
Bridged Refinement for Transfer Learning [36] 転移 先のデータはラベルがない状況を想定.精細化と呼ぶ 手続きは,単純に求めた分類器の確信度を,その近傍 のラベルと無矛盾になるように変化させる.最初は,訓 練データで求めたデータを,訓練+テストへ精細化.そ の後,その確信度をテストデータのみに適応させる. Domain Adaptation of Conditional Probability Models via Feature Subsetting [27] 転移先データがラベルな しの転移学習.転移先での特徴の重要性に応じて重み 付けを行う.重みは,その特徴とる値の期待値の,二 つのドメイン間の距離 (実験では対数二乗距離) に応じ て決める.
Learning Bounds for Domain Adaptation [5] 元ドメ インと目標ドメインのそれぞれの経験誤差を加重凸結 合した誤差と,目標ドメインの汎化誤差間の限界を示 す.これは,元と目標ドメインの分布の差に依存. Analysis of Representations for Domain Adaptation [4] 元ドメインにのみ少数のラベルありデータ,元と目標ド メインに多量の教師なしデータがあるときのドメイン 適応.元ドメインで学習した分類器が,目標ドメイン で達成できる汎化誤差の上限を求めた.データを記述 する特徴量を線形写像などで変換する表現関数が,変 換後の特徴を使って,二つのドメインの分布を A-距離 で測ったときに似ていて,かつ,元ドメインでの識別 誤差が小さいときに,上限は小さくなる.具体的な表 現関数の求め方は,他の論文のヒューリスティックな 方法.
Learning from Multiple Sources [8] 学習する目標の 関数からのサンプルに加え,類似した関数のサンプル もあるマルチ情報源学習.関数間の不一致度が与えら れているとき,目標関数に加え,類似した関数からの サンプルも使った場合の汎化誤差の上限を与える.こ の上限を最小化するように,利用する情報源を選ぶ方 法を提案.関数間の不一致度の推定のために,同じデー タ点に対する両方の関数の値が必要なことが制限.
Domain Adaptation for Statistical Classifiers [13] ド メイン外,ドメイン内,共通の三つの識別モデルの混合 モデルを考え,それを最大エントロピー法でパラメー タを求める Mega モデル.条件付き EM 法で解く. Frustratingly Easy Domain Adaptation [12] ドメイン 適応を簡単な特徴拡張で実現.特徴ベクトル F がある とき,元ドメインのデータでは〈F, F, 0〉 のようなベク トル,目標ドメインでは〈F, 0, F 〉 のように,特徴ベク トルを連結したベクトルで学習する. Multitask Learning [6] 複数のタスクを各出力に割り 当てた,一つのニューラルネットワークで学習すること でマルチタスク学習を実行することについて議論.マ ルチタスク学習の有効性に関する実験や,適用可能な 状況についても議論.その他,再近傍法,カーネル回 帰,決定木についてもマルチタスク学習を実現する手 法を示し,今後の課題について考察した.
Learning to Learn and Collaborative Filtering [37] 複 数のタスクに共通の事前分布を学習する階層ベイズタ イプのマルチタスク学習.方法としては正攻法.協調 フィルタリングを,各利用者に対する予測問題ととら え,全利用者での予測をマルチタスク学習と考える. Improving Predictive Inference under Covariate Shift by Weighting the Log-Likelihood Function [29] 訓練 用とテスト用の入力事例が異なる共変量シフトの下で の回帰による予測.極限での一致性の他,有限サンプ ルでの修正.さらに,モデル選択のための情報量規準 なども示す. 共変量シフト下での教師付き学習 [30] 入力に対する 出力変数の分布は変わらないが,訓練時とテスト時で, 入力データの分布が異なる共変量シフトでの学習につ いてのチュートリアル.
Learning and Evaluating Classifiers under Sample Se-lection Bias [38] 訓練事例は,入力 x に依存してサン プルされる確率が変化する標本選択バイアス.ここで, 選択される事象 s と出力クラス y は,x が与えられた 下で条件付き独立と仮定.標本選択バイアスに影響さ れる学習器を大域学習器,そうでないものを局所学習 器と呼ぶ.代表的な分類学習器がどちらに該当するか を議論.さらに,バイアスを補正する重み付け法も述 べる.
A Perspective View and Survey of Meta-Learning [33] メタ学習のサーベイ.メタ学習とは,あるバイアスを
もつ学習器で,事例に対して学習を行うベース学習器 の上位に,学習器のバイアス,言い換えると仮説空間 を,問題のドメインの特徴に応じて決定するためのメ タ知識を学習するメタレベルの学習をも行う枠組み. Competition Among Networks Improves Committee Per-formance [22] 学習対象の主タスクに加え,補助タス クとして競合学習を利用したニューラルネットをまと めてバギングを行う.
Actively Transfer Domain Knowledge [28] 転移学習 器の予測が信頼できればそのラベルを,信頼出来なけ れば専門家にラベル付けさせる.そうして得られたラ ベル付きドメイン内データから最終の分類器を作成す る.転移学習器は,ドメイン外データの予測クラスに 応じてドメイン内データを分割し,それぞれのドメイ ン内データで分類器を作ることで生成.転移学習器の 信頼性は,ドメイン外とドメイン内それぞれで訓練し た分類器の予測の一致,ラベルありドメイン内データ の数,分類器の確信度を使って判断する.
参考文献
[1] Learning to learn: Knowledge consoli-dation and transfer in inductive systems. http://socrates.acadiau.ca/courses/comp/dsilver/
NIPS95 LTL/transfer.workshop.1995.html.
[2] Nips 2005 workshop — inductive transfer: 10 years later. http://iitrl.acadiau.ca/itws05/.
[3] R. K. Ando and T. Zhang. A framework for learning pre-dictive structures from multiple tasks and unlabeled data.
Journal of Machine Learning Research, pp. 1817–1853,
2005.
[4] S. Ben-David, J. Blitzer, K. Crammer, and F. Pereira. Anal-ysis of representations for domain adaptation. In Advances
in Neural Information Processing Systems 19, pp. 137–144,
2007.
[5] J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. Wort-man. Learning bounds for domain adaptation. In Advances
in Neural Information Processing Systems 20, pp. 129–136,
2008.
[6] R. Caruana. Multitask learning. Machine Learning,
Vol. 28, pp. 41–75, 1997.
[7] O. Chapelle, B. Sch¨olkopf, and A. Zien, editors.
Semi-supervised Learning. MIT Press, 2006.
[8] K. Crammer, M. Kearns, and J. Wortman. Learning from multiple sources. Journal of Machine Learning Research, Vol. 9, pp. 1757–1774, 2008.
[9] W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Co-clustering based classification for out-of-domain documents. In Proc.
of The 13th Int’l Conf. on Knowledge Discovery and Data Mining, pp. 210–219, 2007.
[10] W. Dai, Q. Yang, G.-R. Xue, and Y. Yu. Boosting for trans-fer learning. In Proc. of The 24th Int’l Conf. on Machine
Learning, pp. 193–200, 2007.
[11] H. Daum´e III. natural language processing blog. http://nlpers.blogspot.com/
search/label/domain%20adaptation.
[12] H. Daum´e III. Frustratingly easy domain adaptation. In
Proc. of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 256–263, 2007.
[13] H. Daum´e III and D. Marcu. Domain adaptation for statis-tical classifiers. Journal of Artificial Intelligence Research, Vol. 26, pp. 101–126, 2006.
[14] C. B. Do and A. Y. Ng. Transfer learning for text clas-sification. In Advances in Neural Information Processing
Systems 18, pp. 299–306, 2006.
[15] J. Gao, W. Fan, J. Jiang, and J. Han. Knowledge transfer via multiple model local structure mapping. In Proc. of The
14th Int’l Conf. on Knowledge Discovery and Data Mining,
pp. 283–291, 2008.
[16] T. Kamishima, M. Hamasaki, and S. Akaho. Baggtaming — learning from wild and tame data. In ECML/PKDD2008
Workshop: Wikis, Blogs, Bookmarking Tools – Mining the Web 2.0 Workshop, 2008.
[17] T. Kamishima, M. Hamasaki, and S. Akaho. Personalized tag predition boosted by baggtaming — a case study of the hatena bookmark. In The 3rd Int’l Workshop on
Data-Mining and Statistical Science, 2008.
[18] 神嶌敏弘,濱崎雅弘,赤穂昭太郎. 飼いならし—飼育・
野生混在データからの学習.人工知能学会全国大会(第
22回)論文集, 2D1-3, 2008.
[19] X. Liao, Y. Xue, and L. Carin. Logistic regression with an auxiliary data streams. In Proc. of The 22nd Int’l Conf. on
Machine Learning, pp. 505–512, 2005.
[20] X. Ling, W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Spectral domain-transfer learning. In Proc. of The 14th Int’l Conf.
on Knowledge Discovery and Data Mining, pp. 488–496,
2008.
[21] A.Argyriou A.Maurer M.Pontil. An algorithm for transfer learning in a heterogeneous environment. In Proc. of The
ECML/PKDD2008, Part I, pp. 71–85, 2008. [LNAI 5211].
[22] P. W. Munro and B. Parmanto. Competition among net-works improves committee performance. In Advances in
Neural Information Processing Systems 9, pp. 592–598,
1997.
[23] S. J. Pan and Q. Yang. A survey on transfer learning. Tech-nical Report HKUST-CS08-08, Dept. of Computer Science and Engineering, Hong Kong Univ. of Science and Tech-nology, 2008.
[24] R. Raina, A. Battle, H. Lee, B. Packer, and A. Y. Ng. Self-taught learning: Transfer learning from unlabeled data. In
Proc. of The 24th Int’l Conf. on Machine Learning, pp.
759–766, 2007.
[25] R. Raina, A. Y. Ng, and D. Koller. Constructing informative priors using transfer learning. In Proc. of The 23rd Int’l
Conf. on Machine Learning, pp. 713–720, 2006.
[26] M. T. Rosenstein, Z. Marx, L. P. Kaelbling, and T. G. Diet-terich. To transfer or not to transfer. In NIPS-2005
Work-shop on Inductive Transfer: 10 Years Later, 2005.
[27] S. Satpal and S. Sarawagi. Domain adaptation of condi-tional probability models via feature subsetting. In Proc. of
the 11th European Conf. on Principles of Data Mining and Knowledge Discovery, pp. 224–235, 2007. [LNAI 4702].
[28] X. Shi, W. Fan, and J. Ren. Actively transfer domain knowledge. In Proc. of The ECML/PKDD2008, Part II, pp. 342–357, 2008. [LNAI 5212].
[29] H. Shimodaira. Improving predictive inference under co-variate shift by weighting the log-likelihood function. J. of
Statistical Planning and Inference, Vol. 90, pp. 227–244,
2000.
[30] 杉山将. 共変量シフト下での教師付き学習. 日本神経回
路学会誌, Vol. 13, No. 3, pp. 111–118, 2006.
[31] M. Sugiyama and M. Krauledat adn K. R. M ¨Uller. Covari-ate shift adaptation by importance weighted cross valida-tion. Journal of Machine Learning Research, Vol. 8, pp. 985–1005, 2007.
[32] S. Thrun. Is learning the n-th thing any easier than learning the first? In Advances in Neural Information Processing
Systems 8, pp. 640–646, 1996.
[33] R. Vilalta and Y. Drissi. A perspective view and survey of meta-learning. Artificial Intelligence Review, Vol. 18, pp. 77–95, 2002.
[34] Z. Wang, Y. Song, and C. Zhang. Transferred dimension-ality reduction. In Proc. of The ECML/PKDD2008, Part II, pp. 550–565, 2008. [LNAI 5212].
[35] P. Wu and T. G. Dietterich. Improving SVM accuracy by training on auxiliary data sources. In Proc. of The 21st Int’l
Conf. on Machine Learning, pp. 871–878, 2004.
[36] D. Xing, W. Dai, G.-R. Xue, and Y. Yu. Bridged refinement for transfer learning. In Proc. of the 11th European Conf.
on Principles of Data Mining and Knowledge Discovery,
pp. 324–335, 2007. [LNAI 4702].
[37] K. Yu and V. Tresp. Learning to learn and collaborative filtering. In NIPS2005 Workshop Inductive Transfer: 10
Years Later, 2005.
[38] B. Zadrozny. Learning and evaluating classifiers under sample selection bias. In Proc. of The 21st Int’l Conf. on