転移学習のサーベイ

(1)

転移学習のサーベイ

Survey on Transfer Learning from Taxonomic Perspective

神嶌敏弘

1∗

Toshihiro Kamishima

1

_{産業技術総合研究所}

1

_{National Institute of Advanced Industrial Science and Technology (AIST)}

Abstract: We overview resent researches in transfer learning.

1 はじめに

転移学習 (transfer learning) という語は，かなり幅広い機械学習の枠組みに対して使われており，統一された形式的定義を与えることは難しい．だが，形式的ではない定義としては，転移学習のワークショップの論文募集 [2] にある，次のものが広く受け入れられるだろう．

the problem of retaining and applying the knowl-edge learned in one or more tasks to efﬁciently develop an effective hypothesis for a new task 新規タスクの効果的な仮説を効率的に見つけ出すために，一つ以上の別のタスクで学習された知識を得て，それを適用する問題すなわち，ある問題を効果的かつ，効率的に解くために，別の関連した問題のデータや学習結果を再利用するのが転移学習である．最近は，Web などから大量のテキストデータはかなり容易に収集できるようになり，教師なしで作れる言語モデルなどは格段に精度が向上した．一方，学習に教示情報が必要な場合，例えば音声認識の音響モデルや，文書分類のモデルとかはそれほど向上していない．これらのタスクには，教示情報付きの学習データが必要であり，その教師情報は人手で与えなければならない．そのため，こうしたデータを大量に準備するのは，費用，人的資源，時間などの制約から，一般には困難である．この問題に対処するための機械学習の方針は三つあるだろう．一つ目は，少数のラベルありデータを準備し，多数のラベルなしデータを活用して予測精度を向上させる半教師あり学習 (semi-supervised learning) [7] である．二つ目は，より効率的な分類ができるように選んだ事例に対して，教示情報を与えさせる能動学習．そして，最後がこの転移学習である．上記のよう ∗_{連絡先：http://www.kamishima.net/} な需要に応えるため，転移学習に関する発表は増えている．転移学習の考えはかなり以前からあり，1995 年の NIPS のワークショップ [1] から，機械学習の一分野として認識されるようになった．転移学習の呼び方が定着しつつあるようなので，この呼び方を本稿では採用するが，10 数年にわたっていろいろな呼び方をされてきた．例えば，帰納転移 (inductive transfer)，ドメイン適応 (domain adaptation)，マルチタスク学習 (multi-task learning)，knowledge transfer, learning to learn，lifetime learning といろいろある．さらに，共変量シフト (co-variate shift) [29, 30] や標本選択バイアス [38] なども，転移学習のより限定された分野とみなしてよいだろう． Pan & Yang の転移学習のサーベイ [23] では，体系的な議論が試みられている．また，自然言語処理で，この転移学習に取り組んでいる Daum´e は，ブログ [11] で，転移学習に対する考えを示している．本稿では，これらの考えを取り入れつつ，私自身の考えも含めて，転移学習の分野を俯瞰したい．2 節はタスク間の関係について, 3 節では転移学習の設定について，4 節では転移のモデル化について考察する．最後の 5 節では転移学習の各研究の概要を示す．

2 転移学習

前節で述べたように，転移学習の見方は研究者により様々だが，そうしたいくつかの見解を，私の考えも交えて紹介する．その前に，本稿での表記を示しておく．転移する知識の送り手側を元ドメイン (source domain)，受け手側を目標ドメイン (target domain) とよび，それぞれ，上 付きの (S) と (T ) で表す．元ドメインが複数ある場合 は (S1), (S2), . . . , (SK) のように表すが，一つだけの場合は添え字は省略する．いずれかのドメインであるこ とを示すには D∈ {S, T } を用いる．各ドメインの入力 人工知能学会研究会資料 SIG-DMSM-A803-06 (3/3)

(2)

に該当する確率変数を X(D)_{とする．これらの定義域} は_X(D)_{で，一般に，p}(D)_{次元の実数ベクトルである．} 各ドメインに出力が存在するとき，その出力に該当す る確率変数をそれぞれ Y(D)_{．これらの定義域は}_Y(D) で，二値分類問題なら_{{0, 1}，回帰問題なら実数とな} る．ラベルありの事例は入力と出力の対 (x(D) i , y (D) i ) で，(X(D)_{, Y}(D)_{) の実現値である．ラベルなし事例は} 入力 x(D)i のみで，X(D)の実現値である．訓練事例集 合の数は N(D)_である． Daumé は，ドメイン適応/転移学習と，マルチタスク学習とを，それぞれ異なるドメインからの転移と，異なるタスクからの転移と区別している．しかし，ドメインの違いとタスクの違いというのは，それほど自明な概念ではないと私は考える．Daumé は自然言語処理の研究者なので，異なるタスクとして，文書分類，固有表現抽出，形態素解析などを想定し，異なるドメインとして訓練に使うコーパスの違いを想定しているだろう．例えば，ブログ記事を対象とした文書分類問題を考えてみよう．一つ目の分類は内容のカテゴリ（趣味や社会など）に応じた分類，もう一つはセンチメント分類（商品の善し悪し）としよう．文書分類として見れば同じタスクだが，出力の定義域_Y(D)_が異なるので違うタスクといっても良いだろう．なお，Caruana のマルチタスク学習の基本文献 [6] では違うタスクとして扱われている．さらに，一方がブログ記事コーパス，もう一方が新聞記事コーパスでも，この場合は何らかの転移はできそうだが，Daumé 流ではどのように分類すべきかは難しいだろう．ここでは，ドメインとタスクという言葉は特に区別せず，ドメインという言葉を用いる．ただし，定義域_X(D)_や_Y(D)_{が両ドメイ} ンで異なるかどうかは区別することがある．

Pan & Yang は，転移学習とマルチタスク学習を次のように区別している．マルチタスク学習は，元ドメインと目標ドメインの役割が入れ替わってもよく，対称である．両ドメインに共通する知識を見つけ出し，互いの知識を相互に転移して，両方のドメインでの予測精度を向上させることが目的である．最も典型的な応用は，音声認識での話者適応だろう．一方の，転移学習の目標は，元ドメインの訓練事例集合を利用することで，目標ドメインでの予測精度を向上させることである．ほとんどの応用はこちらの場合だろう．私も，このように分類するのは妥当だと考えている．ただし，両者を統合する用語も転移学習になってしまうので，両者をあわせて転移学習，Pan & Yang の狭義の転移学習はドメイン適応と呼ぶのがよいと考えていた．しかし，Pan & Yang に合わせて，本稿では，Pan & Yang の意味で転移学習とマルチタスク学習の語を用いる．これらの違いは，アルゴリズムの設計に次のように影響するだろう．転移できる知識の総量だが，ドメインが三つ以上になると，マルチタスクで利用できる知識は，転移学習でのそれより大きくはならない．各ドメインの知識を_K(D) と書くと，マルチタスク学習では全タスクで共通な知識_{∩_i_K(Si)} ∩ KT のみが利用できる．それに対し，転移学習では，目標ドメインと各元ドメインに共通する知識を全て合わせた知識，すなわち，_∪_i_{K(Si)∩ K(T )} が利用できる．よって，転移学習の方が，より多くの知識を再利用できる．一方，マルチタスク学習で転移される知識は，新規のドメインでも利用できる場合が多い．音声認識の話者適応の例だと，100 人に利用できた知識は，101 人目にも利用できるだろう．一方，転移学習では，新たなドメインに対しては，転移する知識を再度決める必要がある．よって，マルチタスク学習の方が知識を再利用できるドメインは広範囲になる．最後に，その他の転移学習問題に対する呼称についても元の意味合いを紹介しておく．lifetime learning は，強い人工知能にやや踏み込んだ意図がある．人間は，一つの作業ごとに，白紙の状態からではなく，過去の経験をもとに学習を行う．それを計算機上で実現することを意図した呼称である．learning to learn には，メタ学習 [33] と近い意図がある思う．問題ごとに適切な学習アルゴリズムは変わるが，メタ学習は，このアルゴリズムの選択を機械学習によって行う試みである．過去の学習結果と，訓練データの特徴の対から適切な学習器を選ぶ分類器を獲得する．

3 転移学習の設定

転移学習は元と目標の各ドメインの事例にラベル情報（出力情報）が与えられているかどうかによって，4 種類の設定が考えられる．Daum´e の表記に従ってまとめる と，次の表になる．例えば，(1) の S+T + の場合は，両 ドメインの訓練集合は_{(x(S) i , y (S) i )} と {(x (T ) i , y (T ) i )} のように，どちらも入力と出力の実現値の対の集合である． 目標ドメインラベル ありなし 元ドメイン あり (1) S+T + (2) S+T− ラベル なし (3) S−T + (4) S−T − Pan & Yang は，目標ドメインにラベルがある (1) と (3) の場合を合わせて帰納転移学習 (inductive transfer learning)，(2) をトランスダクティブ転移学習 (transduc-tive transfer learning)，そして (4) の場合を教師なし転移学習 (unsupervised transfer learning) と呼んでいる．だが，Daum´e などの議論も参考にし，(1) と (3) を区別して考えた方がよいと私は考える．よって本稿では，帰納転移学習という語は (1) のみをさし，(3) については自己教示学習 (self-taught learning) [24] の語を用いる． (1) 帰納転移学習の研究は最も多い [32, 26, 10, 25, 14, 35, 19, 21, 13, 12, 6, 37, 18, 16, 17]．ドメインの違いを，

(3)

分布の違い P[X(S)_{, Y}(S)_]_{̸= P[X}(S)_{, Y}(S)_{] に帰する研} 究がほとんどである．定義域の違い _X(S) _{̸= Y}(T ) _や Y(S) _{̸= Y}(T )_{を考慮した研究をまだ知らない．定義域} が違う場合は，一部には写像で関係が定義できる必要があるだろう．例えば，自然言語処理のベクトルモデルで，両ドメインの語彙には共通部分があるといったものである． (2) トランスダクティブ転移学習の研究は次に多い [20, 15, 9, 3, 36, 27, 29]．ラベルのない目標ドメインのデータの適切なラベルを予測することが目的である．Daum´e や Pan & Yang も共に指摘することだが，P[Y(S)|X(S)] = P[Y(T )_|X(T )_{] を暗黙的，もしくは明示的に仮定してい} る．そして，P[X(S)_] _{̸= P[X}(T )_{] であることがドメイ} ンの違いとみなしており，この点で半教師あり学習とは異なる．また，実際に，半教師あり学習アルゴリズムの予測精度は，この種の転移学習アルゴリズムのそれを下回る． (3) の自己教示学習については議論すべき点がある． Daum´e はこの種の転移学習については，P[X(S)_{] = P[X}(T )_] の仮定が必要だと述べている．すると，統計的翻訳で， 言語モデル P[X(S)_{] を大規模な英語コーパスから，P[Y}(T )_|X(T )] を対訳コーパスから獲得するような問題になる．P[X(S)_{] =} P[X(T )] をするならば，転移学習よりも，特徴構築とみなした方がよいかもしれない．この種の研究であると主張する自己教示学習の論文 [24] についてもう少し議論する．この方法は，元ドメインデータを使って特徴の部分空間を求め，その部分空間を使って目標ドメインのラベルありデータから学習する．特徴構築など の既存研究と異なるとの主張は，P[X(S)_{] = P[X}(T )_] を仮定しないことと，目標ドメインにないラベルが付けられるべきデータが元ドメインにはある，すなわち， Y(S) _{⊇ Y}(T )_{であることを根拠としている．前者に関}

しては，Pan & Yang も指摘しているが，次元削減の一 種なので，P[X(S)_]_{̸= P[X}(T )_{] の状況に対応できている} かどうか明確ではないように思う．_Y(T )_{にないラベル} を持つ事例が含まれるので分布が異なると主張しているが，分布の違いに充分に対応できるかどうかは，論文の実験だけでは充分に示せていないように思う．後者の定義域の違いに関しては，両者の要素は容易に対応付けられ，目標ラベルの定義域に「未知ラベル」を加えれば等しく扱えるようにも思う．また，提案手法は，未知目標ラベルに対応する事例を排除するように明示的には設計されてはいないと思う． 最後の (4) も P[X(S)_{] = P[X}(T )_{] ではないかと私は} 考える．Daum´e もこの場合は通常の教師なし学習と等価と述べている．ただし，定義域が異なる場合，すなわち，_X(S)_{̸= X}(T )_{であれば，新たな枠組みとみなせ} るかもしれない．しかし，定義域中の要素間の写像は必要となり，その像の分布はやはり等しいとの仮定は必要になるかもしれない．[34] など，いくつかの研究が提案され始めた時期なので，その位置づけは今後とも考察を続けたい． Daum´e は，P[X(S)] = P[X(T )] を仮定した場合を転 移学習，P[Y(S)_|X(S)_{] = P[Y}(T )_|X(T )_{] を仮定した場合} をドメイン適応とよんでいる．だが，これらの仮定は，上記の分類とおそらく密接に関係しており，また，名称も直接的なので Pan & Yang の帰納転移学習などの呼称をここでは用いる． その他，実問題への適用を考える場合には，P[X] が 変わって，P[Y|X] が不変という状況がありえるのかは 議論され続けている．また，有限事例集合から，分布が違うかどうかは充分に検証できるのか，また，分布の違いが精密に求められるほど十分なデータがあるならば，そもそも知識の転移は必要なのかといった，抜本的な問題もある．

4 転移仮定と転移モデル

転移学習を形式的に定義できない最大の原因は『ドメインが似ている』ことを定義することの難しさにある．これは，転移学習研究の黎明期から最も重要な課題として認識されているが [6]，未だに明確な解は示されていない．おそらく問題の類似性を一つの物差しで測るのは不可能だと私は考える．機械学習手法を適用してよい結果を得るには，問題に対して適切なモデルを採用していることが重要であり，また，No Free Lunch 定理の示すように，万能なモデルは存在しえない．知識の転移においても，何が似ていて，どのように転移できるかを仮定し，その仮定をどのように数学的モデルで表すかということが必要になるだろう．これらを，転移仮定と転移モデルとそれぞれよぶ．転移するドメイン間で，転移仮定と転移モデルが適切なら転移学習は成功し，不適切ならかえって悪くなる『負の転移 (negative transfer) [26]』が生じるだろう．さらに，モデルの場合と同じように “No Free Lunch in Transfer” も成立し，万能な転移モデルは存在しえないだろう．それでは，転移仮定について考察を深める．最も一般的な形での転移仮定は，二つのドメインの分布間のダイバージェンスで測り，それが十分に小さい場合を想定する [4, 5, 8]．この種の仮定は，両ドメインの知識が非常に少ない場合には有用だろう．しかし，もし両ドメインについてより多くのことが分かっているのであれば，それを表すより特殊な仮定を導入し，より多くの知識を転移できるだろう．例えば，正と負クラスの目標データが，それぞれ，別のガウス分布から生成されているとする．元データもやはりガウス分布に従うのだが，その分布の中心は目標データのそれと等しいが，分散はずっと小さいとしよう．この場合，決定平面は不変なので，そのまま元ドメインのデータは活

(4)

用できるだろう．しかし，これら二つドメインの分布間のダイバージェンスは 0 ではないので，上記のような一般的な転移仮定では，転移される知識はある程度制限を受ける．Pan & Yang も指摘しているが，転移できる状況を明確にし，それらの状況に合わせた転移学習の手法を考えていく必要があるだろう．転移仮定を数学的にモデル化したものを転移モデルと呼ぼう．このモデル化のアプローチを，モデルベース，特徴ベース，および事例ベースの 3 種類に分ける．最初のモデルベースは，受け手の目標ドメインで，明示的に転移仮定をモデルに組み込む．例えば，共通する知識を事前分布にした階層ベイズ [25]，異なる知識を要素分布で表現した混合分布 [13]，隠れ層を共有するニューラルネットワーク [6, 32] などのモデルがこの場合に該当する．残り二つのアプローチは，受け手の目標ドメインではなく，元ドメインのデータを送り手側で整形する．この整形を，特徴空間の変換によって行うのが特徴ベースである [3, 12, 20, 21, 27]．特徴空間中での距離を利用する方法 [9, 32, 36] もこの種の方法と見なすべきだろう．事例ベースアプローチでは，元ドメインの各訓練事例を，目標ドメインへの関連性に応じて，重み付けしたり，選択したりする [10, 19, 29, 31, 35]．複数の仮説を重み付け・選択する方法 [15, 18, 16, 17] もこの種の方法とみなしてよいだろう．

Pan & Yang も同様の分類を示している．転移学習の研究課題として，何を転移するのか (What to transfer)，どのように転移するのか (How to transfer)，そして，いつ転移するのか (When to transfer) があると述べている．このうち，何を転移するのかによって，転移学習の方法は，事例転移 (instance-transfer)，特徴表現転移 (feature representation transfer)，パラメータ転移 (param-eter transfer)，および関係知識転移 (relational knowledge transfer)．これらのうち，最後のものは，確率的な論理を対象としていてやや特殊なので，ここでは議論しない．私の，事例ベース，特徴ベース，およびモデルベースが，それぞれ，Pan & Yang の事例転移，特徴表現転移，およびパラメータ転移と対応付けられる．しかし，彼らは何を転移するのかによって，これらの分類が決まると述べているが，この点については私の考えは異なる．私が述べる転移仮定は，何をどのように転移するかの仮定だが，これは異なるカテゴリの転移モデルによって具体化することが可能だと考える．例えば，Daum´e は，自然言語処理において，タスク達成に有用な素性の集合が異なっているという転移仮定を示している．そして，この仮定をモデルベースで実現した [13] と，特徴ベースで実現した [12] の二つの方法を提案している．より一般的に，ある転移仮定は，受け手側のモデルベースによるものと，送り手側の事例・特徴ベースによるものの，少なくとも二通りの実現方法が常に可能ではと予測している．あと，Pan & Yang は，パラメータ転

移と呼んでいるが，ノンパラメトリックなモデルも現れ始めているので，モデルという語を使う方が適切だと思う．私の分類は自明のように述べたが，議論すべき余地もある．事例を重み付けするので [19] は事例ベースとしたが，その重みの決定は最適化関数の中に密接に組み込まれているためモデルベースとすべきかもしれない．また，複数の仮説を重み付け・選択する方法は，事例ベースとしたが，モデルベースとすべきか議論の余地があるようにも思う．

最後に，Pan & Yang も，Daum´e も論じていないが，転移学習アルゴリズムは統合型とラッパー型という視点からも分類できるだろう．ラッパー型 (wrapper) とは，目標ドメインで帰納的な学習を行うアルゴリズムと，知識を転移するプロセスとが独立しているものである．一方，統合型 (integrated) は，学習アルゴリズムと転移手法が密接に結合していて分離できないものである．前者の代表としては，特徴空間合成する [12] やアンサンブル学習による方法 [10, 18] が挙げられる．後者の方法としては，ほとんどのモデルベース手法が該当する．統合型は受け手側のモデルベース，ラッパー型は送り手側の事例・特徴ベースに対応しているようにも思うので，今後，考察を深めてゆきたい．両手法の長所と短所について考察しておく．ラッパー型は，転移モデルと，学習モデルを分離できるので，転移仮定に合わせた選択がしやすいだろう．一方，統合型では，転移と学習を同時に実行できたりするため，計算効率的には有利な点もある．また，学習手法の特性を生かした転移も可能かもしれない．

5 転移学習手法

A Survey on Transfer Learning [23] 転移学習のサーベイ．

Is Learning The n-th Thing Any Easier Than Learning The First [32] 転移学習の先駆的研究の一つ．ある対象の画像を正例，他の対象の画像を負例として，これらを区別する問題．これら以外の画像のデータが別にあるとき，これらを識別器の学習に利用する．最近隣法で，データの空間を変換する方法と，距離関数を学習する方法．ニューラルネットで，多クラス分類の用にする方法と，EBNN(explanation-based NN) を用いる方法を提案．

To Transfer or Not To Transfer [26] 補助データと目標データそれぞれを単純ベイズでモデル化．さらに，そのモデルのパラメータに超事前分布を導入した階層ベイズモデル．補助データと目標データの分布が似ていれ

(5)

ば，超事前分布の効果で転移学習がうまくいくが，違っていると逆効果になってしまう現象の報告．

Boosting for Transfer Learning [10] 目標の分類問題と同分布からサンプルされたデータと，それと関連した違う分布からサンプルされたデータとの両方を用いるブースティングである TrAdaBoost．同分布・異分布の両方を併せたデータで弱分類器を作り，誤分類された異分布データの重みを徐々に下げてゆく．理論的に，異分布データの重み付経験誤差を 0 にできるが，重みが 0 になっている場合もあるので，異分布データを必ず活用できることは保証されない． 飼いならし — 飼育・野生混在データからの学習 [18] bagging を使った転移学習．元ドメインからサンプリングしたデータで幾つもの弱学習器を生成する．それらの学習器で，目標データを分類し，予測精度が高かったものだけを集めて，多数決投票を行う．

Constructing Informative Priors using Transfer Learn-ing [25] 文書分類を対象に，目標問題の精度を，補助問題から求めたパラメータの事前分布を用いた MAP 推定によって向上させる．事前分布にはガウス分布を想定し，その共分散行列を計算する．ところが，普通に計算するのは計算量が大きく，また，半正定値性を満たさない問題もある．そこで，いくつかの対についてのみモンテカルロ法でまじめに共分散を推定．その他は，特徴に対応する語の特徴を考え，まじめに推定した共分散を教師信号として残りは推定する．このとき，半正定値性も満たすように，推定と半正定値性を満たす射影とを交互に繰り返して推定．

Transfer Learning for Text Classiﬁcation [14] 文書の 統計量を入力とするスコア関数 g が最大になるクラス へ，文書を分類するモデルを考える．単純ベイズや tf-idf では，この g は線形関数．いろいろなコーパスに使 えるように，この g を，複数のコーパスから訓練する 方法を提案．他のコーパスで学習した g を用いて，単 純ベイズや識別モデルベース手法を上回る分類精度が達成できることを示した．

Improving SVM Accuracy by Training on Auxiliary Data Sources [35] 目的の問題用のデータに加え，精 度の劣る補助データを併用する転移学習の一種．k 近 傍法では，主データと補助データで投票の重みを変える．SVM では，補助データはサポートベクトルとして記述を変えるのと，誤差として考慮するのとの 2 種類の利用法．主と補助データではやはり重み付けによって，その解への影響度を変える．

Logistic Regression with an Auxiliary Data Streams [19] 主データと補助データがあるとき，補助データの中で主データを矛盾するようなデータを無視するような変数を導入．その変数と，モデルのパラメータを同時に最適化するロジスティック回帰．

An Algorithm for Transfer Learning in a Heteroge-neous Environment [21] 関連タスクが均一ではなく，いくつかのグループに分けられる場合のマルチタスク学習．タスクをクラスタリングし，各タスクごとに有用な特徴の部分空間を求める．タスクのクラスタへの割り当てと，部分空間の計算を交互に繰り返すことで解く．

Spectral Domain-Transfer Learning [20] 転移先のタスクにはラベルがないテスト事例である転移学習．テスト事例と訓練事例を合わせたデータを，テスト事例の類似性が強調されるようにスペクトラルグラフを使って次元削減．同時に，訓練データのラベルが維持されるような罰則項をもつ．そうして，次元削減後の空間で，クラス分類問題と解くことでラベル付けをする． Knowledge Transfer via Multiple Model Local Struc-ture Mapping [15] 複数のモデルがあり，それを組み合わせて，与えられたドメインの異なるテストデータを分類する．どのモデルを選ぶかは，モデルとテストの分布が一致しているものを重視する．一致は，クラスの境界が低密度部分にあるとするクラスタリング多様体仮定に基づいて，テストデータをクラスタリングした分類結果と，訓練データのクラスが一致しているかで測る．

Self-taught Learning: Transfer Learning from Unla-beled Data [24] 教師なし・ありデータを使う点では半教師あり学習と同じだが，教師なしデータには，クラスラベル集合中のどのラベルも適切ではないデータが含まれる点が異なる．教師なしデータから，特徴を構築することで，高次の表現を獲得し，その表現を使って教師ありデータから学習することで，より高精度の予測を実現．

Co-clustering based Classiﬁcation for Out-of-domain Documents [9] 半教師あり学習のようにラベルあり・なしの二つの文書データを使うが，ラベルありデータとラベルなしデータでデータのドメインが異なる．ラベルありデータのクラス情報を反映させた語クラスタを作り，その語クラスタと共クラスタリングすることで，ラベルなしデータをクラス分類する．クラスタリングは情報量に基づく評価関数を基に行う．

(6)

A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data [3] 半教師あり学習の，ラベルなしデータから，目標問題に関連した補助問題をいくつか作る．例えば，ある特徴から，別の特徴の値を予測するなど．それらの補助問題を共通に解くのに有用な部分空間や構造を見つける．その部分空間を使って学習することで，目標問題の予測精度を向上させる．

Bridged Reﬁnement for Transfer Learning [36] 転移先のデータはラベルがない状況を想定．精細化と呼ぶ手続きは，単純に求めた分類器の確信度を，その近傍のラベルと無矛盾になるように変化させる．最初は，訓練データで求めたデータを，訓練+テストへ精細化．その後，その確信度をテストデータのみに適応させる． Domain Adaptation of Conditional Probability Models via Feature Subsetting [27] 転移先データがラベルなしの転移学習．転移先での特徴の重要性に応じて重み付けを行う．重みは，その特徴とる値の期待値の，二つのドメイン間の距離 (実験では対数二乗距離) に応じて決める．

Learning Bounds for Domain Adaptation [5] 元ドメインと目標ドメインのそれぞれの経験誤差を加重凸結合した誤差と，目標ドメインの汎化誤差間の限界を示す．これは，元と目標ドメインの分布の差に依存． Analysis of Representations for Domain Adaptation [4] 元ドメインにのみ少数のラベルありデータ，元と目標ドメインに多量の教師なしデータがあるときのドメイン適応．元ドメインで学習した分類器が，目標ドメインで達成できる汎化誤差の上限を求めた．データを記述する特徴量を線形写像などで変換する表現関数が，変 換後の特徴を使って，二つのドメインの分布を A-距離 で測ったときに似ていて，かつ，元ドメインでの識別誤差が小さいときに，上限は小さくなる．具体的な表現関数の求め方は，他の論文のヒューリスティックな方法．

Learning from Multiple Sources [8] 学習する目標の関数からのサンプルに加え，類似した関数のサンプルもあるマルチ情報源学習．関数間の不一致度が与えられているとき，目標関数に加え，類似した関数からのサンプルも使った場合の汎化誤差の上限を与える．この上限を最小化するように，利用する情報源を選ぶ方法を提案．関数間の不一致度の推定のために，同じデータ点に対する両方の関数の値が必要なことが制限．

Domain Adaptation for Statistical Classiﬁers [13] ドメイン外，ドメイン内，共通の三つの識別モデルの混合モデルを考え，それを最大エントロピー法でパラメータを求める Mega モデル．条件付き EM 法で解く． Frustratingly Easy Domain Adaptation [12] ドメイン 適応を簡単な特徴拡張で実現．特徴ベクトル F がある とき，元ドメインのデータでは_{〈F, F, 0〉 のようなベク} トル，目標ドメインでは_{〈F, 0, F 〉 のように，特徴ベク} トルを連結したベクトルで学習する． Multitask Learning [6] 複数のタスクを各出力に割り当てた，一つのニューラルネットワークで学習することでマルチタスク学習を実行することについて議論．マルチタスク学習の有効性に関する実験や，適用可能な状況についても議論．その他，再近傍法，カーネル回帰，決定木についてもマルチタスク学習を実現する手法を示し，今後の課題について考察した．

Learning to Learn and Collaborative Filtering [37] 複数のタスクに共通の事前分布を学習する階層ベイズタイプのマルチタスク学習．方法としては正攻法．協調フィルタリングを，各利用者に対する予測問題ととらえ，全利用者での予測をマルチタスク学習と考える． Improving Predictive Inference under Covariate Shift by Weighting the Log-Likelihood Function [29] 訓練用とテスト用の入力事例が異なる共変量シフトの下での回帰による予測．極限での一致性の他，有限サンプルでの修正．さらに，モデル選択のための情報量規準なども示す． 共変量シフト下での教師付き学習 [30] 入力に対する 出力変数の分布は変わらないが，訓練時とテスト時で，入力データの分布が異なる共変量シフトでの学習についてのチュートリアル．

Learning and Evaluating Classiﬁers under Sample Se-lection Bias [38] 訓練事例は，入力 x に依存してサン プルされる確率が変化する標本選択バイアス．ここで， 選択される事象 s と出力クラス y は，x が与えられた 下で条件付き独立と仮定．標本選択バイアスに影響される学習器を大域学習器，そうでないものを局所学習器と呼ぶ．代表的な分類学習器がどちらに該当するかを議論．さらに，バイアスを補正する重み付け法も述べる．

A Perspective View and Survey of Meta-Learning [33] メタ学習のサーベイ．メタ学習とは，あるバイアスを

(7)

もつ学習器で，事例に対して学習を行うベース学習器の上位に，学習器のバイアス，言い換えると仮説空間を，問題のドメインの特徴に応じて決定するためのメタ知識を学習するメタレベルの学習をも行う枠組み． Competition Among Networks Improves Committee Per-formance [22] 学習対象の主タスクに加え，補助タスクとして競合学習を利用したニューラルネットをまとめてバギングを行う．

Actively Transfer Domain Knowledge [28] 転移学習器の予測が信頼できればそのラベルを，信頼出来なければ専門家にラベル付けさせる．そうして得られたラベル付きドメイン内データから最終の分類器を作成する．転移学習器は，ドメイン外データの予測クラスに応じてドメイン内データを分割し，それぞれのドメイン内データで分類器を作ることで生成．転移学習器の信頼性は，ドメイン外とドメイン内それぞれで訓練した分類器の予測の一致，ラベルありドメイン内データの数，分類器の確信度を使って判断する．

参考文献

[1] Learning to learn: Knowledge consoli-dation and transfer in inductive systems. http://socrates.acadiau.ca/courses/comp/dsilver/

NIPS95 LTL/transfer.workshop.1995.html.

[2] Nips 2005 workshop — inductive transfer: 10 years later. http://iitrl.acadiau.ca/itws05/.

[3] R. K. Ando and T. Zhang. A framework for learning pre-dictive structures from multiple tasks and unlabeled data.

Journal of Machine Learning Research, pp. 1817–1853,

2005.

[4] S. Ben-David, J. Blitzer, K. Crammer, and F. Pereira. Anal-ysis of representations for domain adaptation. In Advances

in Neural Information Processing Systems 19, pp. 137–144,

2007.

[5] J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. Wort-man. Learning bounds for domain adaptation. In Advances

in Neural Information Processing Systems 20, pp. 129–136,

2008.

[6] R. Caruana. Multitask learning. Machine Learning,

Vol. 28, pp. 41–75, 1997.

[7] O. Chapelle, B. Sch¨olkopf, and A. Zien, editors.

Semi-supervised Learning. MIT Press, 2006.

[8] K. Crammer, M. Kearns, and J. Wortman. Learning from multiple sources. Journal of Machine Learning Research, Vol. 9, pp. 1757–1774, 2008.

[9] W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Co-clustering based classiﬁcation for out-of-domain documents. In Proc.

of The 13th Int’l Conf. on Knowledge Discovery and Data Mining, pp. 210–219, 2007.

[10] W. Dai, Q. Yang, G.-R. Xue, and Y. Yu. Boosting for trans-fer learning. In Proc. of The 24th Int’l Conf. on Machine

Learning, pp. 193–200, 2007.

[11] H. Daum´e III. natural language processing blog. http://nlpers.blogspot.com/

search/label/domain%20adaptation.

[12] H. Daum´e III. Frustratingly easy domain adaptation. In

Proc. of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 256–263, 2007.

[13] H. Daumé III and D. Marcu. Domain adaptation for statis-tical classifiers. Journal of Artificial Intelligence Research, Vol. 26, pp. 101–126, 2006.

[14] C. B. Do and A. Y. Ng. Transfer learning for text clas-siﬁcation. In Advances in Neural Information Processing

Systems 18, pp. 299–306, 2006.

[15] J. Gao, W. Fan, J. Jiang, and J. Han. Knowledge transfer via multiple model local structure mapping. In Proc. of The

14th Int’l Conf. on Knowledge Discovery and Data Mining,

pp. 283–291, 2008.

[16] T. Kamishima, M. Hamasaki, and S. Akaho. Baggtaming — learning from wild and tame data. In ECML/PKDD2008

Workshop: Wikis, Blogs, Bookmarking Tools – Mining the Web 2.0 Workshop, 2008.

[17] T. Kamishima, M. Hamasaki, and S. Akaho. Personalized tag predition boosted by baggtaming — a case study of the hatena bookmark. In The 3rd Int’l Workshop on

Data-Mining and Statistical Science, 2008.

[18] 神嶌敏弘,濱崎雅弘,赤穂昭太郎. 飼いならし—飼育・

野生混在データからの学習.人工知能学会全国大会（第

22回）論文集, 2D1-3, 2008.

[19] X. Liao, Y. Xue, and L. Carin. Logistic regression with an auxiliary data streams. In Proc. of The 22nd Int’l Conf. on

Machine Learning, pp. 505–512, 2005.

[20] X. Ling, W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Spectral domain-transfer learning. In Proc. of The 14th Int’l Conf.

on Knowledge Discovery and Data Mining, pp. 488–496,

2008.

[21] A.Argyriou A.Maurer M.Pontil. An algorithm for transfer learning in a heterogeneous environment. In Proc. of The

ECML/PKDD2008, Part I, pp. 71–85, 2008. [LNAI 5211].

[22] P. W. Munro and B. Parmanto. Competition among net-works improves committee performance. In Advances in

Neural Information Processing Systems 9, pp. 592–598,

1997.

[23] S. J. Pan and Q. Yang. A survey on transfer learning. Tech-nical Report HKUST-CS08-08, Dept. of Computer Science and Engineering, Hong Kong Univ. of Science and Tech-nology, 2008.

[24] R. Raina, A. Battle, H. Lee, B. Packer, and A. Y. Ng. Self-taught learning: Transfer learning from unlabeled data. In

Proc. of The 24th Int’l Conf. on Machine Learning, pp.

759–766, 2007.

[25] R. Raina, A. Y. Ng, and D. Koller. Constructing informative priors using transfer learning. In Proc. of The 23rd Int’l

Conf. on Machine Learning, pp. 713–720, 2006.

[26] M. T. Rosenstein, Z. Marx, L. P. Kaelbling, and T. G. Diet-terich. To transfer or not to transfer. In NIPS-2005

Work-shop on Inductive Transfer: 10 Years Later, 2005.

[27] S. Satpal and S. Sarawagi. Domain adaptation of condi-tional probability models via feature subsetting. In Proc. of

the 11th European Conf. on Principles of Data Mining and Knowledge Discovery, pp. 224–235, 2007. [LNAI 4702].

[28] X. Shi, W. Fan, and J. Ren. Actively transfer domain knowledge. In Proc. of The ECML/PKDD2008, Part II, pp. 342–357, 2008. [LNAI 5212].

(8)

[29] H. Shimodaira. Improving predictive inference under co-variate shift by weighting the log-likelihood function. J. of

Statistical Planning and Inference, Vol. 90, pp. 227–244,

2000.

[30] 杉山将. 共変量シフト下での教師付き学習. 日本神経回

路学会誌, Vol. 13, No. 3, pp. 111–118, 2006.

[31] M. Sugiyama and M. Krauledat adn K. R. M ¨Uller. Covari-ate shift adaptation by importance weighted cross valida-tion. Journal of Machine Learning Research, Vol. 8, pp. 985–1005, 2007.

[32] S. Thrun. Is learning the n-th thing any easier than learning the ﬁrst? In Advances in Neural Information Processing

Systems 8, pp. 640–646, 1996.

[33] R. Vilalta and Y. Drissi. A perspective view and survey of meta-learning. Artiﬁcial Intelligence Review, Vol. 18, pp. 77–95, 2002.

[34] Z. Wang, Y. Song, and C. Zhang. Transferred dimension-ality reduction. In Proc. of The ECML/PKDD2008, Part II, pp. 550–565, 2008. [LNAI 5212].

[35] P. Wu and T. G. Dietterich. Improving SVM accuracy by training on auxiliary data sources. In Proc. of The 21st Int’l

Conf. on Machine Learning, pp. 871–878, 2004.

[36] D. Xing, W. Dai, G.-R. Xue, and Y. Yu. Bridged reﬁnement for transfer learning. In Proc. of the 11th European Conf.

on Principles of Data Mining and Knowledge Discovery,

pp. 324–335, 2007. [LNAI 4702].

[37] K. Yu and V. Tresp. Learning to learn and collaborative ﬁltering. In NIPS2005 Workshop Inductive Transfer: 10

Years Later, 2005.

[38] B. Zadrozny. Learning and evaluating classiﬁers under sample selection bias. In Proc. of The 21st Int’l Conf. on

転移学習のサーベイ