• 検索結果がありません。

転移学習のサーベイ

N/A
N/A
Protected

Academic year: 2021

シェア "転移学習のサーベイ"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

転移学習のサーベイ

Survey on Transfer Learning from Taxonomic Perspective

神嶌 敏弘

1

Toshihiro Kamishima

1

産業技術総合研究所

1

National Institute of Advanced Industrial Science and Technology (AIST)

Abstract: We overview resent researches in transfer learning.

1

はじめに

転移学習 (transfer learning) という語は,かなり幅広 い機械学習の枠組みに対して使われており,統一され た形式的定義を与えることは難しい.だが,形式的で はない定義としては,転移学習のワークショップの論 文募集 [2] にある,次のものが広く受け入れられるだ ろう.

the problem of retaining and applying the knowl-edge learned in one or more tasks to efficiently develop an effective hypothesis for a new task 新規タスクの効果的な仮説を効率的に見つ け出すために,一つ以上の別のタスクで学 習された知識を得て,それを適用する問題 すなわち,ある問題を効果的かつ,効率的に解くため に,別の関連した問題のデータや学習結果を再利用す るのが転移学習である. 最近は,Web などから大量のテキストデータはかな り容易に収集できるようになり,教師なしで作れる言 語モデルなどは格段に精度が向上した.一方,学習に 教示情報が必要な場合,例えば音声認識の音響モデル や,文書分類のモデルとかはそれほど向上していない. これらのタスクには,教示情報付きの学習データが必 要であり,その教師情報は人手で与えなければならな い.そのため,こうしたデータを大量に準備するのは, 費用,人的資源,時間などの制約から,一般には困難で ある.この問題に対処するための機械学習の方針は三 つあるだろう.一つ目は,少数のラベルありデータを 準備し,多数のラベルなしデータを活用して予測精度 を向上させる半教師あり学習 (semi-supervised learning) [7] である.二つ目は,より効率的な分類ができるよう に選んだ事例に対して,教示情報を与えさせる能動学 習.そして,最後がこの転移学習である.上記のよう 連絡先:http://www.kamishima.net/ な需要に応えるため,転移学習に関する発表は増えて いる. 転移学習の考えはかなり以前からあり,1995 年の NIPS のワークショップ [1] から,機械学習の一分野と して認識されるようになった.転移学習の呼び方が定 着しつつあるようなので,この呼び方を本稿では採用 するが,10 数年にわたっていろいろな呼び方をされて きた.例えば,帰納転移 (inductive transfer),ドメイン 適応 (domain adaptation),マルチタスク学習 (multi-task learning),knowledge transfer, learning to learn,lifetime learning といろいろある.さらに,共変量シフト (co-variate shift) [29, 30] や標本選択バイアス [38] なども, 転移学習のより限定された分野とみなしてよいだろう. Pan & Yang の転移学習のサーベイ [23] では,体系的 な議論が試みられている.また,自然言語処理で,この 転移学習に取り組んでいる Daum´e は,ブログ [11] で, 転移学習に対する考えを示している.本稿では,これ らの考えを取り入れつつ,私自身の考えも含めて,転 移学習の分野を俯瞰したい.2 節はタスク間の関係に ついて, 3 節では転移学習の設定について,4 節では転 移のモデル化について考察する.最後の 5 節では転移 学習の各研究の概要を示す.

2

転移学習

前節で述べたように,転移学習の見方は研究者によ り様々だが,そうしたいくつかの見解を,私の考えも 交えて紹介する. その前に,本稿での表記を示しておく.転移する知 識の送り手側を元ドメイン (source domain),受け手側 を目標ドメイン (target domain) とよび,それぞれ,上 付きの (S) と (T ) で表す.元ドメインが複数ある場合 は (S1), (S2), . . . , (SK) のように表すが,一つだけの場 合は添え字は省略する.いずれかのドメインであるこ とを示すには D∈ {S, T } を用いる.各ドメインの入力 人工知能学会研究会資料 SIG-DMSM-A803-06 (3/3)

(2)

に該当する確率変数を X(D)とする.これらの定義域X(D)で,一般に,p(D)次元の実数ベクトルである. 各ドメインに出力が存在するとき,その出力に該当す る確率変数をそれぞれ Y(D).これらの定義域はY(D) で,二値分類問題なら{0, 1},回帰問題なら実数とな る.ラベルありの事例は入力と出力の対 (x(D) i , y (D) i ) で,(X(D), Y(D)) の実現値である.ラベルなし事例は 入力 x(D)i のみで,X(D)の実現値である.訓練事例集 合の数は N(D)である. Daum´e は,ドメイン適応/転移学習と,マルチタスク 学習とを,それぞれ異なるドメインからの転移と,異 なるタスクからの転移と区別している.しかし,ドメ インの違いとタスクの違いというのは,それほど自明 な概念ではないと私は考える.Daum´e は自然言語処理 の研究者なので,異なるタスクとして,文書分類,固 有表現抽出,形態素解析などを想定し,異なるドメイ ンとして訓練に使うコーパスの違いを想定しているだ ろう.例えば,ブログ記事を対象とした文書分類問題 を考えてみよう.一つ目の分類は内容のカテゴリ(趣 味や社会など)に応じた分類,もう一つはセンチメン ト分類(商品の善し悪し)としよう.文書分類として 見れば同じタスクだが,出力の定義域Y(D)が異なる ので違うタスクといっても良いだろう.なお,Caruana のマルチタスク学習の基本文献 [6] では違うタスクと して扱われている.さらに,一方がブログ記事コーパ ス,もう一方が新聞記事コーパスでも,この場合は何 らかの転移はできそうだが,Daum´e 流ではどのように 分類すべきかは難しいだろう.ここでは,ドメインと タスクという言葉は特に区別せず,ドメインという言 葉を用いる.ただし,定義域X(D)Y(D)が両ドメイ ンで異なるかどうかは区別することがある.

Pan & Yang は,転移学習とマルチタスク学習を次の ように区別している.マルチタスク学習は,元ドメイン と目標ドメインの役割が入れ替わってもよく,対称で ある.両ドメインに共通する知識を見つけ出し,互いの 知識を相互に転移して,両方のドメインでの予測精度 を向上させることが目的である.最も典型的な応用は, 音声認識での話者適応だろう.一方の,転移学習の目標 は,元ドメインの訓練事例集合を利用することで,目 標ドメインでの予測精度を向上させることである.ほ とんどの応用はこちらの場合だろう.私も,このように 分類するのは妥当だと考えている.ただし,両者を統 合する用語も転移学習になってしまうので,両者をあ わせて転移学習,Pan & Yang の狭義の転移学習はドメ イン適応と呼ぶのがよいと考えていた.しかし,Pan & Yang に合わせて,本稿では,Pan & Yang の意味で転移 学習とマルチタスク学習の語を用いる.これらの違い は,アルゴリズムの設計に次のように影響するだろう. 転移できる知識の総量だが,ドメインが三つ以上にな ると,マルチタスクで利用できる知識は,転移学習での それより大きくはならない.各ドメインの知識をK(D) と書くと,マルチタスク学習では全タスクで共通な知 識{∩iK(Si)} ∩ KT のみが利用できる.それに対し,転 移学習では,目標ドメインと各元ドメインに共通する 知識を全て合わせた知識,すなわち,i{K(Si)∩ K(T )} が利用できる.よって,転移学習の方が,より多くの 知識を再利用できる.一方,マルチタスク学習で転移 される知識は,新規のドメインでも利用できる場合が 多い.音声認識の話者適応の例だと,100 人に利用で きた知識は,101 人目にも利用できるだろう.一方,転 移学習では,新たなドメインに対しては,転移する知 識を再度決める必要がある.よって,マルチタスク学 習の方が知識を再利用できるドメインは広範囲になる. 最後に,その他の転移学習問題に対する呼称につい ても元の意味合いを紹介しておく.lifetime learning は, 強い人工知能にやや踏み込んだ意図がある.人間は,一 つの作業ごとに,白紙の状態からではなく,過去の経 験をもとに学習を行う.それを計算機上で実現するこ とを意図した呼称である.learning to learn には,メタ 学習 [33] と近い意図がある思う.問題ごとに適切な学 習アルゴリズムは変わるが,メタ学習は,このアルゴ リズムの選択を機械学習によって行う試みである.過 去の学習結果と,訓練データの特徴の対から適切な学 習器を選ぶ分類器を獲得する.

3

転移学習の設定

転移学習は元と目標の各ドメインの事例にラベル情報 (出力情報)が与えられているかどうかによって,4 種類 の設定が考えられる.Daum´e の表記に従ってまとめる と,次の表になる.例えば,(1) の S+T + の場合は,両 ドメインの訓練集合は{(x(S) i , y (S) i )} と {(x (T ) i , y (T ) i )} のように,どちらも入力と出力の実現値の対の集合で ある. 目標ドメインラベル あり なし 元ドメイン あり (1) S+T + (2) S+T− ラベル なし (3) S−T + (4) S−T − Pan & Yang は,目標ドメインにラベルがある (1) と (3) の場合を合わせて帰納転移学習 (inductive transfer learning),(2) をトランスダクティブ転移学習 (transduc-tive transfer learning),そして (4) の場合を教師なし転移 学習 (unsupervised transfer learning) と呼んでいる.だ が,Daum´e などの議論も参考にし,(1) と (3) を区別し て考えた方がよいと私は考える.よって本稿では,帰 納転移学習という語は (1) のみをさし,(3) については 自己教示学習 (self-taught learning) [24] の語を用いる. (1) 帰納転移学習の研究は最も多い [32, 26, 10, 25, 14, 35, 19, 21, 13, 12, 6, 37, 18, 16, 17].ドメインの違いを,

(3)

分布の違い P[X(S), Y(S)]̸= P[X(S), Y(S)] に帰する研 究がほとんどである.定義域の違い X(S) ̸= Y(T ) Y(S) ̸= Y(T )を考慮した研究をまだ知らない.定義域 が違う場合は,一部には写像で関係が定義できる必要 があるだろう.例えば,自然言語処理のベクトルモデ ルで,両ドメインの語彙には共通部分があるといった ものである. (2) トランスダクティブ転移学習の研究は次に多い [20, 15, 9, 3, 36, 27, 29].ラベルのない目標ドメインのデータ の適切なラベルを予測することが目的である.Daum´e や Pan & Yang も共に指摘することだが,P[Y(S)|X(S)] = P[Y(T )|X(T )] を暗黙的,もしくは明示的に仮定してい る.そして,P[X(S)] ̸= P[X(T )] であることがドメイ ンの違いとみなしており,この点で半教師あり学習と は異なる.また,実際に,半教師あり学習アルゴリズ ムの予測精度は,この種の転移学習アルゴリズムのそ れを下回る. (3) の自己教示学習については議論すべき点がある. Daum´e はこの種の転移学習については,P[X(S)] = P[X(T )] の仮定が必要だと述べている.すると,統計的翻訳で, 言語モデル P[X(S)] を大規模な英語コーパスから,P[Y(T )|X(T )] を対訳コーパスから獲得するような問題になる.P[X(S)] = P[X(T )] をするならば,転移学習よりも,特徴構築と みなした方がよいかもしれない.この種の研究である と主張する自己教示学習の論文 [24] についてもう少し 議論する.この方法は,元ドメインデータを使って特 徴の部分空間を求め,その部分空間を使って目標ドメ インのラベルありデータから学習する.特徴構築など の既存研究と異なるとの主張は,P[X(S)] = P[X(T )] を仮定しないことと,目標ドメインにないラベルが付 けられるべきデータが元ドメインにはある,すなわち, Y(S) ⊇ Y(T )であることを根拠としている.前者に関

しては,Pan & Yang も指摘しているが,次元削減の一 種なので,P[X(S)]̸= P[X(T )] の状況に対応できている かどうか明確ではないように思う.Y(T )にないラベル を持つ事例が含まれるので分布が異なると主張してい るが,分布の違いに充分に対応できるかどうかは,論 文の実験だけでは充分に示せていないように思う.後 者の定義域の違いに関しては,両者の要素は容易に対 応付けられ,目標ラベルの定義域に「未知ラベル」を 加えれば等しく扱えるようにも思う.また,提案手法 は,未知目標ラベルに対応する事例を排除するように 明示的には設計されてはいないと思う. 最後の (4) も P[X(S)] = P[X(T )] ではないかと私は 考える.Daum´e もこの場合は通常の教師なし学習と等 価と述べている.ただし,定義域が異なる場合,すな わち,X(S)̸= X(T )であれば,新たな枠組みとみなせ るかもしれない.しかし,定義域中の要素間の写像は 必要となり,その像の分布はやはり等しいとの仮定は 必要になるかもしれない.[34] など,いくつかの研究 が提案され始めた時期なので,その位置づけは今後と も考察を続けたい. Daum´e は,P[X(S)] = P[X(T )] を仮定した場合を転 移学習,P[Y(S)|X(S)] = P[Y(T )|X(T )] を仮定した場合 をドメイン適応とよんでいる.だが,これらの仮定は, 上記の分類とおそらく密接に関係しており,また,名 称も直接的なので Pan & Yang の帰納転移学習などの呼 称をここでは用いる. その他,実問題への適用を考える場合には,P[X] が 変わって,P[Y|X] が不変という状況がありえるのかは 議論され続けている.また,有限事例集合から,分布 が違うかどうかは充分に検証できるのか,また,分布 の違いが精密に求められるほど十分なデータがあるな らば,そもそも知識の転移は必要なのかといった,抜 本的な問題もある.

4

転移仮定と転移モデル

転移学習を形式的に定義できない最大の原因は『ドメ インが似ている』ことを定義することの難しさにある. これは,転移学習研究の黎明期から最も重要な課題と して認識されているが [6],未だに明確な解は示されて いない.おそらく問題の類似性を一つの物差しで測る のは不可能だと私は考える.機械学習手法を適用して よい結果を得るには,問題に対して適切なモデルを採 用していることが重要であり,また,No Free Lunch 定 理の示すように,万能なモデルは存在しえない.知識の 転移においても,何が似ていて,どのように転移できる かを仮定し,その仮定をどのように数学的モデルで表 すかということが必要になるだろう.これらを,転移仮 定と転移モデルとそれぞれよぶ.転移するドメイン間 で,転移仮定と転移モデルが適切なら転移学習は成功 し,不適切ならかえって悪くなる『負の転移 (negative transfer) [26]』が生じるだろう.さらに,モデルの場合 と同じように “No Free Lunch in Transfer” も成立し,万 能な転移モデルは存在しえないだろう. それでは,転移仮定について考察を深める.最も一 般的な形での転移仮定は,二つのドメインの分布間の ダイバージェンスで測り,それが十分に小さい場合を 想定する [4, 5, 8].この種の仮定は,両ドメインの知識 が非常に少ない場合には有用だろう.しかし,もし両 ドメインについてより多くのことが分かっているので あれば,それを表すより特殊な仮定を導入し,より多 くの知識を転移できるだろう.例えば,正と負クラス の目標データが,それぞれ,別のガウス分布から生成 されているとする.元データもやはりガウス分布に従 うのだが,その分布の中心は目標データのそれと等し いが,分散はずっと小さいとしよう.この場合,決定 平面は不変なので,そのまま元ドメインのデータは活

(4)

用できるだろう.しかし,これら二つドメインの分布 間のダイバージェンスは 0 ではないので,上記のよう な一般的な転移仮定では,転移される知識はある程度 制限を受ける.Pan & Yang も指摘しているが,転移で きる状況を明確にし,それらの状況に合わせた転移学 習の手法を考えていく必要があるだろう. 転移仮定を数学的にモデル化したものを転移モデル と呼ぼう.このモデル化のアプローチを,モデルベー ス,特徴ベース,および事例ベースの 3 種類に分ける. 最初のモデルベースは,受け手の目標ドメインで,明 示的に転移仮定をモデルに組み込む.例えば,共通す る知識を事前分布にした階層ベイズ [25],異なる知識 を要素分布で表現した混合分布 [13],隠れ層を共有す るニューラルネットワーク [6, 32] などのモデルがこの 場合に該当する.残り二つのアプローチは,受け手の目 標ドメインではなく,元ドメインのデータを送り手側 で整形する.この整形を,特徴空間の変換によって行う のが特徴ベースである [3, 12, 20, 21, 27].特徴空間中で の距離を利用する方法 [9, 32, 36] もこの種の方法と見 なすべきだろう.事例ベースアプローチでは,元ドメイ ンの各訓練事例を,目標ドメインへの関連性に応じて, 重み付けしたり,選択したりする [10, 19, 29, 31, 35]. 複数の仮説を重み付け・選択する方法 [15, 18, 16, 17] もこの種の方法とみなしてよいだろう.

Pan & Yang も同様の分類を示している.転移学習の 研究課題として,何を転移するのか (What to transfer), どのように転移するのか (How to transfer),そして,い つ転移するのか (When to transfer) があると述べてい る.このうち,何を転移するのかによって,転移学習 の方法は,事例転移 (instance-transfer),特徴表現転移 (feature representation transfer),パラメータ転移 (param-eter transfer),および関係知識転移 (relational knowledge transfer).これらのうち,最後のものは,確率的な論理 を対象としていてやや特殊なので,ここでは議論しな い.私の,事例ベース,特徴ベース,およびモデルベー スが,それぞれ,Pan & Yang の事例転移,特徴表現転 移,およびパラメータ転移と対応付けられる.しかし, 彼らは何を転移するのかによって,これらの分類が決ま ると述べているが,この点については私の考えは異な る.私が述べる転移仮定は,何をどのように転移するか の仮定だが,これは異なるカテゴリの転移モデルによっ て具体化することが可能だと考える.例えば,Daum´e は,自然言語処理において,タスク達成に有用な素性の 集合が異なっているという転移仮定を示している.そ して,この仮定をモデルベースで実現した [13] と,特 徴ベースで実現した [12] の二つの方法を提案している. より一般的に,ある転移仮定は,受け手側のモデルベー スによるものと,送り手側の事例・特徴ベースによる ものの,少なくとも二通りの実現方法が常に可能では と予測している.あと,Pan & Yang は,パラメータ転

移と呼んでいるが,ノンパラメトリックなモデルも現 れ始めているので,モデルという語を使う方が適切だ と思う. 私の分類は自明のように述べたが,議論すべき余地 もある.事例を重み付けするので [19] は事例ベースと したが,その重みの決定は最適化関数の中に密接に組 み込まれているためモデルベースとすべきかもしれな い.また,複数の仮説を重み付け・選択する方法は,事 例ベースとしたが,モデルベースとすべきか議論の余 地があるようにも思う.

最後に,Pan & Yang も,Daum´e も論じていないが, 転移学習アルゴリズムは統合型とラッパー型という視 点からも分類できるだろう.ラッパー型 (wrapper) と は,目標ドメインで帰納的な学習を行うアルゴリズム と,知識を転移するプロセスとが独立しているもので ある.一方,統合型 (integrated) は,学習アルゴリズム と転移手法が密接に結合していて分離できないもので ある.前者の代表としては,特徴空間合成する [12] や アンサンブル学習による方法 [10, 18] が挙げられる.後 者の方法としては,ほとんどのモデルベース手法が該 当する.統合型は受け手側のモデルベース,ラッパー 型は送り手側の事例・特徴ベースに対応しているよう にも思うので,今後,考察を深めてゆきたい.両手法の 長所と短所について考察しておく.ラッパー型は,転 移モデルと,学習モデルを分離できるので,転移仮定 に合わせた選択がしやすいだろう.一方,統合型では, 転移と学習を同時に実行できたりするため,計算効率 的には有利な点もある.また,学習手法の特性を生か した転移も可能かもしれない.

5

転移学習手法

A Survey on Transfer Learning [23] 転移学習のサー ベイ.

Is Learning The n-th Thing Any Easier Than Learning The First [32] 転移学習の先駆的研究の一つ.ある対 象の画像を正例,他の対象の画像を負例として,これ らを区別する問題.これら以外の画像のデータが別に あるとき,これらを識別器の学習に利用する.最近隣 法で,データの空間を変換する方法と,距離関数を学 習する方法.ニューラルネットで,多クラス分類の用 にする方法と,EBNN(explanation-based NN) を用いる 方法を提案.

To Transfer or Not To Transfer [26] 補助データと目 標データそれぞれを単純ベイズでモデル化.さらに,そ のモデルのパラメータに超事前分布を導入した階層ベ イズモデル.補助データと目標データの分布が似ていれ

(5)

ば,超事前分布の効果で転移学習がうまくいくが,違っ ていると逆効果になってしまう現象の報告.

Boosting for Transfer Learning [10] 目標の分類問題 と同分布からサンプルされたデータと,それと関連し た違う分布からサンプルされたデータとの両方を用い るブースティングである TrAdaBoost.同分布・異分布 の両方を併せたデータで弱分類器を作り,誤分類され た異分布データの重みを徐々に下げてゆく.理論的に, 異分布データの重み付経験誤差を 0 にできるが,重み が 0 になっている場合もあるので,異分布データを必 ず活用できることは保証されない. 飼いならし — 飼育・野生混在データからの学習 [18] bagging を使った転移学習.元ドメインからサンプリン グしたデータで幾つもの弱学習器を生成する.それら の学習器で,目標データを分類し,予測精度が高かっ たものだけを集めて,多数決投票を行う.

Constructing Informative Priors using Transfer Learn-ing [25] 文書分類を対象に,目標問題の精度を,補助 問題から求めたパラメータの事前分布を用いた MAP 推 定によって向上させる.事前分布にはガウス分布を想 定し,その共分散行列を計算する.ところが,普通に 計算するのは計算量が大きく,また,半正定値性を満 たさない問題もある.そこで,いくつかの対について のみモンテカルロ法でまじめに共分散を推定.その他 は,特徴に対応する語の特徴を考え,まじめに推定し た共分散を教師信号として残りは推定する.このとき, 半正定値性も満たすように,推定と半正定値性を満た す射影とを交互に繰り返して推定.

Transfer Learning for Text Classification [14] 文書の 統計量を入力とするスコア関数 g が最大になるクラス へ,文書を分類するモデルを考える.単純ベイズや tf-idf では,この g は線形関数.いろいろなコーパスに使 えるように,この g を,複数のコーパスから訓練する 方法を提案.他のコーパスで学習した g を用いて,単 純ベイズや識別モデルベース手法を上回る分類精度が 達成できることを示した.

Improving SVM Accuracy by Training on Auxiliary Data Sources [35] 目的の問題用のデータに加え,精 度の劣る補助データを併用する転移学習の一種.k 近 傍法では,主データと補助データで投票の重みを変え る.SVM では,補助データはサポートベクトルとして 記述を変えるのと,誤差として考慮するのとの 2 種類 の利用法.主と補助データではやはり重み付けによっ て,その解への影響度を変える.

Logistic Regression with an Auxiliary Data Streams [19] 主データと補助データがあるとき,補助データの中で 主データを矛盾するようなデータを無視するような変 数を導入.その変数と,モデルのパラメータを同時に 最適化するロジスティック回帰.

An Algorithm for Transfer Learning in a Heteroge-neous Environment [21] 関連タスクが均一ではなく, いくつかのグループに分けられる場合のマルチタスク 学習.タスクをクラスタリングし,各タスクごとに有 用な特徴の部分空間を求める.タスクのクラスタへの 割り当てと,部分空間の計算を交互に繰り返すことで 解く.

Spectral Domain-Transfer Learning [20] 転移先のタ スクにはラベルがないテスト事例である転移学習.テ スト事例と訓練事例を合わせたデータを,テスト事例 の類似性が強調されるようにスペクトラルグラフを使っ て次元削減.同時に,訓練データのラベルが維持され るような罰則項をもつ.そうして,次元削減後の空間 で,クラス分類問題と解くことでラベル付けをする. Knowledge Transfer via Multiple Model Local Struc-ture Mapping [15] 複数のモデルがあり,それを組み 合わせて,与えられたドメインの異なるテストデータ を分類する.どのモデルを選ぶかは,モデルとテスト の分布が一致しているものを重視する.一致は,クラ スの境界が低密度部分にあるとするクラスタリング多 様体仮定に基づいて,テストデータをクラスタリング した分類結果と,訓練データのクラスが一致している かで測る.

Self-taught Learning: Transfer Learning from Unla-beled Data [24] 教師なし・ありデータを使う点では半 教師あり学習と同じだが,教師なしデータには,クラ スラベル集合中のどのラベルも適切ではないデータが 含まれる点が異なる.教師なしデータから,特徴を構 築することで,高次の表現を獲得し,その表現を使っ て教師ありデータから学習することで,より高精度の 予測を実現.

Co-clustering based Classification for Out-of-domain Documents [9] 半教師あり学習のようにラベルあり・ なしの二つの文書データを使うが,ラベルありデータ とラベルなしデータでデータのドメインが異なる.ラ ベルありデータのクラス情報を反映させた語クラスタ を作り,その語クラスタと共クラスタリングすること で,ラベルなしデータをクラス分類する.クラスタリ ングは情報量に基づく評価関数を基に行う.

(6)

A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data [3] 半教師あり学 習の,ラベルなしデータから,目標問題に関連した補 助問題をいくつか作る.例えば,ある特徴から,別の 特徴の値を予測するなど.それらの補助問題を共通に 解くのに有用な部分空間や構造を見つける.その部分 空間を使って学習することで,目標問題の予測精度を 向上させる.

Bridged Refinement for Transfer Learning [36] 転移 先のデータはラベルがない状況を想定.精細化と呼ぶ 手続きは,単純に求めた分類器の確信度を,その近傍 のラベルと無矛盾になるように変化させる.最初は,訓 練データで求めたデータを,訓練+テストへ精細化.そ の後,その確信度をテストデータのみに適応させる. Domain Adaptation of Conditional Probability Models via Feature Subsetting [27] 転移先データがラベルな しの転移学習.転移先での特徴の重要性に応じて重み 付けを行う.重みは,その特徴とる値の期待値の,二 つのドメイン間の距離 (実験では対数二乗距離) に応じ て決める.

Learning Bounds for Domain Adaptation [5] 元ドメ インと目標ドメインのそれぞれの経験誤差を加重凸結 合した誤差と,目標ドメインの汎化誤差間の限界を示 す.これは,元と目標ドメインの分布の差に依存. Analysis of Representations for Domain Adaptation [4] 元ドメインにのみ少数のラベルありデータ,元と目標ド メインに多量の教師なしデータがあるときのドメイン 適応.元ドメインで学習した分類器が,目標ドメイン で達成できる汎化誤差の上限を求めた.データを記述 する特徴量を線形写像などで変換する表現関数が,変 換後の特徴を使って,二つのドメインの分布を A-距離 で測ったときに似ていて,かつ,元ドメインでの識別 誤差が小さいときに,上限は小さくなる.具体的な表 現関数の求め方は,他の論文のヒューリスティックな 方法.

Learning from Multiple Sources [8] 学習する目標の 関数からのサンプルに加え,類似した関数のサンプル もあるマルチ情報源学習.関数間の不一致度が与えら れているとき,目標関数に加え,類似した関数からの サンプルも使った場合の汎化誤差の上限を与える.こ の上限を最小化するように,利用する情報源を選ぶ方 法を提案.関数間の不一致度の推定のために,同じデー タ点に対する両方の関数の値が必要なことが制限.

Domain Adaptation for Statistical Classifiers [13] ド メイン外,ドメイン内,共通の三つの識別モデルの混合 モデルを考え,それを最大エントロピー法でパラメー タを求める Mega モデル.条件付き EM 法で解く. Frustratingly Easy Domain Adaptation [12] ドメイン 適応を簡単な特徴拡張で実現.特徴ベクトル F がある とき,元ドメインのデータでは〈F, F, 0〉 のようなベク トル,目標ドメインでは〈F, 0, F 〉 のように,特徴ベク トルを連結したベクトルで学習する. Multitask Learning [6] 複数のタスクを各出力に割り 当てた,一つのニューラルネットワークで学習すること でマルチタスク学習を実行することについて議論.マ ルチタスク学習の有効性に関する実験や,適用可能な 状況についても議論.その他,再近傍法,カーネル回 帰,決定木についてもマルチタスク学習を実現する手 法を示し,今後の課題について考察した.

Learning to Learn and Collaborative Filtering [37] 複 数のタスクに共通の事前分布を学習する階層ベイズタ イプのマルチタスク学習.方法としては正攻法.協調 フィルタリングを,各利用者に対する予測問題ととら え,全利用者での予測をマルチタスク学習と考える. Improving Predictive Inference under Covariate Shift by Weighting the Log-Likelihood Function [29] 訓練 用とテスト用の入力事例が異なる共変量シフトの下で の回帰による予測.極限での一致性の他,有限サンプ ルでの修正.さらに,モデル選択のための情報量規準 なども示す. 共変量シフト下での教師付き学習 [30] 入力に対する 出力変数の分布は変わらないが,訓練時とテスト時で, 入力データの分布が異なる共変量シフトでの学習につ いてのチュートリアル.

Learning and Evaluating Classifiers under Sample Se-lection Bias [38] 訓練事例は,入力 x に依存してサン プルされる確率が変化する標本選択バイアス.ここで, 選択される事象 s と出力クラス y は,x が与えられた 下で条件付き独立と仮定.標本選択バイアスに影響さ れる学習器を大域学習器,そうでないものを局所学習 器と呼ぶ.代表的な分類学習器がどちらに該当するか を議論.さらに,バイアスを補正する重み付け法も述 べる.

A Perspective View and Survey of Meta-Learning [33] メタ学習のサーベイ.メタ学習とは,あるバイアスを

(7)

もつ学習器で,事例に対して学習を行うベース学習器 の上位に,学習器のバイアス,言い換えると仮説空間 を,問題のドメインの特徴に応じて決定するためのメ タ知識を学習するメタレベルの学習をも行う枠組み. Competition Among Networks Improves Committee Per-formance [22] 学習対象の主タスクに加え,補助タス クとして競合学習を利用したニューラルネットをまと めてバギングを行う.

Actively Transfer Domain Knowledge [28] 転移学習 器の予測が信頼できればそのラベルを,信頼出来なけ れば専門家にラベル付けさせる.そうして得られたラ ベル付きドメイン内データから最終の分類器を作成す る.転移学習器は,ドメイン外データの予測クラスに 応じてドメイン内データを分割し,それぞれのドメイ ン内データで分類器を作ることで生成.転移学習器の 信頼性は,ドメイン外とドメイン内それぞれで訓練し た分類器の予測の一致,ラベルありドメイン内データ の数,分類器の確信度を使って判断する.

参考文献

[1] Learning to learn: Knowledge consoli-dation and transfer in inductive systems. http://socrates.acadiau.ca/courses/comp/dsilver/

NIPS95 LTL/transfer.workshop.1995.html.

[2] Nips 2005 workshop — inductive transfer: 10 years later. http://iitrl.acadiau.ca/itws05/.

[3] R. K. Ando and T. Zhang. A framework for learning pre-dictive structures from multiple tasks and unlabeled data.

Journal of Machine Learning Research, pp. 1817–1853,

2005.

[4] S. Ben-David, J. Blitzer, K. Crammer, and F. Pereira. Anal-ysis of representations for domain adaptation. In Advances

in Neural Information Processing Systems 19, pp. 137–144,

2007.

[5] J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. Wort-man. Learning bounds for domain adaptation. In Advances

in Neural Information Processing Systems 20, pp. 129–136,

2008.

[6] R. Caruana. Multitask learning. Machine Learning,

Vol. 28, pp. 41–75, 1997.

[7] O. Chapelle, B. Sch¨olkopf, and A. Zien, editors.

Semi-supervised Learning. MIT Press, 2006.

[8] K. Crammer, M. Kearns, and J. Wortman. Learning from multiple sources. Journal of Machine Learning Research, Vol. 9, pp. 1757–1774, 2008.

[9] W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Co-clustering based classification for out-of-domain documents. In Proc.

of The 13th Int’l Conf. on Knowledge Discovery and Data Mining, pp. 210–219, 2007.

[10] W. Dai, Q. Yang, G.-R. Xue, and Y. Yu. Boosting for trans-fer learning. In Proc. of The 24th Int’l Conf. on Machine

Learning, pp. 193–200, 2007.

[11] H. Daum´e III. natural language processing blog. http://nlpers.blogspot.com/

search/label/domain%20adaptation.

[12] H. Daum´e III. Frustratingly easy domain adaptation. In

Proc. of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 256–263, 2007.

[13] H. Daum´e III and D. Marcu. Domain adaptation for statis-tical classifiers. Journal of Artificial Intelligence Research, Vol. 26, pp. 101–126, 2006.

[14] C. B. Do and A. Y. Ng. Transfer learning for text clas-sification. In Advances in Neural Information Processing

Systems 18, pp. 299–306, 2006.

[15] J. Gao, W. Fan, J. Jiang, and J. Han. Knowledge transfer via multiple model local structure mapping. In Proc. of The

14th Int’l Conf. on Knowledge Discovery and Data Mining,

pp. 283–291, 2008.

[16] T. Kamishima, M. Hamasaki, and S. Akaho. Baggtaming — learning from wild and tame data. In ECML/PKDD2008

Workshop: Wikis, Blogs, Bookmarking Tools – Mining the Web 2.0 Workshop, 2008.

[17] T. Kamishima, M. Hamasaki, and S. Akaho. Personalized tag predition boosted by baggtaming — a case study of the hatena bookmark. In The 3rd Int’l Workshop on

Data-Mining and Statistical Science, 2008.

[18] 神嶌敏弘,濱崎雅弘,赤穂昭太郎. 飼いならし—飼育・

野生混在データからの学習.人工知能学会全国大会(第

22回)論文集, 2D1-3, 2008.

[19] X. Liao, Y. Xue, and L. Carin. Logistic regression with an auxiliary data streams. In Proc. of The 22nd Int’l Conf. on

Machine Learning, pp. 505–512, 2005.

[20] X. Ling, W. Dai, G.-R. Xue, Q. Yang, and Y. Yu. Spectral domain-transfer learning. In Proc. of The 14th Int’l Conf.

on Knowledge Discovery and Data Mining, pp. 488–496,

2008.

[21] A.Argyriou A.Maurer M.Pontil. An algorithm for transfer learning in a heterogeneous environment. In Proc. of The

ECML/PKDD2008, Part I, pp. 71–85, 2008. [LNAI 5211].

[22] P. W. Munro and B. Parmanto. Competition among net-works improves committee performance. In Advances in

Neural Information Processing Systems 9, pp. 592–598,

1997.

[23] S. J. Pan and Q. Yang. A survey on transfer learning. Tech-nical Report HKUST-CS08-08, Dept. of Computer Science and Engineering, Hong Kong Univ. of Science and Tech-nology, 2008.

[24] R. Raina, A. Battle, H. Lee, B. Packer, and A. Y. Ng. Self-taught learning: Transfer learning from unlabeled data. In

Proc. of The 24th Int’l Conf. on Machine Learning, pp.

759–766, 2007.

[25] R. Raina, A. Y. Ng, and D. Koller. Constructing informative priors using transfer learning. In Proc. of The 23rd Int’l

Conf. on Machine Learning, pp. 713–720, 2006.

[26] M. T. Rosenstein, Z. Marx, L. P. Kaelbling, and T. G. Diet-terich. To transfer or not to transfer. In NIPS-2005

Work-shop on Inductive Transfer: 10 Years Later, 2005.

[27] S. Satpal and S. Sarawagi. Domain adaptation of condi-tional probability models via feature subsetting. In Proc. of

the 11th European Conf. on Principles of Data Mining and Knowledge Discovery, pp. 224–235, 2007. [LNAI 4702].

[28] X. Shi, W. Fan, and J. Ren. Actively transfer domain knowledge. In Proc. of The ECML/PKDD2008, Part II, pp. 342–357, 2008. [LNAI 5212].

(8)

[29] H. Shimodaira. Improving predictive inference under co-variate shift by weighting the log-likelihood function. J. of

Statistical Planning and Inference, Vol. 90, pp. 227–244,

2000.

[30] 杉山将. 共変量シフト下での教師付き学習. 日本神経回

路学会誌, Vol. 13, No. 3, pp. 111–118, 2006.

[31] M. Sugiyama and M. Krauledat adn K. R. M ¨Uller. Covari-ate shift adaptation by importance weighted cross valida-tion. Journal of Machine Learning Research, Vol. 8, pp. 985–1005, 2007.

[32] S. Thrun. Is learning the n-th thing any easier than learning the first? In Advances in Neural Information Processing

Systems 8, pp. 640–646, 1996.

[33] R. Vilalta and Y. Drissi. A perspective view and survey of meta-learning. Artificial Intelligence Review, Vol. 18, pp. 77–95, 2002.

[34] Z. Wang, Y. Song, and C. Zhang. Transferred dimension-ality reduction. In Proc. of The ECML/PKDD2008, Part II, pp. 550–565, 2008. [LNAI 5212].

[35] P. Wu and T. G. Dietterich. Improving SVM accuracy by training on auxiliary data sources. In Proc. of The 21st Int’l

Conf. on Machine Learning, pp. 871–878, 2004.

[36] D. Xing, W. Dai, G.-R. Xue, and Y. Yu. Bridged refinement for transfer learning. In Proc. of the 11th European Conf.

on Principles of Data Mining and Knowledge Discovery,

pp. 324–335, 2007. [LNAI 4702].

[37] K. Yu and V. Tresp. Learning to learn and collaborative filtering. In NIPS2005 Workshop Inductive Transfer: 10

Years Later, 2005.

[38] B. Zadrozny. Learning and evaluating classifiers under sample selection bias. In Proc. of The 21st Int’l Conf. on

参照

関連したドキュメント

[9] DiBenedetto, E.; Gianazza, U.; Vespri, V.; Harnack’s inequality for degenerate and singular parabolic equations, Springer Monographs in Mathematics, Springer, New York (2012),

In the second computation, we use a fine equidistant grid within the isotropic borehole region and an optimal grid coarsening in the x direction in the outer, anisotropic,

Bounds on the effective energy density of a more general class of the Willis dielectric composites.. Gaetano Tepedino Aranguren, Javier Quintero C.,

For arbitrary 1 < p < ∞ , but again in the starlike case, we obtain a global convergence proof for a particular analytical trial free boundary method for the

To address the problem of slow convergence caused by the reduced spectral gap of σ 1 2 in the Lanczos algorithm, we apply the inverse-free preconditioned Krylov subspace

Since the boundary integral equation is Fredholm, the solvability theorem follows from the uniqueness theorem, which is ensured for the Neumann problem in the case of the

Maria Cecilia Zanardi, São Paulo State University (UNESP), Guaratinguetá, 12516-410 São Paulo,

Transirico, “Second order elliptic equations in weighted Sobolev spaces on unbounded domains,” Rendiconti della Accademia Nazionale delle Scienze detta dei XL.. Memorie di