• 検索結果がありません。

誤り訂正出力符号の拡張によ る 多値判別法とその応用

N/A
N/A
Protected

Academic year: 2021

シェア "誤り訂正出力符号の拡張によ る 多値判別法とその応用"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

誤り訂正出力符号の拡張によ 多値判別法とその応用 る

奈良先端科学技術大学院大学 石井 信

竹之内高志 大羽成征 行縄直人

(2)

多値判別の一般的枠組み

  ラベル

入力、

x : y  1 ,  , G : 判別関数

F ( x , y )  R :

でラベルを決める )

, ( max

arg

y

F x y ( , )

F x y をどの様に構成するのか?

の同時分布

p ( x , y ) : x , y

( , ) ( ( | ))

F x yu p y x とするとベイズ最適

は単調増加関数 )

( z

u

(3)

• 多値判別関数 F(x,y) を直接構成する

– Fisher

の(線形)判別関数

– Multi-class SVM, AdaBoost, …

F(x,y) を 2 値判別関数の組み合わせで構成する

– Error correcting output coding (ECOC)

に基づく手法

• Bradley-Terry

モデル

(Hastie & Tibshirani, Yukinawa, et al.)

クラス所属確率 p(y|x) を推定できる 確率出力を持つ 2 値判別器が必要

例題ごとに事後確率を計算する必要がある

• Loss-based decoding (Dietterich & Bakiri, Allwein, et al.)

単純な Hamming decoding を含む 実装が簡単

クラス所属確率に関しては言及しない

(4)

ECOC の定式化

• コード表 W p×G 行列

1 1 1

1 1 1

1 1 1

1 1 0

1 0 1

0 1 1

W

 

 

   

 

   

  

  

  

 

  

 

2 / ) 1 2

3 (

max p

G

G1

Class 1   2   3

2 値判別1

2 値判別2

2 値判別3

:

2 3 4 5 6

1 6 25 90 301

(5)

ハミング復号

1

1

1 1 1 1 0

1 y

  

 

 

  

     

 

 

 

  z

         

1 1 1 1 1 0

n

n

y

 

  

 

  

     

 

 

 

  z

           

 

W x

i

z

i

~

1 , 1

)

1

( x  

f

1 , 1

)

2

( x  

f

1 , 1

)

( x  

f

p

 

 

 

 

1 1

0

1 0

1

0 1

1

1 1

1

1 1

1

1 1

1

(6)

基本コンセプト

)) (

, ),

(

~ (

2 値判別器 zf

1

xf

p

x

 

 

 

 

 

 

 

 

) (

) (

) (

~

2 1

i p

i i

i

f f f

x x x

z

 ( , )

1 1 1 1 0

1

i i

i

y

  

   

  

  

  

   

    x

z          

各判別器の判別誤り ビット反転ノイズ

 )

~ | ( z z p

確率モデル

~ )

| ( max

arg

z

p z z

) ( )

~ | (

~ )

|

( z z p z z p z

p

復号法

(7)

確率モデルの仮定

• 3元( 1,0,-1 )入力、2元出力 (1,-1) 通信路

• 多値判別における仮定

2

値判別器(ビット)は独立

判別器ごとにノイズの性質が異なる

パラメータは

j

ごとに決める

非対称

False positive rate ≠

False negative rate

1 2

, f 0.5

   

(8)

確率モデル1

~ ( ) ( , , )

2

exp )

, ,

~ |

( z

j

z

j j j j

z

j j

z

j j 1

z

j j j zj

p           

は正規化定数 )

( ),

, ,

(

2

1

z

j

j

j

 

j

 )

~ | ( )

~ |

(

pj 1

p z

j

z

j

p z z  

~

2

( )

1 2

exp z

j j

j zj

   

) (s y

z

1

z

2

z

p

~ z

1

~ z

2

z

p

~

y ˆ

(9)

通信路の同定

n

i

i

p

i

Z L

1

)

;

~ | ( log )

~ ;

( β, γ, δ z z β, γ, δ

)

~ ; ( max

arg ˆ )

ˆ ˆ

( β , γ , δ

β,γ,δ

L Z β, γ, δ

称性 のコードに対する非対

 0 zj 1

I( 1, 1)

ˆ : false negative rate

I( 1)

i i

j j

i

j i

i j

z z

  z  

 

2

I( 1, 1)

ˆ : false positive rate

i i

j j

i

j i

z z

   

 

 

i i

i j i

j

j z

z f z

) 0 I(

)

~ 1 , 0 ˆ I(

j j

j j

j

2 1

2 1

ˆ ˆ

ˆ ) 1 ˆ )(

1 log ( 4

ˆ 1

 

j j

j

f

f 1 ˆ log ˆ 2

ˆ 1

  ) 

1 ˆ ˆ (

) ˆ 1 ˆ

log ( 4

ˆ 1

2 1

2 1

j j

j j

j

 

 

 

が小さい程大きい

j

j 2

1 , ˆ ˆ 

な程大きい

がアンバランス

j

j 2

1

, ˆ ˆ 

(10)

ラベルの復号

ˆ ) ˆ ˆ

~ ; (

) ( ˆ )

ˆ ˆ

;

~ | ) (

| ~

( z β , γ , δ

z δ

, γ , β z z z

z p

p pp



 

  

 

otherwise 0

if ) (

1 I )

(

1 の 列

判別問題では

y j W j p n

n i

i

z

z

復号)

で復号(

MAP

~ )

| ( max

ˆ arg z z

z

z

p

パターンのみ は

探索すべき

z G

のパターンは本来

2

p

z

(11)

Hamming decoding との関連

) , ,

1 (

0 ,

0 :

)

( y j p

p

一様分布、

j

 

j

  

 

 

 

 

p j

j j j

z z p

1

exp ~

~ )

|

( z z

p

j

j j j

z p z

1

2

1 ~ max

arg

~ )

| ( max

arg

z

z z

z

Hamming distance

重みつき

 ハミング復号の仮定

2

値判別器が同じ性質を持つ

 2

種の過誤の割合が等しい

各クラスが同じサンプル数を持つ

(12)

確率モデル2

z

z z

z

~

exp( ~ )

/

~ ) exp(

)

~ |

( y

T y T y

p

ベクトル

1

: 

y

p

各判別器は独立

の列しか値をとれない は

W

z z , ,

p

) (

1

z

z

p

~

~ z

1

y

2

~ z

y ˆ y

z

1

z

2

z

p

~ z

1

~ z

2

z

p

~

y ˆ

(13)

数値実験:人工データ

• 50

回の繰り返し

– 200

点の訓練データ、

2000

点のテストデータ

評価モデル

モデル

1

およびモデル

2 –

2

値判別器は

SVM

カーネルは

RBF

カーネルと多項式カーネル

比較モデル

– Multi-class SVM (C-SVM, Spoc-SVM)

カーネルは

RBF

カーネルと多項式カーネル

2

値判別器を

SVM

とした

ECOC

Hamming

decoding

(14)

数値実験:人工データの例

(15)

数値実験:訓練誤差

(16)

数値実験:テスト誤差

(17)

UCI データセット:テスト誤

Spoc-svm:RBF 差

Spoc-svm: Poly

C-svm: RBF C-svm: Poly

Proposed: RBF Proposed: Poly Ann-thyroid 0.05076

0.04142

0.05309 0.03384

0.03501 0.03355

Satimage 0.11750

0.16400

0.12050 0.14050

0.12150 0.14550 Segmentation 0.16400

0.07381

0.17048 0.05810

0.15143 0.07619 Iris 0.04293±0.00896

0.03600±0.00858

0.03967±0.00784 0.03667±0.00790

0.04027±0.00715 0.03380±0.00859 Wine 0.01834±0.00817

0.03286±0.00793

0.01331±0.00488 0.03794±0.00914

0.01291±0.00419

0.03360±0.00996

Glass 0.14862±0.01241 0.16400±0.01278 0.13424±0.01178

(18)

マルチカテゴリ問題

• マルチカテゴリ問題とは

入力に複数のラベル(タグ)が付与されている問題

例) WEB におけるテキスト分類、 Gmail

仕事 遊び 友人

メルマガ

メール1

1

1

 1

 1

メール2

 1 1 1

 1

• 既存手法:

各カテゴリを判別問題として解く

多項分布の拡張(

PMM)

– SVM

を応用

カテゴ リ

(19)

2 値判別器のナイーブな適用

カテゴリ 1

カテゴリ 1 以外

判別器

f1

判別器

f2

カテゴリ

2 カテゴリ 2 以外

判別器

f3

カテゴリ 3 以外

カテゴリ 3

 入力 x カテゴリラベル y

    1   2   3

( 1, -1, -1) ( 1, 1, -1) ( 1, -1, 1) (-1, 1, 1) x

1

x

2

x

3

x

4

予測 :

(20)

判別器の誤り⇔ビット反転ノ イズ

p ( f ( x ), g ( x ) | y )

を同定

ECOC によるマルチカテゴリ分 類

 入力 カテゴリラベ ルy    1   2   3

( 1, -1, -1) ( 1, 1, -1) ( 1, -1, 1) (-1, 1, 1) x

1

x

2

x

3

x

4

パリティビット 列z

1   2   3 4 5

( -1, 1, -1, 0, 0) ( 0, 1, -1, 0, 1) ( 1, -1, 1, 1, 0) ( 1, 0, 1,-1,-1)

+

) ,

, ( )

( xf

1

f

2

f

3

f g ( x )  ( g

1

, g

2

, g

3

, g

4

, g

5

)

パリティ z=z(y) はカ

テゴリラベル列yから 一意に決まる

(21)

マルチカテゴリの推定

• カテゴリラベル列 y の推定( MAP 復号)

• 問題点:可能な y のバリエーションは 2

カテ

ゴリ数

事前分布による拘束

(例)各入力は一度に多くのカテゴリに含まれない

近似的周辺化アルゴリズムの援用

• Belief propagation

など

) ( )

| ) ( ), ( ( ))

( ), (

|

( y p y p y

p f x g xf x g x ))

( ), (

| ( max

arg

y

p y f x g x

(22)

実験用データ

(23)

結果:カテゴリの誤推定率

(24)

ここまでのまとめ

• ECOC の枠組みに基づき、多数の 2 値判別

器の組み合わせによる多値判別法を構成

判別誤りの非対称性を考慮

特殊な場合として

Hamming decoding

を含む

– Multi-class SVM

よりも優れた性能

• マルチカテゴリ問題への応用

カテゴリラベルにパリティを付加し冗長にす ることで性能向上

• Encoding 問題への拡張

(25)

UCI データセットの概要

Dataset #Total #Training #Test #Attributes #Classes

Ann-thyroid 7200 3772 3428 21 3

Satimage 6435 4435 2000 36 6

Segmentation 2310 210 2100 19 7

Iris 150 4 3

Wine 178 3 3

Glass 214 9 6

CV fold

- 5

 100

5-fold cross-validation を 100 回行い、平均挙動を見る

(26)

UCI データセット:訓練誤差

Spoc-svm: RBF Spoc-svm:Poly

C-svm: RBF C-svm:Poly

Proposed: RBF Proposed:Poly Ann-thyroid 0.04348

0.02572

0.04745 0.02333

0.02519 0.02386

Satimage 0.09515

0.12469

0.10688 0.10485

0.10462 0.11995 Segmentation 0.11429

0.02857

0.17143 0.00952

0.12381 0.03333 Iris 0.02248±0.00241

0.02422±0.00239

0.02478±0.00266 0.02408±0.00283

0.02290±0.00253 0.02343±0.00248 Wine 0.00063±0.00078

0.00000±0.00000

0.00476±0.00123 0.00000±0.00000

0.00445±0.00106 0.00000±0.00000 Glass 0.06481±0.00620

0.00931±0.00204

0.08886±0.00781 0.00581±0.00119

0.04509±0.00310

0.00676±0.00143

(27)

多重検定の問題

• (典型例)遺伝子発現に基づく有意遺 伝子の抽出およびそれを用いた判別

 良いスコア(検定統計量)の選 び方  良いしきい値の決め方

 検定誤差の見積もり方

各個検定が最適であること

多重検定が全体として最適であること

vs.

(28)

遺伝子 i 発現レベル 

x

i

i1

i2

i

i1

= 

i2

対立仮説

H

1

:

gene i is active

対立モデル尤度

:

M

j

i iDj ij

i i

i

i

N x

X g

1

2 2

1

, , ) ( ; , )

|

(     

i1

= 

i2

帰無仮説

H

0

:

gene i is inactive

M

j

i ij

i

i

N x

X f

1

2

) ,

0

; ( )

|

(  

帰無モデル尤度

:

class 1

(tumor samples)

class 2

(non-tumor samples)

有意遺伝子選択の問題

(29)

Neyman-Peason’s lemma

単純仮説

(

パラメータを持たない

)

が前提

非単純仮説では最尤推定値をプラグイン した尤度比が漸近的に最強

「尤度比は最強の検定スコアであ

一定の有意水準

る」 P( FP ) = 

のもとで、

検出力

( 1P( FN ) = 1 )

が最大

対立モデルの尤度

ˆ )

| ) (

| ˆ (

i

i

f X

X

g  

) ) (

( X f X

g

帰無モデルの尤度

(30)

遺伝子の有意性スコア

• t-score (

正規モデルの尤度比スコア

) – i.e. S/N ratio

• SAM score (Tusher, Tibshirani & Chu, 2001)

• Empirical Bayes score (Efron, 2002)

仮説の事後確率をスコアとする

事前分布

P(

i

)

に関して多重性を利用した経験ベイ ズ推定値に基く

i i i

S m

m |

|

1

2

m

ij

:

各クラス内標本平均

S

i

:

クラス内標準偏差 ( 両クラス共通 )

i1i2

i

0 2

1

|

|

S S

m m

i

i i

S

0

:

全遺伝子で共通の定数

さまざまな細かい改良

(31)

多重検定における最良さ

• 多重性を利用した場合に、単純な個別検定 の繰り返しよりも良い検定ができないか?

• 「最良」の多重検定スコアの定義

– FPR: false positive rate (FDR)

(第一種の過誤)

– FNR: false negative rate

(第二種の過誤)

(Storey, 2005)

EFP = E[FPR]

が同程度である統計的検定の中で

ETP = E[1-FNR]

を最大にする統計的検定を

optimal discovery procedure (ODP)

と呼ぶ

(32)

ODP lemma (Storey, 2005)

「以下の統計量に基く検定は

ODP

である」

前提:

N

個の単純帰無仮説

f

1

(X), f

2

(X), ..., f

N

(X)

N

個の単純対立仮説

g

1

(X), g

2

(X), ..., g

N

(X)

に基く多重検定

 

) (

...

) (

) (

) (

...

) (

) ) (

(

2 1

2 1

X f

X f

X f

X g

X g

X X g

S

N M

M ODP M

 

0 1

) (

) (

G i

i G i

i

X f

X g

ただし、 G1 = { 1, 2, ..., M } は対立仮説が真である遺伝子の集合、

G0 = { M+1, M+2, ..., N } は帰無仮説が真である遺伝子の集合

) ( X

S

ODP を全遺伝子 

i=1,…,N

に対して共通の統計量

  として用い、共通のしきい値を設定

(33)

漸近 ODP

• 各 X を構成するサンプル数無限大の極限で一致

0 1

) (

) (

) (

G i

i G i

i

ODP

f X

X g

X

S

ˆ0

ˆ )

| (

ˆ )

| (

) ˆ (

G i

i i

i

i i

ODP

f X

X g

X

S

非単純仮説では

帰無・対立仮説の確率密度関数 は最尤推定パラメータに基いて 決定

実際の多重検定状況では 真の集合

G

0

, G

1 は未知

そこで適当なしきい値にもとづく 尤度比検定による決定で近似

(34)

潜在変数モデルを対立仮説とし た遺伝子選択

center of class k for gene i

intra-class variance of gene i

(common among classes k=1,2) class label

prior of class k expression level

of gene i at sample j

j

j i

i

p x

X

g ( |  ) (

( )

)

• 各サンプル j の所属クラス k が必ずしも観 測されない場合

• 教師無し遺伝子選択・準教師付き遺伝子選択

(35)

教師あり、教師なし、準教師ありス コア

• 教師付き: P(k)  P( k | y(j) )= I( k = y(j) )

– 帰無仮説モデル H

0

: 

i1

= 

i2

– 対立仮説モデル H

1

: 

i1

= 

i2

このとき、尤度比スコアは

t-

検定で使われる

S/N

比 と全く同等

(36)

隠れ変数モデルに対する ODP

•ODPp パラメータを共有する

•ODP パラメータと隠れ変数を共有する

ˆ )

| (

)

ˆ i ( X g X i

g  

ˆ ) ,

| (

)

ˆ i ( X g X Z i i

g

ˆ0

) ˆ (

) ˆ (

) ˆ (

G i

i i

i

ODP

f X

X g X

S

)

| ,...,

( max

ˆ arg

(1) ( )

M i i

ip x x



k M j

j i j

i j

i k p k

x p

1

) ( )

( )

( | , ) ( | )

( max

arg  

ˆ ) ,

| (

, }

{

) ( )

def (

2 : 1 , : 1

i j

i j

i ijk

k M j

ijk i

x k

p Z

Z Z



 

 

 

M

j k

i ik

j i ijk

N x Z

1

)

(

| ˆ , ˆ )

(  

 

 

 

M

j k

i ik j

x

i

N k P

1

)

(

| ˆ , ˆ ) (

)

(  

(37)

評価用人工データ

非癌 active genes

inactive genes

/ 非癌以外の

8 種の特徴量のいずれかに関して

/ 非癌ラベルに対し 活性である遺伝子

(38)

教師あり、教師なしスコア

active inactive

active inactive

Supervised score

が検出したい遺伝子分類

Unsupervised score

が検出したい遺伝子分類

非癌

(39)

教師なしスコアの比較

Likelihood Ratio

ODPp

θ  のののの

ODP

θ

Z

を共有

(40)

準教師ありスコアの比較

tumor non-tumor

unknown samples Observation

active genes inactive genes

(41)

準教師ありスコア:実データ

N

症例のクラスラベルのうち 一部~全部を隠した場合の

スコアランキングの変化 前立腺がんデータ(公開)

- 52

癌組織

× 50

正常組織

-

1

万遺伝子

オリジナルランキングと

一部ラベルに基くランキングと

(42)

準教師ありスコア:実データ

大腸がんデータ

- 40

癌組織

× 22

正常組織

-

2000

遺伝子

ラベルの順位相関 オリジナルの

上位 1% 遺伝子 検出に関する AUC

(43)

多重検定スコアのまとめ

• ODP は、多重検定スコアの最適性を

Neyman-Pearson の拡張によって定義する

• 隠れ変数モデルを対立仮説とするとき、

ODP には 2 種類の自然な実装法がある

• 隠れ変数を含む多重検定は、隠れ変数情 報の共有によって性能が大きく向上する

• 理論的側面の整備は不十分

参照

関連したドキュメント

3 当社は、当社に登録された会員 ID 及びパスワードとの同一性を確認した場合、会員に

旧法··· 改正法第3条による改正前の法人税法 旧措法 ··· 改正法第15条による改正前の租税特別措置法 旧措令 ···

古物営業法第5条第1項第6号に規定する文字・番号・記号 その他の符号(ホームページのURL)

タービンブレード側ファツリー部 は、運転時の熱応力及び過給機の 回転による遠心力により経年的な

張力を適正にする アライメントを再調整する 正規のプーリに取り替える 正規のプーリに取り替える

福島第一原子力発電所 .放射性液体廃棄物の放出量 (単位:Bq)

福島第一原子力発電所 射性液体廃棄物の放出量(第4四半期) (単位:Bq)

福島第一原子力発電所 性液体廃棄物の放出量(第1四半期) (単位:Bq)