E:/第4回情報分析_2008年第３回判別分析・SVM配布用8_q.dvi

(1)

情報分析

2016

年

6

月

7

日辻慶太

0.

はじめに今日は判別分析と決定木とサポートベクターマシン（

SVM

）についてお話します。これは事前にいくつかのグループが与えられた時，各個体がどのグループに属するかを自動判定してくれる手法です。前回のクラスタリングと異なる点は，クラスタリングは事前に明確なグループを設定する必要はなかったのに対し，判別分析，決定木，

SVM

は設定する必要がある点です。例えば

NDC

の

0

類から

9

類のいずれかに自動分類するというのは判別分析や

SVM

の仕事です。クラスタリングの仕事ではありません。使用例：・患者の病気診断（病気か否かの情報と，血圧，コレステロール，

GTP...

の情報）：医者は，ある患者がガン患者なのかそうでないのかを，得られた検査結果から判定を迫られることがあります。・投資先は優良企業か否か（優良かそうでないかと，財務諸表データなど）：株式の投資家は，いくつかのデータを基に，ある企業を優良企業かそうでない企業かに分類する必要があります。・文字，音声，画像のパターン認識（「あ」か「お」かなど）：任天堂

DS

や一部のスマートフォンで使われている技術です。企業は，過去の筆記試験や面接の成績から，将来役に立ってくれそうな志願者を選ばねばなりません。また，われわれ自身も，いくつかのデータをよりどころに，周囲の人が自分に対して好意を抱いているかどうかを，絶えず判別しながら生きているともいえます。世の中にはこのように，白黒付けがたいもののどうしてもその判断をしなければならないことがたくさんあります。こんなときに役立つのが判別分析や

SVM

と呼ばれる手法です。

1. SVM

を用いた研究例（論文タイトルには現れなくても非常に多くあります）・清瀬太一朗ら

(2015)

「

SVM

による商品レビューの評価値の根拠となる語の抽出」情報科学技術フォーラム講演論文集

.

・久保永ら

(2015)

「大腿骨近位部骨折手術の診療記録に対する

SVM

を用いたテキストマイニングによる術後入院期間の分析」電子情報通信学会技術研究報告

.

・嶋田敬士ら

(2014)

「

SVM

による笑顔度推定技術を用いた音楽療法効果の評価」情報処理学会論文誌

.

・野口拓央ら

(2014)

「コンピュータ将棋における

SVM

を用いた

Move Ordering

の効率化」研究報告ゲーム情報学

.

・増田真也ら

(2013)

「

SVM

手法を用いた

Twitter

トレンドのトピック追跡」情報科学技術フォーラム講演論文集

.

・松本一則ら

(2013)

「

Web

コンテンツのジャンル推定に向いた実用的な２段階

SVM

の構築」研究報告情報基礎とアクセス技術

.

・榎本友理枝ら

(2011)

「

SVM

に基づく多フォント漢字認識手法の評価」情報処理学会研究報告

.

・浅水仁ら

(2010)

「

SVM

を用いた足跡からの男女識別の実現」電子情報通信学会論文誌

.

・伊藤太樹ら

(2008)

「

SVM

に基づくテンプレートを考慮した

Web

ページの分割手法について」電子情報通信学会技術研究報告

.

・村田淳哉ら

(2008)

「

SVM

を利用した小論文の採点支援システム」電子情報通信学会技術研究報告

.

・関野正志ら

(2008)

「正則化

SVM

の中小企業デフォルト判別問題への適用と考察」日本オペレーションズ・リサーチ学会秋季研究発表会アブストラクト集

.

・芦田尚美ら

(2007)

「

SVM

を用いた論文分類システムの構築」情報処理学会研究報告

.

・川口敏広

(2006)

「

SVM

と新聞記事を用いた

Weblog

からの意見文抽出」人工知能学会第

20

回全国大会

.

(2)

■

2

つのグループが：・直線で分けられる → 線形判別関数による判別分析・凸な曲線で分けられる → マハラノビスの距離による判別分析・凸な曲線では分けられない → 決定木，

SVM

→ 上に示した通り，判別分析には線形判別関数を用いるものとマハラノビスの距離を用いるものの

2

種類があります。

SVM

も含めたそれらのイメージとしては次ページを参照して下さい。

(3)

■線形判別関数，マハラノビスの距離による判別分析と

SVM (Support Vector Machine)

図

1:

直線で分割できる場合は線形判別関数による判別分析

(4)

図

3:

凸でない曲線でしか分割できない場合は決定木や

SVM

。といっても

SVM

はこのような場合にしか使えないわけではなく，図

1

図

2

のような場合にも使えて，それぞれ高い精度の分割を実現します。その為，何かを判別したい時は，現在では

SVM

を使うのが一般的です。図

4: SVM

はデータの次元を拡張して（超）平面で分割します。イメージとしては，図

3

は

2

次元だったのがこの図は

3

次元に拡張されており，大きな○は手前に浮いていて，小さな×は遠くに沈んでいると考えて下さい。

SVM

はそのようにしてあいた空間に，下敷きを差し込んで分けるというイメージです。

(5)

1.1

線形判別関数による判別分析

1930

年代にイギリスの優生学者，統計学者フィッシャーが提案しました。 ■サー・ロナルド・エイルマー・フィッシャー（

Wikipedia

より）フィッシャーはイギリスの統計学者，進化生物学者，遺伝学者で優生学者である。現代の推計統計学の確立者であるとともに，集団遺伝学の創始者の

1

人であり，またネオダーウィニズムを代表する遺伝学者・進化生物学者でもあった。フィッシャーは少年時代から数学の才能を発揮するとともに生物学にも興味を持った。

1909

年，ケンブリッジ大学に進み

...

卒業後まもなく第一次世界大戦が始まるが

...

終戦とともに新しい職探しを始め，ピアソンに招かれたものの，彼に反感を抱いてこれを断り，

1919

年，ハートフォードシャー州のロザムステッド農事試験場の統計研究員に就職した。ピアソンや息子のエゴン・ピアソンらとは，のちに統計学に関して大論争を起こすことになる。農事試験場では大量のデータに関する研究を行い，結果は『

Studies in Crop Variation

（穀物量の変動に関する研究）』という一連の報告となった。その後の数年間がフィッシャーの全盛期であり，実験計画法・分散分析・小標本の統計理論といった革新的な業績を生み出す。実際的なデータの研究から始まって新しい統計学理論へと進むのが彼の仕事の特徴であった。この仕事は

1925

年に最初の成書『

Statistical Methods for Research Workers

（研究者のための統計学的方法）』として実を結ぶ。これはその後の長きにわたり様々な分野の研究者のスタンダードとなった。

1935

年には『

The Design of Experiments

（実験計画法）』を出版しこれもスタンダードとなる。フィッシャーは分散分析や最尤法の手法を編み出し，統計学的十分性，フィッシャーの線形判別関数，フィッシャー情報行列などの概念を産んだ。近年ではベイズ統計学が脚光を浴びていて，多くの分野で用いられています。迷惑メールを自動除去するナイーブベイズなどは有名です。が，このベイズ統計学をフィッシャーは嫌い「完全に葬り去らねばならない」と公言したりしました。統計学の権威であるフィッシャーの力は強く，近年になるまでベイズ統計学は不遇でした。ちなみにベイズ自身は一介の牧師で，彼の死後，大数学者のラプラスがベイズの定理を整理し発展させました。線形判別関数による判別分析では，線形判別関数z

=

P p i=1 a i x iを作り， zがある値より大きいならばグループ

1

，ある値より小さいならばグループ

2

，などと判定します。例えばz

= 12

蔵書冊数;

350

218

貸出密度といった線形判別関数zを作り，その図書館の蔵書冊数と貸出密度を代入します。その結果，zが

700

より大きくなったらその図書館は県立図書館だろう，

700

より小さくなったら市立図書館だろう，などと判定します。「そんなのもっと他の方法で調べた方が確実だろう」「電話してどっちか訊けばいいじゃないか」といったツッコミはもっともです。何となく分かりやすいかと思って図書館を例に出してみました。現実には例えば z

= 5

筆記試験の点数

+ 8

面接の点数などとし，zが

930

より大きかったら将来会社の役に立つ志望者として採用，zが

930

より小さかったら将来役に立たない志望者として不採用，などとする方があり得そうです。この式は，筆記が

100

点でも面接が

0

点だったら多分役に立たないだろう，面接が

100

点でも筆記が

0

点だったらやはりだめだろう，またどちらかというと面接の点の方が重要だろう，といった経験則を式で表していると言えます。ちなみに上では説明変量は「筆記試験の点数」と「面接の点数」という

2

つでした。この場合，合否の境界は直線になります。説明変量が

3

つの場合は合否の境界は平面になります。ではzのイメージをつかむために，説明変量の数を

2

とし，平面上のデータを考えてみます。またx 1， x 2というのは分かりにくいので， xとyにします。またa 1， a 2というのは分かりにくいので， aとbにします。そして： z

=

ax

+

by とします（ここでは切片の）。サンプルが

1,2,..,i,..,N

個あるとすると： z 1

=

ax 1

+

by 1 z 2

=

ax 2

+

by 2 ：：：

(6)

z i

=

ax i

+

by i ：：： z N

=

ax N

+

by N z

=

cとは「データを投影すると，

2

つのグループが一番よく分離されて見える直線（図の

Z

）に垂直で，かつ

2

つのグループの真ん中（後述）を通る直線」（

=L

）です。zがcより大きかったらグループ

A

， cより小さかったらグループ

B

，などと判定します。では具体的にどのように計算すれば求められるでしょうか？ → 一般にS T

=

S B

+

S Wが成り立ちます。これを利用します。まず練習だと思ってこの偏差平方和に関する等式S T

=

S B

+

S W を証明して下さい。ただし総平方和 S T

= (

z 1 ;z

)

2

+ (

z 2 ;z

)

2

+

:::

+ (

z n ;z

)

2 群間平方和S B

=

n P

(

z P ;z

)

2

+

n Q

(

z Q ;z

)

2 群内平方和S W

= (

z 1 ;z

P

)

2

+

:::

+ (

z n p ;z

P

)

2

+ (

z n p +1 ;z

Q

)

2

+

:::

+ (

z n ;z

Q

)

2 です。ここでz

の上の線は平均を表します。即ち，z

はzの平均です。n P， n Qはそれぞれ P群，Q群のサンプルの数を表します。 S T

=

S B

+

S W の両辺を S Tで割ると

1 =

S B =S T

+

S W =S Tとなります。即ち，右辺第

1

項と第

2

項の和は一定となります。第

1

項が大きければ大きいほど

P

と

Q

の群は遠くに離れることになります。そして第

2

項は小さければ小さいほど

P

と

Q

それぞれにおいてサンプルが肩を寄せ合って小さくまとまることになります。両者の和は

1

で一定なのですから，従って第

1

項が最大になるように

z

を決めれば良いことになります。ここでF

=

S B =S Tとおくと，これを最大にするような a

,

bを求めるのです。これはFを a

,

bで偏微分してそれぞれが

0

になるようにすれば求まります（ただし最小になる方を求めてしまわないようもう

1

回偏微分してマイナスになることを確認する必要はあります）。即ち： @F @a

= 0

， @F @b

= 0

この場合，変数が

2

つで式が

2

つだから連立方程式としてa

,

bを求めることができます。そうしてa

,

bを求めたら最後にどの値（先ほどのc）を境界にしてグループPQを分けるかですが，これはz

Pと

z Qの中点を使ったり，誤って判別されるサンプルが最も少なくなる点を使ったりします。では練習として実際に

2

つのグループを分ける為の直線を求めてみましょう。グループ

P

として点

1(2,0)

，点

2(4,2)

，グループ

Q

として点

3(0,2)

，点

4(2,4)

があったとします。そしてz

=

ax

+

byとします。この時： n P

=

n Q

=

z 1

=

z 2

=

z 3

=

z 4

=

(7)

z

=

z P

=

z Q

=

S B

=

S T

=

よってF

=

S B =S T

=

@F @a

=

@F @b

=

これがゼロになるのはa

=

bの時とa

=

;bの時です。が，先述のように

2

回偏微分を行った @ 2 F @a 2 は a

=

;bの時マイナスになるのに対し，a

=

bの時はプラスになってしまいます。即ち，a

=

bの時はFは最大ではなく最小になってしまいます。従ってa

=

;bが求める答えであることが分かります。さて先ほどの式ですが： S B

=

n P

(

z P ;z

)

2

+

n Q

(

z Q ;z

)

2 の右辺の第

1

項はグループ

P

の

Z

上の射影が全データの射影の中心からどれだけ離れているかを表します。そして第

2

項はグループ

Q

の

Z

上の射影が全データの射影の中心からどれだけ離れているかを表します。従って，S Bは直線

Z

上でグループ

P, Q

が互いにどれだけ離れているかを表します。 ■線形判別関数による判別分析では

2

つの群の射影が最も遠く分離される直線を考えることになります。図

5: P

群

Q

群とそれらの射影z i

(8)

1.2

誤判別率

誤判別率は判別がどれだけ正しかったかを測る尺度です。

1

から「判別的中率」を引いたものです。誤判別率

= 1

; 正しく判断されたデータ数全データ数 ↑ 判別的中率，正答率といいます。 ■ある会社の社員に関して，入社時の試験成績と

5

年後優秀な社員になったかどうかというデータが表

1

のようにあります。今年は表

2

のような成績の

4

名が入社を希望しました。誰を採用すれば優秀な社員を確保できるでしょうか？

ID

筆記実技面接

5

年後

A

50

70

80

優秀

B

20

80

70

優秀

C

50

40

ダメ

D

70

60

65

優秀

E

90

95

優秀

F

50

90

85

優秀

G

80

60

50

ダメ

H

70

80

ダメ

I

30

50

45

ダメ

J

60

80

75

優秀表

1:

入社時の成績と

5

年後

ID

筆記実技面接

1

45

50

40

2

70

60

75

3

92

85

95

4

72

60

50

表

2:

入社希望者

4

人 ■

R

による判別分析（線形判別関数による）

1)

学習用ファイルである「これまでの傾向」（

Koremade no keiko.txt

）とテスト用ファイルである「入社希望者」（

Nyusha kibosha.txt

）をダウンロードします（それぞれ右クリックから「対象をファイルに保存」を選択して落とした方が無難です）。ダウンロードしたら

Word

などで開いて中身を確認してみましょう。

2) R

を起動します。

3)

まず「パッケージ」 → 「パッケージの読み込み」 → 「

MASS

」と選びます（「

MASS

」が出ない場合は，まず「パッケージのインストール」 → 「

Japan (Tokyo)

」 → 「

MASS

」と選んでから上記操作を行います）。これで判別分析を行う関数

lda

が使えるようになります。

(9)

5)

「ファイル」→「ディレクトリの変更」とクリックし，先ほどの

2

ファイルを置いたディレクトリに移動します。

6)

>現況 <

- read.table("Koremade no keiko.txt", header=TRUE)

と入力します。

\

現況

"

の部分は

自分の好きな変数名で良いです。

7)

>希望者<

- read.table("Nyusha kibosha.txt", header=TRUE)

\

希望者

"

の部分は

自分の好きな変数名で良いです。

8)

>傾向<

- lda(

５年後~筆記

+

実技

+

面接

, data=

現況

)

9)

>

predict(

傾向

,

希望者

)$class

と入力して予想させます。結果，「

1]

ダメダメ優秀ダメ」と出力されます。これは

1, 2, 4

番目の人は５年後「ダメ」，

3

番目の人は５年後「優秀」な社員になると予想されたことを意味します。

10)

> 傾向と入力すると，線形判別関数の係数（

=LD1

）などが分かります。即ち，判別関数は

\-0.01992687*

筆記

+0.04663433*

実技

+0.04605209*

面接

"

であることが分かります。

11)

学習用データに対する誤判別率が出したい場合は以下のようにします： >

x

<

- subset(

現況

, select=c(1:3))

>

predict(

傾向

, x)$class

上の

1

行目は「現況」変数の

1

列目から

3

列目までのデータを取りだして「

x

」という変数に代入することを意味します。この

x

を先ほどの「希望者」と同じ扱いにして

predict

関数にかけます。結果「

1]

優秀優秀ダメダメ優秀優秀ダメ優秀ダメ優秀」などと出力されますが，これを元のデータと比較すると

2

箇所で判別を誤っていることがわかます。従って誤判別率は

2/10=0.2

です。 1.3

マハラノビスの距離による判別分析

1936

年にインドの統計学者プラサンタ・チャンドラ・マハラノビスが提案しました。マハラノビスは先ほどのフィッシャーとも親交がありました。 ■プラサンタ・チャンドラ・マハラノビス（

Wikipedia

より）カルカッタ（現コルカタ）出身。管区大学で物理学を学び

1912

年卒業，ケンブリッジ大学キングス・カレッジに留学した後，カルカッタに帰った。当時カール・ピアソンらによって発展しつつあった数理統計学から強い影響を受け，帰国後は主として統計学の研究を行った。統計学者として最も重要な仕事は，大規模標本調査に関するものである。また多変量解析の研究からマハラノビス距離の概念に至った。農業試験の研究をきっかけに，ロナルド・フィッシャーとも親交を結んだ。統計学の社会的応用にも積極的で，経済や水防の仕事に携わった。

1931

年には自らインド統計大学を設立した。インドの独立後は

5

か年計画に参画し，レオンチェフの投入産出分析モデルの変法によってインドの工業化に貢献した。文化にも関心を持ち，国民詩人タゴール（少年時代から親交があった）の外遊を助け，また彼の創立したヴィシュヴァバーラティ大学にも務めた。彼は

79

歳の誕生日の前日に死去したが，死の直前まで研究を続け，また政府の名誉顧問を務めた。インド政府は彼を記念して，誕生日

6

月

29

日を統計の日としている。

2

つのグループそれぞれの分散と共分散が等しい場合，線形判別関数とマハラノビスの距離による判別分析は同じ結果を与えます。が，等しくない場合は，一般にマハラノビスの距離の方が良い結果を与えます。 → 分散，共分散の大きさのイメージについては次頁を参照して下さい。 ※ところで確認ですが「分散」「共分散」とは何か，どう計算するのか，覚えていらっしゃいますか？

1,

3, 3, 5, 8

という

5

つのデータの分散はいくらですか？

2

つの変量

x

，

y

から成るデータ対

(1,1)

，

(3,2)

，

(5,3)

，

(3,1)

，

(3,3)

では，

x

と

y

の共分散はいくらですか？また

x

の分散は？

y

の分散は？手計算は何なので，

Excel

に計算式を入力して算出してみましょう。図

2

で丸い方のグループの右上の点を考えてみます。その点は曲線

A

の外側とします。○×それぞれのグループの中心までの距離を考えると，この点は×グループの方が近いです。が，×グループは中心に密集していて，あまり外には広がっていません。それに対して○グループは×を取り囲むように広がっています。そう考えるとこの点は○グループの方に属することが予想されます。

(10)

図

6:

分散・共分散がそれぞれ等しい群のイメージ（分散が等しいというのはp=p'かつq=q'というイメージ）図

7:

共分散は等しいが分散は異なる群のイメージ（p≠p'あるいはq≠q'）図

8:

分散は等しいが共分散は異なる群のイメージ（p=p'かつq=q'だが，一方の方がぎゅっと集まっていて相関が強いというイメージ）このような各グループの散らばり具合（＝分散あるいは標準偏差）を考慮に入れた距離がマハラノビスの距離です。具体的にはグループPの中心からの距離を，グループPの散らばり具合で割ります。

1

変量の場合はjx;x

P j=s xP（グループ Pの標準偏差）と表されます。

2

変量の場合，グループPからある点

(

x i y i

)

までのマハラノビスの距離 D 2 P は： D 2 P

= (

x i ;x

P y i ;y

P

)

s 2 x P s xPyP s xPyP s 2 y P ! ;1 x i ;x

P y i ;y

P !

(11)

と表されます。ここでs 2 xP， s 2 yP はそれぞれグループ Pに関する変量x，yの分散で，s x P y P は共分散です。このような距離を他のグループ，例えばグループ Q，グループR，グループS

...

に対しても同様に算出します。即ち，点

(

x i y i

)

とグループ Qとの距離D 2 Q ，点

(

x i y i

)

とグループ Rとの距離D 2 R

...

を算出し，最も距離が近いグループに点

(

x i y i

)

を分類します。即ち，例えばグループ Qとの距離が最も近かったら，点

(

x i y i

)

はグループ Qに属すると判定します。さて分散（s 2 x P など）だけでなく，共分散（s xPyP など）も使う理由について述べます。各グループが球状になっていたら共分散を使う必要はないのですが，球状ではなく楕円状になっていた場合，楕円との位置関係によって，判定対象点と各グループとの距離を変える必要が出てきます。例えば楕円の中心からの距離は同じでも，楕円の長軸方向に位置している点と短軸方向に位置している点だったら，後者の方が前者よりもそのグループまでの距離が遠いと考えられます（ものすごく長細い楕円をイメージし，その突端に位置している点と，

90

度回転した位置にいる点を考えて下さい。前者はそのグループに属していそうですが，後者は微妙だと思います）。共分散を計算に用いると，そのような楕円との距離をうまく扱うことが出来るのです。そのため先ほどの行列には共分散が含まれています。

3

変量以上の場合も同様にして分散共分散行列（先ほどの行列のことです。対角成分に分散が入り，他の成分に共分散が入った行列のことです）を拡張することで表されます。以下に

N

変量の場合の分散共分散行列を示します： 0 B B B B @ s 2 1 s 12 ::: s 1N s 12 s 2 2 ::: s 2N ::: s 1N s 2N ::: s 2 N 1 C C C C A

(12)

顧客番号性別年齢職業商品

A

合計購買金額

001

女性

20

会社員 ○

30,000

002

男性

20

その他 ×

24,000

003

男性

40

教員 ○

78,000

004

女性

30

会社員 ○

12,000

表

3:

顧客プロファイル 1.4

決定木

決定木は

SVM

や判別分析と同様，事前にいくつかのグループ（カテゴリー）と，所属グループ不明の個体が与えられた時，各個体がどのグループに属するかを自動判定してくれる手法です。

SVM

や判別分析と異なる点は，決定木はいくつかの判定ルールと共に結果を表示してくれるので，なぜその個体がそのグループに分類されたのか結果を追いやすい点です。例えば「その個体は男性ですか？女性ですか？」「年齢は

42

歳以上ですか？」といったルールが有効だと自動的に判断し（例えば「年齢は

41

歳以上ですか？」より「年齢は

42

歳以上ですか？」の方がルールとして優れているとデータを見て自動判断してくれます），表示してくれ，かつ判定したい個体をグループ分けしてくれるのです。結果を人間が見て理解しやすい点が

SVM

との大きな違いです。 ■決定木の例例えば表

3

のような顧客プロファイルと，その顧客の戦略商品

A

の購買の有無（○が購入顧客，×が非購入顧客）を示すデータベースがあったとします。このデータベースから作成された「商品

A

の購買の有無」に関する決定木の例が図

9

です。図の決定木では，木の各中間ノードにデータを分類するための分割テスト（

splitting test

）が示されています。また，各中間ノードは分割テストを適用した結果のとり得る（二つの）値に対応する（二つの）下向きの枝をもちます。一方，各終端ノードは，ここで注目している「商品

A

の購買の有無」を示すラベルをもちます。この例のデータベース中の各顧客は，この決定木を使って，いずれかの終端ノードに分類されます。決定木の（中間ノードの一つである）頂点ノードはデータベースの全データ集合に対応します。データベース中のある顧客は，この頂点ノードの

1

レコードです。このレコードは，頂点ノードの分割テストである「年齢が

30

以下」であるかどうかで，二つのうちのいずれかの下位ノードに分類されます。たとえば，年齢が

15

である顧客は，テストの適用結果である

Yes

に対応する左の下位ノードに分類されます。下位ノードにおいても，同様に，ノードの分割テストを適用した結果に従って，いずれかの下位ノードへ分類されます。こうした分類を繰り返すことで，各顧客は最終的にいずれかの終端ノードに分類されます。たとえばこの決定木の一番左の終端ノードに至る経路は，「年齢が

30

以下でかつ性別が女性という条件を満たす顧客は商品

A

を購買した」という法則を表しています。従って今後たとえば「年齢が

30

以下」で，かつ「性別が女性」の顧客が店に入ってきたら，この顧客は商品

A

を買う可能性が高いと予測して店員は接客するといった対応が可能になります。各終端ノードは，そのノードに分類される顧客の「商品

A

の購買の有無」から，ラベルづけされます。一般的には，「○」の頻度が「×」の頻度より多い終端ノードのラベルは「○」，その道の場合は「×」とすることが多いです。その場合，「○」とラベルづけされた終端ノードは「商品

A

を購買した」顧客グループ，「×」とラベルづけされた終端ノードは「商品

A

を購買しなかった」顧客グループに対応しています。決定木は

2

種類に分けることが出来ます。「商品

A

の購買の有無」のように，注目する属性値がカテゴリ型である場合は「分類木」と呼ばれることがあります。一方，注目する属性が「合計購買金額」のような数値型である場合は「回帰木」と呼ばれることがあります。図

10

に「合計購買金額」に関する回帰木の

(13)

図

9:

「商品

A

の購買の有無」に関する決定木（分類木）の例例を示します。回帰木の各終端ノードのラベルは，そのノードに分類される顧客グループの，注目している数値属性値（この場合「合計購買金額」）の平均値とする場合が多いです。「合計購買金額」が未知の顧客が，回帰木でいずれかの顧客グループに分類された場合，その顧客の「合計購買金額」の予測値を，その顧客グループの平均値とする場合，終端ノードのラベルを平均値としておくと便利なためです。・「商品

A

の購買の有無」のように，注目する属性がカテゴリ型の木 → 分類木・「合計購買金額」のように，注目する属性が数値型の木 → 回帰木 ※

2

つ合わせて決定木。 ■決定木の特徴・

SVM

などと異なり，人間が見て理解しやすいルールになっています。・データが欠損値を含んでいる場合でも扱いやすい。・非線形のデータに対して良い結果を与えることが多いです。一方，線形なデータの場合はあまりよい結果を与えないことが知られています。即ち，それなら判別分析や回帰分析の方がまだ良いです。・ニューラルネットなどに比べ，高速に計算できます。 ■用語・木：

9

のような分岐構造（→ 木というと根が下のはずだが，なぜか逆さまにして描く）・頂点（ルート）ノード：木の一番上の部分・終端（リーフ）ノード：〃下

(14)

図

10:

「合計購買金額」に関する決定木（回帰木）の例

・決定木は，頂点ノードから終端ノードに至るまでの

IF-THEN

ルールの組み合わせと考えることができます。このとき終端ノードのラベルは，この

IF-THEN

ルールの結論部に相当します。・目的属性（

target attribute

）：「商品

A

の購買の有無」，「合計購買金額」のように，

IF-THEN

ルー

ルの結論部に現れる属性

・条件属性（

conditional attribute

）：

IF-THEN

ルールの条件部に現れる属性 ■決定木の求め方以下では相互情報量を用いた決定木構築方法について説明します。例えば「商品

A

」の値が○か×かを導く為の情報として表

4

，表

5

のようなデータがあったとします。「性別」が「女性」：Y

1 Yes

No

「商品

A

」の値： ○

0.54

0.10

0.64

X ×

0.06

0.30

0.36

0.60

0.40

表

4:

ルール

1

の情報表

4

から例えば，性別が女性で商品

A

を買った（○）人は全体の

54

％であること，性別が女性で商品

A

を買わなかった（× ）人は全体の

6

％であること，であることが分かります。同様に表

5

から例えば年齢が

20

以下で商品

A

を買った（○）人は全体の

30

％であることなどが分かります。これらの表からは例えば以下のルールが導けます：ルール

1: Y1

（「性別」が「女性」）⇒（「商品

A

」が「○」）

(15)

「年齢」が「

20

以下」：Y

2 Yes

No

「商品

A

」の値： ○

0.30

0.34

0.64

X ×

0.30

0.06

0.36

0.60

0.40

表

5:

ルール

2

の情報ルール

2: Y2

（「年齢」が「

20

以下」）⇒（「商品

A

」が「×」）この時，ルール

1

とルール

2

だったらどちらの方が優れているか？ルールの優秀さは「あいまいさの少なさ」で評価することができます（あるいは「間違って分類してしまう確率の低さ」と言った方が分かりやすいかもしれません。が，以下では伝統に従って「あいまいさの少なさ」という表現を用いることにします）。ではこの「あいまいさ」はどのように表せるでしょう？普通の硬貨

A

を投げると表が出る確率は

50

％，裏が出る確率は

50

％です。ここで硬貨を真っ二つに切って貼り合わせ，両方とも表になったマンガに出て来るようないかさま硬貨

B

を考えます。この硬貨は表が出る確率は

100

％，裏が出る確率は

0

％です。この時，硬貨

A

を投げたとき表裏どちらが出るかに関する「あいまいさ」（予想して間違えてしまう確率）は，硬貨

B

を投げたとき表裏どちらが出るかに関する「あいまいさ」（予想して間違えてしまう確率）より高いです。従って「あいまいさ」の尺度を作るとしたら上記のような大小関係になる尺度になるべきです。これにはエントロピーという以下のような尺度があります。あるデータ集合Sの事象Xに関する「あいまいさ」は以下の式で定義されるエントロピー（

entropy

）で測ることができます。 H

(

S

) =

H

(

X

) =

; k X j=1 p j

log

k p j ここでp jは Xのk種類ある事象a 1

,...,

a k のうち，事象 a j

(1

≦ j≦

k)

の出現率とします。ただし

,

a i a j

= 0(

i≠j

)

であるとします。またH

(

S

)

≧

0

です。先ほどの硬貨の例で言うと，Xは「硬貨の出る面」といったものであり，種類kは

2

で，事象は「表」と「裏」です。硬貨

B

の「硬貨の出る面」に関するエントロピーは： H

(

X

) =

;

1

:

00log

2

1

:

00

;

0

:

00log

2

0

:

00 = 0

:

00

即ち，硬貨

B

のエントロピーは最低であり，あいまいさは全くない（表が出るか裏が出るか予想して外れることはない）ことが分かります。一方硬貨

A

の方は： H

(

X

) =

;

0

:

50log

2

0

:

50

;

0

:

50log

2

0

:

50 =

となる。即ち，硬貨

B

のエントロピーより高くなることが分かる。このようにエントロピーは先ほど，あいまいさの尺度に要請した性質を満たしています。

(16)

先ほどの「商品

A

の値：X」に関しては

,

「○」

,

「×」の二つの事象があります。「ルール

1:

Y

1

」と「商品

A

の値：X」との関連として，先ほどの表

4

のようなデータが得られているとすると，「商品

A

の値：X」がもつエントロピーは： H

(

X

) =

;

0

:

64log

2

0

:

64

;

0

:

36log

2

0

:

36 = 0

:

943

です。次に「ルール

1:

Y

1

（性別が女性か）」に対して

\Yes"

である人達を考えます。その人達の間では「○（買う）」「×（買わない）」の割合はそれぞれ

0

:

54

=

0

:

6 = 0

:

9

，

0

:

06

=

0

:

6 = 0

:

1

であるから： H

(

XjY

1 =

Yes

) =

;

0

:

9log

2

0

:

9

;

0

:

1log

2

0

:

1 = 0

:

469

同様に「ルール

1

：Y

1

（性別が女性か）」に対して

\No"

である人達を考えると，その人達の間では「○ （買う）」「×（買わない）」の割合はそれぞれ

0

:

10

=

0

:

40 = 0

:

25

，

0

:

30

=

0

:

40 = 0

:

75

であるから： H

(

XjY

1 =

No

) = (

)log

2

(

)

;

(

)log

2

(

)

= 0

:

811

です。「女性」「男性」の割合はそれぞれ

0.6, 0.4

であるから

,

「ルール

1

：Y

1

（性別が女性か）」を導入することで「商品

A

の値：X」に関するエントロピーは： H

(

XjY

1) = (

)

H

(

XjY

1 =

Yes

) + (

)

H

(

XjY

1 =

No

)

= (

)

0

:

469 + (

)

0

:

811 = 0

:

606

となります。この値は先ほどのH

(

X

) = 0

:

943

よりも

0.337

ほど低くなっています。即ち「性別が女性か」というルールを加えることで全体のエントロピーが減ったと言えます。このエントロピー（＝あいまいさ）の減少H

(

X

)

;H

(

XjY

1) = 0

:

337

が「ルール

1

：Y

1

（性別が女性か）」の「商品

A

の値：X」に関する相互情報量です。練習：同様に「ルール

2

：Y

2

（年齢が

20

以下か）」の相互情報量も同様に計算してみよう。 H

(

X

)

;H

(

XjY

2) = 0

:

099

と求まります。先ほどの「ルール

1

：Y

1

（性別が女性か）」は相互情報量は

0.337

です。従って先ほどのルール

1

の方が，あいまいさをより大きく減らすという点で，ルール

2

よりも有効と言えます。このように相互情報量は「商品

A

」に関するルール同士を比較するのに有用です。決定木では相互情報量の大きいルールを予測に採用していきます。

(17)

■枝刈りデータには通常ノイズが含まれます。そのようなノイズに対しても細かくデータ分割を進めていくと，決定木が例外的な値・誤りに適合してしまいます。これを過学習，あるいはオーバーフィッティング（

overtting

）といいます。過学習が起きると必要以上の細かい分類となり，結果として予測精度が悪くなってしまいます。さらに，過学習した決定木から得られる目的属性に関する法則は複雑で理解しづらいものとなります。枝刈り（

pruning

プルーニング，剪定）はそうした過学習を回避する手法です。枝刈りには，

(1)

事前枝刈りと

(2)

事後枝刈りの

2

種類があります。

(1)

木の作成段階で，過学習であるか否かを判断し，データ分割を終了することを事前枝刈り（

pre-pruning

）といいます。事前枝刈りは，各ノードの最適分割テストによるデータ分割前後における，カイ

2

乗検定，相互情報量の増加度，エラーの減少度，平均

2

乗誤差の減少度などの情報から，そのノードのデータ分割が精度向上に寄与するかどうかを予測して，データ分割を続けるか，そのノードで分割を終了するかを判断します。

(2)

一方，まず十分大きな木を作成し，その木の過学習部分を後でとり除くことを事後枝刈り（

post-pruning

）とよびます。事後枝刈りにおいて，木のどの部分木が過学習であるかを判定するために，学習データとは別の検証データを用意し，検証データを使って不要な部分木を削除する手法を総称して「

training

and validation set

法」と呼びます。事前枝狩り手法に比べ，より大きな木を構築するためのコストが余計に必要となるが，事後枝刈りによる木のほうが，予測精度が高くなることが多く，現在はこの手法による決定木の調整を行うシステムが多いです。 ■いくつかのアルゴリズム決定木（樹木モデル）に関する研究は，

1960

年代初期までさかのぼります。現在では以下の手法（アルゴリズム）が広く用いられています：

・

CHAID (Chi-squared automatic interaction detection)

CHAID

は

1963

年

J. A. Morgan

らが提案した

AID (automatic interaction detection)

を，

J. A. Hartigan

が

1975

年に発展させたもので，最も古いアルゴリズムです。

CHAID

はデータ解析の専用ソフト

SAS

と

SPSS

で採用されており，今でも広く用いられています。分岐の基準としてカイ

2

乗統計量や

F

検定統計量など，統計学で広く用いられている統計量を用いています。

・

CART (classication and regression trees)

1980

年代初め頃，カリフォルニア大学の

L. Breiman

，

R. A. Olshen

，

C. J. Stone

，スタンフォード大学の

J. H. Friedman

が公開しました。

CART

は，樹木を制限なしに生長させ，対話的に剪定を行う方法を取っています。この点で，樹木が生長し過ぎないよう事前に制御する

CHAID

と大きく異なっています。また

2

進木しか生成しない点で異なっています。初期の

CART

は，分岐の基準としてジニ係数（経済学者ジニ（

Gini

）が提案）を用いていたが，最近は情報利得（

information gain

）なども用いています。

・

C4.5/C5.0/See5

オーストラリアの

J. Ross Quinlan

が

1986

年に発表した

ID3 (iterative dichotomiser 3)

を改良・発展させたもの。

2

進木以外も生成するのが

CART

との大きな違い。枝狩りは事後にも行います。

ID3

は，分岐の基準として情報利得（

information gain

）を用いていたが，

C4.5/C5.0/See5

は，利得比（

gain ratio

）を用いています。現在，

J. Ross Quinlan

は

1997

年から

RuleQuest Research

というソフトウェア会社を運営しています。

C4.5

は

Quinlan

のホームページ

http://www.rulequest.com/Personal/

で入手できます。

(18)

上記のアルゴリズムはそれぞれ特徴を持っており，どのアルゴリズムが優れているかは評価し難いです。 ■

R

による決定木構築まずパッケージ

tree

をインストールし読み込みます。「パッケージ」→「パッケージのインストール」 → ミラーサイト一覧から「

Japan (Tokyo)

」などを選びます → パッケージ一覧から「

tree

」を選びます。

\tree"

パッケージをインストールしたら，次にそれを読み込みます。「パッケージ」→「パッケージの読み込み」→ パッケージ一覧から「

tree

」を選びます。これで

\tree"

パッケージが使えるようになります。

データとして

\market survey.csv"

という名前のファイルを作ったとすると，決定木作成は以下のように行います：

>

x

<

- read.table("market survey.csv", header=TRUE, sep=",")

>

x.tr

<

- tree(pick

~

., x)

>

plot(x.tr)

>

text(x.tr)

これにより図

11

のような出力が得られます。

market survey.csv

中の変数の意味は以下の通りです：

pick

：優先的に利用する電話会社が

AT&T

かどうか

income

：世帯収入

moves

：過去５年間の引っ越し回数

age

：被調査者の年齢

education

：教育水準

employment

：職業の種類

usage

：月平均使用量

nonpub

：電話帳への掲載の有無

reach.out

：割引サービスの利用

card

：テレフォンカード所有の有無さて以下のような

\tree.control"

オプションを用いてパラメータを設定すると決定木の大きさなどを変えることができます：

>

w.tr

<

- tree(pick

~

., x, control=tree.control(1000, mincut = 5, minsize = 10, mindev = 0.008))

>

plot(w.tr)

>

text(w.tr)

ここで

\1000"

は学習用データのレコード数，

mincut

はノードをさらに分割するか判断する為の子ノード最小レコード数，

minsize

は同じくノードをさらに分割するか判断するための親ノード最小レコード数，

mindev

はノード内の尤離度を表す。

mincut

は

minsize

の半分よりも大きくすることはできません。決定木ではモデルの当てはまりの良さを損なわない範囲で，単純な木を構成し直すための剪定を行うことが多いです。剪定を行う場合，

snip.tree

関数を用います。例えば以下のようにします。

>

w.tr.snip

<

- snip.tree(w.tr)

(19)

図

11:

電話会社のマーケティング調査入力待ち状態になったら剪定したい木の分岐部分にカーソルを合わせ，クリックします。要らない部分のすべてでクリックしたらグラフィック画面上で右クリックし「停止」を選びます。するとコンソール画面にクリックした分岐部分の番号が

\node number"

という形で表示されるのでその番号をメモしておきます。ここで

3

番，

4

番，

5

番の分岐部分で剪定したかったならば以下のように入力します：

>

w.tr.snip

<

- snip.tree(w.tr, nodes=c(3,4,5))

>

plot(w.tr.snip)

>

text(w.tr.snip)

で結果を確認できます。上では

snip.tree

関数を使ってグラフィカルに分岐番号を把握したが，以下のように入力すればテキストで決定木を得ることが出来ます。そこから分岐番号を把握することも出来ます。 >

w.tr

(20)

SVM

（

Support Vector Machine

）は，どのグループに属するかを自動判定する手法として，少し前まで最も一般的な手法でした。今は深層学習が有名ですが，深層学習にはまだ一般の人が操れるソフトがありません。大量のパラメータや方針を設定しないといけないので，

Python

などで直接プログラミングすることになります。今すぐ何か結果を出したいという場合はまだ

SVM

の方がお勧めです。ちなみによほど簡単なデータでない限り，判別分析というのは論文ではもう使わないかもしれません。

SVM

は

1992

年に，

AT&T Bell

研究所の

Vladimir Vapnik

らが提案した統計的学習手法がもととなっています。

■

Vladimir Naumovich Vapnik

（

Wikipedia

より）

Vladimir Naumovich Vapnik is one of the main developers of Vapnik-Chervonenkis theory. He was born in the Soviet

Union. He received his master's degree in mathematics at the Uzbek State University, Samarkand, Uzbek SSR in 1958

and Ph.D in statistics at the Institute of Control Sciences, Moscow in 1964. He worked at this institute from 1961 to 1990

and became Head of the Computer Science Research Department. At the end of 1990, he moved to the USA and joined

the Adaptive Systems Research Department at AT&T Bell Labs in Holmdel, New Jersey. The group later became the

Image Processing Research Department of AT&T Laboratories when AT&T spun o Lucent Technologies in 1996. Vapnik

Left AT&T in 2002 and joined NEC Laboratories in Princeton, New Jersey, where he currently works in the Machine

Learning group ... While at AT&T, Vapnik and his colleagues developed the theory of the support vector machine.

They demonstrated its performance on a number of problems of interest to the machine learning community, including

handwriting recognition.

先述の判別分析は，平面上に散らばる点を直線上に映すというように，特徴空間をより次元の低い空間に変換するのに対して，

SVM

は逆に次元の高い空間に変換します（図

4

）。次元をどんどん大きくして，高次元の空間にサンプルを散らしていくと，いつか平面で

2

グループが切り分けられる次元に達します。分けられるようになったらサポートベクトルで最適な平面を特定・算出します。次元を大きくしていけば一般に計算量が膨大になるのですが，

SVM

ではカーネルトリックによりその計算を回避します。これが特徴です。数学的な説明は後で詳しく扱います。・判別分析も

SVM

も，

3

グループ以上の判別（分類）をそのままの形で行うことはできません。

1

つずつグループを分離していくという逐次的な操作を行うしかありません（

A, B, C

の

3

グループだったらまず

A

，

B

と

C

を分けるなどです）。データ全体に渡って最適な判別を行うことができないのが欠点です。・

SVM

には学習サンプルが多くなると計算量が大きくなる問題もあります。・後述のカーネルにはいくつかありますが，どれが最適化は分かっていません。

(21)

■以下は，前田栄作

(2001)

「痛快！サポートベクトルマシン：古くて新しいパターン認識手法」情報処理

,

vol.42, no.7, p.676-683.

を適宜抜粋し，解説用に注を付けたものです。興味がある人は原典も読んでみると良いでしょう。

1.

線形

SVM

その

1

：線形分離可能な場合ここではまず最も簡単な例として，線形分離可能な場合の線形

SVM

について述べます。線形分離可能な場合には，一般に学習サンプルをすべて正しく識別する超平面が複数存在します（図

12

）。識別境界候補となるそうした超平面（黒実線）の周囲には学習サンプルが存在しないマージン領域（破線で示した

2

つの超平面に挟まれた領域）が存在します。

SVM

では，複数の識別境界候補の中でマージン（矢印）を最大にする超平面を最良と見なします。このマージン最大化が

SVM

の大きな特徴です。線形

SVM

の学習，すなわち学習サンプルからマージンを最大にする最適識別関数を求める過程は以下のように数学的に定式化できます。線形識別関数 f

(

x

)

を： f

(

x

)

sign(

g

(

x

)) = sign(

w

t

x

+

b

)

(1)

とおきます。1 2 3 4 ここでn個の学習サンプル

x

i

(

i

= 1

:::n

)

の満たすべき条件を： 8 i g

(

x

) =

w

t

x

i

+

b (

1

x

i 2 1 ;

1

x

i 2 2

(3)

とします。5 点

x

iから平面 g

(

x

) = 0

までの距離はjg

(

x

i

)

j=j

w

jですから 6 ，式

(3)

は，識別境界

(

g

(

x

) = 0)

から距離

1

=j

w

jの範囲内，すなわち，平面g

(

x

) =

1

（図

13

のH 1， H 2）の間に学習サンプルが存在しないことを意味します。ここで，

x

iの属する群を変数 y iで表し： y i

=

(

1

x

i 2 1 ;

1

x

i 2 2

(4)

と定義し，

x

iの教師信号と呼びます。また，

y

= (

y 1 :::y n

)

t とします。このとき，式

(3)

はy iを用いて： 8 i y i

(

w

t

x

i

+

b

)

;

1

0 (5)

と書けます。 1 太字で書かれたものはベクトルです。例えばwやxはベクトルです。これまで挙げてきた例で言うと，xは，筆記の点数，面接の点数，実技の点数，などから成るベクトルです。それに対してwはそれらに掛ける係数です。下記も参照して下さい。 2 ベクトルには行ベクトル（要素w 1 w 2 :::w kが横に並んだもの）と列ベクトル（ w 1 w 2 :::w kが縦に並んだもの）があります。通常「ベクトル」といったら列ベクトルを指します。即ち，上のwやxは列ベクトルであることが想定されています。 3 tは転置を行う記号で，列ベクトルを行ベクトルに，行ベクトルを列ベクトルに変換します。例えばa

= (

a1a2:::a k

)

t とあったら，aは

(

a 1 a 2 :::a k

)

という行ベクトルを列ベクトルに変えたベクトルであることを表します。即ち： a

=

0 B @ a1 a2 ::: a k 1 C A

(2)

です。逆に列ベクトルwに対するw t は，列ベクトルwを行ベクトルに変換したものを表します。 4 従って，w t xはベクトルwとベクトルxの内積を表します。例えばw

= (

w 1 w 2 :::w k

)

t ，x

= (

x 1 x 2 :::x k

)

t ならば， w t x

=

w1x1

+

w2x2

+

:::

+

w k x kです。高校時代習った内積の記号「・」を使って w・xなどと書いてくれればいいのですが，t を使って上のように書く人も多いです。 5 8 iとは「すべてのiに対して」という意味です。 6 例えば点

(1,2,4)

から，平面

3 + 5

+ 6

+ 8 = 0

までの距離は

(3

・

1 + 5

・

2 + 6

・

4 + 8)

p

3

2

+ 5

2

+ 6

2

(22)

さて平面H 1， H 2間の距離（マージン）は

2

=j

w

jです。これを最大にするf

(

x

)

を求めればよいのです。ここで（その方が扱いやすいから）j

w

j 2 を考えて：

Minimize

w b G

(

w

) = 12

jwj 2

(6)

s:t: 8 i y i

(

w

t

x

i

+

b

)

;

1

0

の解

w

,

b を求めれば最適なf

(

x

)

が求まります。 7 8 この最小化問題はラグランジュの未定係数（乗数）法によって解くことができます。 iを正の係数，を

= (

1 ::: n

)

t と定義するとラグランジュ関数L pは： L p

(

w

b

)

1

2

j

w

j 2 ; n X i=1 i ; y i

(

w

t

x

i

+

b

)

;

1 (7)

となります。もう少し変形すると： L p

(

w

b

) = 12

j

w

j 2 ; n X i=1 i y i

(

w

t

x

i

+

b

) +

n X i=1 i

= 12

j

w

j 2 ; n X i=1 i y i

w

t

x

i ; n X i=1 i y i b

+

n X i=1 i

= 12

j

w

j 2 ;

w

t n X i=1 i y i

x

i ;b n X i=1 i y i

+

n X i=1 i

(8)

L pを偏微分して

0

とおくことにより（これがラグランジュの未定係数法）： @L

(

w

b

)

@

w

=

w

; n X i=1 i y i

x

i

= 0

(9)

; @L

(

w

b

)

@b

=

n X i=1 i y i

=

t

y

= 0

(10)

となり，式

(9)

から：

w

=

n X i=1 i y i

x

i （逆に書くと n X i=1 i y i

x

i

=

w

）

(11)

となります。9 10 11 L p

(

w

b

)

をF

(

)

とおき，

D

をその

(

ij

)

成分がy i y j

x

t i

x

jである

(

nn

)

行列とすると，式

(10)

，式

(11)

を式

(8)

に代入することにより： 7

\s.t."

とは

\subject to"

の略で制約条件のことです。 8 最適な解を推定するアルゴリズムや手法の世界には，

\*"

を添えて最適解を表す習慣があります。

\*"

に深い意味はありません。 9 ラグランジュの未定係数法とは，制約条件g

(

x

) = 0

のもとで関数f

(

x

)

を最大（最小）にするxを求める方法です。この方法ではf

(

x

)

;g

(

x

)

という新たな関数を考え，これをxやで偏微分し，それらを

0

にするxを求めるという作業が行われます。なぜそうすると良いのか，興味がある人は本で調べてみて下さい。『言語処理のための機械学習入門』（コロナ社）の説明が分かりやすかったです。 10 偏微分とは，複数の変数から成る関数f

(

xyz::

)

に関して，どれか

1

つの変数だけに注目し，他の変数は定数とみなして，その変数に関して微分を行うというものです。例えばf

(

xyz

) =

x 2

+

xy

+

y 3

+2

yz

+

z 5 だったら @f(xyz) @x

= 2

x

+

yとなります。 11 ベクトルで微分するとは，ベクトルの各要素x 1 :::x kそれぞれで微分したものを要素とするベクトルを作るということです。例えば @f @x

= (

@f @x 1 @f @x 2 ::: @f @x k

)

となります。また従って @(jxj 2 ) @x

= 2

xなどとなります。

(23)

F

(

) =

n X i=1 i ;

1

2

j

w

j 2

=

t

1

;

1

2

t

D

(12)

が得られます。

1

はそのすべての成分に

1

を持つ縦ベクトルを表します。こうして，式

(6)

の最小化問題はF

(

)

の最大化問題：

Maximize

F

(

) =

t

1

; 1 2 t

D

(13)

s:t: t

y

= 0

0

に帰着されます。12 これは

2

次計画法において式

(6)

の双対問題と呼ばれます。式

(6)

は制約条件の式がn個（i

= 1

:::nより）ありましたが，こちらは一次式

1

個だけになりました。またF

(

)

も iで偏微分することで i以外の一次式に持ち込むことが出来ます。従って F

(

)

を最大化する iは連立方程式を解く要領で求めることが出来ます（多分）。さて式

(13)

の解を i とします。式

(11)

より正の（

0

でない） i に対応する

x

iのみから

w

が決まります。この

x

iはサポートベクトル（以降，

SV

と記す）と呼ばれます。一方，非線形計画法において相補性条件と呼ばれる： 8 i i

(

y i

(

w

t

x

i

+

b

)

;

1) = 0

(14)

が成立するので，b は任意の

SV

，

x

i（ i >

0)

を用いて： b

=

y i ;

w

t

x

i

(15)

と求まります。13 最終的に，線形

SVM

による識別関数f

(

x

)

は式

(1)

，式

(11)

より： f

(

x

) = sign(

w

t

x

+

b

)

(16)

= sign

n X i=1 i y i

(

x

t i

x

) +

b !

(17)

となります。ここで，

SV

の意味について考えてみましょう。

SV

の定義と式

(17)

から確認できるように，

SV

となる

x

iのみによって識別関数すなわち識別境界が決まり，

SV

でない

x

iはその決定に寄与しません。

SV

でないサンプルをいくら除いても識別境界には影響しません。これがサポートベクトルと呼ばれるゆえんです。

2.

線形

SVM

その

2

：線形分離不可能な場合ソフトマージン法などもありますが，線形分離不可能な場合には次の方法を使うのが一般的なので省略します。

3.

非線形

SVM

：カーネルの魔術 12

\

0"

は冒頭でそう定義したから。 13

=

1

だから

1 =

(24)

2

群の識別境界が超平面で近似できる場合は，線形識別関数によって実用上十分な性能を実現することができます。ところが，図

14

のように複雑な識別境界を持つ場合には，非線形関数によって識別関数を記述しないかぎり，良い識別性能を得ることができません。スカラー14 を出力する任意のd 0 個の非線形関数 i

(

x

)(

i

= 1

:::d 0

)

を用いて関数を：

(

x

) = (

1

(

x

)

2

(

x

)

::: d 0

(

x

))

t

(18)

と定義します。ここで，

(

x

)

を新たなサンプルと見なし，これまでの

x

を

(

x

)

で置き換えることが可能です。そのようにサンプル

x

を非線形変換

(

x

)

によって変換し，変換後の空間において線形

SVM

を適用しようと考えるのです。変換後の

(

x

)

空間における線形識別境界は，

x

の原特徴空間では非線形な識別境界をなします。式

(13)

における

D

の代わりに：

D

ij

=

y i y j

(

x

i

)

t

(

x

j

)

(19)

とおくと，識別関数は： f

(

x

) = sign(

w

t

(

x

) +

b

)

(20)

= sign

n X i=1 y i i

(

x

i

)

t

(

x

) +

b !

(21)

と求まります。以上のような方法で非線形

SVM

が形式的に求まりますが，非線形

SVM

の大きな特徴は実はここから先にあります。今，

2

つの特徴ベクトルを引数とするある関数K

(

x

y

)

があって： K

(

x

y

)

(

x

)

t

(

y

) =

d 0 X i=1 i

(

x

)

i

(

y

)

(22)

が成立するものとします。このKをカーネル関数と呼びます。この時，式

(19)

，式

(21)

は：

D

ij

=

y i y j K

(

x

i

x

j

)

(23)

f

(

x

) = sign

n X i=1 y i i K

(

x

i

x

) +

b !

(24)

となります。式

(23)

，式

(24)

は式

(22)

を満たすKの関数として書くことができ，を陽には含みません。したがって，

(

x

)

空間上での線形

SVM

，すなわち

(

x

)

によって定義される非線形

SVM

（式

(24)

）を求める時，の内積形（式

(22)

）さえ定義されていれば

(

x

)

を計算する必要もなければ

(

x

)

の具体的な形も知る必要がありません。式

(22)

を満たすが存在するためのカーネル関数Kの条件はすでに知られており，そのようなKの例として： K

(

x

y

) = (1 +

x

t

y

)

p

(25)

K

(

x

y

) =

exp

; j

x

;

y

j 2

2

(26)

14 ベクトルや行列などではなく普通の数のことです。

(25)

図

12:

学習サンプルをすべて正しく識別する超平面は通常複数存在しますで定義されます，多項式型カーネルとガウシアン型カーネルがあります。ここで，Kとの具体例を見てみましょう。特徴空間の次元を

2

，サンプルを

x

= (

x 1 x 2

)

t とします。今，

3

次の多項式型カーネルを採用すると： K

(

x

y

) =

(

x

)

t

(

y

) = (1 +

x

t

y

)

3

(27)

となります。この時，式

(22)

を満たすが：

(

x

) = (1

p

3

x 1 p

3

x 2 p

3

x 2 1 p

3

x 2 2 p

6

x 1 x 2 p

3

x 2 1 x 2 p

3

x 1 x 2 2 x 3 1 x 3 2

)

t

(28)

となることが確かめられます。容易に推測がつくように，特徴空間の次元dと多項式の次数pに依存しての次元d 0 は非常に大きくなり，多項式型カーネルの場合d 0

=

d+p C p ;

1

となります。ところが，最適な非線形

SVM

を求めたり，得られた非線形識別関数を使って未知のサンプルの群を判定したりする際に，高次元のベクトル演算は必要なく式

(25)

，式

(26)

のような低次元演算で足りるのです。これは，カーネルトリックと呼ばれており（非）線形

SVM

の大きな特徴です。 ■

R

でマハラノビスの距離を算出したい時は関数

mahalanobis

を用います。マハラノビスの距離に基づいて判別分析を一発で行ってくれる関数はないらしいです。

(26)

図

13:

学習サンプルが存在しない空間

(27)

■

R

による

SVM

1)

学習用・テスト用データファイルを先述のようにダウンロードします。

2) R

を起動します。

3)

まず「パッケージ」 → 「パッケージの読み込み」 → 「

e1071

」と選ぶ（「

e1071

」が出ない場合は，まず「パッケージのインストール」 → 「

Japan (Tokyo)

」 → 「

e1071

」と選んでから上記操作を行う）。これで関数

svm

が使えるようになります。

4) svm

関数のヘルプが読みたい時は

\?svm"

5)

「ファイル」→「ディレクトリの変更」とクリックし，先ほどのデータファイルを置いたディレクトリに移動します。

6)

次に以下のように入力します。 >現況<

- read.table("Koremade no keiko.txt",header=TRUE)

>希望者<

- read.table("Nyusha kibosha.txt",header=TRUE)

>

y

<

-

現況

$

５年後 >

x

<

- subset(

現況

, select=c(1:3))

>傾向<

- svm(x,y)

>予測<

- predict(

傾向

,

希望者

)

7)

>予測と入力すると「ダメ優秀優秀ダメ」と出力されます。これは

1, 4

番目の人は５年後「ダメ」，

2, 3

番目の人は５年後「優秀」な社員になると予想されたことを意味します。 ■真剣に

SVM

を使う場合は

R

よりも

LIBSVM

の方が便利です。授業

HP

参照。