Chapter16

(1)

16章 Flat Clustering

クラスタリングアルゴリズムとは、複数のドキュメントからなる集合を、複数のクラスタ (cluster)と呼ばれるサブセットへグルーピングするアルゴリズムのことです。このアルゴリズムの目的は、自然でわかりやすく、かつそれぞれが同じではないクラスタを作ることです。別の言い方をすれば、それぞれ同じクラスタに含まれるドキュメント同士は可能な限り似ているべきであり、それぞれ違うクラスタに含まれるドキュメント同士は可能な限り似ていないべきです。 図 16.1 明確なクラスタ構造を持つデータセットの例 クラスタリングは教師なし学習 (unsupervised learning) の一種類としてよく知られています。「教師なし」とは、アルゴリズム中に、ドキュメントをクラス分けしてくれる人間の専門家を必要としないということを意味します。クラスタリングでは、クラスタはデータの分布とその構成によって決定されます。図16.1がそのシンプルな例です。この例では見た目から明らかなように3つのクラスタからなります。この章及び17章では教師なし学習によるクラスタを発見するアルゴリズムを紹介します。クラスタリングとクラシフィケーションは、それほど違うようには見えないでしょう。なぜなら結局、両方共ドキュメントの集合を複数のグループにわけるためです。しかし、この後で見るように、両者における問題点はまったく異なるものです。クラシフィケーションは、教師あり学習の一種です(13章、237ページ)。我々のクラスタリングでの最終的な目的は人間の専門家がデータに対して行うカテゴリ分類を再現することです。クラスタリングを代表とする教師なし学習においては、この様な教師を必要としません。クラスタリングにおいて重要な入力は距離指標(distance measure)です。図16.1では距離指標は2次元平面上の距離となっています。この指標を用いると、図中のデータは3つのクラスタに分類されます。ドキュメントのクラスタリングでは、ユークリッド距離がよく用

(2)

いられます。異なった距離指標を用いると、異なったクラスタリングが生成されます。そのため、距離指標はクラスタリングの結果に影響を与える、重要な指標となるのです。フラットクラスタリング(flat clustering)はクラスタ間にいかなる関係構造も存在しない、フラットなクラスタ集合を生成します。階層的クラスタリング(hierarchical clustering) は、クラスタ間に階層を生成します。これについては17章で述べます。また17章では、クラスタを自動的にラベリングするという別の問題についても言及します。 2つ目のクラスタリングの重要な分類は、ハードクラスタリングアルゴリズムとソフトクラスタリングアルゴリズムという分類です。ハードクラスタリングでは、各ドキュメントは必ず一つのクラスタに分けられるという、厳密な(hard)割り当てを行うものです。ソフトクラスタリングでは、ドキュメントの割り当てが複数のクラスタ間に分配されます。緩い(soft)割り当てでは、各ドキュメントは複数のクラスタの部分的な要素となります。次元削減の方法である潜在的セマンティックインデックス(Latent semantic indexing)はソフトクラスタリングアルゴリズムの一種です(18章、382ページ)。この章ではいくつかの具体例を紹介し(16.1節)、我々が解決しなければならない問題の定義を行い(16.2節)、クラスタの質を評価する指標について議論することにより(16.3節)、クラスタリングをいかに情報検索で用いるのか説明します。その後、2つのクラスタリング手法、ハードクラスタリングアルゴリズムであるK-means(16.4節)と、ソフトクラスタリングアルゴリズムであるexpectation maximization(EM)アルゴリズム(16.5節)を紹介します。K-meansはシンプルでかつ効率的であるため、もっとも広く使われているクラスタリング手法です。EMアルゴリズムは、K-meansの一般化であり、特徴が多数あり、分散している集合に対しても適用できます。

16.1 Clustering in information retrieval

クラスタ仮定(cluster hypothesis)は情報要求に対してクラスタリングを用いる際の基本的な前提事項を述べています。 <クラスタ仮説> 同じクラスタ中に含まれるドキュメントは、情報要求に対して似た振る舞いをするこの仮定は検索クエリに関連したドキュメントを取ってくると、そのドキュメントと同じクラスタに含まれる他のドキュメントも同じく検索クエリに関連している、ということを意味します。これは同じ語を多数含むドキュメントをまとめて、1つのクラスタとするためこのようになります。このクラスタ仮定は、14章の隣接仮説(contiguity hypothesis)と本

(3)

質的に同じものす。双方とも、関連したドキュメントは似た振る舞いをする、と仮定しています。 表16.1 情報検索におけるクラスタリングの適用例 表16.1は情報検索における、クラスタリングの代表的な適用例です。それぞれクラスタの対象とするドキュメントが検索結果またはコレクションまたはコレクションのサブセットであり、情報検索システムにおいて改善しようとしている点がユーザエクスペリエンスまたはユーザインターフェースまたは検索システムの効果・効率である点が異なります。表16.1の最初の適用例は検索クエリに対して返ってきた検索結果(ドキュメント)のクラスタリングです。情報検索における一般的な検索結果の表示方法はシンプルなリストです。ユーザは探している情報を見つけるまでリストを上から下に順に見ていきます。これに対して、検索結果のクラスタリングを行うと、類似ドキュメントがまとめて出力されます。これは検索語が複数の意味を持つような場合に特に有用です。図16.2はjaguarについての例です。ここでは3種類の意味、車・動物・アップルのOSが出てきます。Vivisimoサーチエンジン(http://vivisimo.com)が返してくるcluster resultsのパネルは単純なリストより検索結果を理解するためにより効率的なユーザインターフェースとなっています。

図16.2 再現性を高めるための検索結果のクラスタリング。上位に動物のjaguarは含まれていない が、Clustered resultsパネルのcatクラスタをクリックすることで簡単にアクセスできる。

(4)

よりよいユーザインターフェースは、表16.1の2つ目の適用例であるScatter-Gatherの目的でもあります。Scatter-Gatherでは全ドキュメントからクラスタリングを行い、その中からユーザが必要なクラスタを複数選択します。その選択されたグループをマージし、マージした結果を再びクラスタリングします。このプロセスを求めるクラスタが見つかるまで繰り返します。図16.3がこの例になります。

図16.3 Scatter-Gatherのユーザセッションの例。New York Timesのニュースは 8つのクラスタに クラスタリングされる(scattered)。ユーザは、これらの中から3つをより小さい集合である

International Storiesに集め(gather)、再度クラスタリング(scattered)する。このプロセスは、 Trinidadのような関連文書が見つかるまで繰り返される。

図16.3のような自動的に生成されたクラスタはOpen Directory(http://dmoz.org)のようなきちんと人手で作られた階層的な木構造とは異なるものになってしまうという問題があります。また、自動的に各クラスタを説明するようなラベルをつけるのは難しいという問題もあります(17.7節、363ページ)。しかし、クラスタによるナビゲーションは従来の情報検索のキーワードサーチに変わる興味深い方法であります。これは特にユーザがどんな検索語を使ったらいいか分からないため、検索よりブラウジングをしたいという場合に有効です。ユーザの選択を媒介として繰り返しクラスタリングを行うScatter-Gatherの代替として、コレクションに対して静的な階層的クラスタリングを行うという、ユーザの行動に影響されない方法があります(表16.1のコレクションクラスタリング)。グーグルニュースとその前身であるColumbia NewsBlasterシステムは、この方法を用いている例の一つです。

(5)

ニュースの場合、ユーザが最新のニュース速報にアクセスできるように、頻繁にクラスタを再計算する必要があります。ニュース記事の読者は実際には検索をしたいわけではなく、最新の出来事に関する記事のサブセットを発見したいため、クラスタリングはニュース記事の集合によく適してます。 4番目のクラスタリングの適用例はコレクション全体をクラスタリングすることにより、クラスタ仮説を直接検索結果を改善するために使います。まず標準的な転置インデックスをクエリにマッチする最初のドキュメントを選ぶために使います。その後、それらのドキュメントと同じクラスタに含まれるドキュメントを、たとえクエリとの関連度が低いドキュメントでも検索結果に含めます。これにより例えば、クエリがcarだとして、carのドキュメントがautomobileのドキュメントのクラスタに含まれているとき、car以外の単語 (automobile、vehicleなど)が使われているドキュメントを検索結果に含めることが出来ます。相互に関連性が高いドキュメントの集合は全体が関連しているため、これにより recallを向上させることが出来ます。より最近では、このアイデアは言語モデルに対して使われています。226ページの式 (12.10)は、情報検索の言語モデルアプローチにおけるスパースなデータの問題を避けるために、ドキュメントdのモデルをコレクションのモデルに置き換えることを示しています。しかし、このコレクションはドキュメントdではあまり一般的ではない単語を含むドキュメントを多数含んでいます。このコレクションモデルでドキュメントdのクラスタから作られたモデルを置き換えることにより、ドキュメント中での単語の出現率をより正確に見積ることができます。またクラスタリングは検索のスピードアップをすることもできます。6.3.2節(113ページ)で見たように、ベクタースペースモデルでの検索はクエリにもっとも近いドキュメントを見つけることになります。転置インデックスによりこのクエリにもっとも近いドキュメントの探索を高速に行うことができます。しかし、例えば潜在的セマンティックインデックス (18章)のように、たまにこの転置インデックスを効率的に使えないことがあります。この場合、すべてのドキュメントとクエリの類似度を計算することによって探すことも出来ますが、それは非常に遅くなってしまいます。クラスタ仮説はこれに対する代替案を提供します。それは、クエリにもっとも近いクラスタを見付け、そのクラスタ中のドキュメントのみを考えることです。これにより探索範囲は小さな集合となるため、すべての類似度を計算することができ、通常の方法でドキュメントのランキングをすることが出来ます。クラスタ数はドキュメント数よりとても少ないため、もっと近いクラスタを見つけることが素早く行え、またクエリにマッチするドキュメントはそれぞれ似たようなものになりかつ同じクラスタないのドキュメントもそれぞれ似ているためです。このアルゴリズムは不正

(6)

確ですが、その検索の質は、それほど下がらないと期待できます。そのため7.1.6節(130 ページ)の内容は本質的にクラスタリングの適用例になり得ます。

16.2 Problem statement

まずハードフラットクラスタリングのゴールを次のように決めます。(i)ドキュメント集合 D={d1,...,dN}、(ii)クラスタ数K、(iii)クラスタリングの質を計る目的関数(objective function)の3つが与えられたとき、この目的関数の結果を最小化する(または場合によっては最大化する)γ:D->{1,...,K}の割り当てを計算することです。多くの場合、さらにγは全射である、つまりK個のクラスタのすべてが空ではないことを必要とします。目的関数はドキュメント間の類似度や距離によって決められます。後で述べる、K-means クラスタリングの目的関数は、ドキュメントとそのクラスタの重心の平均距離を最小化し、同時にクラスタ中の各ドキュメントとその重心の類似度を最大化することとなります。14章で出てきた類似度の指標と距離関数の議論はこの章でも同様に使えます。14章と同じく類似度と距離の両方をドキュメント間の関連性の尺度として使います。ドキュメントについて、望ましい類似度の種類はトピックの類似度やベクタースペースモデル上の同じ次元での高い値を持つこととなります。例えば、ChinaについてのドキュメントはChineseやBeijingやMaoのような次元で高い値を持ち、UKについてのドキュメントはLondonやBritainやQueenに対して高い値を持ちます。トピックの類似度としてベクトル空間でのコサイン類似度やユークリッド距離を適用できます(6章)。トピック以外の類似度、例えば言語的な類似度を計ろうとした場合、違う指標がふさわしくなります。トピックの類似度を計算する場合、ストップワードを無視できるが、英語のドキュメントのクラスタ(theがよくあらわれ、laはあまりあらわれない)か、フランス語のドキュメントのクラスタ(theはあまりあらわれない、laがよくあらわれる)かを分割する時にはストップワードも重要になります。 <用語解説> ハードクラスタリングのもう一つ別の定義として、ドキュメントが一つ以上のクラスタの完全なメンバーとなることが使われることもあります。パーティショナルクラスタリングは各ドキュメントは正確に一つのクラスタに含まれるクラスタリングです (しかしpartitional 階層化クラスタリング(17章)では、クラスタのすべての要素が、その親クラスタの要素でもあります)。複数の集合に属す要素を許すハードクラスタリングの定義を用いている場合は、ソフトクラスタリングとハードクラスタリングの違いはハードクラスタリングはその属する度合いが0か1となり、ソフトクラスタリングは非ゼロのあらゆる値をとれることになります。

(7)

ある研究者は、各ドキュメントが必ず一つのクラスタに属する完全な(exhaustive)クラスタリングと、いくつかのドキュメントはどのクラスタにも属さないという不完全な(non-exhaustive)クラスタリングというものにわけました。各ドキュメントが一つのクラスタに属するか、またはクラスタに属さないという不完全なクラスタリングは排他的(exclusive) とも呼ばれます。この本ではクラスタリングは完全なものと定義する。

16.2.1 Cardinality - The number of clusters

クラスタリングにおける難しい問題は、Kで表されるクラスタ数またはクラスタのカーディナリティ(cardinality)と呼ばれるものを決定することです。Kはよく経験やその分野の知識から推測で決められます。K-meansでは、Kを決めるための方法を紹介し、目的関数にKの選択を含めるヒューリステックな方法を紹介します。アプリケーションによっては、Kの範囲が決められていることもあります。例えば、図16.3のScatter-Gatherでは 1990年代初頭のコンピュータのモニタのサイズや解像度ではK=10以上の数は表示できませんでした。我々の目的は目的関数を最適化することであるため、クラスタリングの問題も本質的には探索の問題です。もっとも単純な解法は、すべての可能な組み合わせでのクラスタリングを行い、その中でもっとも良いものをとる方法です。しかし、これは指数関数的な組み合わせがあり、この方法は現実的ではありません。この様な理由により、多くのフラットクラスタリングは分割を繰り返すことにより、より純粋にしていく方法をとります。検索があまりよくない開始点(seed)からスタートすると、全体最適をし損なうことがあります。よい開始点を見つけることはフラットクラスタリングにおいて解決しなければならないもう一つの重要な問題です。

16.3 Evaluation of clustering

典型的なクラスタリングの目的関数は、クラスタ内のドキュメントの類似度を高くし(つまり同じクラスタ内のドキュメントを類似させる)、クラスタ間のドキュメントの類似度を低くする(つまり違うクラスタ間のドキュメントは類似しない)ということを定式化したものです。これはクラスタリングの質の内部評価(internal criterion)といいます。しかし、アプリケーションによい結果をもたらすために、内部評価上の高い点数が必ずしも必要というわけではありません。内部評価の代わりに、そのアプリケーションの興味を直接評価することがあります。検索結果のクラスタリングでは、様々なクラスタリングアルゴリズムを使ったときにユーザが正しい答えが見つけるまでの時間を計る方法があります。これがもっとも直接的な評価ですが、特に多くのユーザによる評価を必要とする場合、非常に高価となります。

(8)

ユーザによる評価の代わりに、評価用のベンチマークまたはgold standard(8.5節の151 ページと13.6節の258ページ)の集合を使うことができます。gold standardは、内部判定に合意のとれた人間の審判によって提供されます(8章140ページ)。この指標を用いて、クラスタリングがgold standardのクラスといかに一致するかを評価する外部評価(external criterion)を行うことができます。例えば、図16.2のjaguarの検索結果での最適化されたクラスタは、car・animal・operating systemの3つに対応するクラスで構成されています。この種の評価では、gold standardで提供された分類だけを用いて、クラスのラベルは用いません。この章ではクラスタリングの質を評価する4つの外部評価を紹介します。純度(purity)はシンプルで明確な評価指標です。正規化相互情報量(normalized mutual information)は情報理論的な解釈を与えることができます。Rand indexはクラスタを作るときのfalse-positiveと false-negativeにペナルティーを与えます。これに加えて、F値(F measure)ではそれぞれのエラーに違う重みをつけます。純度を計るために、各クラスタはそのクラスタに最もよく出現するクラスに割り当てられ、その割り当ての正確さは各クラスタに対して正しく割り当てられていたドキュメントの数を全ドキュメント数Nで割ることによって計算します。定式化すると、 (16.1) ここで Ω = {ω1,ω2,...,ωk} はクラスタの集合とし、 C = {c1,c2,....,cj} はクラスの集合とします。式(16.1)のωkはωkに含まれているドキュメントと解釈し、cjはcjに含まれているドキュメントの集合とします。

Figure 16.4 Purity as an external evaluation criterion for cluster quality. Majority class and number of members of the majority class for the three clusters are: x, 5 (cluster 1); o, 4 (cluster 2); and ⋄, 3

(cluster 3). Purity is (1/17) × (5 + 4 + 3) ≈ 0.71.

図16.4でこの純粋度をいかに計算するか示します。悪いクラスタリングにおいては純度は 0に近くなり、完全なクラスタリングでは1になります。純度とこの章で述べる他の指標との比較を表16.2に載せます。

(9)

Table 16.2# The four external evaluation measures applied to the clustering in Figure 16.4.

高い純度はクラスタ数を多くすることで簡単に達成できます。特に各ドキュメントがそれぞれ自分だけを含むクラスタとなるとき必ず1になります。そのため、この方法によるクラスタの質の評価はクラスタ数とのトレードオフなしでは使うことができません。このトレードオフを実現する指標が正規化相互情報量(normalized mutual information, NMI)です。 (16.2) が相互情報量になります(cf 13章、252ページ)。 (16.3) (16.4) ここでP(ωk)、P(cj)、P(ωkハットcj)はそれぞれクラスタωk、クラスcj、とその共通部分にドキュメントが含まれる確率です。式(16.4)は式(16.3)を最尤推定量(MLE)で書き直した式となります(つまり、各確率の推定量は対応する関連の出現頻度に等しい)。 Hは5章で定義されたエントロピーです(91ページ)。 (16.5) (16.6) 同じく2つ目の式は確率の最尤推定量に基づく式です。式(16.3)の I(Ω;C) はこのクラスタが何であるかを知ることにより、そのクラスタが何であるか分かるという情報です。 I(Ω;C) の最小値はクラスの構成要素がランダムなクラスタで 0になります。この場合、ドキュメントに関する知識はそのクラスが何であるかについて何も新しい情報を与えてくれません。最大の相互情報量はクラスタリングΩexactで完全に

(10)

クラスが分けられたときに得られます。しかしΩexactでの相互情報量はより小さいクラスタにわけたときも得ることができます(exercise 16.7)。特にK=Nの時のクラスタリングであるone-documentクラスタは最大の相互情報量を持ちます。そのため、相互情報量も純粋度と同じ問題点を持ちます。クラスタ数が多くなってもペナルティを与えることができず、この他が同じならクラスタ数が少ない方がよいという、偏りを定式化できません。式(16.2)の正規化数である分母の [H(Ω)+H(C)]/2 がこの問題を解決します。それはエントロピーはクラスタ数が大きくなると増える傾向にあるためです。例えば、 H(Ω) は K = N の時に最大値 logN を取り、NMIは最小となる。またNMIは正規化されているため、数の違うクラスタ同士を比べるのに使えるます。 [H(Ω)+H(C)]/2 は I(Ω;C) の最大値であるため、この式の分母として選ばれました(exercise 16.8)。したがって、NMIは常に0と1の間をとります。別のクラスタリングの情報理論における解釈としては、コレクションの中のN(N-1)/2通りのドキュメントのペアから一つを選ぶという決定の連続です。ある2つのドキュメントが類似していてかつその時だけ同じくラスタに入れたい。true-positiveは類似したドキュメントが同じクラスタに入た場合、true-negativeは類似していないドキュメントが違うクラスタに入った場合です。また2種類のエラーがある。false-positiveは2つの本来は類似していないドキュメントを同じドキュメントに入れてしまった場合です。false-negativeは2つの類似したドキュメントを違うドキュメントとしてしまった場合です。Rand index(RI)はそれぞれの決定が正しかったパーセンテージを計ります。これは単に正確性(accuracy)と同じものです(8.3節、143ページ)。例として、図16.4のRIを計算します。まず最初にTP+FPを計算します。3つのクラスタはそれぞれ6、6、5点あります、そのため"positive"な部分、つまり同じクラスタに含まれるドキュメントの数はもちろんクラスタ1のxのペア、クラスタ2のoのペア、クラスタ3のダイヤのペアとxのペアがtrue positiveです。

(11)

よってFP=40-20=20となります。 FNとTNも同様に計算でき、以下の分割表(contingency table)のようになります。そのためRIは(20+72)/(20+20+24+74)=0.68となります。 RIではFPとFNに等しい重みを与えています。類似のドキュメントが間違って分割されるのは、類似していないドキュメントが同じクラスタに配置された時より悪いです。そのためF値(f measure)を使ってβ>1の値を使いFNに対してFPよりペナルティを与えることにより、recallに対してより重みを与えることができます。分割表に基づいて、 P = 20/40 = 0.5 と R = 20/44 = 0.455 となります。これにより β = 1 の時 F1 = 0.48 、 β = 5 の時 F5 = 0.456 となります。情報検索では、F値でクラスタを評価するというのは、この指標が既にコミュニティ内で一般的になっているという利点もあります。

(12)

16.4 K-means

K-meansはもっとも重要なフラットクラスタリングアルゴリズムです。その目的はドキュメントとそのクラスタの中心の2乗のユークリッド距離の平均値(6章、121ページ)を最小化させることです。ここでクラスタの中心はクラスタωに含まれるドキュメントの中央値または重心μです。この定義ではいつものようにドキュメントは実数の空間上の正規化されたベクトルを表しています。14章でもRocchioクラシフィケーションのために重心を使いました(269ページ)。ここでもこれは同じような役割を果たします。K-meansにおける理想的なクラスタは、重心がちょうど中心になるような球形です。理想的にはそのクラスタはオーバーラップしないべきで、Rocchioクラシフィケーションで求めていたものと同じものになります。違いはクラスタリングではラベル付けされたトレーニングセットを持っておらず、どのドキュメントが同じクラスタに入ってほしいかを知っているだけです。

重心がいかにクラスタを代表しているかの指標がresidual sum of square(差分の2乗和？) またはRSSと呼ばれます、これは各ベクトルの重心からの距離の2乗をすべてのベクトルについて合計したものです。 (16.7) RSSはK-meansにおける目的関数で、我々のゴールはこれを最小化させることです。ドキュメント数Nは定数なので、重心がドキュメントの集合をどの程度代表しているかというRSSを最小化させることは2乗距離の平均を最小化させることと等しいです。 K-meansの最初のステップはランダムにシードと呼ばれる最初のクラスタの重心を表すK 個のドキュメントを選ぶことです。その後、RSSを最小化させるようにクラスタの中心を移動させていきます。図16.5のように重心が定まるまで以下の2つのステップを順に繰り返します。まずドキュメントをもっとも近い重心を持つクラスタに割り当てて、次にそのできあがった新しいクラスタの要素で重心の再計算を行います。図16.6はK-meansアルゴリズムの9回目の繰り返しのスナップショットを示しています。表17.2(364ページ)の重心の列がその重心の例を示しています。

(13)

図16.5 K-meansアルゴリズム。ほとんどのいIRアプリケーションでは、ベクトル は流さ が正規化されているべきである。シードを選ぶもう一つの方法は、364ページで議論されている。

(14)

また以下の終了条件の一つを適用します。 • 繰り返しをある一定回数I回繰り返したら終了する。この条件ではクラスタリングのアルゴリズムの実行時間を制限しますが、場合によっては繰り返し回数が充分でなく、クラスタリングの質が低下することがあります。 • クラスタへの割り当て(つまり割り当て関数γ)が、繰り返しで変化しなくなったとき。この場合、部分的な最小値に陥ったとき以外は、よいクラスタリングが得られますが、実行時間が受け入れがたいほど長くなるかもしれません。 • 重心μが変化しなくなるとき。これはλが変化しなくなったときと同じです (exercise16.5)。 • RSSが閾値より小さくなったら終了。これは終了時のクラスタリングの質を保証します。通常は終了することを保証するため、これと繰り返し回数の上限をセットで使います。 • RSSの減少値が閾値θより小さくなったら終了。小さなθを選ぶと、収束に近いことを意味します。これも非常に長い実行時間を必要とするため、繰り返し回数の上限を同時に使います。ここでK-meansによって繰り返しごとに単調にRSSが減少することを証明します。本章では「減少」という語を「減少もしくは変化しない」という意味で用います。まず、RSSが割り当てステップによって減少することを示します。これは、各ベクトルはもっとも近い重心に割り当てられるため、その距離が影響するRSSは減少します。次に再計算ステップでも減少することを証明します。まずRSSkを最小とするベクトルを見つけます。 (16.8) (16.9) x_m, v_mはm番めの各ベクトルの要素です。最小値では微分係数は0になるので次を得ます。 (16.10) これは重心の定義でもあります。よって前の重心から、新しい重心に移ることでRSSkは減少します。RSSkの合計であるRSSも再計算ステップで減少します。

(15)

クラスタリングの組み合わせは有限個しかないので、単調減少な関数は最終的にローカルなかもしれませんが最小値に到達します。しかし複数の等距離の重心がある時にドキュメントをクラスタに割り当てる場合に気をつけなければいけません。さもないと、このアルゴリズムはコストの同じクラスタリングをずっと繰り返すことになります。これによりK-meansの収束性が証明されます。しかし、残念ながら目的関数がグローバルな最小値になることは保証されません。これは、他のドキュメントと非常にかけ離れており、どのクラスタにもうまくマッチしないという、外れ値(outlier)が多数ドキュメント集合に含まれている場合に問題となります。しばしば、この外れ値をシードとして選んでしまうと、以降の繰り返しで他のベクトルがそのクラスタに割り当てられなくなってしまうことがあります。そのため、他にもより小さいRSSとなる可能性があるにもかかわらず、結局1つのドキュメントしか含まれないクラスタ、シングルトンクラスタ(singleton cluster)になってしまいます。図16.7は悪い初期値を選んでしまうと最適でないクラスタリングになってしまう例です。 図16.7 K-meansによるクラスタリングの結果は、初期シードに依存する。d2とd5では、K-means は、{{d1,d2,d3}, {d4,d5,d6}}という局所最適となる。d2とd3では、{{d1,d2,d4,d5}, {d3,d6}}という K=2における全体最適となる。 もう一つのよく出る最適でないクラスタリングの例としては、空のクラスタがあります (exercise 16.11)。シード選択の効率的な方法は、(i)シードセットから外れ値を取り除く(ii)複数のシードについて試してみて、その中でもっともコストが低かったものを選ぶ(iii)階層クラスタリングなどの他の方法でシードを得る、などがあります。決定的階層的クラスタリングは、k-meansより予測可能であるため、サイズがクラスタ数Kのi倍であるiK(例えばi=5やi=10)程度の小さなランダムに選んだサンプルによる階層的クラスタリングによりよいシードが得られます(詳しくは17章366ページのBuckshotアルゴリズム)。他の初期化の方法は、シードをクラスタ対象のベクトルから選ばない方法です。様々なドキュメント集合に対してよく動く頑健な方法はランダムにi個(例えばi=10)のベクトルを選び、その重心をシードとする方法です。16.6節でより洗練された初期化法を紹介します。

(16)

K-meansの時間計算量はどの程度でしょう?計算時間の大部分は、ベクトル間の距離を計算するのに使われます。よってこの操作のコストはθ(M)です。よって再割り当ての計算量はθ(KNM)となります。再計算ステップでは、各ベクトルが重心計算に一度使われるため、このステップの時間計算量はθ(NM)となります。これをある一定回数I回繰り返すため、合計の時間計算量はθ(IKNM)となります。よって、K-meansはその要素である繰り返し回数、クラスタ数、ベクトル数、空間の次元数のすべてに対して線形となります。これは17章の階層的クラスタリングより効率的であることを意味します。ここでは固定の繰り返し回数Iという、実際には若干注意しなければならない値を使っています。しかし多くの場合、K-meansはすぐに完全な収束、またはそれに近い状態となります。後者の場合でも、各繰り返しで少数のドキュメントが入れ替えられるだけでになるため、この場合にI 回で繰り返しを終えても、クラスタリングの質にほとんど影響を与えません。以降の議論で微妙な点が一点あるります。線形なアルゴリズムとは言っても、Θ(...)の中身が大きくなれば遅くなり、また次元数Mは通常大きくなります。ここで高次元の2つのドキュメント間の距離を測るのは問題とはなりません。これらのベクトルはスパースなので、Mのうち一部しか距離の計算に用いられないためです。しかし、重心はスパースではありません。これは集合に含まれるドキュメントのすべての要素を集めているためです。その結果、K-meansのナイーブな実装では距離計算で時間を消費します。しかし、この重心-ドキュメント間の類似度をドキュメント-ドキュメント間の類似度を計算するのと同じくらい早く計算する方法があります。この方法では、最も重要なk単語(たとえばk=1000) だけ考えますが、それでもクラスタの質はほとんど低下せず、高速な割り当てが行えます (詳しくは16.6のリファレンス)。同様に効率性の問題は、クラスタの重心ではなく、medoidを計算するK-meansの変形である、K-medoidによっても対処できます。ここでmedoidとは、重心に最も近いドキュメントとします。そのため、medoidは結局スパースなドキュメントベクトルであるため、距離計算を素早く行えます。

16.4.1 Cluster cardinality in K-means

16.2節で、クラスタ数Kはフラットクラスタリング一つの入力であると述べました。もし、妥当なKの値を知らない場合、どうすればよいのでしょう？もっともナイーブなアプローチは、目的関数そのものを使って、Kの最適な値を選ぶ方法であります。RSSmin(k)をKクラスタの時の全クラスタでのRSSの最小値とし、RSSmin (k)がKによって単調に減少することを示します(exercise16.13)。これは最終的にはk=N(N はドキュメント数)のときに0となります。結局、最後はドキュメントは自分自身のみを含

(17)

むクラスタとなります。明らかにこれは求める最適なクラスタではありません。この問題を解決する方法は、以下のようにRSSmin(k)を推測することです。まず、Kクラスタのクラスタリングをi回行い(それぞれシードを変える)、各RSSを計算します。これにより、i個のRSS値のうちの最小値を得ます。この最小値をRSSmin(k)とします。その後クラスタ数 Kの値を増やして、RSSmin(k)を計算し、曲線の「ひざ」となるRSSの減少値が著しく小さくなった点を見つけます。図16.8では、わずかに傾斜が平らになったk=4と明らかに平らなk=9の2点が存在します。この方法では最適値が1つになるとは限りません。そのため、可能なK(この場合4と9)の中から最適値を選ぶためにはほかの指標が必要となります。 図16.8 K-meansのクラスタ数の関数としてのRSSminの見積り。1203個のReuters-RCV1文書のク ラスタリングでは、RSSminの線がフラットになる箇所が4クラスタと9クラスタの2つある。文書 はChina, Germany, Russia, Sportsのカテゴリから選ばれ、K=4クラスタリングはReutersクラシ フィケーションに最も近付く 2つめのクラスタ数を評価する方法は、新しいクラスタに対してペナルティを与える方法、すべてのドキュメントが含まれる一つのクラスタから始めたとして、Kを順に増やしていくことにより最適なクラスタ数を探す方法です。この方法でクラスタ数を決定するためには、以下の2つの要素をあわせた一般化された目的関数が必要となります。それはクラスタのプロトタイプからドキュメントがどれだけ離れているかという乖離度(distortion) (K-meansの場合はRSS)と、モデルの複雑度(model complexity)です。ここではクラスタリングをデータのモデルとして考えます。クラスタリングにおけるモデルの複雑度はクラスタ数、もしくはそれに関する関数となります。K-meansの場合は、以下のようなKの選択関数を導入します。 (16.11)

(18)

ここでλは重み関数です。大きなλを選択すると、クラスタ数は少なくなります。λ=0の場合はクラスタに対してなんのペナルティも与えず、K=Nが最適な解となります。式(16.11)の難しさは、λを決定しなければならないことです。ただ、以前の2乗の式を見ての通り、Kを直接決定するのよりかは簡単です。場合によっては、過去の類似のデータセットを用いて良いλを選択することができます。たとえば、定期的にニュース記事からニュースのクラスタを作成する場合、以降も正しいKを与えてくれる決まったあるλの値があることが多くなります。しかし、今回の適用例の場合、Kが変化するため過去の経験に基づいてKを決めることはできません。 (16.11)の理論的な正しさは、赤池情報量またはAICと呼ばれる乖離度とモデルの複雑性のトレードオフを表す情報学的な指標があります。AICの一般的な形式は次のようになります。 (16.12) ここではKクラスタでのデータの最尤推定量のログのマイナスの値-L(K)が乖離度の指標で、Kクラスタでのモデルのパラメタ数q(K)がモデルの複雑度になる。データの良いモデルの最初の指標は各データがモデルによりよく表されていることである。これが乖離度の目的です。しかしモデルは小さくあるべき(つまりモデルの複雑度は小さくあるべき)で、データを表現できていないモデル(つまり複雑度がゼロ)は意味がありません。AICはモデル選択の時に乖離度とモデルの複雑度の2つを重み付けされた指標にする理論的正当性を与えています。 K-meansではAICを用いて以下のように書けます。 (16.13) 式(16.13)は式(16.11)でλ=2Mとした特別な場合です。式(16.12)からしき(16.13)を導出するためには、K-meansではK個の各要素がそれぞれ独立に動く値であるため、q(k)=KMであり、また厳密な割り当てでモデルがクラスタの事前確率に等しく、球形の共分散行列となるガウシアンモデルにしたがうならL(k)=-(1/2)RSSであることに注意しなければならない(exercise 16.16)。 AICの導出はいくつかの仮定の上に成り立っています。たとえば、そのデータは独立でありさらに分散している必要があります。この仮定は情報検索のデータセットではほんの一部の場合でしか正しくありません。結果、AICはテキストクラスタリングでは調整なしに

(19)

はほとんど適用できません。図16.8ではベクトル空間の次元はM=50000となっています。これは2MK > 50000はRSSの小さい単語(RSSmin(1) < 5000、この図では示していない)が支配的で、式の最小値はK=1の時であります。しかし、K=4のとき(特に4つのクラスが China, Germany, Russia, Suports)のときK=1の選択より良いことを知っています。実際、 λの推測をする必要があることに注意すれば、式(16.11)は式(16.13)より便利です。

16.5 Model-based clustering

この章では、K-meansの一般化であるEMアルゴリズムを紹介します。このアルゴリズムはK-meansより多くの種類のドキュメントに適用できます。 K-meansでは、集合を代表するような重心を探しました。K個の重心はそれぞれデータを生成するモデルとも考えられます。このモデルでは最初にランダムに1つの重心を選び、その後適当にノイズを加えていると見ることができます。この時ノイズが正規分布であると、クラスタの形は球状になります。model-based clusteringではデータはモデルに従って生成されると仮定し、そのデータから元のモデルを再現しようと試みます。データから再現しようとしているモデルはクラスタと各クラスタへのドキュメントの割り当てで定義されます。モデルのパラメータを推測するためによく使われる指標は、最大尤度です。K-meansでは exp(-RSS)の値がデータから生成された特定のモデル(つまり重心の集合)の尤度に比例していると考えられます。K-meansでは最大尤度と最小のRSSは同じ指標です。このモデルのパラメータをΘで表します。K-meansではΘ={μ1,...,μk}です。より一般的には、最大尤度による指標はデータDから生成される尤度のログを最大化させるパラメータΘを選択することです。 L(D|Θ)はクラスタリングの良さを測定する目的関数です。同数のクラスタ数の2つのクラスタリングが与えられたとき、L(D|Θ)が大きい方を選びます。これは12章(218ページ)での言語モデルや13.1節(245ページ)のテキストクラシフィケーションに対して取ったアプローチと同じです。テキストクラシフィケーションでは、特定のドキュメントを生成する尤度を最大化するクラスを選びました。ここでは、与えられたドキュメント集合を生成する尤度が最大となるクラスタリングΘを選びます。一度Θを選んだら、各ドキュメントークラスタのペアに対してその割り当てられる確率P(d|ωk;Θ)を計算できます。

(20)

緩い割り当ての例では、Chinese carsはそれぞれの要素を含んでいることを反映して、 Chinaとautomobilesの2つのクラスタに対してそれぞれ0.5ずつ割り当てられます。k-meansのようなハードクラスタリングでは、2つのトピックに対して同時に関連している様なモデルを作れません。モデルに基づくクラスタリングでは、ある領域の知識を組み込むフレームワークを提供します。K-meansと17章の階層的アルゴリズムでは、データに対して厳密な仮定を必要とします。たとえば、K-meansによるクラスタリングでは、球状になることを仮定しています。モデルに基づくクラスタリングはもっと柔軟性があります。クラスタリングのモデルはデータの分散を知っている場合でも適用できる、ベルヌーイ(表16.3の例に含まれる)や球状に分散していないガウシアン(ドキュメントクラスタリングで重要となるもう一つのモデル)を含むそのほかの種類でも適用できます。モデルに基づくクラスタリングでよく使われるアルゴリズムはexpectation maximizeation algorithmもしくはEMアルゴリズムと呼ばれるアルゴリズムです。EMクラスタリングはL (D|Θ)を最大化させる繰り返しのアルゴリズムです。EMは様々な確率モデルに対して適用できます。ここでは11.3節(204ページ)や13.3節(243ページ)で見た分散である、多変数のベルヌーイ分散において使ったとして話します。 (16.14) ここでΘ={Θ1,...,Θk}、Θk=(αk,q1k,...,qMk)とし、qmk=P(Um=1|ωk)はモデルのパラメータです。P(Uk=1|ωk)はクラスタkのあるドキュメントが単語tmを含んでいる確率です。確率 αkはクラスタωkの事前確率です、これはdについて何の情報も持っていないときにドキュメントdがωkに含まれる確率です。よってこの混合モデルは次のようになります。 (16.15) このモデルでは、確率αkのクラスタωkをまず選び、パラメータqmkのドキュメントの単語を生成するドキュメントを生成します。多変数ベルヌーイのドキュメントの代表はM個のブール値を持つベクトル(実際の値を持つベクトルではなく)であることを思い出してください。

(21)

データからクラスタリングのパラメータを推測するために、EMをどのように使うのでしょう。これはL(D|Θ)を最大化させるパラメータΘを以下に選択するのかというこです。 EMとk-meansは予測ステップ(exception step)が再割り当てに対応し、最大化ステップ (maxmization step)がパラメータの再計算に対応していて類似しています。k-meansのパラメータは重心ですが、本節でのEMのインスタンスのパラメータはαkとqmkです。最大化ステップではqmと事前確率αkは以下のように再計算されます。 (16.16) ここでI(tm in dn)はtmがdnに含まれていれば1そうでなければ0で、rnkは以下の繰り返しで計算されるドキュメントdnがクラスタkに割り当てられる値です(この初期化の問題はすぐあとで述べます)。ここでは、部分的にクラスタに割り当てられたドキュメントを除いた、表13.3(248ページ)から計算した多変数のベルヌーイのパラメータを推測する最大尤度があります。この最尤推定量はモデルから得られるデータの尤度を最大化します。予測ステップでは現在のパラメータqmkとαkが与えられたときのクラスタへのドキュメントのソフトな割り当てを計算します。 (16.17) この予測ステップでは式(16.14)と式(16.15)をドキュメントdnからωkを作る尤度を計算するために使います。これは表13.3の多変数ベルヌーイでのクラスタリングの手順です。よって、この予測ステップはベルヌーイナイーブベイズクラシフィケーションとの違いはありません(標準化も含む、つまり分母で割り、クラスタ間の分散の確率を得ます)。 11ドキュメントを表16.3のようにEMを用いて2つのクラスタにクラスタしました。25回繰り返した収束後、最初の5ドキュメントはクラスタ1に割り当てられ(ri1=1.00)、最後の6ドキュメントはクラスタ2に割り当てられます(ri1=0.00)。ここでは、最後の割り当てはハード割り当てになりました。EMは通常ソフトな割り当てに収束します。25回目の繰り返しの後、クラスタ1に対する事前確率α1はクラスタ1に11ドキュメントのうち5つが割り当てられたので、5/11=0.45となります。ある単語は最初の割り当てが明らかに偏っていたため一つのクラスタにすぐ割り当てられました。たとえば、クラスタ2の要素は最初の繰り返しでは、sugarという単語を共有しているため、ドキュメント7とドキュメント8に偏っていました(最初の繰り返しではr81=0)。不明確なコンテキストで現れる単語のパラメータ

(22)

に対して、収束には非常に時間がかかります。シードとなるドキュメント6と7は両方とも sweetという単語を含んでいました。結果。クラスタ2に明らかに割り当てられるまでに 25回の繰り返しを必要としました(25回目の繰り返しでqsweet,1=0)。良いシードを見つけることはK-meansよりEMにとってクリティカルな問題です。EMはシードをよく選ばないと、ローカルな最適値に行き着きやすくなります。これはほかの EMの適用例でも現れる一般的な問題です。しかし、K-meansのように、最初のクラスタへのドキュメントの割り当てをほかのアルゴリズムで計算します。たとえば、ハードクラスタリングであるK-meansで初期値を計算して、EMでソフトにします。 表16.3 EMクラスタリングアルゴリズム。表は文書の集合(a)とEMクラスタリングにおける繰り返 しのためのパラメータ(b)を示す。