• 検索結果がありません。

多文書間の共通性分析による文書クラスタリング

N/A
N/A
Protected

Academic year: 2021

シェア "多文書間の共通性分析による文書クラスタリング"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)自 然 言 語 処 理 154−14 (2003. 3. 7). 多文書間の共通性分析による文書クラスタリング 川谷隆彦 日本ヒューレット・パッカード㈱. ヒューレット・パッカード研究所. [email protected] 本報告では、多文書間の共通性分析による非階層的な文書クラスタリング法を提案する。文書ク ラスタリングでは同じトピックを述べた文書がグループ化される。従って、同じクラスターに属 する文書群には何らかの共通性があるはずである。また、各トピックにはトピック特有の単語や 単語対が存在する。提案手法はこれらの点に着目し、各文書の着目クラスターへの近さを求める ときに、着目クラスターに特有でない単語や単語対の影響を排除しつつ着目クラスターの共通情 報を用いるようにする。TDT2 のコーパスを用いた実験により、適切な数のクラスターが求めら れること、各文書が高い精度でクラスタリングされることを確認した。. Document Clustering via Commonality Analysis of Multiple Documents Takahiko KAWATANI Hewlett-Packard Labs Japan, Hewlett-Packard Japan [email protected] This paper proposes a non-hierarchical clustering method through multi-document commonality analysis. In document clustering, documents with the same topic are grouped so that document in a cluster should have some commonalities. Furthermore, each topic has its own specific terms or term pairs. Based on these points, the proposed method obtains closeness of a given document to a cluster by matching the given document with common information among the documents in the cluster avoiding impacts from non-specific term and term-pairs of the cluster. Through experiments using TDT2 as corpus, it was confirmed that a proper number of clusters were obtained and that clustering accuracy is significantly high. 1. まえがき 文書クラスタリングはテキスト処理における重 要な技術のひとつであり、情報検索、文書要約、 TDT(Topic Detection and Tracking)などに応用され ている。クラスタリング技術そのものについては これまでに様々な方法が提案されている[1][2]。ク ラスタリングは、各文書が各クラスターに帰属す る確率を求めるソフトタイプ、各クラスターに帰 属するか否かを求めるハードタイプに大別される が、本報告では後者について議論する。後者は、 さらに、階層的な手法と非階層的な手法とに分類 される。前者には大きなクラスターの分割が繰り 返されるトップダウンと、小さなクラスターのマ ージが繰り返されるボトムアップのアプローチが. ある。これらでは、クラスター間の類似度を図る 方法として単一リンク法、完全リンク法、グルー プ平均法が知られている。非階層的な手法として は、K-means 法、Gaussian Mixture Model (GMM) 法 などある。また、TDT におけるトピック検出では 時系列的に入力されるニュースストーリーから新 しいトピックを述べたものを種として検出し、そ れ以後入力されるニュースストーリーから種に近 いものを検出してグループ化するというクラスタ リングが行われている[3]。 ところで、 文書クラスタリングは各文書が記述す るトピックによって文書をグループ化するもので あるから、ひとつのクラスターに属する文書(ク ラスター文書集合と呼ぶ)は同じトピックについ. 1 −93−.

(2) て述べている筈である。従って、クラスター文書 集合は何らかの共通性を有する筈である。また、 各トピックにはトピック特有の単語や単語対が存 在する筈であり、各クラスターには単語や単語対 の出現傾向に違いが存在する筈である。このよう なことから、クラスタリングの過程で、 • 着目クラスター文書集合の共通情報を抽出 し、この共通情報との近さにより各文書の着 目クラスターに対する近さを表す。 • 上記においては、着目クラスターに特有でな い単語や単語対の影響を排除する。 ような処理を行うことにより性能の向上が期待で きる。また、各クラスター文書集合の共通情報の 抽出結果はクラスター処理の結果を用いる際に有 用な情報となるものと考えられる。本報告で目指 すクラスタリングはこのようなものである。翻っ て従来のクラスタリング法を見てみると、階層的 なクラスタリング処理では、多くの場合 2 文書間 の余弦類似度を基にクラスター間の類似度を求め、 マージや分割を決定しているため、クラスターの 共通情報を算出する余地はなかった。また、非階 層的な手法において代表的な k-means 法では、ク ラスターの中心ベクトルと着目文書ベクトルとの マハラノビス距離が用いられ、やはりクラスター の共通情報が用いられることはなかった。また、 これらの手法では各クラスターに特有でない単語 や単語対の影響を排除しないまま余弦類似度やマ ハラノビス距離が求められていたため、クラスタ ーに本質的でない単語や単語対の存在がクラスタ リング結果に影響を及ぼし得た。Liu らは、非階 層的な手法によるクラスタリング処理を行ったの ち各クラスターに特有な単語を求め、特有単語の 投票によりクラスタリングの結果をリファインす るという処理を行って、精度を向上させることに 成功している[4]。この方法は、各クラスターに特 有でない単語の影響の排除という点で提案手法と 共通しているが、提案手法ではクラスタリングの 過程でこの処理を行う点が異なっている。 このようなクラスタリング法の実現に際し、 大き な問題が2つ存在する。ひとつは文書集合の共通 性分析の方法であるが、これについては前報[5]で 述べた方法を踏襲したうえで、文書数が多いとき に発生する問題に対して対策を講ずる。二つ目は クラスタリングにどのようなアプローチを採用す るかの問題である。階層的な処理では、クラスタ ーのマージや分割が頻繁に繰り返される。また、 非階層的な処理では、クラスターのメンバーがや. はり頻繁に入れ替わる。このような状況では各ク ラスターの共通情報、クラスターに非特有な単語 や単語対の検出には無理がある。そこで、先ずク ラスターの種となる文書をひとつ取り出し、つい でその種と同じトピックを記述する文書を検出し て種を成長させるというアプローチを取ることと する。 これは種を成長させるという点で TDT にお けるトピック検出と共通性があるが、ここではト ピック検出が目的でないので文書入力の時系列性 は考慮しない。 以下、2.では、前報で提案した多文書間の共通性 分析法の概要を紹介する。3.では文書数が非常に 多い場合にも対応できるよう上記共通性分析法の 改善を図る。4.では、各クラスターに特有でない 単語や単語対の検出法も含め、新しいクラスタリ ング法の提案を行う。5.では、コーパスとして TDT2 を用いたときの実験結果を報告する。 2. 共通性分析法の概要 2.1 目的とアプローチ 共通性分析の目的は次の 2 点にある。 A) 与えられた文書集合における各文書の話題 がどの程度共通しているか数値で示す。 B) 文書集合の共通の話題への近さに応じて各 文書、または各文にスコア−を与える。 また、アプローチは以下のとおりである。いま、 R 個の文書から成る文書集合 D を考え、各文書か ら一つづつ文を取り出して R 個の文からなる文の 組を作ったとする。このような文の組は各文書の 文の数の積通り存在することになる。 本報告では、 着目する文の組において、R 個の文のうちの A 個 の文に現れる単語を共通単語と呼ぶこととする。 厳密に云えば全ての文に現れる文を共通単語と呼 ぶべきであるが、R が大きい時にはたとえ文書集 合Dが同じ話題を述べていたにしても共通単語は 現れないこともありうるのでこのような定義を採 用する。このような共通単語を各組で求め、その 和もしくは 2 乗和を求めたとすると、その値は各 文書が共通に有する情報量に応じていると考えら れる。そこでこれらの値を、文書数や各文書のサ イズで正規化して、各文書の話題がどの程度共通 しているかの尺度とする。この尺度を文書集合共 通度と呼ぶこととする。 また、 ある文の組における共通単語で構成された 文を共通文と呼ぶこととする。ここで、全ての文 の組で共通文を作り、共通文の集合を構成したと する。このような共通文の集合は文書集合の共通 の話題の内容を示すものと考えられる。従って、. 2 −94−.

(3) 各文書、もしくは文と共通文集合との間で何らか の手段で類似度を求めることができれば、それは 各文書、または各文の共通話題への近さを表わす ものと考えられる。これらが本報告の基本的な考 え方である。 2.2 文書、及び共通文集合の共起行列 現れる単語集合が{w1,…,wM}で与えられる文 書集合 D を考える。D は R 個の文書から成るもの とし、r 番目の文書を Dr とする。さらに、Dr は Yr 個の文からなるものとし、y 番目の文及びその文 ベクトルを Dry、 dry=(dry1,.., dryM)T で表す。ここで、 T は転置を表す。dry はバイナリベクトルであり、 drym は m 番目の単語の有無を表す。 次に、次式で定義される行列 S r を考える。 S r = ∑Yyr=1 d ry d ry T. (1). 式 (1) か ら 分 か る よ う に 、 Sr の mn 成 分 は S r mn = ∑Yyr=1 d rym d ryn により与えられる。従って、. S rmm は文書 Dr において単語 m が生起する文の数、 S rmn は単語 m と n とが共起する文の数を表すこと になる。そこで、行列 S r を文書 Dr の生起・共起 行列、または簡単に共起行列と呼ぶこととする。 共起行列には次のような性質がある。ここでは 同じ単語は同じ文で 2 回以上現れないものとする。 (1) S r の対角成分の和は文書 Dr に現れる単語の 総数に等しく、従って、各文に現れる単語数 の和とも等しくなる。 (2) S r の全成分の和は文書 Dr の各文に現れる単 語の数の 2 乗和に等しい。これは、文書 Dr の文 y における単語数を fry とすると、下記に より示される。 2 2 ∑Yyr=1 f ry = ∑Yyr=1 (d ry1 + ⋅ ⋅ + d ryM ) M M = ∑Yyr=1 ∑ m =1 ∑ n =1 d rym d ryn. (2). r M M = ∑m =1 ∑ n =1 S mn. 次に、共通文集合の共起行列を求める。簡単な例 として 3 文書 D1、D2、D3で A=3 とした場合を考 えてみる。D1、D2、D3のそれぞれの i、j、k 番目 のベクトル d1i、d2j、d3k の共通文ベクトルを cijk =(cijkm)で表すと、cijkm は (3) cijkm= d1imd2jmd3km により表わすことができる。共起行列を SC とする と、その mn 成分は. S C mn = ∑Yi=1 1 ∑Yj2=1 ∑Yk3=1 c ijk m c ijk n = ∑Yi=1 1 ∑Yj2=1 ∑Yk3=1 d1im d1in d 2 jm d 2 jn d 3km d 3kn (4) = S 1mn S 2 mn S 3 mn. となり、文書 D1、D2、D3の共起行列の対応する 成分同士の積として求められる。これは文書の数 とは無関係に成り立ち、文書数が R の場合は S C mn = ∏ rR=1 S r mn. (5). で与えられる。結局、共通文ベクトル集合の共起 行列は共通文ベクトルを実際に求めることなく得 ることができる。 また、R個の文のうちのA個の文に現れる単語を 共通単語とする場合の共起行列TAは次のように 求められる行列T、Uを用いて定義する。式(5)では 各文書の共起行列の同じ成分の積が求められたが、 行列Tの各成分は同じ成分の値がゼロでない成分 の間で積を求めるようにする。つまり、S rmnが0 の場合はその値を一時的に1としたうえで式(5)が 用いられる。但し、全てのSrmnが0の場合はT A mn は0とする。従って、各単語、単語共起が文書集合 Dに必ず現れる限り、行列Tの対応する成分は0以 外の値をとる。また、Uは各単語、単語共起の文 書頻度を格納した行列である。即ち、Umm、Umn はそれぞれ単語mの出現する文書数、単語m、nの 共起する文書数となる。行列TAはAを閾値として 以下のように決定される。 T A mn= T mn, if U mn ≥ A, otherwise. (6) T A mn= 0 これにより A 文書以上で生起した単語、共起した 単語対が選択されたことになり、TA はそれらに対 応する成分のみが値を有し得る。TA mm は単語 m の 出現する共通文の数、TA mn は単語 m、n の共起す る共通文の数となる。 2.3 文書集合共通度 行列 TA も共起行列である以上、文書の共起行列 と同じ性格を持つ。従って、行列 TA の対角成分の 総和は全共通文の共通単語数の総和と等しくなり、 行列 TA の全成分の総和は各共通文の共通単語数 の全共通文に対する 2 乗和となる。従って、これ らの値は各文書が共通に有する情報量(共通情報 量)となるので、2.1 で述べたように文書数や各文 書のサイズで正規化して文書集合共通度を定義す る。共通単語数の総和をベースとする場合を線形 モデル、共通単語数の 2 乗和をベースとする場合 を 2 次モデルと呼び、文書集合共通度をそれぞれ. 3 −95−.

(4) coml(D;T A)、comq(D;T A)と表すと、これらは  M TA ∑m mm =1 coml ( D; T A ) =  R R M r R  ∏ r =1 ∑ m =1 ( S mm ).    . 対象とする文書を P として、P が文書集合 D の共 通の話題にどれだけ近いかを示す尺度として、文 書共通度を定義する。文書共通度は着目文書と共 通文集合との類似度として式(9)(10)をもとに以下 のように定義することができる。但し、SP は文書 P の共起行列である。. 1 /( R −1).  A M M ∑m =1 ∑ n =1 T mn comq ( D; T ) =  R R M r R M  ∏ r =1 ∑ m =1 ∑ n =1 ( S mn ) A. (7)    . 1 /( R −1). (8). のように定義することができる。正規化のポイン トは、全文書が同一で A=R の場合の共通度は 1 に なるようにしたこと、及び、R 文書のときは R-1 回の文書の突合わせが行われるので R-1 乗根を求 めるようにしたことにある。 次に、文書数が 2(R=2)の場合を考えると、2 文書 の文書集合共通度は文書間の類似度と見なすこと ができる。式(7)、(8)で A= R=2 とすると、これら は coml ( D; T R ) =. comq ( D; T R ) =. M S ∑m =1 M S ∑m =1. 1 2 mm S mm. 1 mm. M S ∑m =1. (9) 2. M M ∑m =1 ∑ n =1 S 1 2 M M ∑m =1 ∑ n =1 ( S mn ). mm. 1 2 mn S mn. (10). 2 2 M M ∑m =1 ∑ n =1 ( S mn ). と書くことができる。 2.1 で述べたように、 各文書の共起行列の対角成 分は対応する単語を含む文の数を表す。従って、 同じ単語が同じ文に 2 回以上現れないと仮定する と、式(9)で与えられる 2 文書の線形モデルでの文 書集合共通度は文書内の単語頻度を成分とする文 書ベクトルの余弦類似度と全く同じとなる。 また、式(10)は 2 文書間の類似度はそれぞれの 文書の共起行列の対応する成分同士の積和をもと に与えられることを示している。この場合、2 つ の文書の類似度が高いためには、2 つの文書の間 で単語の出現傾向だけではなく、単語共起の傾向 まで似ている必要がある。2 つの文 D1i, D2j, の共 通単語数は d1iTd2j と表すことが出来るので、共通 単語数の 2 乗和は ∑Yi=1 1 ∑Yj2=1 (d1iT d 2 j )2 によっても表 される。従って、式(10)は comq ( D; T R ) =. coml ( D, P; T A ) =. comq ( D, P; T A ) =. M T ∑m =1. A. A. 2. M (T ∑m =1. mm ). P mm S mm M (S ∑m =1. M M ∑m =1 ∑ n =1 T M M ∑m =1 ∑ n =1 (T. A. mn ). 2. A. (12) P. mn ). 2. P mn S mn. M M ∑m =1 ∑ n =1 ( S. P. mn ). 2. (13) 3. 文書集合共通度、文書共通度の改善 前報でも述べているが、文書数が多く、特定の 単語が各文書で非常に高い頻度で現れる場合には その単語のみで文書集合共通度、文書共通度がほ ぼ決まってしまうという問題が発生する。 例えば、 10 文書の場合、単語 1 の頻度が最も高く各文書で 3 つの文に、単語 2 が 2 番目に頻度が高く 2 つの 文に現れたとする。行列 T の単語 1 に対応する対 角成分は 310=19683、単語 2 に対応する対角成分 は 210=1024 となり、単語 1 の文書集合共通度、 文書共通度に対する寄与が圧倒的に大きくなって しまう。このような状況を阻止するためには、高 頻度単語の情報共通量への寄与を抑えるようにす ればよい。そこで、行列 QA を if TAmn>1 QAmn= log(TAmn) =0 otherwise (14) により定義し、情報共通量への寄与を QAmn で与え ることとする。その結果、式(7)、(8)に対応する文 書集合共通度は、全文書が同一で A=R の場合は 1 になるようにすることにより、  M QA ∑m mm =1 coml ( D; Q A ) =  R R M r R  ∏ r =1 ∑ m =1 log(S mm ).    . (15).  A M M ∑m =1 ∑ n =1 Q mn comq ( D; Q A ) =  R R M r R M  ∏ r =1 ∑ m =1 ∑ n =1 log(S mn ).    . (16). で定義される。また、式(11)、(12)に対応する文書 共通度は. T 2 ∑Yi=1 1 ∑Yj2=1 (d1i d 2 j ) T T 2 2 ∑Yi=1 1 ∑Yj1=1 (d1i d1 j ) ∑Yi=21 ∑Yj2=1 (d 2i d 2 j ). A. (11) と表すこともできる。式(11)から対象となる文書 間の全ての文ベクトルの組み合わせから求められ る内積の 2 乗和をベースにしていることが分かる。 2.5 文書共通度. coml ( D, P; Q A ) =. P. M Q ∑m mm S mm =1 A. M (Q ∑m mm ) =1. 2. A. comq ( D, P; Q A ) =. 4 −96−. (17) P. M (S ∑m mn ) =1. 2. P. M M ∑m =1 ∑ n =1 Q mn S mn A. M M ∑m =1 ∑ n =1 (Q mn ). 2. P. M M ∑m =1 ∑ n =1 ( S mn ). 2.

(5) (18) により与えられる。 4. クラスタリングの方法 本章では、 (a)各文書は必ずどれかひとつのクラスターに属 する。 (b)入力文書集合は複数のトピックを含んでおり、 各トピックには、出現頻度が着目トピックでは高 く他のトピックでは非常に低い単語、単語対(ト ピック特有単語、単語対と呼ぶ)が存在する。 ことを前提にクラスタリング法を提案する。 4.1 手順の概略 処理の流れの概略は以下の通りである。 ステップ1:クラスターの種の候補となる文書を 検出する。 ステップ 2:先ず、クラスターの種の候補文書と 全文書との類似度(式(9)もしくは式(10))を求め、 一定値以上の類似度を有する文書を抽出する。そ の文書数が最も大きくなる文書をクラスターの種 とし、 その文書集合によりクラスターを形成する。 ステップ 3:その時点でのクラスター文書集合と 全文書との間で文書共通度を求め、一定値以上の 文書共通度を有する文書をそのクラスターに仮に 帰属させることによりクラスターを成長させる。 クラスターに仮に属する文書数が一定になればス テップ 4 へ。 そうでなければ本ステップを繰返す。 ステップ 4:終了条件(後述)を満たせばステッ プ5へ。 そうでなければステップ1に戻って続行。 ステップ 5:各文書について各クラスターへの文 書共通度を求め、文書共通度の最も高くなるクラ スターに帰属させる。 ステップ 6:1 つのトピックに 2 つ以上のクラス ターが対応していないかどうかを検出。そのよう なクラスターがあれば冗長なクラスターとして削 除し、 各文書の帰属するクラスターを求めなおす。 4.2 手法の詳細 4.2.1 クラスターの種となる文書の検出 クラスターの種となる文書はどのトピックの文 書が選ばれようと、そのトピックの中では中心的 な文書であることが望ましい。最初の検出では入 力文書集合を用いて、2 回目以降の繰り返しの時 には仮決定結果でどのクラスターにも属さない文 書の集合を用いて、行列 T、U を求める。次に、A を適当に決め、行列 T、U を求めた文書集合中の 文書 P に対して、入力文書集合との共通情報量を A r M M coms ( D, P) = ∑ m =1 ∑ n =1 Q mn S mn. (19). 5 −97−. により求める。式(19)を最大にする文書は入力文 書集合全体の中心に近いはずであるが、もし、異 なるトピックには異なる単語が出現するのであれ ば、その文書と同じトピックの文書集合の中でも 中心付近に位置するはずである。しかしながら、 複数のトピックに共通に現れる単語、単語対も存 在するので、選択される文書は文書集合全体の中 心の方向にずれる。しかし、単語に比べ単語対は 複数のトピックに共通に出現する頻度は少ないと 考えられるので、式(19)において行列 QA の非対角 成分のみを用いれば、トピックの中心からのずれ の少ない文書が選択されると考えられる。さらに この処理を確実にするため、式(19)の共通情報 量の大きい複数個(例えば 5 個)選択し、クラス ターの種の候補とする。 4.2.2 クラスターとの文書共通度の算出 クラスター文書集合と全文書との間での文書共 通度は式(17)もしくは(18)を用いて求められる。種 の文書がトピック i を述べている着目クラスター の成長の過程で、クラスター文書集合にはトピッ ク i について述べた文書ばかりではなく、その他 のトピックについて述べた文書も混入していると 考えられる。従って、その文書集合には (a)トピック i に特有な単語、単語対 (b)i 以外のトピックに特有な単語、単語対 (c)トピック i に特有でない単語、単語対、即ち複 数のトピックに共通に出現する単語、単語対 が現れうる。従って、トピック i について述べた 文書を精度高く選択するためには、文書共通度の 算出において(b)(c)に属する単語や単語対の影響 を排除することが重要となる。このうち(b)につい ては、式(17)もしくは(18)において A の値を適切に 選択することにより影響を排除することが可能と なる。また、(c)のトピック i に特有でない単語、 単語対についても後述の方法で検出して式(17)も しくは(18)に用いないようにする。単語 m、及び 単語対 m、 n がトピック i に特有でないと判断され た場合には、式(17)もしくは(18)において QAmm=0.0、 QAmn=0.0 とした。 4.2.3 終了条件 ステップ 4 における終了条件は次の通りである。 ひとつのクラスターの成長処理が終了した時点で、 それまでに求められた全クラスターとの文書共通 度を全文書について求め、全クラスターと文書共 通度がゼロとなる文書数を求める。もしそのよう な文書数がゼロになればステップ 5 の処理に移行 する。また、そのような文書数がゼロに近い値に.

(6) なった時には(例えば 4 以下) 、ステップ 1 からの 処理を一巡繰り返す。その処理の終了後、最後の クラスターも含め全クラスターとの文書共通度を 全文書について求め、最後のクラスターに対して のみ文書共通度が一定値より大きく、他の全クラ スターに対して文書集合度が一定値より小さくな る文書数を求める。もしそのような文書数が一定 値より少なければ(例えば 2) 、最後のクラスター の存在意義はないことになるのでこれを除去した うえでステップ 5 の処理に移行する。多ければこ のクラスターは残したうえで改めて終了条件を満 たすか否かを検証する。 4.2.4 冗長なクラスターの検出 ステップ 1 における 2 つ目以上のクラスターの 種の検出において、それまでに求められているク ラスターの種の文書と異なるトピックを述べてい る文書が常に選択される保証はない。同じトピッ クに対して複数の種文書が検出されれば冗長なク ラスターが生ずることになる。冗長クラスターの 検出のためには、先ず、各クラスターに対し、着 目クラスターに対してのみ文書共通度が一定値よ りも大きくなる文書数をクラスター重要度として 求める。クラスター重要度が一定値よりも小さい クラスターがひとつ存在する場合は、そのクラス ターに存在する文書の数がいくら多くとも冗長な クラスターとみなし、除去する。そのようなクラ スターが複数存在すれば、クラスター重要度が最 も小さいクラスターを先ず除去する。このような 処理を冗長なクラスターが存在しなくなるまで繰 り返す。 4.3 トピックに特有でない単語、単語対の検出法 種文書がトピック i の着目クラスターの成長の 過程を考える。U、Ui、U0 を入力文書集合全体、 入力文書集合におけるトピック i の文書、その時 点での着目クラスター文書集合から求められた文 書頻度行列とする。また、トピック i を述べてい る文書数は、文書集合全体には c0 個、着目クラス ター文書集合には c 個存在したとする。その時点 での着目クラスター文書集合ではトピック i の文 書が大多数を占めると仮定すると、単語 m、及び 単語 m、n の対がトピック i の特有単語、単語対の 時には、U 0 mm. ≈ U i mm. 、U 0 mn. ≈ U i mn. なので U 0 mm U mm > U i mm U mm ≈ c0 c U 0 mn U mn > U i mn U mn ≈ c0 c. となる筈である。従って、c0 /c を適当な方法で求 めることができれば単語 m、及び単語 m、n の対 がトピック i に特有が否かを判断することができ る。本報告では、クラスター文書集合における最 も頻度の高い単語 30 個のうち、U0mm/ U mm の値の 小さな 10 個はトピック i の特有単語とみなし、こ れらの単語の U0mm/ U mm の平均 C を c0 /c の推測値 とした。結局、αをパラメータとして U 0 mm U mm > αC U 0 mn U mn > αC. を満たす単語 m、及び単語対 m、n をトピック i には特有な単語ではないと判断するようにした。 αは後述の実験においては 1.2 に設定された。 5. 実験 5.1 実験データ 用いたコーパスは TDT2 である。TDT2 は 1998 年の 1 月から 6 月の間の 100 個のイベントに関す るニュースストーリーの集合であり、6 個のニュ ースソースから採取されている。本報告では同じ く TDT2 を用いて行われた Liu らの非階層型のク ラスタリング[4]の結果と比較するため、Liu らが 行ったように ABC、CNN、VOA から採取された 表1 実験データの概要 Event. なので、. No. of Documents. ID. Event Subject. 01. Asian Economic Crisis. 27. 90. 289. 406. 02. Monica Lewinsky Case. 102 497. 96. 695. 13. 1998 Winter Olympic. 21. 81. 108. 210. 15. Current Conflict with Iraq. 77. 438 345. 860. 18. Bombing AL Clinic. 9. 73. 5. 87. 23. Violence in Algeria. 1. 1. 60. 62. 32. Sgt. Gene McKinney. 6. 91. 3. 100. 39. India Parliamentary Election. 1. 1. 29. 31. 44. National Tobacco Settlement. 26. 163. 17. 206. 48. Jonesboro shooting. 13. 73. 15. 101 251. ABC CNN VOA Total. 70. India, A Nuclear Power?. 24. 98. 129. U 0 mm U mm ≈ U i mm U mm ≈ c 0 c. 71. Israeli-Palestinian Talks. 5. 62. 48. 115. U mn U mn ≈ U mn U mn ≈ c 0 c. 76. Anti-Suharto Violence. 13. 55. 114. 182. 77. Unabomer. 9. 66. 6. 81. 86. GM Strike. 14. 83. 24. 121. 0. i. となり、非特有の時にはU 0 mm. > U i mm. 、U 0 mn. > U i mn. 6 −98−.

(7) 15 イベントに関するニュースストーリーの集合 を実験対象とした。表 1 にそれらの詳細を示す。 5.2 実験条件 前処理としては、文切り出しの後、品詞付け、 lemmatizing を行い、ストップワード除去を行った。 クラスタリング処理には固有名詞を含む名詞、動 詞、形容詞に品詞付けされた単語を用いた。 クラスタリング処理においては、対象となる入 力文書集合の各単語の文書頻度を求め、出現頻度 が文書数の 1%以下の単語は棄却した。さらに、 全文書のステップ 2 における各クラスターの種と の類似度の算出、ステップ 3、5 におけるクラスタ ー文書集合との文書共通度の算出においては線形 モデルと 2 次モデルの両方を用い、結果を比較す ることとした。クラスターの種文書の共起行列や 行列 QA の非対角成分の値は対角成分のそれに比 べ通常は小さい。従って 2 次モデルを用いたにし ても対角成分が支配的になり非対角成分が有効に 働かないことが起こり得る。そこで、2 次モデル で類似度を算出するときは非対角成分の値を一定 倍(例えば 5 倍)して用いた。 また、クラスタリングの結果は精度で比較され た。ステップ 6 の結果を用いて、ある文書のイベ ントラベルとその文書が帰属するクラスターの種 となった文書のイベントラベルとが一致するとき クラスタリングの結果は正しいとされる。また、 全てのクラスターに対して文書共通度が 0 の文書 は誤りとする。精度は正しくクラスタリングされ た文書数の全文書数に対する比により求める。 5.3 実験結果 表 2 に実験に用いられた 14 種類の文書グルー プとそれに対する提案手法の結果、Liu らの結果 を示す。Liu らの方法は、混合ガウス分布モデル (Gaussian Mixture Model)に基づき非階層形のク ラスタリングを行った後、各クラスターの特有単 語を求め、特有単語の voting によって結果を修正 している。表 2 で示される voting 前の結果は非階 層形クラスタリングの典型的な結果を示している ものと考えられるが、voting によって著しく精度 が改善されていることが分かる。また、提案手法 に対しては、 ステップ3では2次モデルを採用し、 ステップ 5 で線形モデル(”linear”)と 2 次モデル (”quadratic”)を採用したときの結果を示してい る。この時、A の値はクラスター文書集合中の全 文書数の 10%としている。また、他のパラメータ についても値を変えながら実験を行って適切な値 を決めている。ステップ 3 における平均繰り返し. 7 −99−. 表2 実験結果 Liu's method. Proposed method. Test Data. before voting. after voting. linear. quadratic. 1 ABC-01-02-15. 0.9011. 1.0000. 0.9806. 0.9806. 2 ABC-02-15-44. 0.9659. 0.9902. 0.9805. 0.9951. 3 ABC-01-13-44-70. 0.7449. 1.0000. 1.0000. 1.0000. 4 ABC-01-44-48-70. 0.8000. 1.0000. 1.0000. 1.0000. 5 CNN-01-02-15. 0.9795. 0.9756. 0.9932. 0.9844. 6 CNN-02-15-44. 0.9927. 0.9964. 0.9964. 0.9863. 7 VOA-01-02-15. 0.8438. 0.9896. 0.9986. 1.0000. 8 VOA-01-13-76. 0.9479. 0.9583. 0.8943. 0.9043. 9 VOA-01-23-70-76. 0.9297. 0.9453. 0.9206. 0.9155. 10 VOA-12-39-48-71 0.8061 VOA-44-48-70-7111 76-77-86 0.7734. 0.9898. 1.0000. 1.0000. #. 0.8527. 1.0000. 0.9972. ABC+CNN-01-1312 18-32-48-70-7177-86 0.9633. 0.9704. 0.9917. 0.9905. CNN+VOA-01-1313 48-70-71-76-77-86 0.9431. 0.9262. 0.9500. 0.9545. ABC+CNN+VOA14 44-48-70-71-7677-86 0.8768. 0.9938. 1.0000. 0.9991. 数はクラスター当り 5.1 回であった。表から、精 度の高い文書グループの数は、Liu らの方法より も提案手法の方が多く、提案手法が優ることが分 かる。 また、ステップ 3 において線形モデルを採用した 実験においても表 2 とほぼ同等の結果が得られて いる。しかし、2 次モデルでは冗長クラスターは 発生しなかったのに対し、 線形モデルの場合には、 冗長クラスターが 2、 3 の文書グループで生じてお り、2 次モデルの方が安定な処理が期待できる。 6. 考察 (i)表 2 においてグループ 8、9、13 の精度が他に比 べて著しく低くなっている。 結果の観察によると、 誤ったニュースストーリーの殆どは、イベント "01"(アジア経済危機)の内のインドネシアの経 済危機について述べたニュースストーリーがイベ ント"76"(反スハルト暴動)のニュースストーリ ーを含むクラスター("76"の関連クラスターと呼 ぶ)に帰属するとされたものである。インドネシ ア反スハルト暴動はインドネシアの経済危機が引 き金となって起きたイベントであり、ニュースス トーリーの内容もインドネシアの経済危機に関す るニュースストーリーと非常に似通っている。そ のため、イベント"76"の関連クラスターにおいて、 イベント"01"に特有な単語や単語対とイベント.

(8) "76"のそれらとを区別し、イベント"01"と共通す る単語や単語対の影響を排除することが難しくな り、イベント"01"のインドネシア関連のニュース ストーリーはイベント"01"だけでなく、イベント "76"のクラスター文書集合とも大きな文書共通度 を取ってしまう。しかも、イベント"01"のニュー スストーリー集合においてインドネシア関連は全 体の中の一部に過ぎないが、イベント"76"はイン ドネシアに関連するニュースストーリーが主であ る。そのため、イベント"01"のインドネシア関連 のニュースストーリーはイベント"01"関連のクラ スターよりもイベント"76"関連のクラスターに対 して大きな文書共通度を取りがちになる。以上が グループ 8、9、13 の精度が他に比べて著しく低く なる理由である。事実、グループ 8、9、13 におい て、イベント"01"関連のクラスターに対する文書 共通度を 3 倍すると、線形モデルの場合、精度は グループ 8 で 0.9344 に、グループ 9 で 0.9476 に、 グループ 13 で 0.9620 に向上する。しかし、この 倍率を決定する合理的な方法は見出されてない。 (ii)提案手法においてキーとなる処理はトピック に特有でないステップ 3、5 における単語、単語対 の検出にある。本処理を行わなかった場合、ステ ップ 3 における閾値、及び終了条件を適切に決め ることができず、クラスタリングは正常に動作し なかった。また、ステップ 3、5 における文書共通 度の算出において A の値を大きくとると、より単 語を選択的に用いたことになる。一方、0 とすれ ば全ての単語を用いたことになり、文書共通度の 定義は通常の文書間類似度に近いものとなる。A の値を変えて行った実験の結果では、A の値はク ラスター文書集合中の全文書数の10%よりも大き くなると精度は低下し、これよりも小さくすると 大部分のデータグループでは結果は殆ど変わらな かったが、グループ 8、9 ではそれぞれ 0.8571、 0.8919 に低下した(線形モデルの場合) 。前述のよ うにグループ 8、9 に含まれるイベント"01"、"76" には互いに内容の近いニュースストリーが存在す る。上記の事実は、紛らわしいニュースストリー が含まれるときには、クラスター文書集合で頻度 の高い単語を選択的に用いることが有効であるこ とを示している。 (iii)従来の非階層的なクラスタリングにおいては、 クラスター数を予め与える必要があった。 しかし、 これはコーパスに関する先見的な知識なしには実 質的には不可能な要求であり、クラスター数を推 測することは重要な課題となっている。提案手法. では、表 2 の例だけではなく、[4]で挙げられてい る 12 種類のデータに対してもクラスター数は正 しく求められている(Liu らの方法では 3 種類の データに対して失敗) 。 クラスター数が正しく求め られることは本手法のメリットの一つである。 7. まとめ 以上、多文書間の共通性分析を用いた非階層の クラスタリング手法を提案した。提案手法はクラ スターの種となる文書を見出した後、その文書と 同じ内容の文書を検出してクラスターを成長させ るというものであり、ポイントは、他のトピック に特有な単語、他のトピックと共有する単語の影 響を排除しつつ、途中段階のクラスターに含まれ る文書集合との内容の共通度を求める点にある。 実験の結果、本手法のクラスタリングの精度にお ける優位性が確認された。 クラスタリングは TDT において重要な技術と なっていること、トピックトラッキングにおいて は種となる少数の文書と同じ内容の文書を抽出す ることが課題であるが、これは提案手法のアプロ ーチと非常に近いことなどから、提案手法は TDT においても有効ではないかと考えられる。また、 共通性分析において提案された文書集合共通度は クラスターの纏まり具合の評価尺度となりうるの で、クラスター分析一般に応用できる可能性があ る。これらは今後の重要な課題である。 参考文献 [1] C. D Manning and H. Schutze. Foundations of Statistical Natural Language Processing, The MIT Press, 1999. [2] 徳永健伸. 情報検索と言語処理. 東京大学出 版会(1999). [3] J. Allan, editor. Topic Detection and racking: Event-based Information Organization. Kluwer Academic Publishers, Boson, 2002. [4] X. Liu, Y. Gong, W. Xu and S.Zhu. Document Clustering with Cluster Refinement and Model Selection Capabilities. In Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp.191-198. Tampere, Finland, August, 2002. [5] 川谷隆彦. 多文書間の共通性の分析.情報処理 学会自然言語処理研究報告,2002-NL-152, pp.85-92(2002).. 8 −100−.

(9)

参照

関連したドキュメント

 オランダ連合東インド会社による 1758 年の注文書 には、図案付きでチョコレートカップ 10,000 個の注 文が見られる

存する当時の文献表から,この書がCremonaのGerardus(1187段)によってスペインの

Inspiron 15 5515 のセット アップ3. メモ: 本書の画像は、ご注文の構成によってお使いの

解析の教科書にある Lagrange の未定乗数法の証明では,

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

本文書の目的は、 Allbirds の製品におけるカーボンフットプリントの計算方法、前提条件、デー タソース、および今後の改善点の概要を提供し、より詳細な情報を共有することです。

とされている︒ところで︑医師法二 0