拡張ストリングカーネルを用いた要約システムの自動評価法
全文
(2) 1754. 情報処理学会論文誌. の発展のためには欠かせない.. June 2006. 指標は,隣接という強い制約にある語の共起しか考慮. 本稿では,コンボリューションカーネルの 1 つであ. できないという問題がある.つまり,隣接関係にはな. る拡張ストリングカーネルを用いた要約システムの自. いが,かかり受け関係にあるような語の共起は考慮で. 動評価法を提案する.拡張ストリングカーネルはテキ. きない.. スト間の類似度を単語列,その意味ラベル列,単語と 意味ラベルの組合せの列に基づき計算する.. こうした問題に対して,Lin らは,スキップを許し たバイグラム(スキップバイグラム)も考慮した手法,. 提案手法を TSC-3 のデータを用いて評価したとこ. ROUGE-S,ROUGE-SU を提案している7),8),10) .た. ろ,従来の自動評価手法である ROUGE と比較して. だし,スキップを許したトライグラムなどを扱うこと. 人間の評価結果に対する相関がより高いこと,自動評. ができない.さらに,ある単語の組合せが参照要約か. 価法として頑健であることが分かった.. システム要約のどちらか一方ではバイグラムとして出. 本稿の構成は以下のとおりである.2 章では,従来. 現し,もう一方ではスキップバイグラムとして出現し. の自動評価法について詳述し,その問題点を述べる.. た場合,スキップの有無を区別せずに一致数を計算す. 3 章では,拡張ストリングカーネルを用いた自動評価 法について述べる.4 章では,評価実験の結果を示し, 5 章で考察を行う.. るという問題もある.. 2. 関 連 研 究. また,N グラムの一致率に基づく手法以外としては, 参照要約とシステム要約間における最長共通部分列 (Longest Common Subsequence: LCS)に基づく手 法8),10),13) や音声認識分野において広く用いられる単. 一般的に,要約の自動評価法は,システム要約と参. 語正解率を用いた手法6) も提案されている.LCS を用. 照要約☆ 間の類似度を測ることで実現される.多くの場. いるとスキップを含む長い部分列を扱うことができる. 合,類似度はシステム要約と参照要約との間で一致す. が,(1) 最長一致する部分列しか見ない,(2) 最長一致. る単語列の割合に基づいて計算する.たとえば,現状. 部分列が助詞などの機能語のみで構成される,(3) 語. で最も広く知られている自動評価法である ROUGE-. 順が大きく入れ替わる場合には最長一致部分列が著し. N 9), ☆☆ は,システム要約と参照要約との間で一致する 単語 N グラムに基づきスコアを決定する.ROUGE-N は,機械翻訳システムの自動評価法として提案された. く短くなるのでスコアが下がるという問題がある.. BLEU 12) を単純化したものである.BLEU は,参照 翻訳とシステム翻訳間で一致する N グラムがシステ. が著しく下がるという問題がある.. ム翻訳中の N グラムに占める割合を計算するため,精 度重視の指標といわれている.これに対し,ROUGE. さらに,上述したすべての手法が単語表記での一致 を見ており,単語の言い換えがあった場合には一致率. 3. カーネル関数を用いた要約システムの自動 評価法. テム要約間で一致したユニグラムの数が参照要約のユ. 2 章で説明した ROUGE ☆☆☆ では,スキップトライ グラムのような長い部分単語列を有効に扱えない,ス キップを許した N グラムと通常の N グラムを区別し. ニグラム中に占める割合,ROUGE-2 であれば,一致. ていない,単語の言い換えを吸収できないという問題. したバイグラムが参照要約のバイグラム中に占める割. がある.. は再現率を重視した評価指標であるという特徴を持 つ.たとえば,ROUGE-1 であれば,参照要約とシス. 合を計算する.Lin らは,N を 1∼4 まで変化させた. そこで,本稿では,これらの問題点を解決するため,. 場合,ROUGE-1,ROUGE-2 が人間の評価結果との. 拡張ストリングカーネル5)(Extended String Subse-. 間の相関が最も高かったことを報告している9) .また,. quence Kernel,以下,ESK)を用いた自動評価法を. Soricut らは,再現率重視の評価指標と精度重視の評. 提案する.. 価指標を調和平均の変形を用いて統合する手法を提案 している.要約だけでなく,機械翻訳,質問応答でも 人間の評価結果と高い相関が得られたことを報告して いる14) . しかし,上述した N グラムの一致率に基づく評価. 3.1 ESK ESK 5) は自然言語処理のために開発され,注目を集 めているコンボリューションカーネル2) に属するカー ネル関数であり,Lodhi らによって提案された String Subsequence Kernel(SSK)11) ,Cancedda らによっ ☆☆☆. ☆ ☆☆. モデル要約とも呼ばれ,一般的には人間が作成した要約を指す. ROUGE については 4 章で詳しく説明する.. 本 稿 で ,「ROUGE」と 表 記 し た 場 合 に は ,ROUGE-N, ROUGE-L,ROUGE-S,ROUGE-SU というバリエーショ ンをすべて含んでいることを表す..
(3) Vol. 47. No. 6. 1755. 拡張ストリングカーネルを用いた要約システムの自動評価法. 表 1 S1,S2 から抽出した部分単語列とその重み(d は部分単語列の長さを表す) Table 1 Components of vectors corresponding to S1 and S2 (d is the length of the subsequences).. d. subsequence. S1. S2. 1. Becoming DREAM SPACEMAN a ambition an astronaut cosmonaut dream great is my. 1 1 1 1 0 0 0 1 1 1 1 1. 1 1 1 0 1 1 1 0 0 0 1 1. Becoming–DREAM Becoming–SPACEMAN Becoming–a Becoming–ambition Becoming–an Becoming–astronaut Becoming–cosmonaut Becoming–dream Becoming–great. λ5 λ 1 0 0 0 λ λ5 λ4. λ4 λ 0 λ4 1 λ 0 0 0. 2. d. 2. subsequence. S1. S2. Becoming–is Becoming–my SPACEMAN–DREAM SPACEMAN–ambition SPACEMAN–dream SPACEMAN–great SPACEMAN–is SPACEMAN–my a–DREAM a–SPACEMAN a–cosmonaut a–dream. λ2 λ3 λ3 0 λ3 λ2 1 λ λ4 1 1 λ4. λ2 λ3 λ2 λ2 0 0 1 λ 0 0 0 0. a–great a–is a–my an–DREAM an–SPACEMAN an–ambition an–astronaut an–is an–my. λ3 λ λ2 0 0 0 0 0 0. 0 0 0 λ3 1 λ3 1 λ λ2. d. 2. subsequence. S1. S2. astronaut–DREAM astronaut–ambition astronaut–is astronaut–my cosmonaut–DREAM cosmonaut–dream cosmonaut–great cosmonaut–is cosmonaut–my great–DREAM great–dream is–DREAM. 0 0 0 0 λ3 λ3 λ2 1 λ 1 1 λ2. λ2 λ2 1 λ 0 0 0 0 0 0 0 λ. is–ambition is–dream is–great is–my my–DREAM my–ambition my–dream my–great. 0 λ2 λ 1 λ 0 λ 1. λ 0 0 1 1 1 0 0. て提案された Word Sequence Kernel(WSK)1) を拡. S1,S2 において,d = 2 とした場合のすべての. 張したものである.ESK では,まずテキストを単語と. 部分ノード列とその重み付き出現回数を表 1 に示. その意味ラベルを属性としたノード列として考える.. す.なお,S1,S2 に共通する部分列を太字で表し. そして,テキストを d 個までの部分ノード列に対応. ている.たとえば,“Becoming–DREAM ” という部. する軸を持つ高次元空間へと写像する.ESK は,そ. 分列は,S1 では “a”,“cosmonaut:SPACEMAN ”,. の空間における内積として定義できる.ただし,陽に. “is”,“my”,“great” という 5 つのノードをスキッ. テキストを高次元空間へ写像することなく内積を効率. プしており,S2 では同様に 4 つのノードをスキッ. 的に計算できる.このとき,ノードのスキップに対し. プして出現している.よってその重みは,それぞれ,. ては,λ(0 ≤ λ ≤ 1)という減衰パラメータを用い てその重みを小さくする.たとえば,ノードを 1 つス. λ5 ,λ4 となる.ESKd=2 (S1, S2) は,S1,S2 から得 た重み付きベクトルの内積であるので,S1,S2 に共. キップした場合には,重みが λ となり,2 つスキップ. 通する 15 の部分列の重みの積として以下の式で計. した場合には,λ2 となる.. 算される.ESKd=2 (S1, S2) = 1 + 1 + 1 + 1 + 1 +. 例として,下記のテキスト,S1,S2 を入力として,. λ9 + λ2 + λ4 + λ6 + λ5 + 1 + λ2 + λ3 + 1 + λ =. ESK の値を計算する.なお,単語の意味ラベルはカッ コ内に示す.. 7 + λ + 2λ2 + λ3 + λ4 + λ5 + λ6 + λ9 .参考までに, S1,S2 に共通する単語ユニグラムは 3 個,バイグラ. S1 Becoming a cosmonaut:{SPACEMAN} is my great dream:{DREAM} S2 Becoming an astronaut:{SPACEMAN} is my. ムは 1 個,トライグラムは存在しない. 正確には,ESK は以下の式で定義される.. ambition:{DREAM} ここで,“cosmonaut” と “astronaut” は共通の意味ラ. ESKd (S1, S2) =. ベル “SPACEMAN ” を持ち,“ambition” と “dream”. Km (si , sj ). 系15) ,英語の場合には WordNet から得ることができ. Km (si , sj ) (1). m=1si ∈S1sj ∈S2. . は共通の意味ラベル “DREAM ” を持つ.このような 単語の意味ラベルは日本語の場合には日本語語彙大. d . =. val(si , sj ). if. m=1. Km−1 (si , sj ) · val (si , sj ) otherwise. (2). る.後述の実験では,語の意味ラベルの獲得に日本語. ここで,si は,S1 の i 番目のノードを指し,sj は,. 語彙大系を用いた.語の多義解消は行わず,単語に対. S2 の j 番目のノードを指す.いま,si に含まれる単 語を ti ,それに対応する意味ラベル集合を Mi ,sj に. して可能なすべての意味ラベルを用いた..
(4) 1756. 含まれる単語を tj ,それに対応する意味ラベル集合を. Mj とすると val(si , sj ) は以下の式で定義される. val (si , sj ) = v + |Mi ∩ Mj |. (3). ここで,v は以下の式で定義される.. 1 0. v=. (4). 次に,複数の参照要約が与えられた場合への拡張法. が与えられたとする.このとき,システム要約のスコ アは,各参照要約に対して求めたスコアの平均として,. は以下の式で定義される.. 下記の式で定義する.. Km (si , sj ). . 0 if j = 1 λKm (si , sj−1 ) + Km (si , sj−1 ). =. 3.3 複数参照の場合の拡張. いま,R を参照要約の集合,つまり,R = {R1 ,···,Rn},. if ti = tj otherwise. また,Km (si , sj ). d て,β を大きくとって Resk を重視すべきであろう.. について説明する.. . avg Fesk (C, R) =. n 1 Fesk (C, Ri ) n. (11). i=1. otherwise (5). さらに,Km (si , sj ) は以下の式で定義される. Km (si , sj ). 4. 評 価 実 験 提案手法の有効性を確認するため,TSC-3 のデー タを用いて評価実験を行った.以降,データの詳細,. . =. June 2006. 情報処理学会論文誌. 比較した評価法,実験結果を詳述する.. 0. if. i=1. λKm (si−1 , sj ) + Km (si−1 , sj ) .otherwise. (6) なお,類似度としてカーネルの値を 0∼1 の間に収. Simdesk (S1, S2). の総文字数に対して 5%,10%の長さの要約を出力す. ESKd (S1, S2). = . ESKd (S1, S1) ESKd (S2, S2). (7). 3.2 ESK を用いた自動評価法 m 文からなる参照要約とする.また C 中の文を ci と し,R 中の文を rj とする.このとき,下記の精度重 d d (C, R) と再現率重視の指標 Resk (C, R) 視の指標 Pesk. を定義する. 1 max Simdesk (ci , rj ) 1≤j≤m . (8). m 1 max Simdesk (ci , rj ) 1≤i≤ m. (9). る.詳細については,文献 4) を参照されたい.. TSC-3 では,以下の手順で人間による主観評価が 行われた.. Step 1 参照要約中のそれぞれの文 rj (∈ R)に対 して以下の Step 2 と Step 3 を適用する. Step 2 評価者は,文 rj に対して,システム要約か ら最も関連する文集合 Sj を抽出する.. 段階(1.0 なら Sj は rj の情報をすべて含む)で 評価を行う.この値を e(rj , Sj ) と表す.. j=1. 最終的に,上記スコアの重み付き調和平均を評価指 標として定義する.. Step 4 システム要約 C の参照要約 R に対する主 観的スコアを H(R, C) =. . j. e(rj , Sj )/|R| で求. める.. d Fesk (C, R). (1 + β 2 ) × Resk (C, R) × Pesk (C, R) = Resk (C, R) + β 2 × Pesk (C, R) ここで,β. ク数は 30 で,参加システム数は 10 である.うち 1 つ. Step 3 評価者は,Sj が rj の情報をどの程度包含 しているかという観点から 0, 0.1, · · · , 1.0. の 11. i=1. d は,Resk. る.以降,前者を short,後者を long と呼ぶ.トピッ はオーガナイザが用意したベースラインシステムであ. いま,C を 文からなるシステム要約とし,R を. d (C, R) = Resk. TSC-3 は,NTCIR プロジェクトの一環として,2004 年に開催された複数文書要約システムの評価型ワーク ショップである.システムは,あるトピック(出来事) に関連する一連の文書セットを入力とし,文書セット. めるため,下記の式で正規化を行う.. d Pesk (C, R) =. 4.1 TSC-3 データ. と. d Pesk. 各システムの主観的スコアは,すべてのトピックに. (10). のどちらを優先するかを. 調整するパラメータである.ここで,システムが参照 要約に含まれる 1 文を繰り返すだけの冗長な要約を出 d は 1 となり過大評価される.よっ 力したときに,Pesk. 対し,上記手続きを適用した後,トピック数で平均し たもの. 30. t=1. H(Rt , Ct )/30 で与える.また,複数の. 参照要約が利用可能な場合には,各参照要約に対する. H(R, C) の平均値を用いる. 4.2 被験者による評価の信頼性 TSC-3 のフォーマルランでは,30 トピックを 6 ト.
(5) Vol. 47. No. 6. 表 2 各データセットと被験者の関係 Table 2 The relationship between topics and reference summary creators, i.e., human assessors.. topic-ID 1–6 7 – 12 13 – 18 19 – 24 25 – 30. 1757. 拡張ストリングカーネルを用いた要約システムの自動評価法. D1 A B C D E. D2 E A B C D. D3 D E A B C. D4 C D E A B. D5 B C D E A. 表 4 各データセット間の相関 Table 4 Correlations between human judgments. ピアソンの積率相関係数 スペアマンの順位相関係数 short. D1 D2 D3 D4 D5. D1 1.00 — — — —. D2 .968 1.00 — — —. D3 .903 .916 1.00 — —. D4 .902 .910 .972 1.00 —. D5 .888 .878 .962 .954 1.00. D1 D2 D3 D4 D5. D1 1.00 — — — —. D2 .908 1.00 — — —. D3 .864 .896 1.00 — —. D4 .822 .963 .862 1.00 —. D5 .786 .903 .938 .923 1.00. D1 1.00 — — — —. D2 .976 1.00 — — —. D3 .842 .830 1.00 — —. D4 .697 .733 .842 1.00 —. D5 .758 .733 .879 .818 1.00. D2 .964 1.00 — — —. D3 .915 .915 1.00 — —. D4 .939 .952 .842 1.00 —. D5 .855 .879 .891 .903 1.00. long 表 3 各データセットにおける人間の評価結果 Table 3 Evaluation results by human judgments on each data set. short. D1 D2 D3 D4 D5. sys1 .319 .304 .302 .294 .304. sys2 .215 .213 .204 .208 .212. sys3 .236 .229 .264 .249 .243. sys4 .318 .287 .323 .316 .336. sys5 .290 .290 .280 .300 .286. sys6 .365 .311 .299 .300 .316. sys7 .271 .248 .290 .305 .310. sys8 .280 .255 .282 .282 .329. sys9 .151 .146 .149 .159 .147. sys10 .273 .238 .248 .268 .251. sys1 .298 .285 .307 .316 .328. sys2 .221 .185 .245 .221 .243. sys3 .311 .290 .313 .313 .300. sys4 .322 .298 .339 .321 .343. sys5 .330 .290 .324 .330 .337. sys6 .392 .319 .356 .322 .334. で大きな違いはなく比較的安定していることが分かる. 表 4 より,r に関しては short,long ともに高い相 関であり,ρ に関しては,short における D1 ,D4 間. long D1 D2 D3 D4 D5. D1 1.00 — — — —. sys7 .273 .272 .299 .304 .308. sys8 .300 .275 .336 .306 .330. sys9 .261 .230 .234 .265 .251. sys10 .278 .259 .277 .277 .293. の相関が例外的にやや低いが,全体的には,r と同様 高い相関である. さらに,データセット間でシステムの順位がどの程 度一致しているかを,ケンドールの一致度係数 W を 用いて調べたところ,short で 0.849,long で 0.924 という高い一致であった.. ピックずつ 5 つのトピックセットに分け,それぞれの. 以上より,W が高いこと,r,ρ も十分に高いこと. トピックセットに対し,1 名の被験者☆ があらかじめ. から,トピックセットと被験者の組を変更したことの. 参照要約を作成しておき,それに基づきすべてのシス. 効果は小さく,信頼性の高いデータセットであること. テム要約を評価した.トピックセットが 5 つなので,. が分かる.これは,DUC における追加実験の結果3). 被験者は 5 名(A,B,C,D,E)である.. ともよく合致しており,同じ背景を持つ被験者であれ. TSC-3 の評価では,1 つのシステム要約に対して, 1 名の被験者しか評価を行っていない.信頼性を向上. ば,要約システムを評価するという観点からは,その 評価の差異が小さいことが分かる.. 化させ,各トピックに対して,異なる 5 名の被験者. 4.3 比較した自動評価法 本稿では,ESK とよく似たカーネルである WSK. が参照要約の作成とシステム評価を行うように追加実. と ROUGE の各バリエーションを比較手法として評. 験を行った(表 2 を参照).たとえば,D2 では,ト. 価実験を行った.. ピック 1∼6 に対して被験者 E が参照要約を作成し, タセットと呼ぶ.なお,TSC-3 のフォーマルランにお. WSK-based method ESK の代わりに WSK を用いた自動評価法.式 (8)∼(10) の ESK を WSK で置き換えたもの.ESK. けるデータセットは D1 である.さらに,すべてのト. におけるノードの属性として単語しか許さない場合が. ピックに対し,A∼E の 5 名の平均点をシステムの評. WSK なので,式 (3) を下記に変更すればよい.. させるため,我々はトピックセットと被験者の組を変. すべてのシステムの評価を行った.以降,これをデー. . 価結果としたデータセット Davg も作成した. 各データセットにおけるシステムスコアを表 3 に示. val(si , sj ) =. す.システムスコア間のピアソンの積率相関係数(以 下,r)とスペアマンの順位相関係数(以下,ρ)を表 4 に示す.表 3 より,システムスコアはデータセット間 被験者はすべて記者を経験したことのある人間である.. if ti = tj otherwise. (12). ROUGE-N N グラムの一致率に基づく自動評価法.以下の式で 定義される.. ☆. 1 0.
(6) 1758. June 2006. 情報処理学会論文誌. ROUGE-N(C, R) =. countN−gram (C, R) (13) # of N-grams ∈ R. ここで,countN−gram (C, R) は,C と R の間で一致. ROUGE-L ROUGE-L は LCS に基づく自動評価法であり,下 記の式で定義される8) .. ROUGE-L(C, R). する N グラムの数を返す関数である.. ROUGE-S ROUGE-S は ROUGE-2 の拡張であり,下記の式 で定義される8) . ROUGE-S(C, R) (1 + β 2 ) × Rskip2 (C, R) × Pskip2 (C, R) (14) = Rskip2 (C, R) + β 2 Pskip2 (C, R). (1 + β 2 ) × Rlcs (C, R) × Plcs (C, R) Rlcs (C, R) + β 2 Plcs (C, R) Rlcs ,Plcs は以下の式で定義される. 1 Rlcs (C, R) = LCS∪ (ri , C) u =. (20). (21). ri ∈R. Plcs (C, R) =. 1 LCS∪ (ri , C) v. (22). ri ∈R. Rskip2 ,Pskip2 は以下の式で定義される.. ここで,LCS∪ (ri , C) は,参照要約の文 ri とシステ. Rskip2 (C, R) =. Skip2(C, R) U +V. (15). Pskip2 (C, R) =. Skip2(C, R) W +X. (16). ム要約 C の間のユニオン LCS の長さを返す関数であ る.また,u と v は,R と C に含まれる単語の数を. ここで,Skip2 は,R と C に共通して出現するバイ. 表す.ユニオン LCS の詳細については,文献 8) を参 照されたい.ROUGE-L も ROUGE-S,SU と同様に. グラムとスキップバイグラムの数を返す関数である.. 参照要約とシステム要約の単語数がほぼ同じ場合には. U ,V は,それぞれ,R に出現するバイグラムとス キップバイグラムの数であり,W ,X は,それぞれ, C に出現するバイグラムとスキップバイグラムの数で. 調和平均をとる効果がほとんどないので,後述の実験. ある.. ROUGE-SU は,ROUGE-S の拡張であり,バイグ ラム,スキップバイグラムに加え,ユニグラムも素性 とした以下の式で定義される8) .. 動評価法を用いてシステムスコアのベクトル x =. (17). (x1 , x2 , · · · , xi , · · · , x10 ) を作成する.システム数が 10 なのでベクトルの次元は 10 である.ここで,i 番目の. Rsu ,Psu は以下の式で定義される.. システムのスコアは,xi = 1/30. SU(C, R) Rsu (C, R) = U +V +Y. (18). SU(C, R) Psu (C, R) = W +X +Z. (19). 30. t=1. f (Rt , Ci,t ) と. なる.Rt は t 番目のトピックにおける参照要約を表し,. Ci,t は i 番目のシステムの t 番目のトピックにおける. ここで,SU は,R と C に共通して出現するバイグラ ム,スキップバイグラム,ユニグラムの数を返す関数 である.Y は,R に出現するユニグラムの数,Z は,. C に出現するユニグラムの数である. なお,式 (8),(9),式 (11),(12) から分かるが, ROUGE-S や ROUGE-SU では,参照要約とシステ ム要約の単語数がほぼ同じ場合には調和平均をとる効 果がほとんどない.TSC-3 のタスク設定では,参照要 約とシステム要約の単語数は近いので,後述の評価実 験の際には,ROUGE-S,ROUGE-SU の β を変化さ せなかった.. 4.4 評 価 指 標 各自動評価法をピアソンの積率相関係数(r),ス ペアマンの順位相関係数(ρ)を用いて人間の評価結 果とどの程度の相関があるかで評価した.まず,自. ROUGE-SU(C, R) (1 + β 2 ) × Rsu (C, R) × Psu (C, R) Rsu (C, R) + β 2 Psu (C, R). なお,WSK,ROUGE に対して,複数参照要約を 用いる場合は,式 (11) の右辺 Fesk をそれぞれの関数 に置き換えればよい.. ROUGE-SU. =. では β を変化させなかった.. 要約を表す.また,f は ROUGE,WSK,提案手法の いずれかの自動評価法を表す.次に,同様にしてベク トル y = (y1 , y2 , · · · , yi , · · · , y10 ) を人間の評価結果 を用いて作成する.ここで,i 番目のシステムに対して 人間が与えたスコアは,yi = 1/30. 30. t=1. H(Rt , Ci,t ). となり,主観的システムスコアと一致する.なお,複 数参照要約を用いる場合には,ベクトルを作成する際 の関数 f ,H をそれぞれ,f avg ,H avg に置き換えれ ばよい.最終的に,x と y の間の r,ρ を計算する.. 4.5 実 験 結 果 表 5,表 6 に各データセット(short)に対する r,. ρ とそれらの全データセットに対する平均値を示し, 表 7,表 8 に各データセット(long)に対する r,ρ とそれらの全データセットに対する平均値を示す..
(7) Vol. 47. No. 6. 1759. 拡張ストリングカーネルを用いた要約システムの自動評価法 表 5 ピアソンの積率相関係数による評価結果(short) Table 5 Results obtained with Pearson’s correlation coefficient (short).. ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L ROUGE-S* ROUGE-S9 ROUGE-S4 ROUGE-SU* ROUGE-SU9 ROUGE-SU4. D1 case stop .965 .884 .943 .960 .906 .936 .877 .914 .777 .919 .914 .934 .938 .926 .945 .930 .914 .934 .935 .929 .943 .936. D2 case stop .931 .888 .836 .880 .759 .814 .725 .752 .683 .789 .887 .805 .890 .765 .865 .772 .888 .805 .899 .783 .891 .802. D3 case stop .952 .903 .889 .932 .834 .882 .810 .844 .860 .882 .955 .890 .942 .844 .918 .852 .955 .890 .949 .854 .939 .869. D4 case stop .937 .879 .861 .906 .786 .846 .729 .793 .867 .875 .937 .872 .906 .789 .889 .810 .938 .872 .917 .808 .917 .839. D5 case stop .967 .894 .907 .949 .859 .906 .827 .861 .908 .897 .947 .910 .941 .875 .934 .885 .947 .910 .945 .887 .948 .902. Davg case stop .968 .901 .907 .946 .858 .905 .836 .875 .884 .908 .943 .893 .949 .860 .936 .871 .943 .893 .953 .871 .952 .889. Average case stop .953 .891 .890 .929 .834 .882 .801 .840 .830 .878 .930 .884 .928 .843 .914 .853 .931 .884 .933 .855 .932 .878. d=2 Fesk (β d=2 (β Fesk d=3 (β Fesk d=3 (β Fesk d=4 (β Fesk d=4 (β Fesk. = = = = = =. 2) 3) 2) 3) 2) 3). .942 .929 .939 .927 .921 .909. .927 .943 .923 .933 .900 .900. .952 .958 .943 .944 .926 .924. .921 .928 .919 .920 .897 .888. .961 .968 .944 .948 .925 .927. .963 .971 .963 .968 .959 .960. .944 .950 .939 .940 .921 .918. d=2 Fwsk (β d=2 (β Fwsk d=3 (β Fwsk d=3 (β Fwsk d=4 (β Fwsk d=4 (β Fwsk. = = = = = =. 2) 3) 2) 3) 2) 3). .939 .928 .938 .928 .929 .918. .900 .921 .902 .922 .896 .915. .938 .949 .928 .937 .914 .920. .897 .909 .886 .895 .874 .879. .949 .959 .943 .952 .934 .942. .948 .961 .947 .959 .944 .955. .928 .938 .924 .932 .915 .921. 表 6 スペアマンの順位相関係数による評価結果(short) Table 6 Results obtained with Spearman’s ranking correlation coefficient (short).. ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L ROUGE-S* ROUGE-S9 ROUGE-S4 ROUGE-SU* ROUGE-SU9 ROUGE-SU4. D1 case stop. D2 case stop. D3 case stop. D4 case stop. D5 case stop. Davg case stop. Average case stop. .988 .927 .879 .818 .830 .939 .964 .988 .939 .952 .964. .842 .770 .588 .721 .600 .818 .745 .745 .818 .745 .794. .952 .927 .806 .806 .818 .915 .927 .927 .915 .927 .964. .842 .855 .818 .746 .818 .818 .794 .770 .818 .794 .794. .915 .891 .806 .721 .952 .891 .867 .891 .891 .915 .915. .915 .842 .721 .709 .842 .903 .879 .867 .903 .879 .879. .909 .867 .770 .753 .810 .881 .863 .865 .881 .869 .885. .964 .976 .927 .879 .927 .939 .879 .879 .939 .879 .891. .891 .794 .697 .697 .661 .673 .600 .600 .673 .600 .600. .915 .964 .927 .891 .927 .855 .758 .794 .855 .758 .867. .855 .842 .818 .746 .806 .794 .721 .721 .794 .721 .794. .806 .903 .891 .746 .915 .879 .758 .806 .903 .806 .879. .915 .867 .842 .721 .830 .782 .697 .697 .782 .697 .758. .891 .891 .850 .780 .844 .820 .736 .749 .824 .744 .798. d=2 Fesk (β d=2 (β Fesk d=3 (β Fesk d=3 (β Fesk d=4 (β Fesk d=4 (β Fesk. = = = = = =. 2) 3) 2) 3) 2) 3). .952 .952 .964 .964 .927 .927. .879 .915 .867 .891 .830 .842. .903 .903 .952 .952 .952 .988. .855 .891 .867 .915 .867 .842. .927 .915 .927 .927 .915 .927. .879 .952 .927 .927 .927 .927. .899 .921 .917 .929 .903 .909. d=2 Fwsk (β d=2 (β Fwsk d=3 (β Fwsk d=3 (β Fwsk d=4 (β Fwsk d=4 (β Fwsk. = = = = = =. 2) 3) 2) 3) 2) 3). .976 .952 .976 .976 .964 .964. .794 .842 .794 .879 .794 .867. .855 .867 .867 .915 .952 .952. .830 .830 .818 .855 .818 .855. .903 .915 .903 .903 .903 .903. .867 .891 .879 .879 .867 .927. .871 .883 .873 .901 .883 .911.
(8) 1760. June 2006. 情報処理学会論文誌 表 7 ピアソンの積率相関係数による評価結果(long) Table 7 Results obtained with Pearson’s correlation coefficient (long).. ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L ROUGE-S* ROUGE-S9 ROUGE-S4 ROUGE-SU* ROUGE-SU9 ROUGE-SU4. D1 case stop .906 .876 .886 .930 .873 .909 .850 .890 .840 .917 .864 .811 .904 .829 .921 .868 .863 .812 .903 .840 .920 .876. D2 case stop .919 .916 .788 .941 .717 .849 .651 .787 .812 .861 .954 .743 .948 .705 .928 .730 .954 .744 .951 .735 .945 .778. D3 case stop .945 .798 .959 .976 .961 .975 .953 .965 .875 .946 .932 .893 .955 .924 .971 .947 .932 .894 .953 .932 .966 .951. D4 case stop .897 .891 .834 .616 .826 .431 .836 .292 .829 .847 .547 .707 .586 .701 .620 .785 .547 .709 .617 .730 .663 .814. D5 case stop .935 .892 .811 .938 .763 .848 .707 .774 .832 .901 .989 .855 .953 .782 .944 .793 .989 .856 .960 .802 .960 .826. Davg case stop .931 .932 .859 .951 .837 .902 .815 .873 .870 .932 .944 .814 .950 .805 .950 .844 .944 .815 .953 .824 .959 .865. Average case stop .922 .884 .856 .892 .892 .819 .802 .763 .843 .901 .872 .804 .883 .791 .889 .828 .872 .805 .890 .810 .902 .852. d=2 Fesk (β d=2 (β Fesk d=3 (β Fesk d=3 (β Fesk d=4 (β Fesk d=4 (β Fesk. = = = = = =. 2) 3) 2) 3) 2) 3). .941 .939 .926 .920 .900 .892. .957 .962 .954 .947 .932 .921. .987 .959 .971 .938 .949 .911. .967 .959 .953 .904 .890 .819. .945 .952 .930 .928 .906 .897. .978 .974 .975 .957 .962 .936. .962 .958 .951 .932 .923 .896. d=2 Fwsk (β d=2 (β Fwsk d=3 (β Fwsk d=3 (β Fwsk d=4 (β Fwsk d=4 (β Fwsk. = = = = = =. 2) 3) 2) 3) 2) 3). .931 .932 .924 .920 .910 .903. .923 .939 .921 .929 .913 .913. .983 .967 .977 .953 .962 .930. .936 .950 .934 .919 .908 .866. .938 .950 .923 .931 .903 .905. .960 .967 .962 .957 .955 .941. .945 .951 .940 .935 .925 .910. 表 8 スペアマンの順位相関係数による評価結果(long) Table 8 Results obtained with Spearman’s ranking correlation coefficient (long).. ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L ROUGE-S* ROUGE-S9 ROUGE-S4 ROUGE-SU* ROUGE-SU9 ROUGE-SU4. D1 case stop .818 .830 .721 .891 .758 .842 .685 .794 .770 .842 .879 .770 .806 .745 .855 .758 .879 .770 .806 .758 .842 .709. D2 case stop .903 .806 .721 .855 .636 .745 .564 .612 .612 .576 .818 .636 .758 .576 .794 .576 .818 .636 .806 .576 .770 .576. D3 case stop .891 .867 .927 .952 .964 .964 .952 .952 .891 .903 .939 .867 .939 .891 .952 .915 .939 .867 .939 .891 .976 .915. D4 case stop .867 .855 .794 .648 .806 .564 .830 .455 .709 .636 .553 .697 .564 .612 .612 .709 .527 .697 .564 .673 .733 .770. D5 case stop .818 .770 .745 .794 .673 .709 .600 .576 .661 .782 .879 .770 .758 .697 .745 .612 .879 .770 .758 .709 .745 .697. Davg case stop .867 .891 .867 .939 .794 .927 .697 .842 .915 .915 .903 .879 .939 .891 .927 .891 .903 .879 .952 .891 .939 .891. Average case stop .861 .837 .796 .847 .772 .792 .721 .705 .760 .776 .829 .770 .794 .735 .814 .744 .824 .770 .804 .750 .834 .760. d=2 Fesk (β d=2 (β Fesk d=3 (β Fesk d=3 (β Fesk d=4 (β Fesk d=4 (β Fesk. = = = = = =. 2) 3) 2) 3) 2) 3). .842 .855 .818 .758 .661 .588. .927 .903 .927 .903 .903 .903. .976 .976 .988 .976 .964 .976. .903 .903 .879 .709 .733 .673. .818 .855 .830 .842 .782 .758. .952 .952 .964 .952 .927 .879. .903 .907 .901 .857 .828 .796. d=2 Fwsk (β d=2 (β Fwsk d=3 (β Fwsk d=3 (β Fwsk d=4 (β Fwsk d=4 (β Fwsk. = = = = = =. 2) 3) 2) 3) 2) 3). .818 .818 .806 .806 .806 .746. .867 .867 .855 .818 .855 .855. .964 .939 .952 .952 .952 .952. .806 .794 .733 .794 .697 .770. .770 .830 .746 .806 .770 .782. .952 .915 .952 .915 .915 .879. .863 .861 .841 .849 .833 .831.
(9) Vol. 47. No. 6. 拡張ストリングカーネルを用いた要約システムの自動評価法. 1761. ROUGE に対しては,名詞,動詞,形容詞,未知語の. 次に long における r について議論する.表 7 を見. みを用いてスコアを計算した場合(stop) ,とすべての. ると ROUGE が 表 5 と比較して成績が大きく下がっ. 単語を用いた場合(case)の評価を行った.ROUGE-S,. ているのに対して,カーネル関数を用いた手法は特に d = 2,3 の場合に成績が向上していることが分かる. さらに,提案手法は,全データセットで ROUGE-1. ROUGE-SU に関しては文献 8) に従い,スキップする 単語数を 4 個までに制限する場合,9 個までに制限す る場合,制限なしの場合のそれぞれを評価した.また, 提案手法と WSK を用いた手法に対しては,すべての. (case)に勝っておりその有効性がより明確である.ま た,表 5 とは異なり,β = 2 が β = 3 よりも全体的に. 単語を用い,単語の組合せ数 d を 2∼4 まで変化させ,. 良い結果を得る傾向にある.WSK を用いた手法との. 調和平均のパラメータ β は 2 と 3 の場合の評価を行っ. 比較では d = 4 以外では,提案手法の方が良い成績で. た.減衰パラメータ λ は,0.5 に設定した.なお,λ. ある.ROUGE に関しては,ROUGE-L(stop)の成. と β が提案手法に与える影響については,5.3 節で考. 績が大きく向上しており,ROUGE-SU(4)(case)と. 察する.. ほぼ同等となっている.表 5 とは異なり,ROUGE-SU. 5. 考. 察. 5.1 各手法との性能比較. が ROUGE-S よりやや良い成績であり,双方ともに スキップする単語数を少なく設定した方が成績が向上 する傾向にある.. まず,short における r に関して議論する.表 5 よ. 続いて long における ρ について議論する.表 8 よ. り,提案手法は,d = 2,β = 3 の場合に安定して高. り,short の場合と同様 ρ は,r よりも低い値をとる傾. い相関を得ている.d を増やすと相関は低くなる傾向. 向にある.全データセットの平均を見た場合,ROUGE. にあり,平均的には β = 3 の方が β = 2 の場合よ. では ROUGE-1(case)の成績が最も良く 0.861 であ. りも良い.WSK を用いた手法と比較すると,d = 2,. るのに対して,提案手法は d = 2,β = 3 の場合には. 3 の場合に差が大きく,d = 4 では差がやや小さくな り,WSK を用いた手法が提案手法を上回る場合があ. 0.907 とその差は大きい.d = 2 の場合には,β = 2 と β = 3 の差は小さいが,d = 3,4 の場合には β = 2. る.これは,提案手法が単語の意味ラベルを素性とし. の方が成績が良い.WSK を用いた手法との比較では,. ているため,d = 4 の場合には素性数が膨大になるこ. どの d においてもおおむね提案手法の方が成績が良. とで性能の劣化を招いていると考える.. い.また,表 6 と同じく,d = 3 が最も良い成績であ. 一方,ROUGE に関しては,ROUGE-1(case)の. る場合がある.. 成績が最も良い.提案手法との差も小さく,D1 ,D4. 以上より,WSK,ESK といったコンボリューショ. では提案手法より勝っており,全データの平均も提. ンカーネルを用いることで,全体的には,ROUGE. 案手法より良い.次いで,ROUGE-2,ROUGE-S,. よりも良い結果を得る傾向にあることが分かる.特. ROUGE-SU が同程度の成績で良く,ROUGE-3,4, L の成績はそれらよりもやや落ちる.ROUGE-S,SU におけるスキップの制限に関しては,データセットに. はやや悪い成績であるのに対し,WSK,ESK は長. に ROUGE が short では良い成績であるが,long で さによらず安定して良い成績である.また,WSK が. よって最適値が異なっているため,一概にはいえない. ROUGE-S,SU よりも良いことから,スキップ N グ. が,全データの平均を見る限りは,大きな違いはない.. ラムに対しては,通常の N グラムよりも重みを小さ. なお,ROUGE-1,ROUGE-S,ROUGE-SU の場合. くした方が効果的であることが分かる.さらに,提案. には,case の場合が,それら以外では,stop の方が. 手法が d = 2,3 において,WSK よりも良い成績を. 良い傾向にある.. 得る傾向にあることから,語の意味ラベルを用いたこ. 続いて short における ρ について議論する.表 6. との有効性も分かる.ただし,先にも述べたとおり,. より,全体的に ρ は r よりも低い値をとる傾向にあ. d = 4 の場合には,意味ラベルを用いることによって. ることが分かる.表 5 と同じく,提案手法はおおむ. 素性数が爆発するため成績が悪くなる傾向にある.. ね WSK を用いた手法よりも良いが,データセットに. 5.2 ROUGE-1 の問題点. よっては,ROUGE-1(case)よりも劣る場合がある.. 今回の実験において,ROUGE の中で最も成績が. ただし,表 5 ほどの差はなく,全データの平均では提. 良かったのは ROUGE-1 であるが,これに関しては,. 案手法が最も良い.さらに,d を増やしていった場合. スコアをだますことが容易であるという問題がある.. の相関係数の変化が表 5 とは異なっている.データ. ROUGE-1 では語順をまったく考慮しないので,文書 セット中で IDF が高い単語,固有名詞,出現頻度の高. セットにもよるが,d = 3 が最も良い場合が多い..
(10) 1762. 表 9 自動評価法がシステムに与えたスコアの平均 Table 9 Average scores assigned by automatic evaluation methods. d=2 ROUGE-1 ROUGE-2 ROUGE-3 Fesk (β = 2). sys1 sys2 sys3 sys4 sys5 sys6 sys7 sys8 sys9 sys10 sys11. June 2006. 情報処理学会論文誌. .4335 .3583 .3540 .4481 .4092 .4061 .4254 .4070 .3118 .3591 .3550. .2001 .1589 .1298 .2091 .1780 .1685 .2019 .1912 .1058 .1340 .0054. .1168 .0906 .0601 .1188 .0969 .0890 .1193 .1114 .0509 .0667 .0002. .3328 .2830 .2917 .3434 .3082 .3223 .3127 .3251 .2417 .2952 .0841. 表 10 λ,β を変化させた場合の r の最大値 Table 10 Best scores of r for various values of λ and β.. d 2 3 4. β 3 3 2. short λ r .5 .950 .3 .941 .3 .925. β 2.5 2 2. long λ .3 .2 .1. r .963 .955 .938. 表 11 λ,β を変化させた場合の ρ の最大値 Table 11 Best scores of ρ for various values of λ and β.. d 2 3 4. β 3 4 4. short λ ρ .5 .921 .8 .931 .5 .921. β 2.5 2 2. long λ .6 .3 .1. ρ .911 .901 .877. い助詞などを並べることで,ある程度のスコアを稼ぐ ことが容易に予測できる.実際に,単語 t の重要度を. 値の変化をそれぞれ図 1,図 2 に示す.なお,すべて. TF(t, DS) · IDF(t) で求め,その値の高いものから順. の β をグラフに掲載すると煩雑になるため,short に. に指定された文字数を満たすまで単語を出力するシステ. 関しては β =1,2,3,4,long に関しては β = 1.5,. ムを sys11 として作成し,各データセット D1 , · · · , D5. 2.5,3.5,4.5 の場合を掲載する. 表 10 より,r に対する最適パラメータは,short の 場合では d = 2,λ = 0.5,β = 3,long の場合では. ☆. d=2 について,ROUGE-1,2,3,Fesk. (β = 2) のスコ. アを計算した.また,同様にして TSC-3 参加システ ムのスコアも計算した.5 つのデータセットに対する スコアの平均値を表 9 に示す.なお,紙面の都合上. d = 2,λ = 0.3,β = 2.5 である.評価実験の際に 決定したパラメータとはやや異なるが,表 5,表 7 の. short の結果のみ掲載する.表 9 より,ROUGE-1 が sys11 に対して非常に高いスコアを与えていることが 分かる.そのスコアは,TSC-3 参加の中程度のシス. 「Average」カラムの値と比較すると,その差は小さ. テムとほぼ同等である.単なる語の羅列であるシステ. 合では d = 2,λ = 0.6,β = 2.5 である.これも r. ムに対してこうした高いスコアを与えることは,致命. の場合と同様,評価実験の際に設定したパラメータと. 的な問題であると考える.これに対して,ROUGE-2,. は異なるが,ρ の値の差は小さい.. い.また,表 11 より,ρ に対する最適パラメータは, short の場合では d = 3,λ = 0.8,β = 4,long の場. d=2 3,Fesk (β = 2) は,語順を考慮するので,そのスコ. 図 1 より,short の r に関しては,β = 2,3,4 の. アは非常に小さく,TSC-3 に参加した最下位のシステ. 間の差は小さい.d = 2 の場合には,λ = 0.8 付近,. ムと比較しても十分小さい.よって,語順を考慮した. ROUGE や提案手法は ROUGE-1 と比較すると頑健. d = 3 の場合には,λ = 0.6 付近,d = 4 の場合には, λ = 0.4 付近で急激に r が下がる傾向にある.ρ に. である.. ついては,全体的な傾向は r と似ているが,β = 2. 上記より,提案手法や ROUGE-2,3 など語順を考. の性能がやや劣っている.ただし,ρ が急激に劣化す. 慮する自動評価法は,ROUGE-1 よりも頑健性に優れ. る λ の値は r の場合ほど異ならない.r,ρ ともに. ていることが分かる.. λ = 1 に設定すると相関係数が大きく下がることから もスキップ N グラムの重みを通常の N グラムよりも. 5.3 パラメータの影響 評価実験では,d = 2,3,4 のそれぞれに対し,λ を 0.5 に固定し,β = 2,3 の場合のみを評価したが,こ. 小さくすることの有効性が分かる.また,r の場合は,. こでは,λ と β が r と ρ に与える影響を議論する.. d = 2,3 の λ = 0.5 付近,ρ の場合は,d = 3,4 の. . . .,1 まで変化させ,β は,0.5,1,1.5,. . .,4.5 ま. λ = 0.5 付近において,相関係数は十分高いことが分 かる. 図 2 より,long の r に関しては,d = 2,3 の場合に. で変化させ,提案手法の r と ρ を計算し,平均を求め. は β = 2.5 が良く,d = 4 の場合には,β = 1.5 が良. た.このときの最大値をそれぞれ表 10,表 11 に示し,. い傾向にある.β を変化させた場合の性能差は short. データセット D1 , . . . , Davg に対し,λ は,0,0.1,0.2,. の場合よりも大きい.また,r が急激に劣化する λ に ☆. TF(t, DS) は文書セット中での t の出現頻度を表す.. 関しては,short とほぼ同様の傾向である.ρ に関し.
(11) Vol. 47. No. 6. 拡張ストリングカーネルを用いた要約システムの自動評価法. 図 1 様々な λ と β に対する相関係数(short) Fig. 1 Correlation coefficients for various values of β and λ (short).. 1763.
(12) 1764. 情報処理学会論文誌. 図 2 様々な λ と β に対する相関係数(long) Fig. 2 Correlation coefficients for various values of β and λ (long).. June 2006.
(13) Vol. 47. No. 6. 拡張ストリングカーネルを用いた要約システムの自動評価法. ては,d = 2 の場合には,β = 2.5,3.5 が良い傾向に あり,d = 3,4 の場合には β = 1.5,2.5 が良い傾向 にある.また,d を大きくするに従って,性能が急激 に劣化する λ の値が short の場合より小さくなる傾 向にある.short の場合と同様,λ = 1 に設定すると. r,ρ の値が大きく下がっており,スキップ N グラム の重みを通常の N グラムよりも小さくすることの有 効性が分かる.また,short とは異なり,r,ρ ともに. d = 2 で最も良い結果が得られる.このとき,λ = 0.5 付近の相関係数は十分高い. 以上より,β を 2∼3 に設定し,λ を 0.5 付近に設 定すると,最適とは限らないが,比較的安定して良い 成績であることが分かった.. 6. ま と め 本稿では,拡張ストリングカーネルを用いた要約シ ステムの自動評価法を提案した.TSC-3 のデータを用 いて評価実験を行った結果,ピアソンの積率相関係数 は平均で 0.95 程度,スペアマンの順位相関係数は平 均で 0.92 程度であり,人間の評価結果に対し,非常に 高い相関を得た.また,提案手法は,従来より提案さ れている自動評価法である ROUGE より,参照要約 の長さに依存せずに人間の評価結果との間の相関が高 いこと,評価指標として頑健であることが分かった.. 参. 考 文. 献. 1) Cancedda, N., Gaussier, E., Goutte, C. and Renders, J.-M.: Word Sequence Kernels, Journal of Machine Learning Research, Vol.3, No.Feb, pp.1059–1082 (2003). 2) Collins, M. and Duffy, N.: Convolution Kernels for Natural Language, Proc. Neural Information Processing Systems (NIPS2001 ) (2001). 3) Harman, D. and Over, P.: The Effects of Human Variation in DUC Summarization Evaluation, Proc. Workshop on Text Summarization Branches Out, Post Conference Workshop of ACL 2004, pp.10–17 (2004). 4) Hirao, T., Okumura, M., Fukushima, T. and Nanba, H.: Text Summarization Challenge 3 — Text Summarization Evaluation at NTCIR Workshop 4, Working Notes of the Fourth NTCIR Workhop Meeting, pp.407–411 (2004). 5) Hirao, T., Suzuki, J., Isozaki, H. and Maeda, E.: Dependency-based Sentence Alignment for Multiple Document Summarization, Proc. 20th International Conference on Computational Linguistics, pp.446–452 (2004).. 1765. 6) Hori, C., Hori, T. and Furui, S.: Evaluation Methods for Automatic Speech Summarization, Proc. Eurospeech2003, pp.2825–2828 (2003). 7) Lin, C.-Y.: Looking for a Good Metrics: ROUGE and its Evaluation, Proc. 4th NTCIR Workshops (open submission), pp.1–8 (2004). 8) Lin, C.-Y.: ROUGE: A Package for Automatic Evaluation of Summaries, Proc. Workshop on Text Summarization Branches Out, Post Conference Workshop of ACL 2004, pp.74–81 (2004). 9) Lin, C.-Y. and Hovy, E.: Automatic Evaluation of Summaries Using N-gram Cooccurrence Statistics, Proc. 4th Meeting of the North American Chapter of the Association for Computational Linguistics and Human Language Technology, pp.150–157 (2003). 10) Lin, C.-Y. and Och, F.: Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics, Proc. 42nd Annual Meeting of the Association for Computational Linguistics, pp.606–613 (2004). 11) Lodhi, H., Saunders, C., Shawe-Taylor, J., Cristianini, N. and Watkins, C.: Text Classification using String Kernel, Journal of Machine Learning Research, Vol.2, No.Feb, pp.419–444 (2002). 12) Papineni, K., Roukos, S., Ward, T. and Zhu, W.-J.: BLEU: a Method for Automatic Evaluation of Machine Translation, Proc. 40th Annual Meeting of the Association for Computational Linguistics, pp.311–318 (2002). 13) Saggion, H., Radev, D., Teufel, T. and Lam, W.: Meta-Evaluation of Summaries in a CrossLingual Environment Using Content-Based Metrics, Proc.19th International Conference on Computational Linguistics (2002). 14) Soricut, R. and Brill, E.: A Unified Framework for Automatic Evaluation using N-gram Cooccurrence Statistics, Proc. 42nd Annual Meeting of the Association for Computational Linguistics, pp.614–621 (2004). 15) 池原 悟,宮崎正弘,白井 諭,横尾昭男,中岩 浩巳,小倉健太郎,大山芳史,林 良彦:日本語 語彙大系,岩波書店 (1999). (平成 17 年 10 月 14 日受付) (平成 18 年 4 月 4 日採録).
(14) 1766. 情報処理学会論文誌. 平尾. 努(正会員). June 2006. 磯崎 秀樹(正会員). 1995 年関西大学工学部電気工学. 1983 年東京大学工学部計数工学. 科卒業.1997 年奈良先端科学技術. 科卒業.1986 年同工学系大学院修士. 大学院大学情報科学研究科博士前期. 課程修了.同年日本電信電話(株). 課程修了.同年 NTT データ通信株. 入社.1990∼1991 年スタンフォー. 式会社(現,株式会社 NTT データ). ド大学ロボティクス研究所客員研究. 入社.2000 年より日本電信電話株式会社 NTT コミュ. 員.現在,NTT コミュニケーション科学基礎研究所. ニケーション科学基礎研究所に所属.2002 年奈良先. 知識処理研究グループリーダ.博士(工学).平成 15. 端科学技術大学院大学情報科学研究科博士後期課程修. 年度情報処理学会論文賞・山下記念研究賞受賞.人工. 了.博士(工学).自然言語処理の研究に従事.言語. 知能・自然言語処理の研究に従事.電子情報通信学会,. 処理学会,ACL 各会員.. 人工知能学会,言語処理学会,ACL 各会員.. 奥村. 学(正会員) 1989 年東京工業大学大学院情報理 工学研究科計算工学専攻博士後期課 程修了.1989 年より東京工業大学大 学院情報理工学研究科助手.1992∼. 2000 年北陸先端科学技術大学院大学 助教授.1997∼1998 年トロント大学客員助教授.2000 年より東京工業大学精密工学研究所助教授.自然言語 処理,自動テキスト要約,コンピュータによる語学学 習支援,テキストデータマイニングに関する研究に従 事.工学博士.AAAI,ACL,JSAI,JCSS 各会員..
(15)
図
関連したドキュメント
This author’s own approach to teaching summary writing has been very similar to that proposed by Johns (1988), only with questions directing students towards the main points
In this study, the standard deviation of gray level intensity Gsa, the ratio of surface area RA, the ratio of X-direction length RLX and the one of Y
活動後の評価 心構え
磁束密度はおおよそ±0.5Tで変化し,この時,正負
[r]
We traced surfaces of plural fabrics that differ in yarn, weave and yarn density with the tactile sensor, and measured variation of the friction coefficients with respect to the
-octanol, (E)- -hexenal and (Z)- -hexenol) from herbal teas A quality evaluation method for dried herbs was stud- ied with sweet basil leaves (fresh, air-dried, freeze-dried
本体背面の拡張 スロッ トカバーを外してください。任意の拡張 スロット