実験結果

第 7 章 3 行要約実験 22

7.3 実験結果

本節では3つのモデルをROUGE [8]スコアで評価した結果を述べる．7.3.1節ではシステム出力と正解要約全体に対してROUGE-1, ROUGE-2, ROUGE-Lを計算した結果を示す．7.3.2節ではシステム出力と正解要約それぞれの文を順番に評価した結果について示す．7.3.3節ではシステム出力のそれぞれの文に対して，

ROUGE-Lが最大となるペアを作り，それらのペアごとの評価結果を示す．

7.3.2,7.3.3節では1st，2nd及び3rd行はシステム要約の各文における評価である．Aveの行は1stと2nd，3rdのスコアの平均を示している．

7.3.1 ROUGE_{による評価結果}

表7.1にROUGEによる評価結果を示す．

表のAllについて述べる．表 7.5において，提案モデルがベースラインのモデル

より高いROUGEスコアを達成している．P arallelでは，すべての提案モデルが

ベースラインより高いスコアとなった．SequenceにおいてはSequence_T rainモデルがベースラインのモデルを大きく上回っている（ROUGE-1 +2.31, ROUGE-2 +0.66, ROUGE-L +0.75）．

7.3.2 _{各文に対する評価結果}

順番にシステム要約と正解要約の文でペアを作り，評価した結果を表7.2, 7.3, 7.4 に示す．テストデータ全体で評価した際にはM ergeが3rdを除いてより高いスコアとなった（表 7.2）．また，“Parallel”タイプのテストデータにおいても同様の傾

向が見られる（表 7.3）．“Sequence”タイプのテストデータではP arallel_T rain が多くの評価指標で高いスコアとなった．

7.3.3 ROUGE-Lを用いてペアを作成し，各文に対する評価結果

ROUGE-Lを用いてシステム要約の3 文のスコアの平均が最大となるようなペ

アを作成し，評価を行なった結果を表7.5, 7.6, 7.7に示す．

1stの結果について述べる．この列は M ergeのモデルのスコアが優位である．

表7.7ではベースラインのモデルと比べると，ROUGE-1, ROUGE-Lともに1.00 近く上回っている．

続いて，2ndの結果について述べる．Sequence_T rainが総合的に見て高いスコアを出している．表 7.7 においてはベースラインのモデルに比べ，ROUGE-1 は3.13, ROUGE-2は3.24, ROUGE-Lは2.21上回っている．M ergeは表 7.6でベースラインのモデルより1.00近く低いスコアが出ていることがわかる．

3rdの結果について述べる．表 7.5 7.6では他の2つのモデルと比べ高いスコアを達成している．表7.7では今までの結果とは異なり，ベースラインのモデルにおいて高いスコアが出ている．

最後に Ave の結果について述べる．3 文それぞれの平均を取ると， Sequence_T rain がどのデータでも一番高いスコアを達成している．また， P arallel_T rainにおいても，ベースラインのモデルを上回る結果となった．

全体的な傾向としては，1文目から3文目に進むにつれて全体的にROUGEスコアが下がる傾向にある．また，fine-tuningを行ったモデルはベースラインのモデルより高い結果となることが多い．