• 検索結果がありません。

第 7 章 3 行要約実験 22

7.3 実験結果

本節では3つのモデルをROUGE [8]スコアで評価した結果を述べる.7.3.1節 ではシステム出力と正解要約全体に対してROUGE-1, ROUGE-2, ROUGE-Lを 計算した結果を示す.7.3.2節ではシステム出力と正解要約それぞれの文を順番に 評価した結果について示す.7.3.3節ではシステム出力のそれぞれの文に対して,

ROUGE-Lが最大となるペアを作り,それらのペアごとの評価結果を示す.

7.3.2,7.3.3節では1st,2nd及び3rd行はシステム要約の各文における評価であ る.Aveの行は1stと2nd,3rdのスコアの平均を示している.

7.3.1 ROUGEによる評価結果

表7.1にROUGEによる評価結果を示す.

表のAllについて述べる.表 7.5において,提案モデルがベースラインのモデル

より高いROUGEスコアを達成している.P arallelでは,すべての提案モデルが

ベースラインより高いスコアとなった.SequenceにおいてはSequence_T rainモ デルがベースラインのモデルを大きく上回っている(ROUGE-1 +2.31, ROUGE-2 +0.66, ROUGE-L +0.75).

7.3.2 各文に対する評価結果

順番にシステム要約と正解要約の文でペアを作り,評価した結果を表7.2, 7.3, 7.4 に示す.テストデータ全体で評価した際にはM ergeが3rdを除いてより高いスコ アとなった(表 7.2).また,“Parallel”タイプのテストデータにおいても同様の傾

向が見られる(表 7.3).“Sequence”タイプのテストデータではP arallel_T rain が多くの評価指標で高いスコアとなった.

7.3.3 ROUGE-Lを用いてペアを作成し,各文に対する評価結果

ROUGE-Lを用いてシステム要約の3 文のスコアの平均が最大となるようなペ

アを作成し,評価を行なった結果を表7.5, 7.6, 7.7に示す.

1stの結果について述べる.この列は M ergeのモデルのスコアが優位である.

表7.7ではベースラインのモデルと比べると,ROUGE-1, ROUGE-Lともに1.00 近く上回っている.

続いて,2ndの結果について述べる.Sequence_T rainが総合的に見て高いス コアを出している.表 7.7 においてはベースラインのモデルに比べ,ROUGE-1 は3.13, ROUGE-2は3.24, ROUGE-Lは2.21上回っている.M ergeは表 7.6で ベースラインのモデルより1.00近く低いスコアが出ていることがわかる.

3rdの結果について述べる.表 7.5 7.6では他の2つのモデルと比べ高いスコア を達成している.表7.7では今までの結果とは異なり,ベースラインのモデルにお いて高いスコアが出ている.

最 後 に Ave の 結 果 に つ い て 述 べ る .3 文 そ れ ぞ れ の 平 均 を 取 る と , Sequence_T rain が ど の デ ー タ で も 一 番 高 い ス コ ア を 達 成 し て い る .ま た , P arallel_T rainにおいても,ベースラインのモデルを上回る結果となった.

全体的な傾向としては,1文目から3文目に進むにつれて全体的にROUGEスコ アが下がる傾向にある.また,fine-tuningを行ったモデルはベースラインのモデル より高い結果となることが多い.

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 47.04 27.12 34.01 48.01 27.86 34.54 47.81 27.27 33.95 48.90 28.32 35.12 2nd 28.99 9.84 18.71 29.27 9.84 18.78 29.59 10.18 19.10 29.50 10.38 19.18 3rd 26.79 8.05 17.87 27.14 8.26 18.19 27.58 8.59 18.42 26.85 7.67 17.91 ave 34.27 15.00 23.53 34.81 15.32 23.83 35.00 15.35 23.83 35.08 15.46 24.07 7.2 1-1, 2-2, 3-3でペアを作った,すべてのテストデータにおける評価結果.

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 47.10 27.56 34.35 48.28 28.60 34.95 47.90 27.88 34.28 49.00 28.37 35.25 2nd 29.01 10.16 18.81 28.92 9.72 18.56 29.40 10.28 19.08 29.43 10.27 19.08 3rd 25.99 7.85 17.29 26.30 7.94 17.48 26.87 8.58 17.89 27.02 7.73 18.00 ave 34.03 15.19 23.48 34.50 15.42 23.66 34.73 15.58 23.75 35.15 15.46 24.11 7.3 1-1, 2-2, 3-3でペアを作った,並列タイプのテストデータにおける評価結果

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 46.88 25.93 33.10 47.27 25.86 33.42 47.56 25.61 33.09 48.62 28.18 34.76 2nd 28.94 8.98 18.45 30.20 10.17 19.38 30.12 9.90 19.17 29.68 10.67 19.45 3rd 28.94 8.57 19.45 29.41 9.12 20.10 29.50 8.63 19.86 26.38 7.51 17.64 ave 34.92 14.49 23.66 35.63 15.05 24.30 35.72 14.72 24.04 34.89 15.45 23.95 7.4 1-1, 2-2, 3-3でペアを作った,直列タイプのテストデータにおける評価結果.

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 48.23 28.42 35.29 48.86 28.80 35.53 49.20 28.84 35.38 49.48 29.15 35.82 2nd 34.37 14.50 23.38 34.30 14.18 23.28 35.09 15.41 24.15 34.69 15.24 23.78 3rd 31.91 12.36 22.00 32.28 12.80 22.51 32.01 12.18 21.97 31.67 11.46 21.80 ave 38.17 18.43 26.89 38.48 18.59 27.11 38.77 18.81 27.17 38.61 18.62 27.13 7.5 スコアが最大となるペアを作った,すべてのテストデータにおける評価結果.

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 48.38 28.97 35.68 48.75 29.30 35.68 49.35 29.38 35.68 49.63 29.18 35.95 2nd 34.48 14.93 23.40 33.62 13.89 22.81 34.32 14.97 23.64 34.51 15.13 23.74 3rd 31.62 12.53 21.82 32.45 13.29 22.67 31.58 12.50 21.80 32.12 11.80 22.16 ave 38.16 18.81 26.97 38.27 18.82 27.05 38.42 18.95 27.04 38.75 18.70 27.28

7.6 スコアが最大となるペアを作った,並列タイプのテストデータにお ける評価結果.

Coverage Parallel_Train Sequence_Train Merge

ROUGE ROUGE ROUGE ROUGE

1 2 L 1 2 L 1 2 L 1 2 L

1st 47.83 26.92 34.25 49.18 27.45 35.14 48.81 27.38 34.54 49.09 29.08 35.47 2nd 34.05 13.34 23.32 36.14 14.96 24.55 37.18 16.58 25.53 35.17 15.52 23.90 3rd 32.68 11.93 22.47 31.82 11.48 22.08 33.17 11.34 22.42 30.46 10.55 20.84 ave 38.19 17.40 26.68 39.05 17.96 27.26 39.72 18.43 27.50 38.24 18.38 26.74

7.7 スコアが最大となるペアを作った,直列タイプのテストデータにお ける評価結果.

8 章 考察

8.1 評価結果

7章では,通常の評価方法(All)に加え,1文ごとにペアを作り評価を行った.

Allのように評価をしてしまうと,文の対応が考慮できないため,Aveより高めの スコアが出ている.例えば,正解要約の1文目のbi-gramとシステム要約の3文目

にbi-gramがあったとしてもスコアが上がるため,All のスコアが高くなってしま

う.文ごとに評価することで,何文目が生成しやすいまたはしにくいというのが理 解できる.

表7.5では,1stは4章で述べた通り2つのタイプどちらも主な出来事が書かれ ているためスコアが高い.しかし,2,3文目となると1stに比べ10.00以上の差が 開いている.2,3文目は各タイプによって役割が違いモデルがどちらを出せばいい のか認識できないので,このような結果となっていると考えられる.しかし,これ

はEncoder-Decoderモデルにおける長文を生成する際の特徴でもあるため一概に

は言えない.

AllAveの評価結果を見ると Sequence_T rainが一番高いROUGEスコア を出している.これはもともとのトレーニングデータには“並列”タイプの要約が 多いと推測できる(表 4.3)ため,スコアの変化が大きいと考えられる.モデルを

“直列”タイプでfine-tuningすると,順番に前の文を考慮しながら生成するように

なるため,このような結果になったと考えられる.なぜなら,もともと“並列”タ イプが多いトレーニングデータであるため,モデルは3文目生成時には1文目の内 容を考慮しつつ,2文目と被らない内容を出力しようとするため必要な情報量が多 く,今までの生成内容を考慮しきれていないと考えられる.

関連したドキュメント