2015 年度 修士論文
生成型一文要約のためのマルチアテンションモデル
提出日:2016 年 2 月 1 日 指導:山名 早人 教授
早稲田大学大学院 基幹理工学研究科 情報理工・情報通信専攻 学籍番号:5114F094-1
吉岡 重紀
概要
現在,世の中のデータは指数関数的に増加しており,その量は2020年には44ZBに達すると 予想されている.今後,膨大なデータ全てを人間が直接利用することはますます難しくなり,デ ータの取捨選択や圧縮が必須となる.自動要約は文書を要旨に圧縮しており,要約から元文書 を読むべきかの判断や,要約だけで元文書の内容理解が可能となる.自動要約は抽出型要約と 生成型要約の二種類に大別することができる.抽出型要約は元文書に含まれる文やフレーズを 組み合わせることで要約を作る.一方,生成型要約は元文書の内容をもとに,新たな文を生成 して要約を行う.そのため,生成型要約では,人間が行うような言い換えや一般化,並び替え による要約が可能となる.しかし,既存研究の多くは抽出型要約によるもので,生成型要約の 研究は文から短い文を生成する文レベルの要約にとどまっている.そこで本研究では,アテン ションモデルを複数用いることにより複数文の文書から一文の要約を生成型要約で行う方法を 提案する.ニュース記事からタイトルを生成するタスクにおいて,4名の被験者による嗜好テス ト実験を行い,単一のアテンションモデルを用いた既存手法より 90%信頼区間で元文書に対し てより適切な要約であると判断された.
目次
第 1 章 はじめに ... 1
第 2 章 関連研究 ... 3
2.1 エンコーダ・デコーダモデル ... 3
2.2 アテンションモデル ... 4
2.3 アテンションモデルによる文レベルの生成型要約 ... 5
2.4 まとめ ... 7
第 3 章 マルチアテンションモデル ... 8
3.1 言語モデル ... 9
3.2 マルチアテンションモデル ... 10
3.2.1 平均マルチアテンションモデル ... 10
3.2.2 ディープマルチアテンションモデル ... 11
3.3 学習方法 ... 12
3.4 生成アルゴリズム ... 13
第 4 章 実験・評価 ... 15
4.1 データセット ... 15
4.2 ベースライン ... 19
4.3 実装 ... 19
4.4 評価方法 ... 20
4.5 実験結果 ... 21
4.6 考察・まとめ ... 31
第 5 章 まとめ ... 32
第1章 はじめに
現在,世の中のデータは指数関数的に増加しており,その量は2020年には44ZBに達すると 予想されている1.今後,データはより膨大な量となり,人間が全てのデータを直接利用するこ とはますます難しくなる.そのため,データの取捨選択や圧縮が必須となる.文書データにお ける取捨選択や圧縮の手段として要約がある.要約は文書を要旨に圧縮するため,元文書を読 むべきかの判断や要約だけで元文書の内容理解が可能となる.
要約をプログラムにより作成する自動要約がこれまで研究されてきた.自動要約は要約の作 り方により抽出型要約と生成型要約の二種類に大別できる.抽出型要約は元文書に含まれる文 やフレーズを組み合わせることで要約を作る.一方,生成型要約は元文書の内容をもとに,新 たな文を生成して要約を行う.人間は言い換えや一般化,並び替えなどを行い,元文書とは異 なる表現を使いながら要約を行う[1].抽出型要約では元文書に使われている表現しか用いるこ とができず,人間の要約に近づけるのに限界がある.生成型要約では元文書に含まれる単語に 制限されないため,元文書と異なる表現で要約を作ることも可能となる.したがって,生成型 要約は人間が要約を作る方法に近く,人間が作る要約に近いものが期待できる.しかし,既存 研究の多くは抽出型要約によるもので,生成型要約の研究は文から短い文を生成する文レベル の要約にとどまっている.
生成型要約を行うには,まず,元文書の内容をコンピュータの扱える中間表現に直し,次に その中間表現から元文書より短くなるように文生成を行わなくてはならない.しかし,文書の 内容を忠実に表現可能な中間表現方法は確立していない.その上,中間表現が可能になっても,
その中間表現が表す内容を元文書より短くなるように文生成することは難しい課題である.こ のように生成型要約は技術的課題が多く今まであまり行われて来なかった.
2014 年に機械翻訳のタスクでRNN(Recurrent Neural Network)や LSTM(Long Short Term Memory)などの再帰型ニューラルネットワークを用いた,エンコーダ・デコーダモデルが登場 した[2][3].二つの再帰型ニューラルネットワークを用い,一方で文からのベクトル化,もう一 方でベクトルからの文生成を行い,直接文から別言語の文へ(end-to-end)翻訳することを実現 した.文からベクトル化することとベクトルから文生成することはそれぞれエンコードとデコ ードと呼ばれる.ここで,ベクトルは文の内容を表す中間表現となっている. 2015年には単語 の出力ごとに出力単語と元文書からエンコードを行うテンションモデルが登場した[4].アテン ションモデルはエンコーダにも出力単語を入れることにより,次の単語出力で着目すべき元文 中の単語に荷重をかけてエンコードすることができる.エンコーダ・デコーダモデルの機械翻
1 Data Growth, Business Opportunities, and the IT Imperatives,
訳は生成型要約の方法に非常に近く,アテンションモデルを用いた文レベルの生成型要約が提 案された[5].
本研究では,アテンションモデルを複数用いることにより複数文の文書から一文の要約を生 成型要約で行うマルチアテンションモデルを提案する.産経ニュース2からニュース記事とタイ トルを収集し,タイトルをニュース記事の一文要約として実験を行う.
本稿では次の構成を取る.まず,第 2 章で関連研究について述べ,第 3 章で提案するマルチ アテンションモデルについて説明する.第4章で実験と評価を行い,最後に第5章でまとめる.
2 http://www.sankei.com/ 2015 12 19
第2章 関連研究
生成型要約は,1)元文書の内容をコンピュータに扱える中間表現に変換し,2)その中間表現か ら元文書より短くなるように文書生成する,という2つの行程から構成される.近年,機械翻 訳の分野でニューラルネットワークを用いたエンコーダ・デコーダモデルが提案された[2][3].
エンコーダ・デコーダモデルでは,1)言語 A の文をベクトル化し,2)そのベクトルから言語 B の文を生成する,という2つの行程で翻訳を行う.言語Aの文からエンコードされたベクトル は,言語 A の文の内容を表す中間表現と考えることができ,エンコーダ・デコーダモデルの行 程は生成型要約の行程と類似している.生成型要約の既存研究ではエンコーダ・デコーダモデ ルから発展したアテンションモデル[4]を用いて,文から短い文へ(文レベル)の生成型要約を 行っている.
本章では 2.1,2.2 でそれぞれエンコーダ・デコーダモデルとアテンションモデルについて説
明し,2.3でアテンションモデルを用いた文レベルの生成型要約を行った既存研究について紹介 する.最後に2.4で関連研究のまとめを行う.
2.1エンコーダ・デコーダモデル
エンコーダ・デコーダモデルはエンコーダ部分とデコーダ部分の2つに分けられ,エンコー ダは文を実数値ベクトルに変換し,デコーダはそのベクトルから文生成を行う.図 1 にエンコ ーダ・デコーダモデルを示す.!!,!!はそれぞれ言語Aの言語Bの文の!番目の単語を表し,言 語Aの語彙集合を!!,言語Bの語彙集合を!!としたとき,!!∈ 0,1 |!!|,!!∈ 0,1 |!!|で,1-hot ベクトルである.!,!はそれぞれ言語A,言語Bの文に含まれる単語数を表す.
図 1: エンコーダ・デコーダモデル([2][3]をもとに作成)
Choらは2014年,二つのRNN(Recurrent Neural Network)を用いて言語Aの文から言語Bの 文へ機械翻訳を行うRNN Encoder-Decoderを提案した[2].RNNは系列を扱うことができるニュ ーラルネットワークで,隠れ層に帰還路を持つことにより,任意の個数の入力が行える.文は
単語の系列として扱うことができ,単語を順に入力することで語順を考慮して文を扱うことが できる.二つのRNNの一方で,言語Aで記述された文をベクトル化し,もう一方で,そのベク トルから言語Bの文を生成する.エンコーダではRNNに言語Aの文に含まれる単語!!を順に入 力していき,!語まで入力したときの隠れ層の出力を言語Aの文をエンコードしたベクトルとし て出力する.デコーダはRNNを用いた言語モデルRNNLM(Recurrent Neural Network Language
Model)[6]に潜在状態としてエンコーダの出力を入力したモデルで,言語 B の単語!!の確率を出
力する.WMT’14データセット3で既存の統計的機械翻訳手法であるMoses[7]と比較実験を行い,
BLEUのスコアで33.30から33.87に向上した.
RNN は原理的には隠れ層は全ての入力を考慮することが可能であるが,実際には長期的な記 憶は困難である[8].そこで,Sutskeverらは2014年,LSTM(Long Short Term Memory)[9]を用 いたモデルを提案し[3],WMT’14データセットでRNN Encoder-Decoderと比較実験を行い,BLEU のスコアを34.54から34.81まで向上した.
2.2アテンションモデル
RNNやLSTMの隠れ層のノード数は固定長であるため,RNNやLSTMを用いたエンコーダ・
デコーダモデルでは文を固定長のベクトルにエンコードすることになる.可変長の文を固定長 のベクトルにエンコードするため,長い入力文になるほど隠れ層のノード数が不足し,学習が 難しくなる問題がある.この問題に対し,Bahdanauらは2015年,!!の出力ごとに入力文に含まれ る単語!!の荷重を決定してエンコードするアテンションモデルを提案した[4].図 2にアテンショ ンモデルを示す.デコーダのRNNの!番目の隠れ層を!!とする.Bidirectional RNNは隠れ層が順 方向,逆方向の双方向を持つRNNで,Bidirectional RNNの!番目の隠れ層を!!∈!とする.!と
!!!!から!!の荷重!!"∈!!を決定し,荷重をかけて加算したベクトルを!!とする.!!は!!!!と!!を
入力する.荷重!!はデコーダRNNの一つ前の状態!!!!を入力しており,また,!番目の隠れ層!!は
!番目の入力単語!!に最も強く影響されるため,直近のデコーダの状態からどの入力単語に荷重をおくか を決定しながらエンコードするモデルとなっている.!!も固定長のベクトルであるが,出力ごとに入 力の着目すべき部分に荷重をおいてエンコードできるため,RNN や LSTM を用いたエンコー ダ・デコーダモデルに比べ学習しやすいモデルとなった.
WNT’14データセットでRNNのエンコーダ・デコーダモデルとアテンションモデルとで比較
実験を行い,BLEUのスコアはそれぞれ26.71と34.16となった.
3 Translation Task, http://statmt.org/wmt14/translation-task.html, (2016 1 18 )
図 2: アテンションモデルを用いた機械翻訳のモデル([4]をもとに作成)
2.3アテンションモデルによる文レベルの生成型要約
Rushらは2015年,アテンションモデルを用い,文から短い文への生成型要約を行うAttention
Based Summarizationを提案した[5].アテンションモデルの入力文に含まれる単語に荷重をかけ
てエンコードするという特徴から,要約に必要な単語に荷重をかけながら,生成的に文を要約 することを可能とした.図 3にアテンションモデルによるエンコーダを示す.!は元文を表し,
!は元文!に対する要約文を表す.元文の!番目の単語!!∈!,要約文の!番目の単語を!!∈!とす る.元文の語彙集合を!!,要約文の語彙集合を!!としたとき,!!,!!はそれぞれ!!∈ 0,1 |!!|,
!!∈ 0,1 |!!|であり,1-hotベクトルである. !!は出力した直近!個の単語を表し,!!!!を出力す るとき,!!までの!個の出力は !! = !!|!−!+1≤!≤!,!∈ℕと定義される.モデルの重みパラ メータ!,!,!はそれぞれ,!∈ℝ!×|!!|,!∈ℝ!×|!!|,!∈ℝ!×(!")である.!,!はそれぞれ,元文 書!に含まれる単語!!と文脈!!に含まれる単語!!を実数値ベクトルに変換するエンベディング行 列で,それぞれℎ次元,!次元のベクトルにエンベディングする.!!!はエンベディングした!!に 含まれる単語を連結した!"次元のベクトルで,!は!!!をℎ次元のベクトルに変換する重みパラメ ータである.!はスムージングウィンドウの大きさで,!は!をスムージングした行列である.!は 各単語の荷重を表し,!とかけたものが元文書のエンコード結果となる.図 2における!!!!,!,
!!,!!はそれぞれ!!!,!,!,!"#$%! !,!! に対応する.モデル式を以下に示す.!"#関数はベク トルを連結する関数を表す.
図 3: アテンションモデルによるエンコーダ.([5]をもとに作成)
!"#$%! !,!! = !!! (1)
!∝exp (!!!!!) (2)
!!= !!!!!!!!!!
! ∈! (3)
!!=!!!∈! (4)
!!! = !"# !!!!!!!,…,!!! (5)
実験にはニュース記事のデータセットである Gigaward データセット4を用い,ヘッドライン を正解文となる要約として扱い,記事の最初の一文からヘッドラインを生成するように学習を 行った.400万セットで学習を行い,DUC(Document Understanding Conference)5が用意してい
る DUC-2004 のデータセットと Gigaward データセットでテストを行った.文圧縮手法である
ILP[10]と 確 率 的 機 械 翻 訳 手 法 で あ る Moses[7]で 要 約 を 行 っ た も の と 比 較 実 験 を 行 い ,
4 English Gigaward https://catalog.ldc.upenn.edu/LDC2003T05 2016 1 8
5 Document Understanding Conference http://duc.nist.gov/ 2016 1 8
ROUGE[11]のスコアは表 1のようになった.ABSがRushらの提案した手法とする.
表 1: 既存研究における ROUGE の評価([5]より作成)
モデル DUC-20044 Gigaward3 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L ILP 0.1977 0.0402 0.1730 0.1963 0.0513 0.1828 Moses 0.2650 0.0813 0.2285 0.2877 0.1210 0.2644
ABS 0.2818 0.0849 0.2381 0.3100 0.1265 0.2834
以上のようにRushらはアテンションモデルを用いて文から短い文を生成する文レベルの生成 型要約を提案した.アテンションモデルを用いることにより既存の文圧縮手法や機械翻訳手法 を用いた要約より高いROUGEのスコアを示した.
2.4まとめ
本節では,2.1,2.2,2.3で説明を行った関連研究のまとめを行う.表 2 に関連研究のまとめ を示す.
2:
Cho [2] 2014
RNN
Sutskever [3] 2014
LSTM
LSTM RNN
Bahdanau [4] 2015
Rush [5] 2015
第3章 マルチアテンションモデル
生成型要約の既存研究[5]は文から短い文へ(文レベル)の要約にとどまっている.要約は文 書を要旨にまとめることで文書の取捨選択や文書の内容理解を目的に利用され,より長い文書 を短くすることが望ましい.そのため,複数文の文書から要約することが必要となる.既存研 究のモデルでは,同単語には同じ荷重がかけられるモデルとなっている.そのため,既存研究 のモデルで複数文の要約を行った場合,複数文にまたがって出現する単語は同じ荷重が与えら れることになる.しかし,同じ単語でも,文内の使われ方によって,その重要度はことなるは ずである.そこで本研究では,複数のアテンションモデルを用いることで,複数文の文書の各 文でエンコードし,統合することで,同単語であっても文内での使われ方によって荷重を変化 させるモデルを提案する.
本研究で提案する生成型要約のモデルの全体像を図 4(a)に示す.!は元文書を表し,!は元 文書!に対する要約文を表す.元文書!の!番目の文を!! ∈!とし,文!!の!番目の単語を!!"∈!! とする.要約文!の!番目の単語を!!∈!とする.元文書の語彙集合を!!,要約の語彙集合を!!と したとき,!!",!!はそれぞれ!!"∈ 0,1 |!!|,!!∈ 0,1 |!!|であり,1-hot ベクトルである. !!は 出力した直近!個の単語を表し, !!= !!|!−!+1≤!≤!,!∈ℕ と定義され,!!!!を生成する ときに用いる文脈である.モデルのパラメータを!としたとき,!!!!の確率!(!!!!|!,!!;!)を出 力し,要約文を生成する.
(a)生成型要約の全体像. (b)マルチアテンションモデルの概要図.
図 4: 提案モデルの概要図.n は元文書の文数を表す.
生成型要約のモデルはエンコーダ部分とデコーダ部分に分けられる.エンコーダ部分では元 文書!と文脈!!から元文書をベクトル化し,デコーダ部分ではエンコーダの出力と文脈!!から次 の出力単語の確率を出力する.エンコーダ部分で図 4(b)のように複数のアテンションモデル を用いて,元文書に含まれる各文をエンコードし,それを統合することで複数文の元文書のエ ンコードを可能とする.
本節では3.1にデコーダ部分の言語モデルについて説明し,3.2でエンコーダ部分のマルチア テンションモデルについて説明する.3.3 では学習方法について説明し,3.4 に要約文生成アル ゴリズムについて説明する.
3.1言語モデル
デコーダとなる言語モデルについて述べ,モデル式の定義を行う.デコーダにはFFNN(Feed Forward Neural Network)による言語モデル[12]をベースに用い,エンコーダの結果を入力できる ようにした.図 5にデコーダのモデルを図示する.
図 5: デコーダのモデル.
図 5で示したデコーダの各変数とモデル式を定義する.モデルの重みパラメータ!,!,!,!は それぞれ,!∈ℝ!×|!!|,!∈ℝ!×(!"),!∈ℝ!×!,!∈ℝ!×!である.!は文脈の単語!!を実数値ベ クトルに変換するエンベディング行列であり,!はエンベディングサイズである.!!は文脈!!を エンベディングしたベクトルを連結したベクトルを表す.ℎは隠れ層サイズで,!は隠れ層のベ クトルを表す.!"#$%!(!,!!)はエンコーダの出力を表す.デコーダのモデル式を以下に示す.!"#
関数はベクトルを連結する関数を表す.
! !!!!|!,!!; ! ∝exp !"+!!"#$%!(!,!!) (6)
!=tanh (!!!) (7)
!!=!"#(!!!!!!!,…,!!!) (8)
3.2マルチアテンションモデル
図 4(b)のようにアテンションモデルを用いて元文書に含まれる各文をエンコードし,その エンコード結果を統合することで複数文の文書のエンコードを行うマルチアテンションモデル について述べる.各文のエンコード結果を統合する方法のベースラインとして3.2.1に平均マル チアテンションモデル,提案手法として3.2.2にディープマルチアテンションモデルを提案する.
3.2.1 平均マルチアテンションモデル
各文のアテンションモデルのエンコード結果を平均したものを文書のエンコードとする平均 マルチアテンションモデルについて述べる.平均マルチアテンションモデルでは各文が同等に 反映されたものとなり,文間の荷重をかけないモデルとなっている.以下にモデル式を示す.
!"#$%!!"#$!%# !,!! = !!!!!"#$%!!"#$(!!,!!)
! (9)
!"#$%!!"#$ !!,!! = !!!! (10)
!∝exp (!!!!!!) (11)
!!"= !!!!!!!!!!"
! ∈!! (12)
!!"=!!!"∈!! (13)
!!! =!"#(!!!!!!!,…,!!!) (14)
アテンションモデルの重みパラメータ!,!, !はそれぞれ,!∈ℝ!×!! ,!∈ℝ!×!! ,
!∈ℝ!×(!")である.!,!はそれぞれ,元文書の単語!!"と文脈の単語!!を実数値ベクトルに変換
するエンベディング行列である.!!!はエンベディングした文脈単語を連結したベクトルで,!は
!!!を隠れ層サイズℎのベクトルに変換する重みパラメータである.!はスムージングウィンドウ の大きさで,!!は!!をスムージングした行列である.!は各単語の荷重を表し,!!とかけたもの が!番 目 の 文 の エ ン コ ー ド 結 果 と な る .!番 目 の 文 の エ ン コ ー ド 結 果 を 表 す 関 数 を
!"#$%!!"#$ !!,!! とし,各文のエンコード結果の平均をとったものを元文書のエンコード結果と
する.!"#$%!!"#$!%# !,!! は平均マルチアテンションモデルで元文書のエンコードした結果を返
す関数を表す. !は元文書に含まれる文数を表す.
3.2.2 ディープマルチアテンションモデル
提案手法であるディープマルチアテンションモデルについて述べる.アテンションモデルを 多層化することにより文書のエンコードを行う.1層目は単語間の荷重を決定し各文をエンコ ードするアテンションモデルとなっており,2層目は文間の荷重を決定し文書をエンコードする アテンションモデルとなっている.図 6にディープマルチアテンションモデルを示す.
図 6: ディープマルチアテンションモデル.
ディープマルチアテンションモデルのモデル式を定義する.!番目の文のエンコード結果を!!! とおく.ディープマルチアテンションモデルでは文のアテンションモデルの重みパラメータと は別に新たに!!∈ℝ!×!!,!!∈ℝ!×(!")の重みパラメータを用いる.!!は文脈の単語!!を実数値 ベクトルに変換するエンベディング行列である.!!!!はエンベディングした文脈単語を連結した ベクトルで,!!は!!!!を隠れ層サイズℎのベクトルに変換する重みパラメータである. !!は!!をス ムージング幅!でスムージングした行列である.!!は各文の荷重を表し,!!とかけたものが文書 のエンコード結果となる. !"#$%!!""# !,!! はディープマルチアテンションモデルで元文書のエ ンコードした結果を返す関数を表す.
!"#$%!!""# !,!! =!!!!! (15)
!!∝exp (!!!!!!!!) (16)
!!!= !!!!!!!!!!!
! ∈!! (17)
!!!! =!"#(!!!!!!!!,…,!!!!) (18)
!!!=!"#$%!!"#$(!!,!!)∈!! (19)
3.3学習方法
出力は! !!!!|!!,!; ! で各単語の確率値が出力される.この単語の確率値の負の対数尤度
(Negative Log-Likelihood(NLL)) を最小化するように学習を行う.!個の元文書,参照要約の対
!= !(!),!(!) ,…, !(!),!(!) があるとき負の対数尤度は以下で定義する.本研究ではトレーニ ングセットを複数個のセットに分け,それぞれのセットごとに確率的勾配降下法でパラメータ!
を更新するミニバッチによりパラメータ!の学習を行う.
!"" !,! =− log! !(!)|!! ;!
!
!!!
=− log! !!!!(!)|!! ,!!;!
|!|!!
!!!
!
!!!
(20)
パラメータ!の学習はバリデーション誤差が1エポック前のバリデーション誤差より下がらな かった場合,学習率を半減させ,2回連続してバリデーション誤差が下がらなかった場合,学習 を終了するように行った.アルゴリズム1に学習計画のアルゴリズムを示す.
アルゴリズム 1 学習計画
Input: 初期学習率!,パラメータ!
!"#$←!"#$%
!"#$!!"#$% ←!"#
!"#$% ← ! while true do ▷トレーニング !!"#$%←!""(!,!!"#$%) !←!−!∇!!"#$%
▷バリデーション !!"#$%←!""(!,!!"#$%) if !"#$!!"#$%<!!"#$% do ! ←!"#$%
if !"#$ do break else
!←!∗0.5 !"#$←!"#$
end if else
!"#$←!"#$%
!"#$% ← !
!"#$!!"#$% ← !!"#$%
end if end while
3.4生成アルゴリズム
デコーダから出力される各単語の確率! !!!!|!,!!; ! から要約文を生成するアルゴリズムに ついて述べる.文生成は要約の語彙数|!!|の状態を持った最適経路問題として考えることができ,
最も確率の高い文を生成することが好ましいが,最適な経路を探索するのはNP困難な問題であ
る.そのため,枝刈りを行いながら探索を行う必要がある.本研究では生成文の探索アルゴリ ズムとしてビームサーチ(アルゴリズム2)を用いた.!関数は!!!!のスコアを返す関数を表し,
出力単語!!!!の対数尤度とした.また,要約文生成であるため,元文書よりも短くなるように生 成する必要がある.要約の最大単語数!を指定し,!(!!!!)は文終端記号以外の確率を0とした.
アルゴリズム 2 ビームサーチ
Input: パラメータ!,ビームサイズ!,最大要約長!,元文書! Output: 近似の!-best の 要約
! 0 ←!
for !=0 !" !−1 do ▷候補の作成
ℋ← !,!!!! | !∈! !,!!!!∈! ▷スコアの高いもの!個に絞る
! !+1 ←!–arg max!∈ℋ !!!!! !!!!,!!, !;! end for
return ! !
第4章 実験・評価
本章では第 3 章で提案した手法の実験を行い,既存手法と比較評価し,その有効性を示す.
まず,4.1 では実験に用いたデータセットの説明を行う.4.2 では比較するベースラインについ て説明し,4.3 では実装のパラメータや実験環境について説明する.4.4 では評価方法について 述べ,4.5で実験結果を示す.最後に4.6で実験結果に対し考察およびまとめを行う.
4.1データセット
本研究で用いるデータセットの収集方法および前処理について述べる.データセットから元 文書の語彙集号!!と要約の語彙集号!!の作成を行う.
本研究では産経ニュース(http://www.sankei.com/)から記事とタイトルのセットを収集し,タ イトルをその記事の一文要約として扱った.2015年10月24日から2016年1月12日にかけて 収集し,2011年10月3日から2016年1月12日の記事とタイトルのセットを118,362セット収 集した.
収集した記事とタイトルの単語分割し,前処理を行う.単語分割にはオープンソース形態素 解析エンジンMeCab6を用いた.同文字列の単語であっても,MeCabから出力される基本品詞ま たは詳細品詞が異なるものは別単語として扱い,数字は全て同じ単語として扱った.記事は句 点(。)ごとに区切り,一文として扱った.記事およびタイトルの長さのグラフと統計量をそれ ぞれ図 7と表 3に示す.収集した記事とタイトルのセットの中には0文字のタイトルや2,829文 字のタイトルなど正しく取れていないものや 152,928文字の記事のような長すぎるがあるため,
記事に含まれる単語数またはタイトルに含まれる単語数が1.5-σ(約87%)外のものを排除した.
排除後の記事およびタイトルの長さのグラフと統計量をそれぞれ図 8 と表 4 に示す.排除後の 記事とタイトルのセットは101,604セットとなった.ここからランダムに101,000セットをサン プリングし,データセットとした.データセットの内90,000セットをトレーニング,10,000 セ ットをバリデーション,1,000セットをテストに充てた.
作成したトレーニングセットから元文書の語彙集号!!と要約の語彙集号!!の作成を行う.トレ ーニングセットの記事およびタイトルに含まれるユニークな単語数はそれぞれ 193,682 語と
56,896 語であった.この内,出現が 3 回未満の単語を排除したものを語彙として扱い,それぞ
れ96,899語と26,226語となった.排除された単語やトレーニングセットに含まれない単語は未
知語として扱った.
6 MeCab, http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html, 2016 1 12
(a)記事に含まれる文字数分布
(b)記事に含まれる単語数分布
(c)記事に含まれる文数分布
(d)タイトルに含まれる文字数分布
(e)タイトルに含まれる単語数分布
図 7: 収集した記事とタイトルの長さのグラフ
(a)1.5-σ 内の記事に含まれる文字数分布
(b)1.5-σ 内の記事に含まれる単語数分布
(c)1.5-σ内の記事に含まれる文数分布
(d)1.5-σ内のタイトルに含まれる文字数分布
(e)1.5-σ内のタイトルに含まれる単語数分布 図 8: 1.5-σ 内の記事およびタイトルの長さのグラフ
表 3: 収集した記事とタイトルの長さの統計量
記事の長さ タイトルの長さ
文字単位 単語単位 文単位 文字単位 単語単位 最大 15,928 9,837 390 2,829 1,144 最小 16 11 1 0 0 平均 773.71 449.32 14.36 32.46 18.63 中央値 463 283 10 30 18 標準偏差 789.54 431.87 13.05 17.77 8.68
表 4: 1.5-σ 内の記事およびタイトルの長さの統計量
記事の長さ タイトルの長さ
文字単位 単語単位 文単位 文字単位 単語単位 最大 2,824 1,114 88 104 32 最小 24 14 1 6 6 平均 572.58 341.78 11.84 30.29 17.65 中央値 404 250 9 29 17 標準偏差 422.55 236.82 8.21 9.97 5.61
4.2ベースライン
ベースラインとして,Rushらの文レベルの生成型要約[5]を用いる.Rushらの論文と同様に記 事の最初の一文を元文書として扱ったものに加え,記事全体を元文書として扱ったものをベー スラインとして用いる.
4.3実装
実験時に用いた各変数の値と実験環境について述べる.実装にはTorch7フレームワークを用い た.パラメータはRushらの論文[5]で用いられたパラメータを参考にし,表 5のように設定した.
初期学習率は1エポック目での過学習を避けるために0.01とした.ミニバッチサイズは64を設 定した場合GPUメモリが不足してしまったため,実験環境の都合上16とした.実験環境を表 6 に示す.Rush らは最大要約単語数にデータセットに含まれる要約の平均単語数を設定していた ため,同様に本研究で用いたデータセットに含まれるタイトルの平均単語数を設定した.学習 は表 6に示した実験環境でおよそ5日を要した.
表 5: 各ハイパーパラメータの値.ハイフン(-)は論文中に明記されていない値.
パラメータ Rush らの論文[5]での値 本研究での値
エンベディングサイズ! 200 200
隠れ層サイズℎ 400 400
文脈長! 5 5
スムージングウィンドウサイズ! 2 2
初期学習率 0.05 0.01
学習率減衰率 0.5 0.5
ミニバッチサイズ 64 16
ビームサイズ! - 30
最大要約単語数! 9 18
7 Torch, http://torch.ch, (2016 1 5 )
表 6: 実験環境
項目 値
CPU Intel Core i7-5820K
メインメモリサイズ 16GB
GPU NVIDIA Quadro K5200
GPU メモリサイズ 8GB
4.4評価方法
自動要約の一般的な評価手法として,参照要約とシステム要約の単語の一致で評価する
ROUGE[11]が用いられる.ROUGE は単語の一致の評価方法でいくつか種類がある.表 7 に
ROUGEの種類をまとめる.本研究ではROUGE-Nのn-gramのサイズを1, 2にしたROUGE-1,
ROUGE-2とROUGE-L,ROUGE-S,ROUGE-SUで評価を行う.
表 7: ROUGE の種類
ROUGE の種類 一致の評価方法
ROUGE-N n-gram の一致で評価
ROUGE-L 最長共通部分列(Longest Common Subsequence)の一致で 評価
ROUGE-S skip-bigram の一致で評価
ROUGE-SU skip-bigram と 1-gram の一致で評価
ROUGEは機械的に評価できるが,必ずしもROUGEが高い場合に良い要約とは言えない.そ
のため,ROUGEに加え,人手による嗜好テストで評価を行う.人手による嗜好テストは次のよ うに行った.
① 被験者は元記事を読む.
② 被験者に参照要約およびシステム要約をランダムに並び替え,アルゴリズムを伏せた状 態で提示する.
③ 被験者は提示された要約を元記事の要約としてあっていると感じる順に並び変える.
④ 被験者がつけた順位を元に各要約の優位差を統計的に測定する.
また,①と②の間に被験者が元記事の要約文を作成するようにした.被験者によって作成さ れた要約文のROUGEの指標を出し,人手による要約と自動要約とのROUGEの比較も行う.
4.5実験結果
ROUGEによる評価を表 7に示し,図 9にROUGEの値の分布を示す.Rushらの文レベルの
生成型要約の元文書を最初の一文としたモデルを ABS(first line),元文書全体としたモデルを
ABS(article)とし,平均マルチアテンションモデルをMulti-Attention(average),我々の提案手法で
あるディープマルチアテンションモデルをMulti-Attention(deep)とする.Human Summaryは人手 によって作成された要約である.
嗜好テストは4名の被験者に各10件の記事に対する要約をランダムに見せて行った.そのた め,表 8におけるHuman Summaryも40件のスコアである.嗜好テストにより得られた各モデ ルの平均の順位を表 10に示し,ウェルチ法のT検定によって得られたディープマルチアテンシ ョンモデルとベースラインとのp-値を,表 11に示す.
入力文と各モデルの出力した要約の具体例を表 12に示す.
表 12で示した要約を生成する際の元文書の最初の一文を入力したRushらの生成型要約モデ
ル,元文書全体を入力したRushらの生成型要約モデル,平均マルチアテンションモデル,ディ ープマルチアテンションモデルで入力単語に対する荷重の推移をそれぞれ図 10,図 11,図 12,
図 13にヒートマップで示す.一行が単語を出力する際の荷重を表し,色が濃いものほど重い荷
重を表す.
表 9: ROUGE による評価.
Model ROUGE-1 ROUGE-2 ROUGE-L ROUGE-S ROUGE-SU ABS(first sentence) 0.376 0.091 0.246 0.149 0.177
ABS(article) 0.381 0.105 0.253 0.154 0.182 Multi-Attention(average) 0.346 0.080 0.232 0.133 0.160 Multi-Attention(deep) 0.359 0.102 0.245 0.142 0.169 Human Summary 0.414 0.159 0.289 0.180 0.208
表 10: 嗜好テストの平均順位
Model 平均順位
参照要約 1.075
ABS(first line) 3.575 ABS(article) 3.425 Multi-Attention(average) 3.95
Multi-Attention(deep) 2.975
表 11: 提案手法とのウェルチ法の T 検定の p-値
Model Multi-Attention(deep)との p-値 参照要約 8.362 × 10!!"
ABS(first line) 0.017 ABS(article) 0.081 Multi-Attention(average) 0.001
(a)ROUGE-1 の分布
(b)ROUGE-2 の分布
(c)ROUGE-L の分布
(d)ROUGE-S の分布
(e)ROUGE-SU の分布
図 9: ROUGE の分布
表 12: 入力文と各モデルの出力の具体例 1
## ##
##
##
##
##
ABS(first line) ##
ABS(article) ##
Multi-Attention(Average) ##
Multi-Attention(deep) ##
URL http://www.sankei.com/politics/news/150525/plt1505250042-n1.html 2016 1 28
13: 入力文と各モデルの出力の具体例 2
## ##
##
## ## ## ## ##
## ##
ABS(first line) ## …
ABS(article) ##
Multi-Attention(Average) ##
Multi-Attention(deep) ##
URL http://www.sankei.com/affairs/news/150819/afr1508190006-n1.html 2016 1 28
14: 入力文と各モデルの出力の具体例 3
##
##
##
##
## ##
## ## ## ## ## ##
##
## ##
## ##
##
##
## ##
##
ABS(first line) ## …
ABS(article) ##
Multi-Attention(average) ##
Multi-Attention(deep) ##
URL http://www.sankei.com/economy/news/150202/ecn1502020039-n1.html 2016 1 28
10: ABS(first line)
11: ABS(article)
12: Multi-Attention(average)
13: Multi-Attention(deep)
4.6 考察・まとめ
表 9より各ROUGEの評価では既存手法である元文書全体を入れたRushらのモデルがシステ
ム要約の中で最も高い値であった.しかし,その差は 1〜2%程度であり,この差は1 単語にも 満たない差で有意な差ではない.
表 10,表 11より嗜好テストでは提案手法であるディープマルチアテンションモデルがベース
ラインの手法よりも90%信頼区間で元文書に対してより適切な要約が生成できたと判断された.
図 11より,元文書全体を入れたRushらのモデルでは,同単語であれば,入力文書の出現文
に問わず同じ荷重がかけられていることがわかる. 図 12 より平均マルチアテンションモデル では,文ごとに荷重決定がされているが,文間の重みの違いがなく,文書全体としては着目す べき単語が現れていないことがわかる.図 13 より,ディープマルチアテンションモデルでは,
文ごとに荷重決定がされており,また,文間での荷重が決定されているため,重要文抽出して,
その文の着目単語に荷重がかけられていることがわかる.
第5章 まとめ
自動要約は文書を要旨にまとめるため,文書データの取捨選択や圧縮に役立つ.自動要約は 抽出型要約と生成型要約の二種類に大別でき,抽出型要約は元文書の文やフレーズを組み合わ せて作る要約で,生成型要約は要約元の文書の内容を元に新たに文を生成しながら要約を行う.
抽出型要約は元文書に含まれる単語に制限されてしまうため,人間の要約に近づけるには限界 がある.一方,生成型要約は単語に制限がなく,また人間の要約を作る方法に近いため,より 人間に近い要約が期待できる.しかし,既存の生成型要約では文から短い文を生成する文レベ ルの生成型要約にとどまっていた.
本稿では文書の単語や文という粒度ごとにアテンションモデルを用い,多層化したディープ マルチアテンションモデルの提案し,複数文の文書から一文への要約を行った.文書全体をア テンションモデルでエンコードするモデル,アテンションモデルによる文ごとエンコードの平 均をとるモデルと比較実験を行った.嗜好テストからディープマルチアテンションモデルで作 られた要約は90%信頼区間で元文書に対してより適切な要約であると判断された.
今後の課題として,一文要約であるとその表現力は限度があるため,複数文から複数文への 文書要約に改善する必要がある.また,本研究では単語と文という粒度で多層化したアテンシ ョンモデルで実験を行ったが,単語,文に加え,形式段落や意味段落,文節など様々な粒度で 多層化することでより長い文書の対応や精度向上を図りたいと考えている.
謝辞
本研究を行うにあたり,数々のご指導を頂いた山名早人教授に深く感謝申し上げます.また,
研究活動で支えてくださった研究室の皆様に心から感謝いたします.
参考文献
[1] Jing, H.: Using Hidden Markov Modeling to Decompose Human-Written Summaries , Computational linguistic, Vol.28, No.4, pp.527-543, (2002).
[2] Cho, K., Van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. and Bengio, Y.: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation , In Proceedings of Empirical Methods in Natural Language Processing 2014, pp.1724-1734, (2014).
[3] Sutskever, I., Vinyal, O., and Le, Q. V.: Sequence to sequence learning with neural networks , In Advances in neural information processing system, pp.3104-3112, (2014).
[4] Bahdanau, D., Cho, K. and Bengio, Y.: Neural Machine Translation by Jointly Learning to Align and Translate , In Proceedings of the International Conference on Learning Representation 2015, (2015).
[5] M. Rush, A., Chopra, S. and Weston, J.: A Neural Attention Model for Abstractive Sentence Summarization , In Proceedings of Empirical Methods in Natural Language Processing, pp. 379-389, (2015).
[6] Mikolov, T., Karafiat, M., Burget, L., Cernocky, J. and Kludanpur, S.: Recurrent neural network based language model , Conference of International Speech Communication Association, pp.1045-1048, (2010).
[7] Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M. Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A. and Herbst, E.: Moses: Open source toolkit for statistical machine translation , In Proceedings of the Association for Computational Linguistics, pp. 177-180, (2007).
[8] Bengio, Y., Simard, P. and Frasconi, P.: Learning Long-Term Dependencies with Gradient Descent is Difficult , IEEE Transactions on Neural Network, Vol.5, No.2, pp.157-166, (1994).
[9] Hochreiter, S. and Schmidhuber, J.: Long short-term memory , Neural Computation, Vol.9, No.8, pp.1735-1780, (1997).
[10] Clarke, J. and Lapata, M.: Global inference for sentence compression: An integer linear programming approach , Journal of Artificial Intelligence Research, Vol.31, pp.399-429, (2008).
[11] Lin, C. W.: ROUGE: A Package for Automatic Evaluation of Summaries , Proceeding of the ACL-04 workshop, Vol.8, (2004).
[12] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C.: A Neural Probabilistic Language Model , The Journal of Machine Learning Research, Vol.3, pp.1137-1155, (2003).
研究業績
• 吉岡重紀,山名早人, 生成型一文要約のためのマルチアテンションモデルの提案 , 第 8 回データ工学と情報マネジメントに関するフォーラム,2016
付録: 本研究で用いたデータセット及び実験結果
本研究で用いたデータセット及び,実験で生成した各モデルのシステム要約,嗜好実験の結 果を添付のDVDに収録した.それぞれのファイル形式についてはreadme.txtに記した.