2015 年度修士論文生成型一文要約のためのマルチアテンションモデル

(1)

2015 年度修士論文

生成型一文要約のためのマルチアテンションモデル

提出日：2016 年 2 月 1 日指導：山名早人教授

早稲田大学大学院基幹理工学研究科情報理工・情報通信専攻学籍番号：5114F094-1

吉岡重紀

(2)

概要

現在，世の中のデータは指数関数的に増加しており，その量は2020年には44ZBに達すると予想されている．今後，膨大なデータ全てを人間が直接利用することはますます難しくなり，データの取捨選択や圧縮が必須となる．自動要約は文書を要旨に圧縮しており，要約から元文書を読むべきかの判断や，要約だけで元文書の内容理解が可能となる．自動要約は抽出型要約と生成型要約の二種類に大別することができる．抽出型要約は元文書に含まれる文やフレーズを組み合わせることで要約を作る．一方，生成型要約は元文書の内容をもとに，新たな文を生成して要約を行う．そのため，生成型要約では，人間が行うような言い換えや一般化，並び替えによる要約が可能となる．しかし，既存研究の多くは抽出型要約によるもので，生成型要約の研究は文から短い文を生成する文レベルの要約にとどまっている．そこで本研究では，アテンションモデルを複数用いることにより複数文の文書から一文の要約を生成型要約で行う方法を提案する．ニュース記事からタイトルを生成するタスクにおいて，4名の被験者による嗜好テスト実験を行い，単一のアテンションモデルを用いた既存手法より 90%信頼区間で元文書に対してより適切な要約であると判断された．

(3)

現在，世の中のデータは指数関数的に増加しており，その量は2020年には44ZBに達すると予想されている¹．今後，データはより膨大な量となり，人間が全てのデータを直接利用することはますます難しくなる．そのため，データの取捨選択や圧縮が必須となる．文書データにおける取捨選択や圧縮の手段として要約がある．要約は文書を要旨に圧縮するため，元文書を読むべきかの判断や要約だけで元文書の内容理解が可能となる．

要約をプログラムにより作成する自動要約がこれまで研究されてきた．自動要約は要約の作り方により抽出型要約と生成型要約の二種類に大別できる．抽出型要約は元文書に含まれる文やフレーズを組み合わせることで要約を作る．一方，生成型要約は元文書の内容をもとに，新たな文を生成して要約を行う．人間は言い換えや一般化，並び替えなどを行い，元文書とは異なる表現を使いながら要約を行う[1]．抽出型要約では元文書に使われている表現しか用いることができず，人間の要約に近づけるのに限界がある．生成型要約では元文書に含まれる単語に制限されないため，元文書と異なる表現で要約を作ることも可能となる．したがって，生成型要約は人間が要約を作る方法に近く，人間が作る要約に近いものが期待できる．しかし，既存研究の多くは抽出型要約によるもので，生成型要約の研究は文から短い文を生成する文レベルの要約にとどまっている．

生成型要約を行うには，まず，元文書の内容をコンピュータの扱える中間表現に直し，次にその中間表現から元文書より短くなるように文生成を行わなくてはならない．しかし，文書の内容を忠実に表現可能な中間表現方法は確立していない．その上，中間表現が可能になっても，

その中間表現が表す内容を元文書より短くなるように文生成することは難しい課題である．このように生成型要約は技術的課題が多く今まであまり行われて来なかった．

2014 年に機械翻訳のタスクでRNN（Recurrent Neural Network）や LSTM（Long Short Term Memory）などの再帰型ニューラルネットワークを用いた，エンコーダ・デコーダモデルが登場した[2][3]．二つの再帰型ニューラルネットワークを用い，一方で文からのベクトル化，もう一方でベクトルからの文生成を行い，直接文から別言語の文へ（end-to-end）翻訳することを実現した．文からベクトル化することとベクトルから文生成することはそれぞれエンコードとデコードと呼ばれる．ここで，ベクトルは文の内容を表す中間表現となっている． 2015年には単語の出力ごとに出力単語と元文書からエンコードを行うテンションモデルが登場した[4]．アテンションモデルはエンコーダにも出力単語を入れることにより，次の単語出力で着目すべき元文中の単語に荷重をかけてエンコードすることができる．エンコーダ・デコーダモデルの機械翻

1 Data Growth, Business Opportunities, and the IT Imperatives,

(5)

訳は生成型要約の方法に非常に近く，アテンションモデルを用いた文レベルの生成型要約が提案された[5]．

本研究では，アテンションモデルを複数用いることにより複数文の文書から一文の要約を生成型要約で行うマルチアテンションモデルを提案する．産経ニュース²からニュース記事とタイトルを収集し，タイトルをニュース記事の一文要約として実験を行う．

本稿では次の構成を取る．まず，第 2 章で関連研究について述べ，第 3 章で提案するマルチアテンションモデルについて説明する．第4章で実験と評価を行い，最後に第5章でまとめる．

2 http://www.sankei.com/ 2015 12 19

(6)

第2章関連研究

生成型要約は，1)元文書の内容をコンピュータに扱える中間表現に変換し，2)その中間表現から元文書より短くなるように文書生成する，という２つの行程から構成される．近年，機械翻訳の分野でニューラルネットワークを用いたエンコーダ・デコーダモデルが提案された[2][3]．

エンコーダ・デコーダモデルでは，1)言語 A の文をベクトル化し，2)そのベクトルから言語 B の文を生成する，という2つの行程で翻訳を行う．言語Aの文からエンコードされたベクトルは，言語 A の文の内容を表す中間表現と考えることができ，エンコーダ・デコーダモデルの行程は生成型要約の行程と類似している．生成型要約の既存研究ではエンコーダ・デコーダモデルから発展したアテンションモデル[4]を用いて，文から短い文へ（文レベル）の生成型要約を行っている．

本章では 2.1，2.2 でそれぞれエンコーダ・デコーダモデルとアテンションモデルについて説

明し，2.3でアテンションモデルを用いた文レベルの生成型要約を行った既存研究について紹介する．最後に2.4で関連研究のまとめを行う．

2.1エンコーダ・デコーダモデル

エンコーダ・デコーダモデルはエンコーダ部分とデコーダ部分の２つに分けられ，エンコーダは文を実数値ベクトルに変換し，デコーダはそのベクトルから文生成を行う．図 1 にエンコーダ・デコーダモデルを示す．!!，!!はそれぞれ言語Aの言語Bの文の!番目の単語を表し，言語Aの語彙集合を!!，言語Bの語彙集合を!!としたとき，!_!∈ 0,1 ^|!^!^|，!_!∈ 0,1 ^|!^!^|で，1-hot ベクトルである．!，!はそれぞれ言語A，言語Bの文に含まれる単語数を表す．

図 1: エンコーダ・デコーダモデル（[2][3]をもとに作成）

Choらは2014年，二つのRNN（Recurrent Neural Network）を用いて言語Aの文から言語Bの文へ機械翻訳を行うRNN Encoder-Decoderを提案した[2]．RNNは系列を扱うことができるニューラルネットワークで，隠れ層に帰還路を持つことにより，任意の個数の入力が行える．文は

(7)

単語の系列として扱うことができ，単語を順に入力することで語順を考慮して文を扱うことができる．二つのRNNの一方で，言語Aで記述された文をベクトル化し，もう一方で，そのベクトルから言語Bの文を生成する．エンコーダではRNNに言語Aの文に含まれる単語!!を順に入力していき，!語まで入力したときの隠れ層の出力を言語Aの文をエンコードしたベクトルとして出力する．デコーダはRNNを用いた言語モデルRNNLM(Recurrent Neural Network Language

Model)[6]に潜在状態としてエンコーダの出力を入力したモデルで，言語 B の単語!!の確率を出

力する．WMT’14データセット³で既存の統計的機械翻訳手法であるMoses[7]と比較実験を行い，

BLEUのスコアで33.30から33.87に向上した．

RNN は原理的には隠れ層は全ての入力を考慮することが可能であるが，実際には長期的な記憶は困難である[8]．そこで，Sutskeverらは2014年，LSTM（Long Short Term Memory）[9]を用いたモデルを提案し[3]，WMT’14データセットでRNN Encoder-Decoderと比較実験を行い，BLEU のスコアを34.54から34.81まで向上した．

2.2アテンションモデル

RNNやLSTMの隠れ層のノード数は固定長であるため，RNNやLSTMを用いたエンコーダ・

デコーダモデルでは文を固定長のベクトルにエンコードすることになる．可変長の文を固定長のベクトルにエンコードするため，長い入力文になるほど隠れ層のノード数が不足し，学習が難しくなる問題がある．この問題に対し，Bahdanauらは2015年，!!の出力ごとに入力文に含まれる単語!_!の荷重を決定してエンコードするアテンションモデルを提案した[4]．図 2にアテンションモデルを示す．デコーダのRNNの!番目の隠れ層を!!とする．Bidirectional RNNは隠れ層が順方向，逆方向の双方向を持つRNNで，Bidirectional RNNの!番目の隠れ層を!!∈!とする．!と

!_!!!から!_!の荷重!_!"∈!_!を決定し，荷重をかけて加算したベクトルを!_!とする．!_!は!_!!!と!_!を

入力する．荷重!_!はデコーダRNNの一つ前の状態!_!!!を入力しており，また，!番目の隠れ層!_!は

!番目の入力単語!!に最も強く影響されるため，直近のデコーダの状態からどの入力単語に荷重をおくかを決定しながらエンコードするモデルとなっている．!_!も固定長のベクトルであるが，出力ごとに入力の着目すべき部分に荷重をおいてエンコードできるため，RNN や LSTM を用いたエンコーダ・デコーダモデルに比べ学習しやすいモデルとなった．

WNT’14データセットでRNNのエンコーダ・デコーダモデルとアテンションモデルとで比較

実験を行い，BLEUのスコアはそれぞれ26.71と34.16となった．

3 Translation Task, http://statmt.org/wmt14/translation-task.html, (2016 1 18 )

(8)

図 2: アテンションモデルを用いた機械翻訳のモデル（[4]をもとに作成）

2.3アテンションモデルによる文レベルの生成型要約

Rushらは2015年，アテンションモデルを用い，文から短い文への生成型要約を行うAttention

Based Summarizationを提案した[5]．アテンションモデルの入力文に含まれる単語に荷重をかけ

てエンコードするという特徴から，要約に必要な単語に荷重をかけながら，生成的に文を要約することを可能とした．図 3にアテンションモデルによるエンコーダを示す．!は元文を表し，

!は元文!に対する要約文を表す．元文の!番目の単語!!∈!，要約文の!番目の単語を!!∈!とする．元文の語彙集合を!!，要約文の語彙集合を!!としたとき，!!，!!はそれぞれ!!∈ 0,1 ^|!^!^|，

!_!∈ 0,1 ^|!^!^|であり，1-hotベクトルである． !!は出力した直近!個の単語を表し，!!!!を出力するとき，!_!までの!個の出力は !! = !_!|!−!+1≤!≤!,!∈ℕと定義される．モデルの重みパラメータ!,!,!はそれぞれ，!∈ℝ^!×|!^!^|，!∈ℝ^!×|!^!^|，!∈ℝ^!×(!")である．!，!はそれぞれ，元文書!に含まれる単語!!と文脈!!に含まれる単語!!を実数値ベクトルに変換するエンベディング行列で，それぞれℎ次元，!次元のベクトルにエンベディングする．!!!はエンベディングした!!に含まれる単語を連結した!"次元のベクトルで，!は!!!をℎ次元のベクトルに変換する重みパラメータである．!はスムージングウィンドウの大きさで，!は!をスムージングした行列である．!は各単語の荷重を表し，!とかけたものが元文書のエンコード結果となる．図 2における!!!!，!，

(9)

!_!，!!はそれぞれ!!!，!，!，!"#$%! !,!_! に対応する．モデル式を以下に示す．!"#関数はベクトルを連結する関数を表す．

図 3: アテンションモデルによるエンコーダ．（[5]をもとに作成）

!"#$%! !,!_! = !^!! （1）

!∝exp (!!!_!^!) （2）

!_!= ^!!!_!!!!!!_!

! ∈! （3）

!_!=!!_!∈! （4）

!_!^! = !"# !!_!!!!!,…,!!_! （5）

実験にはニュース記事のデータセットである Gigaward データセット⁴を用い，ヘッドラインを正解文となる要約として扱い，記事の最初の一文からヘッドラインを生成するように学習を行った．400万セットで学習を行い，DUC（Document Understanding Conference）⁵が用意してい

る DUC-2004 のデータセットと Gigaward データセットでテストを行った．文圧縮手法である

ILP[10]と確率的機械翻訳手法である Moses[7]で要約を行ったものと比較実験を行い，

4 English Gigaward https://catalog.ldc.upenn.edu/LDC2003T05 2016 1 8

5 Document Understanding Conference http://duc.nist.gov/ 2016 1 8

(10)

ROUGE[11]のスコアは表 1のようになった．ABSがRushらの提案した手法とする．

表 1: 既存研究における ROUGE の評価（[5]より作成）

モデル DUC-2004⁴ Gigaward³ ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L ILP 0.1977 0.0402 0.1730 0.1963 0.0513 0.1828 Moses 0.2650 0.0813 0.2285 0.2877 0.1210 0.2644

ABS 0.2818 0.0849 0.2381 0.3100 0.1265 0.2834

以上のようにRushらはアテンションモデルを用いて文から短い文を生成する文レベルの生成型要約を提案した．アテンションモデルを用いることにより既存の文圧縮手法や機械翻訳手法を用いた要約より高いROUGEのスコアを示した．

2.4まとめ

本節では，2.1，2.2，2.3で説明を行った関連研究のまとめを行う．表 2 に関連研究のまとめを示す．

2:

Cho [2] 2014

RNN

Sutskever [3] 2014

LSTM

LSTM RNN

Bahdanau [4] 2015

Rush [5] 2015

(11)

第3章マルチアテンションモデル

生成型要約の既存研究[5]は文から短い文へ（文レベル）の要約にとどまっている．要約は文書を要旨にまとめることで文書の取捨選択や文書の内容理解を目的に利用され，より長い文書を短くすることが望ましい．そのため，複数文の文書から要約することが必要となる．既存研究のモデルでは，同単語には同じ荷重がかけられるモデルとなっている．そのため，既存研究のモデルで複数文の要約を行った場合，複数文にまたがって出現する単語は同じ荷重が与えられることになる．しかし，同じ単語でも，文内の使われ方によって，その重要度はことなるはずである．そこで本研究では，複数のアテンションモデルを用いることで，複数文の文書の各文でエンコードし，統合することで，同単語であっても文内での使われ方によって荷重を変化させるモデルを提案する．

本研究で提案する生成型要約のモデルの全体像を図 4（a）に示す．!は元文書を表し，!は元文書!に対する要約文を表す．元文書!の!番目の文を!_! ∈!とし，文!_!の!番目の単語を!_!"∈!_! とする．要約文!の!番目の単語を!!∈!とする．元文書の語彙集合を!!，要約の語彙集合を!!としたとき，!!"，!!はそれぞれ!!"∈ 0,1 ^|!^!^|，!!∈ 0,1 ^|!^!^|であり，1-hot ベクトルである． !!は出力した直近!個の単語を表し， !!= !_!|!−!+1≤!≤!,!∈ℕ と定義され，!!!!を生成するときに用いる文脈である．モデルのパラメータを!としたとき，!!!!の確率!(!!!!|!,!_!;!)を出力し，要約文を生成する．

（a）生成型要約の全体像．（b）マルチアテンションモデルの概要図．

図 4: 提案モデルの概要図．n は元文書の文数を表す．

(12)

生成型要約のモデルはエンコーダ部分とデコーダ部分に分けられる．エンコーダ部分では元文書!と文脈!!から元文書をベクトル化し，デコーダ部分ではエンコーダの出力と文脈!!から次の出力単語の確率を出力する．エンコーダ部分で図 4（b）のように複数のアテンションモデルを用いて，元文書に含まれる各文をエンコードし，それを統合することで複数文の元文書のエンコードを可能とする．

本節では3.1にデコーダ部分の言語モデルについて説明し，3.2でエンコーダ部分のマルチアテンションモデルについて説明する．3.3 では学習方法について説明し，3.4 に要約文生成アルゴリズムについて説明する．

3.1言語モデル

デコーダとなる言語モデルについて述べ，モデル式の定義を行う．デコーダにはFFNN（Feed Forward Neural Network）による言語モデル[12]をベースに用い，エンコーダの結果を入力できるようにした．図 5にデコーダのモデルを図示する．

図 5: デコーダのモデル．

図 5で示したデコーダの各変数とモデル式を定義する．モデルの重みパラメータ!，!，!，!はそれぞれ，!∈ℝ^!×|!^!^|，!∈ℝ^!×(!")，!∈ℝ^!×!，!∈ℝ^!×!である．!は文脈の単語!!を実数値ベクトルに変換するエンベディング行列であり，!はエンベディングサイズである．!!は文脈!!をエンベディングしたベクトルを連結したベクトルを表す．ℎは隠れ層サイズで，!は隠れ層のベクトルを表す．!"#$%!(!,!_!)はエンコーダの出力を表す．デコーダのモデル式を以下に示す．!"#

関数はベクトルを連結する関数を表す．

(13)

! !_!!!|!,!_!; ! ∝exp !"+!!"#$%!(!,!_!) （6）

!=tanh (!!_!) （7）

!_!=!"#(!!_!!!!!,…,!!_!) （8）

3.2マルチアテンションモデル

図 4（b）のようにアテンションモデルを用いて元文書に含まれる各文をエンコードし，そのエンコード結果を統合することで複数文の文書のエンコードを行うマルチアテンションモデルについて述べる．各文のエンコード結果を統合する方法のベースラインとして3.2.1に平均マルチアテンションモデル，提案手法として3.2.2にディープマルチアテンションモデルを提案する．

3.2.1 平均マルチアテンションモデル

各文のアテンションモデルのエンコード結果を平均したものを文書のエンコードとする平均マルチアテンションモデルについて述べる．平均マルチアテンションモデルでは各文が同等に反映されたものとなり，文間の荷重をかけないモデルとなっている．以下にモデル式を示す．

!"#$%!!"#$!%# !,!_! = ^!_!!!!"#$%!_!"#$(!_!,!_!)

! （9）

!"#$%!_!"#$ !_!,!_! = !^!!_! （10）

!∝exp (!_!!!_!^!) （11）

!_!"= ^!!!_!!!!!!_!"

! ∈!_! （12）

!_!"=!!_!"∈!_! （13）

!_!^! =!"#(!!_!!!!!,…,!!_!) （14）

アテンションモデルの重みパラメータ!，!， !はそれぞれ，!∈ℝ^!×^!^! ，!∈ℝ^!×^!^! ，

!∈ℝ^!×(!")である．!，!はそれぞれ，元文書の単語!!"と文脈の単語!!を実数値ベクトルに変換

するエンベディング行列である．!!!はエンベディングした文脈単語を連結したベクトルで，!は

!_!^!を隠れ層サイズℎのベクトルに変換する重みパラメータである．!はスムージングウィンドウの大きさで，!!は!!をスムージングした行列である．!は各単語の荷重を表し，!!とかけたものが!番目の文のエンコード結果となる．!番目の文のエンコード結果を表す関数を

!"#$%!_!"#$ !_!,!_! とし，各文のエンコード結果の平均をとったものを元文書のエンコード結果と

する．!"#$%!!"#$!%# !,!_! は平均マルチアテンションモデルで元文書のエンコードした結果を返

(14)

す関数を表す． !は元文書に含まれる文数を表す．

3.2.2 ディープマルチアテンションモデル

提案手法であるディープマルチアテンションモデルについて述べる．アテンションモデルを多層化することにより文書のエンコードを行う．１層目は単語間の荷重を決定し各文をエンコードするアテンションモデルとなっており，2層目は文間の荷重を決定し文書をエンコードするアテンションモデルとなっている．図 6にディープマルチアテンションモデルを示す．

図 6: ディープマルチアテンションモデル．

ディープマルチアテンションモデルのモデル式を定義する．!番目の文のエンコード結果を!_!^! とおく．ディープマルチアテンションモデルでは文のアテンションモデルの重みパラメータとは別に新たに!^!∈ℝ^!×^!^!，!^!∈ℝ^!×(!")の重みパラメータを用いる．!^!は文脈の単語!!を実数値ベクトルに変換するエンベディング行列である．!!!!はエンベディングした文脈単語を連結したベクトルで，!^!は!!!!を隠れ層サイズℎのベクトルに変換する重みパラメータである． !^!は!^!をスムージング幅!でスムージングした行列である．!^!は各文の荷重を表し，!^!とかけたものが文書のエンコード結果となる． !"#$%!!""# !,!_! はディープマルチアテンションモデルで元文書のエンコードした結果を返す関数を表す．

(15)

!"#$%!!""# !,!_! =!^!^!!^! （15）

!^!∝exp (!^!!^!!_!^!!) （16）

!_!^!= ^!!!_!!!!!!_!^!

! ∈!^! （17）

!_!^!! =!"#(!^!!_!!!!!,…,!^!!_!) （18）

!_!^!=!"#$%!_!"#$(!_!,!_!)∈!^! （19）

3.3学習方法

出力は! !_!!!|!_!,!; ! で各単語の確率値が出力される．この単語の確率値の負の対数尤度

(Negative Log-Likelihood(NLL)) を最小化するように学習を行う．!個の元文書，参照要約の対

!= !^(!),!^(!) ,…, !^(!),!^(!) があるとき負の対数尤度は以下で定義する．本研究ではトレーニングセットを複数個のセットに分け，それぞれのセットごとに確率的勾配降下法でパラメータ!

を更新するミニバッチによりパラメータ!の学習を行う．

!"" !,! =− log! !^(!)|!^! ;!

!

!!!

=− log! !_!!!^(!)|!^! ,!_!;!

|!|!!

!!!

!

!!!

（20）

パラメータ!の学習はバリデーション誤差が1エポック前のバリデーション誤差より下がらなかった場合，学習率を半減させ，2回連続してバリデーション誤差が下がらなかった場合，学習を終了するように行った．アルゴリズム1に学習計画のアルゴリズムを示す．

(16)

アルゴリズム 1 学習計画

Input: 初期学習率!，パラメータ!

!"#$←!"#$%

!"#$!_!"#$% ←!"#

!"#$% ← ! while true do ▷トレーニング !_!"#$%←!""(!,!_!"#$%) !←!−!∇!_!"#$%

▷バリデーション !_!"#$%←!""(!,!_!"#$%) if !"#$!_!"#$%<!_!"#$% do ! ←!"#$%

if !"#$ do break else

!←!∗0.5 !"#$←!"#$

end if else

!"#$←!"#$%

!"#$% ← !

!"#$!_!"#$% ← !_!"#$%

end if end while

3.4生成アルゴリズム

デコーダから出力される各単語の確率! !_!!!|!,!_!; ! から要約文を生成するアルゴリズムについて述べる．文生成は要約の語彙数|!!|の状態を持った最適経路問題として考えることができ，

最も確率の高い文を生成することが好ましいが，最適な経路を探索するのはNP困難な問題であ

(17)

る．そのため，枝刈りを行いながら探索を行う必要がある．本研究では生成文の探索アルゴリズムとしてビームサーチ（アルゴリズム２）を用いた．!関数は!!!!のスコアを返す関数を表し，

出力単語!!!!の対数尤度とした．また，要約文生成であるため，元文書よりも短くなるように生成する必要がある．要約の最大単語数!を指定し，!(!!!!)は文終端記号以外の確率を0とした．

アルゴリズム 2 ビームサーチ

Input: パラメータ!，ビームサイズ!，最大要約長!，元文書! Output: 近似の!-best の要約

! 0 ←!

for !=0 !" !−1 do ▷候補の作成

ℋ← !,!_!!! | !∈! !,!_!!!∈! ▷スコアの高いもの!個に絞る

! !+1 ←!–arg max_!∈ℋ ^!_!!!! !_!!!,!_!, !;! end for

return ! !

(18)

第4章実験・評価

本章では第 3 章で提案した手法の実験を行い，既存手法と比較評価し，その有効性を示す．

まず，4.1 では実験に用いたデータセットの説明を行う．4.2 では比較するベースラインについて説明し，4.3 では実装のパラメータや実験環境について説明する．4.4 では評価方法について述べ，4.5で実験結果を示す．最後に4.6で実験結果に対し考察およびまとめを行う．

4.1データセット

本研究で用いるデータセットの収集方法および前処理について述べる．データセットから元文書の語彙集号!!と要約の語彙集号!!の作成を行う．

本研究では産経ニュース（http://www.sankei.com/）から記事とタイトルのセットを収集し，タイトルをその記事の一文要約として扱った．2015年10月24日から2016年1月12日にかけて収集し，2011年10月3日から2016年1月12日の記事とタイトルのセットを118,362セット収集した．

収集した記事とタイトルの単語分割し，前処理を行う．単語分割にはオープンソース形態素解析エンジンMeCab⁶を用いた．同文字列の単語であっても，MeCabから出力される基本品詞または詳細品詞が異なるものは別単語として扱い，数字は全て同じ単語として扱った．記事は句点（。）ごとに区切り，一文として扱った．記事およびタイトルの長さのグラフと統計量をそれぞれ図 7と表 3に示す．収集した記事とタイトルのセットの中には0文字のタイトルや2,829文字のタイトルなど正しく取れていないものや 152,928文字の記事のような長すぎるがあるため，

記事に含まれる単語数またはタイトルに含まれる単語数が1.5-σ（約87%）外のものを排除した．

排除後の記事およびタイトルの長さのグラフと統計量をそれぞれ図 8 と表 4 に示す．排除後の記事とタイトルのセットは101,604セットとなった．ここからランダムに101,000セットをサンプリングし，データセットとした．データセットの内90,000セットをトレーニング，10,000 セットをバリデーション，1,000セットをテストに充てた．

作成したトレーニングセットから元文書の語彙集号!!と要約の語彙集号!!の作成を行う．トレーニングセットの記事およびタイトルに含まれるユニークな単語数はそれぞれ 193,682 語と

56,896 語であった．この内，出現が 3 回未満の単語を排除したものを語彙として扱い，それぞ

れ96,899語と26,226語となった．排除された単語やトレーニングセットに含まれない単語は未

知語として扱った．

6 MeCab, http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html, 2016 1 12

(19)

（a）記事に含まれる文字数分布

（b）記事に含まれる単語数分布

（c）記事に含まれる文数分布

（d）タイトルに含まれる文字数分布

（e）タイトルに含まれる単語数分布

図 7: 収集した記事とタイトルの長さのグラフ

(20)

（a）1.5-σ 内の記事に含まれる文字数分布

（b）1.5-σ 内の記事に含まれる単語数分布

（c）1.5-σ内の記事に含まれる文数分布

（d）1.5-σ内のタイトルに含まれる文字数分布

（e）1.5-σ内のタイトルに含まれる単語数分布図 8: 1.5-σ 内の記事およびタイトルの長さのグラフ

(21)

表 3: 収集した記事とタイトルの長さの統計量

記事の長さタイトルの長さ

文字単位単語単位文単位文字単位単語単位最大 15,928 9,837 390 2,829 1,144 最小 16 11 1 0 0 平均 773.71 449.32 14.36 32.46 18.63 中央値 463 283 10 30 18 標準偏差 789.54 431.87 13.05 17.77 8.68

表 4: 1.5-σ 内の記事およびタイトルの長さの統計量

記事の長さタイトルの長さ

文字単位単語単位文単位文字単位単語単位最大 2,824 1,114 88 104 32 最小 24 14 1 6 6 平均 572.58 341.78 11.84 30.29 17.65 中央値 404 250 9 29 17 標準偏差 422.55 236.82 8.21 9.97 5.61

(22)

4.2ベースライン

ベースラインとして，Rushらの文レベルの生成型要約[5]を用いる．Rushらの論文と同様に記事の最初の一文を元文書として扱ったものに加え，記事全体を元文書として扱ったものをベースラインとして用いる．

4.3実装

実験時に用いた各変数の値と実験環境について述べる．実装にはTorch⁷フレームワークを用いた．パラメータはRushらの論文[5]で用いられたパラメータを参考にし，表 5のように設定した．

初期学習率は1エポック目での過学習を避けるために0.01とした．ミニバッチサイズは64を設定した場合GPUメモリが不足してしまったため，実験環境の都合上16とした．実験環境を表 6 に示す．Rush らは最大要約単語数にデータセットに含まれる要約の平均単語数を設定していたため，同様に本研究で用いたデータセットに含まれるタイトルの平均単語数を設定した．学習は表 6に示した実験環境でおよそ5日を要した．

表 5: 各ハイパーパラメータの値．ハイフン（-）は論文中に明記されていない値．

パラメータ Rush らの論文[5]での値本研究での値

エンベディングサイズ! 200 200

隠れ層サイズℎ 400 400

文脈長! 5 5

スムージングウィンドウサイズ! 2 2

初期学習率 0.05 0.01

学習率減衰率 0.5 0.5

ミニバッチサイズ 64 16

ビームサイズ! - 30

最大要約単語数! 9 18

7 Torch, http://torch.ch, (2016 1 5 )

(23)

表 6: 実験環境

項目値

CPU Intel Core i7-5820K

メインメモリサイズ 16GB

GPU NVIDIA Quadro K5200

GPU メモリサイズ 8GB

4.4評価方法

自動要約の一般的な評価手法として，参照要約とシステム要約の単語の一致で評価する

ROUGE[11]が用いられる．ROUGE は単語の一致の評価方法でいくつか種類がある．表 7 に

ROUGEの種類をまとめる．本研究ではROUGE-Nのn-gramのサイズを1, 2にしたROUGE-1，

ROUGE-2とROUGE-L，ROUGE-S，ROUGE-SUで評価を行う．

表 7: ROUGE の種類

ROUGE の種類一致の評価方法

ROUGE-N n-gram の一致で評価

ROUGE-L 最長共通部分列（Longest Common Subsequence）の一致で評価

ROUGE-S skip-bigram の一致で評価

ROUGE-SU skip-bigram と 1-gram の一致で評価

ROUGEは機械的に評価できるが，必ずしもROUGEが高い場合に良い要約とは言えない．そ

のため，ROUGEに加え，人手による嗜好テストで評価を行う．人手による嗜好テストは次のように行った．

① 被験者は元記事を読む．

② 被験者に参照要約およびシステム要約をランダムに並び替え，アルゴリズムを伏せた状態で提示する．

③ 被験者は提示された要約を元記事の要約としてあっていると感じる順に並び変える．

④ 被験者がつけた順位を元に各要約の優位差を統計的に測定する．

また，①と②の間に被験者が元記事の要約文を作成するようにした．被験者によって作成された要約文のROUGEの指標を出し，人手による要約と自動要約とのROUGEの比較も行う．

(24)

4.5実験結果

ROUGEによる評価を表 7に示し，図 9にROUGEの値の分布を示す．Rushらの文レベルの

生成型要約の元文書を最初の一文としたモデルを ABS(first line)，元文書全体としたモデルを

ABS(article)とし，平均マルチアテンションモデルをMulti-Attention(average)，我々の提案手法で

あるディープマルチアテンションモデルをMulti-Attention(deep)とする．Human Summaryは人手によって作成された要約である．

嗜好テストは4名の被験者に各10件の記事に対する要約をランダムに見せて行った．そのため，表 8におけるHuman Summaryも40件のスコアである．嗜好テストにより得られた各モデルの平均の順位を表 10に示し，ウェルチ法のT検定によって得られたディープマルチアテンションモデルとベースラインとのp-値を，表 11に示す．

入力文と各モデルの出力した要約の具体例を表 12に示す．

表 12で示した要約を生成する際の元文書の最初の一文を入力したRushらの生成型要約モデ

ル，元文書全体を入力したRushらの生成型要約モデル，平均マルチアテンションモデル，ディープマルチアテンションモデルで入力単語に対する荷重の推移をそれぞれ図 10，図 11，図 12，

図 13にヒートマップで示す．一行が単語を出力する際の荷重を表し，色が濃いものほど重い荷

重を表す．

表 9: ROUGE による評価．

Model ROUGE-1 ROUGE-2 ROUGE-L ROUGE-S ROUGE-SU ABS(first sentence) 0.376 0.091 0.246 0.149 0.177

ABS(article) 0.381 0.105 0.253 0.154 0.182 Multi-Attention(average) 0.346 0.080 0.232 0.133 0.160 Multi-Attention(deep) 0.359 0.102 0.245 0.142 0.169 Human Summary 0.414 0.159 0.289 0.180 0.208

(25)

表 10: 嗜好テストの平均順位

Model 平均順位

参照要約 1.075

ABS(first line) 3.575 ABS(article) 3.425 Multi-Attention(average) 3.95

Multi-Attention(deep) 2.975

表 11: 提案手法とのウェルチ法の T 検定の p-値

Model Multi-Attention(deep)との p-値参照要約 8.362 × 10^!!"

ABS(first line) 0.017 ABS(article) 0.081 Multi-Attention(average) 0.001

(26)

（a）ROUGE-1 の分布

（b）ROUGE-2 の分布

（c）ROUGE-L の分布

（d）ROUGE-S の分布

（e）ROUGE-SU の分布

図 9: ROUGE の分布

(27)

表 12: 入力文と各モデルの出力の具体例 1

## ##

##

ABS(first line) ##

ABS(article) ##

Multi-Attention(Average) ##

Multi-Attention(deep) ##

URL http://www.sankei.com/politics/news/150525/plt1505250042-n1.html 2016 1 28

(28)

13: 入力文と各モデルの出力の具体例 2

## ##

##

## ## ## ## ##

## ##

ABS(first line) ## …

ABS(article) ##

Multi-Attention(Average) ##

URL http://www.sankei.com/affairs/news/150819/afr1508190006-n1.html 2016 1 28

(29)

14: 入力文と各モデルの出力の具体例 3

##

## ##

## ## ## ## ## ##

##

## ##

##

## ##

##

ABS(first line) ## …

ABS(article) ##

Multi-Attention(average) ##

URL http://www.sankei.com/economy/news/150202/ecn1502020039-n1.html 2016 1 28

(30)

10: ABS(first line)

(31)

11: ABS(article)

(32)

12: Multi-Attention(average)

(33)

13: Multi-Attention(deep)

(34)

4.6 考察・まとめ

表 9より各ROUGEの評価では既存手法である元文書全体を入れたRushらのモデルがシステ

ム要約の中で最も高い値であった．しかし，その差は 1〜2%程度であり，この差は1 単語にも満たない差で有意な差ではない．

表 10，表 11より嗜好テストでは提案手法であるディープマルチアテンションモデルがベース

ラインの手法よりも90%信頼区間で元文書に対してより適切な要約が生成できたと判断された．

図 11より，元文書全体を入れたRushらのモデルでは，同単語であれば，入力文書の出現文

に問わず同じ荷重がかけられていることがわかる．図 12 より平均マルチアテンションモデルでは，文ごとに荷重決定がされているが，文間の重みの違いがなく，文書全体としては着目すべき単語が現れていないことがわかる．図 13 より，ディープマルチアテンションモデルでは，

文ごとに荷重決定がされており，また，文間での荷重が決定されているため，重要文抽出して，

その文の着目単語に荷重がかけられていることがわかる．

(35)

第5章まとめ

自動要約は文書を要旨にまとめるため，文書データの取捨選択や圧縮に役立つ．自動要約は抽出型要約と生成型要約の二種類に大別でき，抽出型要約は元文書の文やフレーズを組み合わせて作る要約で，生成型要約は要約元の文書の内容を元に新たに文を生成しながら要約を行う．

抽出型要約は元文書に含まれる単語に制限されてしまうため，人間の要約に近づけるには限界がある．一方，生成型要約は単語に制限がなく，また人間の要約を作る方法に近いため，より人間に近い要約が期待できる．しかし，既存の生成型要約では文から短い文を生成する文レベルの生成型要約にとどまっていた．

本稿では文書の単語や文という粒度ごとにアテンションモデルを用い，多層化したディープマルチアテンションモデルの提案し，複数文の文書から一文への要約を行った．文書全体をアテンションモデルでエンコードするモデル，アテンションモデルによる文ごとエンコードの平均をとるモデルと比較実験を行った．嗜好テストからディープマルチアテンションモデルで作られた要約は90%信頼区間で元文書に対してより適切な要約であると判断された．

今後の課題として，一文要約であるとその表現力は限度があるため，複数文から複数文への文書要約に改善する必要がある．また，本研究では単語と文という粒度で多層化したアテンションモデルで実験を行ったが，単語，文に加え，形式段落や意味段落，文節など様々な粒度で多層化することでより長い文書の対応や精度向上を図りたいと考えている．

(36)

謝辞

本研究を行うにあたり，数々のご指導を頂いた山名早人教授に深く感謝申し上げます.また，

研究活動で支えてくださった研究室の皆様に心から感謝いたします.

(37)

参考文献

[1] Jing, H.: Using Hidden Markov Modeling to Decompose Human-Written Summaries , Computational linguistic, Vol.28, No.4, pp.527-543, (2002).

[2] Cho, K., Van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. and Bengio, Y.: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation , In Proceedings of Empirical Methods in Natural Language Processing 2014, pp.1724-1734, (2014).

[3] Sutskever, I., Vinyal, O., and Le, Q. V.: Sequence to sequence learning with neural networks , In Advances in neural information processing system, pp.3104-3112, (2014).

[4] Bahdanau, D., Cho, K. and Bengio, Y.: Neural Machine Translation by Jointly Learning to Align and Translate , In Proceedings of the International Conference on Learning Representation 2015, (2015).

[5] M. Rush, A., Chopra, S. and Weston, J.: A Neural Attention Model for Abstractive Sentence Summarization , In Proceedings of Empirical Methods in Natural Language Processing, pp. 379-389, (2015).

[6] Mikolov, T., Karafiat, M., Burget, L., Cernocky, J. and Kludanpur, S.: Recurrent neural network based language model , Conference of International Speech Communication Association, pp.1045-1048, (2010).

[7] Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M. Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A. and Herbst, E.: Moses: Open source toolkit for statistical machine translation , In Proceedings of the Association for Computational Linguistics, pp. 177-180, (2007).

[8] Bengio, Y., Simard, P. and Frasconi, P.: Learning Long-Term Dependencies with Gradient Descent is Difficult , IEEE Transactions on Neural Network, Vol.5, No.2, pp.157-166, (1994).

[9] Hochreiter, S. and Schmidhuber, J.: Long short-term memory , Neural Computation, Vol.9, No.8, pp.1735-1780, (1997).

[10] Clarke, J. and Lapata, M.: Global inference for sentence compression: An integer linear programming approach , Journal of Artificial Intelligence Research, Vol.31, pp.399-429, (2008).

(38)

[11] Lin, C. W.: ROUGE: A Package for Automatic Evaluation of Summaries , Proceeding of the ACL-04 workshop, Vol.8, (2004).

[12] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C.: A Neural Probabilistic Language Model , The Journal of Machine Learning Research, Vol.3, pp.1137-1155, (2003).

(39)

研究業績

• 吉岡重紀，山名早人，生成型一文要約のためのマルチアテンションモデルの提案 , 第 8 回データ工学と情報マネジメントに関するフォーラム，2016

(40)

付録: 本研究で用いたデータセット及び実験結果

本研究で用いたデータセット及び，実験で生成した各モデルのシステム要約，嗜好実験の結果を添付のDVDに収録した．それぞれのファイル形式についてはreadme.txtに記した．

2015 年度修士論文生成型一文要約のためのマルチアテンションモデル