• 検索結果がありません。

生成型一文要約のためのマルチアテンションモデルの提案

N/A
N/A
Protected

Academic year: 2021

シェア "生成型一文要約のためのマルチアテンションモデルの提案"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 E8-3

生成型一文要約のためのマルチアテンションモデルの提案

吉岡 重紀

山名 早人

†早稲田大学

基幹理工学研究科 〒169-8050 東京都新宿区大久保 3-4-1

‡早稲田大学

理工学術院 〒169-8050 東京都新宿区大久保 3-4-1

国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2

E-mail: †‡{s.yoshioka, yamana}@yama.info.waseda.ac.jp

あらまし 世の中のデータは指数関数的に増加しており,その量は 2020 年には 44ZB に達すると予想されてい る.今後,膨大なデータ全てを読むことはますます難しくなり, データの取捨選択や圧縮が必須となる.自動要約 は文書を要旨に圧縮しており,元文書を読むべきかの判断や,短い文書から内容理解をすることが可能となる.自 動要約は抽出型要約と生成型要約の二種類に大別できる.抽出型要約は元文書に含まれる文やフレーズを組み合わ せることで要約を作る.一方,生成型 要約は元文書の内容を元に,新たな文を生成して要約を行う.そのため,生 成型要約では,人間が行うような言い換えや一般化,並び替えによる要約が可能となる.しかし,既存研究の多く は抽出型要約によるもので,生成型要約の研究は文から短い文を生成する文レベルの要約にとどまっている.そこ で本研究では,アテンションモデルを複数用いることにより複数文の文書から一文の要約を生成型要約で行う方法 を提案する.嗜好テストによる実験を行い,既存手法より 90%信頼区間で元文書に対し適切な要約を生成すること ができた. キーワード 生成型要約,アテンションモデル

1. は じ め に

現 在 , 世 の 中 の デ ー タ は 指 数 関 数 的 に 増 加 し て お り , そ の 量 は2020 年 に は 44ZB に 達 す る と 予 想 さ れ て い る 1.今 後 ,デ ー タ は よ り 膨 大 な 量 と な り ,人 間 が 全 て の デ ー タ を 直 接 利 用 す る こ と は ま す ま す 難 し く な る . そ の た め , デ ー タ の 取 捨 選 択 や 圧 縮 が 必 須 と な る . 文 書 デ ー タ に お け る 取 捨 選 択 や 圧 縮 の 手 段 と し て 要 約 が あ る . 要 約 は 文 書 を 要 旨 に 圧 縮 す る た め , 元 文 書 を 読 む べ き か の 判 断 や 要 約 だ け で 元 文 書 の 内 容 理 解 が 可 能 と な る . 要 約 を プ ロ グ ラ ム に よ り 作 成 す る 自 動 要 約 は , 要 約 の 作 り 方 に よ り 抽 出 型 要 約 と 生 成 型 要 約 の 二 種 類 に 大 別 で き る . 抽 出 型 要 約 は 元 文 書 に 含 ま れ る 文 や フ レ ー ズ を 組 み 合 わ せ る こ と で 要 約 を 作 る . 一 方 , 生 成 型 要 約 は 元 文 書 の 内 容 を も と に , 新 た な 文 を 生 成 し て 要 約 を 行 う . 人 間 は 言 い 換 え や 一 般 化 , 並 び 替 え な ど を 行 い ,元 文 書 と は 異 な る 表 現 を 使 い な が ら 要 約 を 行 う[1]. 抽 出 型 要 約 で は 元 文 書 に 使 わ れ て い る 表 現 し か 用 い る こ と が で き ず ,人 間 の 要 約 に 近 づ け る の に 限 界 が あ る . 一 方 , 生 成 型 要 約 で は 元 文 書 に 含 ま れ る 単 語 に 制 限 さ れ な い た め , 元 文 書 と 異 な る 表 現 で 要 約 を 作 る こ と も 可 能 と な る . し た が っ て , 生 成 型 要 約 は 人 間 が 要 約 を 作 る 方 法 に 近 く , 人 間 が 作 る 要 約 に 近 い も の が 期 待 で

1 Data Growth, Business Opportunities, and the IT

Imperatives, http://www.emc.com/leadership/digital-universe/2014ivie w/executive-summary.htm, (2016 年 1 月 5 日 ア ク セ ス ) き る . し か し , 既 存 研 究 の 多 く は 抽 出 型 要 約 に よ る も の で , 生 成 型 要 約 の 研 究 は 文 か ら 短 い 文 を 生 成 す る 文 レ ベ ル の 要 約 に と ど ま っ て い る . 生 成 型 要 約 を 行 う に は , ま ず , 元 文 書 の 内 容 を コ ン ピ ュ ー タ の 扱 え る 中 間 表 現 に 直 し , 次 に そ の 中 間 表 現 か ら 文 生 成 を 行 わ な く て は な ら な い . し か し , 文 書 の 内 容 を 忠 実 に 表 現 可 能 な 中 間 表 現 方 法 は 確 立 し て い な い . そ の 上 , 中 間 表 現 が 可 能 に な っ て も , そ の 中 間 表 現 が 表 す 内 容 を 元 文 書 よ り 短 く な る よ う に 文 生 成 す る こ と は 難 し い 課 題 で あ る . こ の よ う に 生 成 型 要 約 は 技 術 的 課 題 が 多 く 今 ま で あ ま り 行 わ れ て 来 な か っ た . 2014 年 に 機 械 翻 訳 の タ ス ク で RNN( Recurrent Neural Network) や LSTM( Long Short Term Memory) な ど の 再 帰 型 ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い た , Encoder-Decoder モ デ ル が 登 場 し た [2][3]. 2 つ の 再 帰 型 ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い , 文 書 か ら の ベ ク ト ル 化 , ベ ク ト ル か ら の 文 書 生 成 を 行 い , 直 接 文 書 か ら 別 言 語 の 文 書 へ end-to-end で 翻 訳 す る こ と を 実 現 し た . 文 書 か ら ベ ク ト ル 化 す る こ と と ベ ク ト ル か ら 文 書 生 成 す る こ と は そ れ ぞ れ エ ン コ ー ド と デ コ ー ド と 呼 ば れ , ベ ク ト ル は 文 書 の 内 容 を 表 す 中 間 表 現 と な っ て い る . 2015 年 に は 単 語 の 出 力 ご と に 過 去 の 出 力 単 語 と 元 文 書 か ら エ ン コ ー ド を 行 う テ ン シ ョ ン モ デ ル が 登 場 し た [4].ア テ ン シ ョ ン モ デ ル は Encoder に も 出 力 単 語 を 入 力 す る こ と に よ り , 次 の 単 語 出 力 で 着 目 す べ き 元 文 書 中 の 単 語 に 重 み 付 け し て エ ン コ ー ド す る こ と が で き る . Encoder-Decoder モ デ ル の 機 械 翻 訳 は 生 成 型 要 約 の 方

(2)

法 に 非 常 に 近 く , ア テ ン シ ョ ン モ デ ル を 用 い た 文 レ ベ ル の 生 成 型 要 約 が 提 案 さ れ た[5]. 本 研 究 で は , こ れ ま で 実 施 さ れ て こ な か っ た 複 数 文 か ら 構 成 さ れ る 文 書 か ら 要 約 を 生 成 す る こ と に 挑 戦 す る . 具 体 的 に は , ア テ ン シ ョ ン モ デ ル を 複 数 用 い る こ と に よ り 複 数 文 の 文 書 か ら 一 文 の 要 約 を 生 成 型 要 約 で 行 う マ ル チ ア テ ン シ ョ ン モ デ ル の 提 案 す る . 産 経 ニ ュ ー ス2か ら ニ ュ ー ス 記 事 と タ イ ト ル を 収 集 し ,タ イ ト ル を ニ ュ ー ス 記 事 の 一 文 要 約 と し て 実 験 を 行 う . 本 稿 で は 次 の 構 成 を と る . ま ず ,2 節 で 関 連 研 究 に つ い て 述 べ ,3 節 で 提 案 す る マ ル チ ア テ ン シ ョ ン モ デ ル に つ い て 説 明 す る .4 節 で 実 験 と 評 価 を 行 い , 最 後 に 5 節 で ま と め る .

2. 関 連 研 究

生 成 型 要 約 は , 1)元 文 書 か ら そ の 内 容 を 表 す 中 間 表 現 に 直 し ,次 に 2)そ の 中 間 表 現 か ら 元 文 書 よ り 短 く な る よ う に 文 書 生 成 と い う 2 つ の 行 程 か ら 構 成 さ れ る . 近 年 , 機 械 翻 訳 の 分 野 で ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い た Encoder-Decoder モ デ ル が 提 案 さ れ た . こ の モ デ ル は 生 成 型 要 約 の 行 程 と 類 似 し て お り , 既 存 の 文 レ ベ ル の 生 成 型 要 約 の 研 究 で は ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い た 機 械 翻 訳 を 参 考 に し て い る . 本 節 で は 2.1, 2.2 で そ れ ぞ れ Encoder-Decoder モ デ ル の 機 械 翻 訳 と ア テ ン シ ョ ン モ デ ル に つ い て 説 明 し ,2.3 で ア テ ン シ ョ ン モ デ ル を 利 用 し て 文 レ ベ ル の 生 成 型 要 約 を 行 っ た 既 存 研 究 に つ い て 紹 介 す る .

2.1. Encoder-Decoder モ デ ル に よ る 機 械 翻 訳

Cho ら は 二 つ の RNN を 用 い て 機 械 翻 訳 を 行 う RNN Encoder-Decoder モ デ ル の 提 案 を 行 っ た [2] . 二 つ の RNN の 一 方 で ,言 語 A で 記 述 さ れ た 文 を ベ ク ト ル 化 し , も う 一 方 で ,そ の ベ ク ト ル か ら 言 語B の 文 を 生 成 す る . こ こ で ,前 者 は ,RNN を 文 か ら ベ ク ト ル 表 現 に し て い る こ と か ら エ ン コ ー ダ ,後 者 は ,RNN を ベ ク ト ル か ら 文 に し て い る こ と か ら デ コ ー ダ と 呼 ば れ る . 図 1 に Encoder-Decoder モ デ ル を 示 す . 図 1: Encoder-Decoder モ デ ル .𝒙𝒊, 𝒚𝒊∈ 𝟎, 𝟏𝑽,𝑽は 語 彙 数 .𝒙𝒊お よ び𝒚𝒊は 単 語 を 1-of-K 表 現 に し た ベ ク ト ル . ([2][3]を 基 に 作 成 ) 2 産 経 ニ ュ ー ス , http://www.sankei.com/, (2016 年 1 月 5 日 ア ク セ ス ) Encoder RNN で は RNN の 入 力 に 1-of-K 表 現 さ れ た 元 文 書 の 単 語 を 順 に 入 力 し , 全 て の 単 語 を 入 力 し 終 わ っ た と き の 隠 れ 層 の 出 力 を 入 力 文 の ベ ク ト ル 表 現 と し て い る .Decoder RNN は RNNLM(Recurrent Neural Network Language Model)[6]に 潜 在 状 態 と し て Encoder RNN か ら 出 力 さ れ た エ ン コ ー ド 結 果 を 入 力 し た も の と な っ て い る . 学 習 は 交 差 エ ン ト ロ ピ ー 誤 差 を 用 い , Decoder か ら Encoder ま で 逆 伝 搬 し て 学 習 を 行 っ て い る . こ の よ う に す る こ と で end-to-end で 機 械 翻 訳 を す る こ と を 可 能 と し た . RNN は ,原 理 的 に は 隠 れ 層 は 全 て の 入 力 を 考 慮 す る こ と が 可 能 で あ る が , 実 際 に は 長 期 的 な 記 憶 は 困 難 で あ る .そ こ で ,Sutskever ら は LSTM を 用 い た モ デ ル を 提 案 し た[3]. RNN よ り も LSTM を 用 い た モ デ ル の 方 が 長 期 的 な 記 憶 が 可 能 と な り 精 度 向 上 を し た が , な お も 入 力 文 が 長 い も の は 精 度 が 低 い 傾 向 と な っ た . こ れ は ,入 力 文 は 可 変 長 で あ る の に 対 し ,RNN や LSTM の 隠 れ 層 の ノ ー ド 数 は 定 数 個 で あ る た め , 可 変 長 の も の か ら 固 定 長 の ベ ク ト ル に す る 際 に 次 元 数 が 不 足 し , 情 報 の ロ ス が 起 き て い る た め で あ る .

2.2. ア テ ン シ ョ ン モ デ ル

RNN や LSTM を 用 い た Encoder-Decoder モ デ ル で は , 可 変 長 の 文 を 固 定 長 の ベ ク ト ル に エ ン コ ー ド す る た め , 長 い 入 力 文 に な る ほ ど 次 元 数 が 不 足 し , 場 合 精 度 が 下 が る 問 題 が あ る .こ の 問 題 に 対 し ,Bahdanau ら は ア テ ン シ ョ ン モ デ ル を 用 い た 機 械 翻 訳 を 提 案 し た[4].図 2 に ア テ ン シ ョ ン モ デ ル を 用 い た 機 械 翻 訳 の モ デ ル を 示 す . 図 2: ア テ ン シ ョ ン モ デ ル を 用 い た 機 械 翻 訳 の モ デ ル ([4]を 基 に 作 成 ) ア テ ン シ ョ ン モ デ ル で は 過 去 の 出 力 か ら , 入 力 文 の ど の 単 語 を 着 目 す る か の 荷 重 を 決 定 し な が ら , エ ン コ ー ド を 行 う モ デ ル で あ る . こ の よ う に す る こ と で , 長

(3)

い 文 書 で も 入 力 文 の 一 部 分 を 着 目 し な が ら 文 生 成 が 可 能 と な り , 長 期 記 憶 が 不 要 と な っ た . RNN の Encoder-Decoder モ デ ル と ア テ ン シ ョ ン モ デ ル で 比 較 実 験 を 行 い ,BLEU の 評 価 は そ れ ぞ れ 26.71% と 34.16%と な っ た .ま た ,ア テ ン シ ョ ン モ デ ル は 長 い 入 力 文 で も BLEU の 値 が 下 が ら な い こ と を 示 し た .

2.3. ア テ ン シ ョ ン モ デ ル を 用 い た 文 レ ベ ル の 生

成 型 要 約

Rush ら は ア テ ン シ ョ ン モ デ ル を 用 い ,文 レ ベ ル の 生 成 型 要 約 を 提 案 し た[5].ア テ ン シ ョ ン モ デ ル の 入 力 文 の 着 目 す べ き 単 語 に 荷 重 を 置 き エ ン コ ー ド す る と い う 特 徴 か ら , 要 約 す る 際 に 着 目 す べ き 箇 所 を 特 定 し な が ら , 生 成 的 に 文 レ ベ ル の 要 約 を 可 能 と し た . 以 下 に ア テ ン シ ョ ン モ デ ル に よ る エ ン コ ー ダ を 示 す . 𝑒𝑛𝑐𝑜𝑑𝑒𝑟 𝒙, 𝒚! = 𝒑!𝒙 𝒑 ∝ exp (𝒙𝑷𝒚!!) ∀𝑖 𝒙!= 𝒙! 𝑄 !!! !!!!! 𝒚!! = 𝑮𝒚!!!!!, … , 𝑮𝒚! 𝒙 = 𝑭𝒙!, … , 𝑭𝒙! 図 3: ア テ ン シ ョ ン モ デ ル に よ る エ ン コ ー ダ .( [5]を 基 に 作 成 ) 入 力𝒙,𝒚!は そ れ ぞ れ 元 文 書 の 単 語 と 過 去 出 力 し た C 個 の 単 語 で あ る . パ ラ メ ー タ𝑭, 𝑮, 𝑷 は そ れ ぞ れ , 𝑭 ∈ ℝ!×!𝑮 ∈ ℝ!×!𝑷 ∈ ℝ(!")×!で あ る .𝑭, 𝑮は エ ン ベ デ ィ ン グ 行 列 で あ り ,𝑉は 語 彙 数 ,𝐷は エ ン ベ デ ィ ン グ サ イ ズ で あ る .𝐻は 隠 れ 層 の ノ ー ド 数 で ,𝑄は ス ム ー ジ ン グ ウ ィ ン ド ウ 幅 で あ る .𝒙, 𝒚!!は𝒙, 𝒚!を エ ン ベ デ ィ ン グ し た ベ ク ト ル で あ り ,𝒙は 𝒙を ス ム ー ジ ン グ し た ベ ク ト ル で あ る .𝒑が 荷 重 と な っ て お り , 𝒙と 掛 け 合 わ せ る こ と で 入 力 文 の う ち 注 目 す べ き 単 語 に 荷 重 を 与 え な が ら エ ン コ ー デ ィ ン グ を お こ な っ て い る . 要 約 で 使 う べ き 単 語 に 着 目 し な が ら , 生 成 的 に 要 約 を 行 っ た . 学 習 に は ニ ュ ー ス 記 事 の デ ー タ セ ッ ト で あ る Gigaward デ ー タ セ ッ ト3を 用 い た .ヘ ッ ド ラ イ ン を 要 約 と し て 扱 い , 記 事 の 最 初 の 一 文 か ら ヘ ッ ド ラ イ ン を 生 成 す る よ う に 学 習 を 行 っ た .DUC ( Document Understanding Conference)4が 用 意 し て い る DUC-2004

の デ ー タ セ ッ ト と Gigaward デ ー タ セ ッ ト で 実 験 を 行 い ,ROUGE[7]の 評 価 は 表 1 の よ う に な っ た . 表 1: 既 存 研 究 に お け る ROUGE の 評 価

デ ー タ セ ッ ト ROUGE-1 ROUGE-2 ROUGE-L DUC-2004 0.2818 0.0849 0.2381 Gigaward 0.3100 0.1265 0.2834

3. マ ル チ ア テ ン シ ョ ン モ デ ル

生 成 型 要 約 の 既 存 研 究 で は 文 レ ベ ル の も の に と ど ま っ て い る . そ こ で 本 研 究 で は , 複 数 の ア テ ン シ ョ ン モ デ ル を 用 い る こ と で , 複 数 文 の 文 書 か ら 一 文 要 約 す る モ デ ル を 提 案 す る . 生 成 型 要 約 の モ デ ル は 図 4 の よ う に Encoder 部 分 と Decoder 部 分 に 分 け ら れ る .Encoder 部 分 で は 元 文 書 を ベ ク ト ル 化 し ,Decoder 部 分 で は Encoder の 出 力 と 過 去 の 出 力 か ら 次 の 出 力 単 語 を 決 定 す る 言 語 モ デ ル と な っ て い る .Encoder 部 分 で 複 数 の ア テ ン シ ョ ン モ デ ル を 用 い る こ と で , 複 数 文 の 文 書 の エ ン コ ー ド を 行 い , 複 数 文 か ら 一 文 要 約 生 成 を 可 能 と す る . 本 節 で は 3.1 に Decoder 部 分 の 言 語 モ デ ル に つ い て 説 明 し ,3.2 で Encoder 部 分 の マ ル チ ア テ ン シ ョ ン モ デ ル に つ い て 説 明 す る .3.3 で は 学 習 方 法 に つ い て 説 明 し ,3.4 に 要 約 文 生 成 ア ル ゴ リ ズ ム に つ い て 説 明 す る . 図 4: 生 成 型 要 約 の モ デ ル の 全 体 像 .𝒙は 元 文 書 の 単 語 , 𝒚は 生 成 す る 要 約 の 単 語 , 𝜽は パ ラ メ ー タ を 示 す . 𝒚𝒄は 過 去C 個 の 出 力 し た 単 語 . 3 English Gigaward, https://catalog.ldc.upenn.edu/LDC2003T05,( 2016 年 1 月 8 日 ア ク セ ス )

4 Document Understanding Conference,

(4)

3.1. 言 語 モ デ ル

Decoder と な る 言 語 モ デ ル に は FFNN( Feed Forward Neural Network) に よ る 言 語 モ デ ル [8]を 用 い た . 以 下 に Decoder の モ デ ル を 示 す . 𝑝 𝒚!!!|𝒚!, 𝒙; 𝜃 ∝ 𝑒𝑥𝑝 𝑽𝒉 + 𝑾𝑒𝑛𝑐𝑜𝑑𝑒𝑟(𝒙, 𝒚!) 𝒉 = tanh (𝑼𝒚!) 𝒚!= (𝑬𝒚!!!!!, … , 𝑬𝒚!) 𝒚!= [𝒚!!!!!, … , 𝒚!] 図 5: Decoder の FFNN に よ る 言 語 モ デ ル . パ ラ メ ー タ𝜃 は 𝑬, 𝑼, 𝑽, 𝑾 で そ れ ぞ れ , 𝑬 ∈ ℝ!×! 𝑼 ∈ ℝ(!")×!𝑽 ∈ ℝ!×!𝑾 ∈ ℝ!×!で あ る .𝑬は エ ン ベ デ ィ ン グ 行 列 で あ り ,𝑉は 語 彙 数 ,𝐷は エ ン ベ デ ィ ン グ サ イ ズ で あ る .𝐻は 隠 れ 層 の ノ ー ド 数 で あ る .

3.2. マ ル チ ア テ ン シ ョ ン モ デ ル

複 数 文 に 対 応 す る た め に 文 か ら 注 目 単 語 を 抽 出 す る ア テ ン シ ョ ン モ デ ル を 用 意 し , 元 文 書 中 の 各 文 の 注 目 単 語 を 抽 出 し た う え で , 抽 出 さ れ た 注 目 単 語 に 重 み 付 け を 行 い ,文 書 全 体 の 注 目 単 語 を 決 定 す る .図 6 に マ ル チ ア テ ン シ ョ ン モ デ ル を 図 示 す る . 各 文 の 重 み 付 け の 方 法 と し て 3.2.1 に 平 均 マ ル チ ア テ ン シ ョ ン モ デ ル ,3.2.2 に デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル に つ い て 説 明 す る . 図 6: マ ル チ ア テ ン シ ョ ン モ デ ル . 各 文 の ア テ ン シ ョ ン モ デ ル は 図 3 の モ デ ル を 用 い ,全 て 同 じ モ デ ル を 用 い る .𝒙𝒊∈ 𝒙で 𝒙𝒊は𝒊番 目 の 文 の 単 語 を 表 す .

3.2.1. 平 均 マ ル チ ア テ ン シ ョ ン モ デ ル

各 文 の ア テ ン シ ョ ン モ デ ル の エ ン コ ー ド 結 果 を 平 均 し た も の を 文 書 の エ ン コ ー ド と す る モ デ ル . 各 文 が 同 程 度 反 映 さ れ た も の と な り , 実 質 荷 重 な し の モ デ ル と な っ て い る . 以 下 に モ デ ル 式 を 示 す . 𝑒𝑛𝑐𝑜𝑑𝑒 𝒙, 𝒚! = 𝑒𝑛𝑐𝑜𝑑𝑒(𝒙𝑛 !, 𝒚!) ! !!!

3.2.2. デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル

文 を エ ン コ ー デ ィ ン グ す る ア テ ン シ ョ ン モ デ ル の 他 に 各 文 の エ ン コ ー ド 結 果 を エ ン コ ー ド す る ア テ ン シ ョ ン モ デ ル を 用 意 し , 文 間 の 荷 重 を 決 定 し て , 文 書 の エ ン コ ー ド を 行 う モ デ ル .

(5)

図 7: デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル . 文 の ア テ ン シ ョ ン モ デ ル と 文 間 の ア テ ン シ ョ ン モ デ ル は 別 の モ デ ル を 用 い る .

3.3. 学 習 方 法

出 力 は𝑝 𝒚!!!|𝒚!, 𝒙; 𝜃 で 各 単 語 の 確 率 値 が 出 力 さ れ る . こ の 単 語 の 確 率 値 の 負 の 対 数 尤 度(Negative Log-Likelihood(NLL)) を 最 小 化 す る よ う に 勾 配 降 下 法 で 学 習 を 行 う . 𝐽 個 の 元 文 書 , 参 照 要 約 の 対 𝒙(!), 𝒚(!) , … , 𝒙(!), 𝒚(!) が あ る と き , パ ラ メ ー タ𝜃の 負 の 対 数 尤 度 は 以 下 の 式 と な る .𝑁は 𝒚(!)の 長 さ を 表 す . 𝑁𝐿𝐿 𝜃 = − log 𝑝 𝒚(!)|𝒙!; 𝜃 ! !!! = − log 𝑝 𝒚!!!(!)|𝒙!, 𝒚!; 𝜃 !!! !!! ! !!! 学 習 エ ポ ッ ク お よ び 学 習 率 は 次 の ア ル ゴ リ ズ ム の よ う に 計 画 を 行 っ た . ア ル ゴ リ ズ ム 1 学 習 計 画 Input: 最 大 エ ポ ッ ク 数𝑀𝑎𝑥𝐸𝑝𝑜𝑐ℎ, 初 期 学 習 率 𝜖, 学 習 率 減 衰 率𝑑, 最 小 改 善 率 𝑀𝑖𝑛𝐼𝑚𝑝, パ ラ メ ー タ 𝜃 𝑓𝑙𝑎𝑔 ← 𝑓𝑎𝑙𝑠𝑒 𝑙𝑎𝑠𝑡𝐸𝑟𝑟 ← 𝑖𝑛𝑓 𝑙𝑎𝑠𝑡𝜃 ← 𝜃 for 𝑖 = 1 𝑡𝑜 𝑀𝑎𝑥𝐸𝑝𝑜𝑐ℎ do ト レ ー ニ ン グ 𝜃 ← 𝜃 − 𝜖∇𝐸 バ リ デ ー シ ョ ン 𝑒𝑟𝑟 ← 𝐸(𝜃) if 𝑙𝑎𝑠𝑡𝐸𝑟𝑟 < 𝑒𝑟𝑟 do 𝜃 ← 𝑙𝑎𝑠𝑡𝜃 end if if 𝑙𝑎𝑠𝑡𝐸𝑟𝑟 < 𝑒𝑟𝑟 ∗ (1 + 𝑀𝑖𝑛𝐼𝑚𝑝) do if 𝑓𝑙𝑎𝑔 do break else 𝜖 ← 𝜖 ∗ 𝑑 𝑓𝑙𝑎𝑔 = 𝑡𝑟𝑢𝑒 end if else 𝑓𝑙𝑎𝑔 = 𝑓𝑎𝑙𝑠𝑒 end if end for

3.4. 生 成 文 探 索 ア ル ゴ リ ズ ム

要 約 を 生 成 す る 際 , 最 も 確 率 が 高 い 文 を 生 成 す る こ と が 好 ま し い が , 最 大 の も の を 探 索 す る の は NP 困 難 な 問 題 で あ る .ビ タ ビ ア ル ゴ リ ズ ム で 探 索 を 行 う 場 合 , 𝑂 𝑁𝑉! の 計 算 量 が 必 要 と な る . 多 く の 場 合𝑉は 十 分 に 大 き く 困 難 で あ る . 本 研 究 で は 生 成 文 の 探 索 ア ル ゴ リ ズ ム と し て ビ ー ム サ ー チ を 用 い た . ア ル ゴ リ ズ ム 2 ビ ー ム サ ー チ Input: パ ラ メ ー タ𝜃, ビ ー ム サ イ ズ 𝐾, 元 文 書 𝑥 Output: 近 似 の K-best の 要 約 𝜋 0 ← 𝜖 for 𝑖 = 0 𝑡𝑜 𝑁 − 1 do 候 補 の 作 成 𝒩 ← 𝑦, 𝑦!!! | 𝑦 ∈ 𝜋 𝑖 , 𝑦!!!∈ 𝑉 ス コ ア の 高 い も の K 個 に 絞 る 𝜋 𝑖 + 1 ← 𝐾 − 𝑎𝑟𝑔 𝑚𝑎𝑥!∈𝒩 𝑔 𝑦!!!, 𝑦!, 𝑥 + 𝑠(𝑦, 𝑥) end for return 𝜋 𝑁

4. 実 験 ・ 評 価

本 節 で は 3 節 で 提 案 し た 手 法 を 実 験 し , 既 存 手 法 と 比 較 評 価 し , そ の 有 効 性 を 示 す .

4.1. デ ー タ セ ッ ト

産 経 ニ ュ ー ス(http://www.sankei.com/)か ら 2011 年 10 月 3 日 か ら 2015 年 11 月 28 日 の 記 事 と タ イ ト ル の セ ッ ト を 2015 年 10 月 24 日 か ら 2015 年 11 月 28 日 に か け て 収 集 し , タ イ ト ル を そ の 記 事 の 一 文 要 約 と し て 扱 い 学 習 を 行 っ た .学 習 に は 10 万 記 事 を 用 い ,う ち 9 万 記 事 を ト レ ー ニ ン グ ,1 万 記 事 を バ リ デ ー シ ョ ン に

(6)

当 て た .テ ス ト セ ッ ト と し て 別 途1000 記 事 を 用 意 し た . 語 彙 数 は 記 事 , タ イ ト ル で そ れ ぞ れ ,9 万 語 と 3 万 語 と な っ た .

4.2. 比 較 手 法

比 較 手 法 と し て ,2.3 の 文 レ ベ ル の 生 成 型 要 約 を 用 い る .2.3 と 同 様 に 記 事 の 最 初 の 一 文 を 元 文 書 と し て 扱 っ た も の に 加 え , 記 事 全 体 を 元 文 書 と し て 扱 っ た も の を 比 較 手 法 と し て 用 い る .

4.3. 実 装

実 装 に は Torch5フ レ ー ム ワ ー ク を 用 い た . パ ラ メ ー タ は 2.3 の 論 文 で 用 い ら れ た パ ラ メ ー タ に 近 づ け る よ う 表 2 の よ う に 設 定 し た .初 期 学 習 率 は 1 エ ポ ッ ク 目 で の 過 学 習 を 避 け る た め ,0.01 と し た . 最 大 要 約 長 は デ ー タ セ ッ ト の タ イ ト ル の 最 大 長 を 設 定 し た . 表 2: 各 ハ イ パ ー パ ラ メ ー タ の 値 パ ラ メ ー タ 値 エ ン ベ デ ィ ン グ サ イ ズ D 200 隠 れ 層 サ イ ズH 400 過 去 の 出 力 単 語 数 C 5 ス ム ー ジ ン グ ウ ィ ン ド ウ 幅 Q 2 初 期 学 習 率 0.01 学 習 率 減 衰 率 0.5 ビ ー ム サ イ ズK 30 最 大 要 約 長 18 表 3 に 示 し た 実 験 環 境 で 実 験 を 行 い , 学 習 に は 約 5 日 を 要 し た . 表 3: 実 験 環 境 項 目 値

CPU Intel Core i7-5820K メ イ ン メ モ リ サ イ ズ 16GB

GPU NVIDIA Quadro K5200 GPU メ モ リ サ イ ズ 8GB

4.4. 評 価 方 法

自 動 要 約 の 一 般 的 な 評 価 手 法 と し て , 参 照 要 約 と シ ス テ ム 要 約 の 単 語 の 一 致 で 評 価 す る ROUGE[7]が 用 い ら れ る . ROUGE は 単 語 の 一 致 の 評 価 方 法 で い く つ か 種 類 が あ る . 表 4 に ROUGE の 種 類 を ま と め る . 5 Torch, http://torch.ch, (2016 年 1 月 5 日 ア ク セ ス ) 表 4: ROUGE の 種 類 ROUGE の 種 類 一 致 の 評 価 方 法 ROUGE-N n-gram の 一 致 で 評 価

ROUGE-L 最 長 共 通 部 分 列 (Longest Common Subsequence) の 一 致 で 評 価

ROUGE-S skip-bigram の 一 致 で 評 価

ROUGE-SU skip-bigram と uni-gram の 一 致 で 評 価

ROUGE-N の n-gram の サ イ ズ を 1, 2 に し た ROUGE-1, ROUGE-2 と ROUGE-L,ROUGE-S,ROUGE-SU で 評 価 を 行 う . ROUGE は 機 械 的 に 評 価 で き る が ,必 ず し も ROUGE が 高 い 場 合 に 良 い 要 約 と は 言 え な い . そ の た め ,ROUGE に 加 え , 人 手 に よ る 嗜 好 テ ス ト で 評 価 を 行 う . 人 手 の 嗜 好 テ ス ト は 次 よ う に 行 っ た . ① 被 験 者 に 元 記 事 を 読 ん で も ら い ,参 照 要 約 お よ び シ ス テ ム 要 約 を ラ ン ダ ム に 並 び 替 え ,ア ル ゴ リ ズ ム を 伏 せ た 状 態 で 提 示 す る . ② 被 験 者 に 提 示 さ れ た 要 約 を 元 記 事 の 要 約 と し て あ っ て い る と 感 じ る 順 に 並 び 変 え て も ら う . ③ 被 験 者 に つ け て も ら っ た 順 位 を 元 に 各 要 約 の 優 位 差 を 統 計 的 に 測 定 す る .

4.5. 実 験 結 果

ROUGE に よ る 評 価 を 以 下 に 示 す . 既 存 手 法 の 最 初 の 一 文 を 元 文 書 と し た モ デ ル を ABS(first line),元 文 書 全 体 と し た モ デ ル をABS(article)と し ,我 々 の 提 案 手 法 で あ る 平 均 マ ル チ ア テ ン シ ョ ン モ デ ル を Multi-Attention(average),デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル を Multi-Attention(deep)と す る . 表 5: ROUGE に よ る 評 価 . Model ROU GE-1 ROU GE-2 ROU GE-L ROU GE-S ROUG E-SU ABS(first sentence) 0.376 0.091 0.246 0.149 0.177 ABS(article) 0.381 0.105 0.253 0.154 0.182 Multi-Attentio n(average) 0.346 0.080 0.232 0.133 0.160 Multi-Attentio n(deep) 0.359 0.102 0.245 0.142 0.169 Human Summary 0.414 0.159 0.289 0.180 0.208 嗜 好 テ ス ト は 4 名 の 被 験 者 に 各 10 件 の 記 事 に 対 す る 要 約 を 見 せ , 行 っ た . 平 均 の 順 位 と ウ ェ ル チ 法 の T 検 定 の p 値 を 表 6, 表 7 に 示 す .

(7)

表 6: 平 均 順 位 Model 平 均 順 位 参 照 要 約 1.075 ABS(first line) 3.575 ABS(article) 3.425 Multi-Attention(average) 3.950 Multi-Attention(deep) 2.975 表 7: 提 案 手 法 と の ウ ェ ル チ 法 の T 検 定 の p 値 Model Multi-Attention(deep) 参 照 要 約 8.362×10!!" ABS(first line) 0.017 ABS(article) 0.081 Multi-Attention(average) 0.001

4.6. ま と め ・ 考 察

ROUGE の 評 価 で は 既 存 手 法 と 提 案 手 法 と の 間 に 有 意 差 は 見 ら れ な か っ た が , 嗜 好 テ ス ト に よ る 評 価 で は 提 案 手 法 で あ る デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル が 既 存 手 法 よ り90%信 頼 区 間 で 好 ま し い 要 約 で あ る と 示 さ れ た .ROUGE は 参 照 要 約 に 対 す る 単 語 の 一 致 を 測 る も の で , 言 い 換 え や 並 び 替 え を 行 う 生 成 型 要 約 で は 適 し た 評 価 手 法 で は な く , そ の た め ,ROUGE の 評 価 で は 有 意 差 は 得 ら れ な か っ た と 考 え ら れ る .

5. ま と め

本 稿 で は 複 数 の ア テ ン シ ョ ン モ デ ル を 用 い る こ と に よ り 複 数 文 か ら 一 文 要 約 を 生 成 型 要 約 で 行 う 方 法 を 提 案 し た . 嗜 好 テ ス ト に よ る 評 価 を 行 い , 提 案 手 法 で あ る デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル が 既 存 手 法 よ り90%信 頼 区 間 で 好 ま し い 要 約 を 生 成 で き る こ と を 示 す こ と が で き た .

参 考 文 献

[1] Jing H., “ Using Hidden Markov Modeling to Decompose Human-Written Summaries ” , Computational linguistic, 2002.

[2] Cho K., Van Merrienboer B., Gulcehre C, Bahdanau D., Bougares F, Schwenk H and Bengio Y., “ Learning Phrase Representations using RNN Encoder-Decoder for Statistica Machine Translation”, Conference on Empirical Methods in Natural Language Processing, 2014.

[3] Sutskever Ilya, Oriol Vinyal, and Quoc VV Le, “ Sequence to sequence learning with neural networks ” , Advances in neural information processing system, 2014.

[4] Bahdanau D., Cho K., Gulcehre C and Bengio Y., “Neural Machine Translation by Jointly Learning to Align and Translate” , Conference on International Conference on Learning Representation, 2015.

[5] M. Rush A., Chopra S. and Weston J., “ A Neural Attention Model for Abstractive Sentence Summarization” , Conference on Empirical Methods in Natural Language Processing, 2015.

[6] Mikolov T., Karafiat M., Burget L., Cernocky J. and Kludanpur S., “Recurrent neural network based language model”, Conference of International Speech Communication Association, 2010.

[7] Lin C. W., “ROUGE: A Package for Automatic Evaluation of Summaries”, Proceeding of the ACL-04 workshop, Vol.8, 2004.

[8] Bengio Y., Ducharme R., Vincent P. and Jauvin C., “A Neural Probabilistic Language Model”, The Journal of Machine Learning Research, pp.1137-1155, 2003.

表   1:  既 存 研 究 に お け る ROUGE の 評 価
図   7:  デ ィ ー プ マ ル チ ア テ ン シ ョ ン モ デ ル . 文 の ア テ ン シ ョ ン モ デ ル と 文 間 の ア テ ン シ ョ ン モ デ ル は 別 の モ デ ル を 用 い る . 3.3
表   6:  平 均 順 位 Model  平 均 順 位 参 照 要 約 1.075  ABS(first line)  3.575  ABS(article)  3.425  Multi-Attention(average)  3.950  Multi-Attention(deep)  2.975  表   7:  提 案 手 法 と の ウ ェ ル チ 法 の T 検 定 の p 値 Model  Multi-Attention(deep)  参 照 要 約 8.362×10 !!&#34; ABS

参照

関連したドキュメント

本稿 は昭和56年度文部省科学研究費 ・奨励

2012 年 1 月 30 日(月 )、早稲田大 学所沢キャ ンパスにて 、早稲田大 学大学院ス ポーツ科学 研 究科 のグローバ ル COE プロ グラム博 士後期課程 修了予定者

早稲田大学ラグビー蹴球部(以下、ラグビー部)では、2004年、競技力向上のためのスポーツ医・科学サ ポートシステム(Sports Medicine &amp; Science Support

第3節 チューリッヒの政治、経済、文化的背景 第4節 ウルリッヒ・ツウィングリ 第5節 ツウィングリの政治性 第6節

る。また、本件は商務部が直接に国有企業に関する経営者集中行為を規制した例でもある

じパラダイム(基本思考)内での論理の正否というよりは,IASB

 グローバルな視点を持つ「世界のリーダー」を養成

主任審査委員 早稲田大学文学学術院 教授 博士(文学)早稲田大学  中島 国彦 審査委員   早稲田大学文学学術院 教授