• 検索結果がありません。

小平知範 修士論文 唖

N/A
N/A
Protected

Academic year: 2021

シェア "小平知範 修士論文 唖"

Copied!
56
0
0

読み込み中.... (全文を見る)

全文

(1)

学 修 番 号16890515

修士論文

文 書 構 造 に着 目 した ニ ュー ラ ル 文 書 要 約

小平 知範

2018年3月9日

首都大 学東 京大学院

システムデザ イ ン研 究科 情報 通信 システ ム学域

(2)

小平 知範

審査委員:

小町 守 准教授 石川 博 教授 片山 薫 准教授

(主指導教 員) (副指導教員) (副指導教員)

(3)

3

(4)

文 書 構 造 に着 目 した ニ ュ ー ラル 文 書 要 約*

小平 知範

修論要旨

要 約 を 構築 す る 主 な 目 的 は,読 み 手 が 文 書 す べ て を 読 む こ と な くそ の 文 書 を理 解 で き る よ う に す る こ と で あ る.特 に ニ ュ ー ス 要 約 で は,ス マ ー トフ ォ ン ユ ー ザ は 画 面 の サ イ ズ が 限 ら れ て い る の で,表 示 で き る 限 られ た 量 の 要 約 を 読 み た い.こ れ ら の 目 的 を 達 成 す る た め に,ポ ー タ ブ ル デ バ イ ス 向 け の 要 約 シ ス テ ム は 重 要 な 情 報 を 含 ん だ 要 約 を 限 ら れ た 要 約 長 の 中 で 生 成 しな け れ ぼ な ら な い.

要 約 タ ス ク に は 抽 出 型 と抽 象 型 の2つ の ア プ ロ ー チ が あ る.抽 出 型 ア プ ロ ー チ は 要 約 を 作 る た め に 文 書 の 一 部(文 や 句,単 語 な ど)を 選 ぶ.抽 象 型 ア プ ロ ー チ は 文 書 に 現 れ な い 単 語 も 使 っ て 要 約 を 生 成 す る.抽 出 型 ア プ ロ ー チ は 元 の 文 書 か ら 出 力 す る 表 現 を 直 接 抽 出 す る の で,抽 象 型 ア プ ロ ー チ よ り文 法 的 な 要 約 を 作 る こ と が で き る.し か し,そ れ で は 元 の 文 書 に 現 れ な い 単 語 を 選 ぶ こ と が で き な い.

抽 象 型 要 約 は 機 械 翻 訳 タ ス ク と は 異 な り,お お よ そ の 出 力 は 入 力 の 文 書 か ら得 る こ と が で き る.ま た,抽 象 型 要 約 で は 主 にEncoder‑Decoderと い う機 構 を用 い る.

Encoder‑Decoderモ デ ル に お い て 入 力 系 列 は ソ ー ス,出 力 系 列 は タ ー ゲ ッ ト と 呼 ば れ る.Encoder‑Decoderは,ソ ー ス(文 書)の 情 報 を読 み 取 るRNNのEncoder

と,そ の 情 報 を も と に タ ー ゲ ッ ト(要 約)を 生 成 して い くDecoderを 組 み 合 わ せ た も の で あ る.入 出 力 と も に 系 列 の 場 合 はsequence‑to‑sequenceと 呼 ば れ る.

Sequence‑to‑sequenceを 基 に,要 約 中 に 入 力 の 文 書 に 現 れ な い 単 語 を 含 む 抽 象 型 文 要 約 タ ス ク に 取 り組 ま れ て い る.CNN/DailyMailデ ー タ セ ッ トは 様 々 な 長 さ の 文 で 構 成 さ れ た 要 約 が 含 ま れ て い る の で,構 造 化 さ れ た 要 約 を 生 成 す る た め に 要 約 の 構 造 情 報 の 注 釈 を 簡 単 に つ け る こ と が で き な い.そ の た め,彼 ら の モ デ ル は構 造 的 な 要 約 の 生 成 が で き な い.

そ こ で,本 研 究 で は ニ ュ ー ス 要 約 の た め の 構 造 的 な 要 約(3行 要 約)の 生 成 に 着 目

*首 都 大 学 東 京 大 学 院 シス テ ム デザ イ ン研 究 科 情 報 通信 シ ス テム 学 域 修 士 論 文

,学 修 番 号16890515, 2018年3月9日.

(5)

し,我 々 はCNN/DailyMai1デ ー タ セ ッ ト と 同 量 の 要 約 デ ー タ セ ッ トをLivedoor Newsか ら構 築 し た.LivedoorNewsは3行 要 約 と ニ ュ ー ス を 公 開 して い る の で,

こ の デ ー タ セ ッ トを 用 い た 解 析 は 容 易 で あ る.

3行 要 約 の 生 成 を 解 析 す る た め に,我 々 は ニ ュ ー ラ ル ネ ッ ト を 用 い た モ デ ル を 用 い た.モ デ ル を 改 善 す る た め に,我 々 は 彼 ら の モ デ ル を基 に 新 し い 機 構 を 提 案 す る.

我 々 の 貢 献 は 以 下 で あ る.

●3行 要 約 の み を 含 む 新 しい 日 本 語 ニ ュ ー ス の 要 約 デ ー タ セ ッ トを構 築 した.

● デ ー タ セ ッ トに 対 して,要 約 の 構 造 の 注 釈 付 け と解 析 を 行 っ た.

● こ の デ ー タ セ ッ トの 特 徴 を 基 に3行 要 約 に 適 応 し た モ デ ル を 提 案 した.

本 論 文 の 構 成 は 以 下 の よ う に な っ て い る.第1章 で は 本 研 究 全 体 の 概 要,貢 献 を 述 べ る.第2章 で は 抽 出 型 要 約 と 抽 象 型 要 約 に つ い て の 関 連 研 究 に つ い て 述 べ る.

第3章 で は ニ ュ ー ラ ル 要 約 の 学 習 に つ い て 述 べ る.第4章 で は 大 規 模3行 要 約 デ ー タ セ ッ トの 構 築 に つ い て 詳 し く述 べ る.第5章 で は3行 要 約 の 要 約 構 造 の 分 類 モ デ ル と3行 要 約 の 要 約 構 造 に 適 し たfine一七uningに つ い て 述 べ る.第6章 で は,要 を 構 造 情 報 ご と に 分 類 す る 実 験 結 果 に つ い て 述 べ る.第7章 で は.要 約 の 実 験 結 果 に つ い て 述 べ る.第8章 で は,実 験 結 果 に 対 す る 考 察 を 述 べ る.最 後 に 第9章 で 本 研 究 の ま と め,今 後 の 展 望 に つ い て 述 べ る.

(6)

Incorporating Document Structure into Neural Abstractive Summarization*

Tomonori Kodaira

Abstract

Neural network-based approaches have become widespread for abstractive text summarization. Previous models prevent repetition of the same contents in the summary, but do not explicitly take its information structure into account.

One of the reasons they failed to model information structure of the generated

summary is that the standard datasets, CNN / Daily Mail summarization tasks,

include summaries of variable lengths. Thus, it is not clear how the first sentence contributes to the following sentences, and so forth. To address the lack of the dataset for structured summarization, we introduce a new dataset containing summaries consisting of only three bullet points, and propose a neural network- based abstractive summarization model considering information structure of the generated summary. Our contributions are as follows:

• We constructed a new summarization dataset, whose summaries are in the form of three sentences.

• We annotated and analyzed the structure of summaries in the dataset.

• Our model generates a summary considering the type of summary.

* Master's Thesis

, Department of Information and Communication Systems, Graduate School of System Design, Tokyo Metropolitan University, Student ID 16890515, March 9, 2018.

(7)

目次

図 目次

第1章 は じめ に

第2章 2.1 2.2 2.3 2.4

第3章 3.1 3.2 3.3

第4章 4.1 4.2 4.3

vii

1

関 連 研 究3

要 約 タ ス ク...。 。...◆....◎...3

評 価 指 標...3

出 型 要 約 の 関 連 研 究...4

象 型 要 約 の 関 連 研 究...5

ル8 At七entionEncoder‑Decoder...◆...。....8

HybridPoin七er‑GeneratorNe七work...◆..。...9

CoverageMechanism。 。.◆...◆...。...。.◆10

要 約 デ ー タ セ ト の 構 築12 記 事 の 特 徴...。...◆....◆..。...。 ■ ■12

3行 要 約 に 対 す る 文 書 構 造 ノ テ ー シ ョ ン...13

ノ テ ー シ ョ ン の 結 と 分 析...14

第5章 5.1 5.2 5.3 要 約 構 造 分 類 モ デ ル17 要 約 構 造 分 類 モ デ ル 。....。.◆...̲...17

要 約 構 造 に 適 応 さ せ るfine一 七uning....◆18

記 事 を 入 力 と し た 自 動 分 類 モ デ ル...19

(8)

第6章 6.1 6.2 6.3

第7章 7.1 7。2 7.3

第8章 8.1 8.2 8.3 8.4

8.5

第9章 謝辞 参考文献

定...。

果...◆...

果...

3行

定...◆...

法...◆...

果.◎ ◆...◆ ◆ ◆ ◆...

7。3.1ROUGEに 果...

7.3.2各 果...。..。...

7.3.3ROUGE‑Lを し,各 に 対

果...

て...

法...◆....◆

析...◆.◆ ◆ ◆...◆

8.<L1前 性...。. 。...

8.4.2記 約...。. ...

目 箇 り...。...。.. ...

8.5.1考 察.。...◆. ...

発表 論文 リス ト

付録

2︒2︒2︒2223%7%29293︒3︒

(9)

各 タイプの記事例 41

付録A

(10)

図 目次

3224445

sequence‑t(>sequenceの 概 略 図...

文 書 構 造.左:並 タ イ プ.右:直 タ イ プ.

実 際 の 記 事 例....。 ◆...。..

際 の3行 要 約 例...

分 類 モ デ ル の 説 明 図...

5OUハ0ρ0811

(11)

第1章 は じめ に

要 約 を 構 築 す る 主 な 目 的 は,読 み 手 が 文 書 す べ て を 読 む こ と な く そ の 文 書 を 理 解 で き る よ う に す る こ と で あ る.特 に,ス マ ー ト フ ォ ン ユ ー ザ は 画 面 の サ イ ズ が 限 ら れ て い る の で,表 示 で き る 限 ら れ た 量 の 要 約 を 読 み た い.こ れ ら の 目 的 を 達 成 す る た め に,ポ ー タ ブ ル デ バ イ ス 向 け の 要 約 シ ス テ ム は 重 要 な 情 報 を 含 ん だ 要 約 を 限 ら れ た 要 約 長 の 中 で 生 成 し な け れ ぼ な らな い.

要 約 タ ス ク に は 抽 出 型 と抽 象 型 の2つ の ア プ ロ ー チ が あ る.抽 出 型 ア プ ロ ー チ は 要 約 を 作 る た め に 文 書 の 一 部(文 や 句,単 語 な ど)を 選 ぶ.抽 象 型 ア プ ロ ー チ は 文 書 に 現 れ な い 単 語 も 使 っ て 要 約 を 生 成 す る.抽 出 型 ア プ ロ ー チ[1,2]は 元 の 文 書 か ら 出 力 す る 表 現 を 直 接 抽 出 す る の で,抽 象 型 ア プ ロ ー チ よ り文 法 的 な 要 約 を 作 る こ と が で き る.し か し,そ れ で は 元 の 文 書 に 現 れ な い 単 語 を 選 ぶ こ と が で き な い.

抽 象 型 要 約 は 機 械 翻 訳 タ ス ク と は 異 な り,お お よ そ の 出 力 は 入 力 の 文 書 か ら得 る こ と が で き る.ま た,抽 象 型 要 約 で は 主 にEncoder‑Decoderと い う機 構 を 用 い る.

Encoder‑Decoderモ デ ル に お い て 入 力 系 列 は ソ ー ス,出 力 系 列 は タ ー ゲ ッ ト と 呼 ば れ る.Encoder‑Decoderは,ソ ー ス(文 書)の 情 報 を 読 み 取 るRNNのEncoder

と,そ の 情 報 を も と に タ ー ゲ ッ ト(要 約)を 生 成 し て い くDecoderを 組 み 合 わ せ た も の で あ る.入 出 力 と も に 系 列 の 場 合 はsequence一 七()sequenceと 呼 ぼ れ る.

要 約 で は,話 の 流 れ の 一 貫 性 を 捉 え る た め に2文 間 の 意 味 的 関 係 を 表 現 す る 修 辞 構 造 理 論[3]が 素 性 と して 用 い ら れ る.例 え ば,要 約 の1文 目 に は 基 本 的 な 情 報,2 文 目 に は1文 目 に 対 す る追 加 情 報 が 記 述 さ れ て い る な ら ば,2文 間 の 関 係 は"詳 細"

(Elaboration)に 当 た る.本 研 究 で は こ の よ う な 構 造 に 着 目 して 実 験 を 行 う.

Rushら[4]は,Sutskeverら[5]が 提 案 し たsequence‑to‑sequenceを 基 に,要 約 中 に 入 力 の 文 書 に 現 れ な い 単 語 を 含 む 抽 象 型 文 要 約 タ ス ク に 取 り組 ん だ.近 Rushら[4]の 手 法 を も と にNallapa七iら やSeeら[6,7]に よ っ て ニ ュ ー ラ ル ネ ッ ト

を 用 い た 抽 象 型 文 書 要 約 の ア プ ロ ー チ が 提 案 さ れ た.彼 ら の 用 い たCNN/Daily Mailデ ー タ セ ッ ト は 様 々 な 長 さ の 文 で 構 成 さ れ た 要 約 が 含 ま れ て い る の で,構 化 さ れ た 要 約 を 生 成 す る た め に 要 約 の 構 造 情 報 の 注 釈 を 簡 単 に つ け る こ と が で き な い.そ の た め,彼 ら の モ デ ル は 構 造 的 な 要 約 の 生 成 が で き な い.

そ こ で,本 研 究 で は ニ ュ ー ス 要 約 の た め の 構 造 的 な 要 約(3行 要 約)の 生 成 に 着

(12)

目 し,本 研 究 で はCNN/DailyMai1デ ー タ セ ッ ト と 同 量 の 要 約 デ ー タ セ ッ トを LivedoorNewsか ら構 築 し た.LivedoorNewsは3行 要 約 と ニ ュ ー ス を 公 開 して

い る の で,こ の デ ー タ セ ッ トを 用 い た 解 析 は 容 易 で あ る.

3行 要 約 の 生 成 を 解 析 す る た め に,本 研 究 で はSeeら[7]の モ デ ル を 用 い た.本 研 究 で は 彼 ら の モ デ ル を 基 に 構 築 し た デ ー タ セ ッ トに 特 化 し た モ デ ル を 構 築 し た.

は じ め に,構 築 し た デ ー タ セ ッ トに 対 して ア ノ テ ー シ ョ ン を 少 量 行 い 構 造 情 報 の 付 与 を 行 な っ た.次 に,少 量 の デ ー タ セ ッ ト を 元 に 構 造 情 報 の 自 動 付 与 を 行 な っ た.

最 後 に,自 動 付 与 さ れ た デ ー タ を用 い てfinetuningす る こ と に よ り,3行 要 約 に 特 化 し た モ デ ル を 作 成 し た.ま た,シ ス テ ム 要 約 の 特 徴 を 捉 え る た め に 新 た に 評 価 指 標 を 提 案 し た.

本 研 究 の 貢 献 は 以 下 で あ る.

・3行 要 約 の み を 含 む 新 しい 日 本 語 ニ ュ ー ス の 要 約 デ ー タ セ ッ トを 構 築 した.

● デ ー タ セ ッ トに 対 し て,要 約 の 構 造 の 注 釈 付 け と解 析 を 行 っ た.

● こ の デ ー タ セ ッ トの 特 徴 を基 に3行 要 約 に 適 応 した モ デ ル を 提 案 し た.

●3行 要 約 に 着 目 し た 評 価 指 標 の 提 案 を した.

本 論 文 の 構 成 は 以 下 の よ う に な っ て い る.第1章 で は本 研 究 全 体 の 概 要,貢 献 を 述 べ る.第2章 で は 抽 出 型 要 約 と抽 象 型 要 約 に つ い て の 関 連 研 究 に つ い て 述 べ る.

第3章 で は ニ ュ ー ラ ル 要 約 の 学 習 に つ い て 述 べ る.第4章 で は 大 規 模3行 要 約 デ ー タ セ ッ トの 構 築 に つ い て 詳 し く述 べ る.第5章 で は3行 要 約 の 要 約 構 造 の 分 類 モ デ ル と3行 要 約 の 要 約 構 造 に 適 し た 丘ne一七uningに つ い て 述 べ る.第6章 で は,要 を構 造 情 報 ご と に 分 類 す る 実 験 結 果 に つ い て 述 べ る.第7章 で は.要 約 の 実 験 結 果 に つ い て 述 べ る.第8章 で は,実 験 結 果 に 対 す る考 察 を述 べ る.最 後 に 第9章 で 本 研 究 の ま とめ,今 後 の 展 望 に つ い て 述 べ る.

(13)

第2章 関 連研 究

この章で は,抽 出型要約 と抽象型要約 についての関連研 究 について述 べ る.

2.1要 約 タ ス ク

要約 には,1つ の文書 に対 して1つ の要約 を生 成す る単 一文書 要約 と複数 の文書 に対 して1つ の要約 を生成 する複数 文書要約 がある.単 一文書要約 はニ ュース記事 のな どの大 まかな概要 を まとめるため に用 い られ る.複 数文 書要約 は複数 の観 点か

ら書かれ た記事 や時系列の ある記事等 をま とめ るため に用 い られ る.

また,要 約 の種類 として は,文 書 の内容 を伝 える報知 的要 約 と,あ る文書 を読む べ きか判 断する材料 と して の指示 的要約 があ る.

要約 の作 り方 にも2種 類 あ り,抽 出型要約 と抽 象型 要約が ある.抽 出型 要約 は文 書 中の文,句 あ るいは語 を抜 き出 し並 べ換 えるこ とで要約 を作成す る.抽 象型要約 は文書 の情報 を元 に新 た な文 を作 り出す こ とで要約 を作成す る.

本研究 では1記 事か ら3行 か らな る要約 を生成す る単一文書要約 の抽象型要約 に 取 り組 む.

2.2評 価 指 標

要 約 の 代 表 的 な 評 価 指 標 と してROUGE[8]ス コ ア が あ る.ROUGEは 正 解 要 約 と シ ス テ ム 要 約 間 で 単 語 の 再 現 率 を 元 に ス コ ア を 算 出 す る.要 約 に お い て は 文 書 中 の 情 報 を 伝 え る こ と が 重 要 で あ る た め,正 解 要 約 と シ ス テ ム 要 約 に 対 す るn‑gram の 再 現 率 を 用 い て 要 約 の 良 さ を 測 るROUGE‑Nが あ る.こ れ は 以 下 の 式 で 計 算 さ れ る.

Σ9̲n∈sO(編 ・ん(gram・)(2

ROUGE‑Nニ .21)

Σ9̲π ∈so(mnt(grαmn)

こ こ で,3は 正 解 要 約,grαm.は 正 解 要 約 中 に 含 ま れ るn‑gramを 示 す.ま た, Oonntmat。h(gram.)は シ ス テ ム 要 約 と 正 解 要 約 間 で 一 致 し て い るn‑gramの 数 を 返 す 関 数 で あ る.ま た,Oonnt(gramn)は 正 解 要 約n‑gramに 含 ま れ て い るrトgram

(14)

の 数 を 返 す 関 数 で あ る.

次 にROUGE‑Lに つ い て 説 明 す る.二 つ の 要 約 に 対 し て のLCS(Longes七Com‑

monSequence)を 算 出 し,よ り長 け れ ば 似 て い る と い う 直 感 の も と 作 ら れ た 指 標 で あ る.具 体 的 に は 以 下 の 式 で 計 算 さ れ る.

LOS(X,y)(2

.22)

Rlcs=

LOS(X,Y)(2

.23) 乃 。。=

.Rl。。Pl。。

(2.24) 現 。。=R

IC8+PIC8

こ こ で,Xは 正 解 要 約,yは シ ス テ ム 要 約 で あ る.LOS(X,Y)は 二 つ の 要 約 問 の LCSの 長 さ で あ る.mは 正 解 要 約 の 長 さ,nは シ ス テ ム 要 約 の 長 さ を 示 し て い る.

再 現 率 の 計 算 に は 分 母 を 鵬 と す る こ と で 正 解 要 約 の 内 容 を どれ だ け 出 力 で き て い る か を 示 して お り,適 合 率 で は 分 母 を η と す る こ と で シ ス テ ム 要 約 の 内 容 が ど れ だ け 正 しい か を 示 し て い る.

2.3抽 出型 要 約 の 関 連 研 究

抽 出 型 要 約 に お け る ベ ー ス ラ イ ン と し て 用 い ら れ る 手 法 と してLEADが あ る.

LEADは 入 力 文 書 中 の 文 を 上 か ら任 意 の 数 取 っ て く る も の で あ る.こ れ は,文 書 中 の 重 要 な 内 容 は 文 書 の 先 頭 に く る と い う仮 定 の も と用 い ら れ て い る.単 純 で あ り な が ら精 度 の 高 い 手 法 で あ る.

抽 出 型 要 約 で はILP(整 数 計 画 法)を 用 い る 手 法[2,9,10]が あ る.ILPで は, 最 大 化 す る ス コ ア と制 約 が 存 在 す る.ス コ ア は 選 ば れ た 要 約 に 含 まれ る 単 語 の 異 な

り数 や 重 要 度 な ど が 用 い ら れ る.制 約 に は,要 約 後 の 単 語 数 や 同 じ単 語 を使 う 回 数 な ど が 用 い られ る.こ の よ う に あ る 制 約 の も と ス コ ア を 最 大 化 す る よ う な 文 を 抽 出 し,要 約 を 作 成 す る.

一 例 と して,Hirao[10]ら は 単 一 文 書 要 約 を ナ ッ プ サ ッ ク 問 題 と し て 定 式 化 し て い る.ナ ッ プ サ ッ ク 問 題 で は 文 書 中 の 文 に 対 し て 重 要 度 を 定 義 し,あ る 一 定 の 要 約 長 内 で 重 要 度 が 最 大 と な る よ う に 要 約 を 生 成 す る.し か し,ナ ッ プ サ ッ ク 問 題 で は 内 容 の 冗 長 な 表 現 な ど を 選 ん で し ま う場 合 が あ る.そ れ に 対 処 す る た め に,彼 ら は

(15)

iタ ー ゲ ッ ト語 彙1

1<卜

ll.i.」1.」1.璽

匡亘 圏■判判判判判判

↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑

[巫 コ困 團 回 回 □ 團 圖 回'羅'●

iデコEIIIi]

↑ ↑ ↑

囹 国 圖[璽 コ

図2.1sequence‑t(〉‑sequenceの 概 略 図.

ナ ッ プ サ ッ ク 問 題 に 冗 長 性 の 制 約 を 設 け た.

2.4抽 象 型 要 約 の 関 連 研 究

抽 象 型 文 要 約 で は,Rushら[4]がsequence‑t(>sequenceモ デ ル(図2.4)を 使 っ た 抽 象 型 要 約 を 生 成 す る 新 し い 要 約 手 法 を 提 案 し た.図2.4の よ う にsequellce一 sequenceは エ ン コ ー ダ 側 で 入 力 文 書 の 情 報 を 読 み 取 り,デ コ ー ダ 側 に お い て 要 約 文 の 生 成 を 行 な っ て い る.彼 ら はGigawordコ ー パ ス とDUC‑2004に お い て,世 最 高 精 度 を 達 成 し た.い ず れ の コ ー パ ス も ニ ュ ー ス 記 事 を 含 ん で い る が,学 習 デ ー タ の 要 約 に は 修 辞 構 造 の よ う な も の が な い の で そ れ を 考 慮 し た 出 力 に は な っ て い な い.

CNN/DailyMai1要 約 タ ス ク の 中 の 記 事 か ら 複 数 文 で 構 成 さ れ て い る 要 約 を 出 力 す る タ ス ク に お い て,抽 象 型 文 書 要 約 に 取 り 組 ん だ 研 究 が あ る.Nallapatiら [6]はLargeVocabUlaryTric[11]やSwitchingPointer‑Generator,階 層 的 ネ ッ ト

ワ ー ク をAttentionEncoder.Decoderモ デ ル に 取 り 入 れ,こ の タ ス ク に お い て の 改 善 モ デ ル を 提 案 し た.LargeVocabularyTricは 要 約 側 の 単 語 の ほ と ん ど は 入 力

(16)

文 書 か ら く る と い う特 徴 を 利 用 し,ミ ニ バ ッ チ ご と に 語 彙 を決 め る こ と で,低 頻 度 の 単 語 も 含 め た 大 き な 語 彙 を 使 う こ と が で き る.ミ ニ バ ッ チ と は,ミ ニ バ ッ チ 学 習 に お け る 学 習 時 の 勾 配 の 計 算 と重 み の 更 新 を す る ひ と ま と ま りの こ と で あ る.オ ラ イ ン学 習 と は 異 な り1事 例 ご と に 勾 配 を 計 算 し重 み を 更 新 す る の で は な く,例 ば ミニ バ ッ チ サ イ ズ が32の 場 合32事 例 の 順 伝 播 が 終 わ っ た 後,重 み の 更 新 を 行 う.ミ ニ バ ッ チ に 入 る 事 例 数 は 学 習 デ ー タ か ら ラ ン ダ ム に 選 ぼ れ る.そ の 際 の 損 失 関 数 の 例 を 以 下 に 示 す.

五(t,x;w)‑k£(ち 鋼(2・4・)

i=1

こ こ で,nは ミニ バ ッ チ サ イ ズ,̀は1事 例 に 対 す る 損 失 関 数,9Ciは 学 習 デ ー タ,ち は 教 師 デ ー タ,wは パ ラ メ ー タ で あ る.SwitchingPointer‑Genera七 〇rはDecoder が1つ ず つ 単 語 を 出 力 す る 各 タ イ ム ス テ ッ プ で 単 語 を 生 成 す る か ソ ー ス 側 の 単 語 を コ ピ ー す る か を 決 め る 機 構 で あ る.こ う す る こ と で,次 に 生 成 す る 単 語 が 未 知 語 の 際 にPointerが 選 ば れ る こ と で,未 知 語 の 生 成 が 可 能 に な る.Attention Encoder‑DecoderはEncoder‑Decoderモ デ ル で は 単 語 生 成 時 に ソ ー ス 側 の ど の 単

語 に 注 目 して る か を 入 力 系 列 長 の 長 さ の 確 率 分 布 と し て 与 え る 機 構 を 付 与 し た も の で あ る(4.1節).こ れ は,ソ ー ス 側 と タ ー ゲ ッ ト側 の 単 語 列 に は 必 ず 対 応 関 係 が あ り,デ コ ー ダ は 単 語 生 成 時 に そ れ ら を 明 示 的 に 与 え る た め で あ る.階 層 的 ネ ッ ト ワ ー ク は,文 単 位 で の 要 約 に含 め る か の 情 報 量 や 生 成 し て い る 際 に ど の 文 に 注 目 し て い る か を 捉 え る た め の 文 単 位 と単 語 単 位 のA七tentionを 組 み 合 わ せ た も の で あ る.彼 ら は 複 数 文 要 約 の た め の 新 しい デ ー タ セ ッ トを 提 案 し,ベ ン チ マ ー ク を構 築 し た.こ の 研 究 に お け る 出 力 は 複 数 文 で あ る が,出 力 は 必 ず し も 文 書 構 造 を 考 慮 し た も の で は な く,出 力 も 詳 細 に 分 析 さ れ て い な い.

Seeら[7]はCNN/DailyMai1の 要 約 タ ス ク に お い て 世 界 最 高 精 度 を 達 成 し た.彼 ら はNallapa七i[6]ら の モ デ ル を ベ ー ス に,HybridPointer‑Generatorネ ト ワ ー ク とCoverage機 構 を 提 案 し た.HybridPointer‑Genera七 〇rはA七 七en七ion と語 彙 の 確 率 分 布 を 重 ね 合 わ せ て 出 力 単 語 を 決 定 す る も の で あ る.2つ の 分 布 を 重 ね 合 わ せ る こ と で 未 知 語 を 考 慮 で き,な お か つ ソ ー ス 側 の 単 語 を 出 力 し や す く な る.SwitchingPointer‑Genera七 〇rはPointerが 選 ば れ た 際 に 確 実 に ソ ー ス 側 か ら 単 語 を 選 ぶ こ と が で き る.HybridPointer‑Generatorは 同 時 にDecoderか ら 出 力

(17)

さ れ た 単 語 生 成 確 率 とAttentionに よ る ソ ー ス 側 の 単 語 の 確 率 分 布 を 同 時 に 考 慮 す る こ と が で き る.Coverage機 構 は ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い た 言 語 生 成 に 特 有 の,同 じ 内 容 の 言 語 表 現 を 繰 り返 し 生 成 して し ま う 問 題 を 解 決 す る た め の も の で あ る.我 々 の モ デ ル は 彼 ら の モ デ ル を ベ ー ス と して い る た め,詳 細 な 内 容 は4節 て 示 す.

(18)

第3章 ニ ュ ー ラ ル 文 書 要 約 モ デ ル

本 研 究 の モ デ ル はA七ten七ionEllcoder‑DecoderとHybridPointer‑Genera七 〇r, Coverage機 構 を 組 み 合 わ せ たSeeら[7]の モ デ ル を も と に 構 築 し た.ま ず,こ

ら の 機 構 に つ い て 説 明 を 行 う.次 に3行 要 約 の た め の 提 案 手 法 を 説 明 す る.

3.1AttentionEncoder‑Decoder

入 力 単 語 列 は 記 事 の トー ク ン,出 力 単 語 列 は 要 約 の トー ク ン で あ る.Encoder側 は1層 の 双 方 向LSTM[12]を 用 い,Decoder側 に は 順 方 向 のLSTMを 用 い る.

Encoderに よ っ て 生 成 さ れ るEncoderの 隠 れ 層 をhiと す る.そ れ ぞ れ の ス テ ッ プtで,Decoderは 出 力 の 前 単 語 の 単 語 埋 め 込 み ベ ク トル とDecoderの 状 態 ♂ を 渡 す.単 語 埋 め 込 み ベ ク トル は 学 習 時 に は 正 解 の 要 約 を 前 単 語 と し て 用 い,テ ス ト時 に はDecoderに よ っ て 生 成 さ れ た 前 単 語 を 用 い る.A七 七entionの 分 布atは Bahdanauら[13]と 同 様 に 以 下 の よ う に 計 算 さ れ る.

el一 妙Ttanh(Whんi+w。st+bα) α㌔S・ftmax(の

(3.11) (3.12)

こ こ でvは 重 み ベ ク トル で あ り,WhとWsは 重 み 行 列,baは バ イ ア ス ベ ク トル で あ り,そ れ ぞ れ 学 習 可 能 パ ラ メ ー タ で あ る.At七entionの 分 布 は タ イ ム ス テ ッ プ tに お け るEncoderの 隠 れ 層 の 重 要 度 を 示 す 確 率 分 布 と し て 表 さ れ る.文 脈 ベ ク ト ル 蔵 は 以 下 に よ っ て 計 算 さ れ る.

ん皇 Σ α1ん乞(3.13)

こ の 文 脈 ベ ク トル をDecoderの 状 態stと 連 結 し,2つ の 線 形 変 換 を 用 い 語 彙 分 布.Pv。cabが 以 下 の 計 算 で 生 成 さ れ る.

1『。ocα6=softmaxσ/'(V([5オ,ん 真}十 う)十 うノ)) (3.14)

(19)

こ こ でVとVノ は重 み 行 列,bとbノ は バ イ ア ス ベ ク トル で あ り,そ れ ぞ れ 学 習 可 能 な パ ラ メ ー タ で あ る.得 ら れ たPv。cαbの 確 率 分 布 か ら 一 番 確 率 の 高 い 単 語 ωtが 出 力 単 語 と し て 選 ぼ れ る.各 タ イ ム ス テ ッ プ 孟に お け る ロ ス は タ ー ゲ ッ ト側 の 単 語 の 負 の 対 数 尤 度 で 以 下 の よ う に 計 算 さ れ る.

lOSSt=‑109Pvocαb(‡ ω*) (3.15)

ま た,全 体 の 系 列 に 対 して の ロ ス は 以 下 で あ る.

1・一 一 £i・SSt

t=0

こ こ で,Tは シ ス テ ム 出 力 の 単 語 数 で あ る.

(3.16)

3.2HybridPointer‑GeneratorNetwork

HybridPointer‑Genera七 〇rはSeeら[7]に よ っ て 提 案 さ れ,A七 七en七ionと 語 彙 分 布 を 組 み 合 わ せ る も の で あ る.彼 ら のPoin七er‑GeneratorはAtten七ionモ デ ル (4.1節)とPointerNe七work[14]を 組 み 合 わ せ た も の で あ る.こ れ は ソ ー ス 側 の 単 語 分 布 を タ ー ゲ ッ ト側 の 単 語 分 布 と 同 様iに 考 慮 す る.こ う す る こ と でSwitching Poin七er‑Generator同 様,ソ ー ス 側 に あ る 見 た こ と の な い 単 語 を 考 慮 す る こ と が で

き,未 知 語 の 生 成 問 題 に 対 応 で き る.さ ら に,ソ ー ス 側 の 単 語 の 生 成 確 率 が 高 く な り,ソ ー ス 側 と 同 じ 単 語 を 使 う こ と が 多 い 要 約 タ ス ク で は 有 用 で あ る.

各 タ イ ム ス テ ツ プtでPointer‑Generatorモ デ ル の 生 成 確 率P9。n∈[0,1]は 文 脈 ベ ク ト ル 域 とDecoderの 状 態st,Decoderの 入 力 で あ る 単 語 埋 め 込 み ベ ク ト ル 銑 に よ っ て 計 算 さ れ る.

Pg。n一 σ(礁 ん真+妙 『5オ+妙 ∫銑+bg) (321)

こ こ で ベ ク トルVh。 とv。,Vxは 重 み ベ ク ト ル,bgは ス カ ラ ー の バ イ ア ス で あ り, そ れ ぞ れ 学 習 可 能 パ ラ メ ー タ で あ る,σ は シ グ モ イ ド関 数 で あ る ・Pg。nは 単 語 分 布

(20)

pv。。abかA七telltionの 分 布atの ど ち ら を 用 い る か のsoftswitchと して 用 い る.各 文 書 に お い て,こ れ ら は 拡 張 語 彙 を 作 り,そ れ は タ ー ゲ ッ トの 語 彙 と ソ ー ス の 語 彙

と の 和 集 合 で あ る.拡 張 語 彙 の 生 成 確 率 は 以 下 で 計 算 さ れ る.

P(ω)‑Pg・nPv・cαb(w)+(1‑Pg。n)Σ α1(3・22)

乞:ωを=ω

も し ω がout‑of‑vocabUlary(00V)な ら ば,pv。 。αb(ω)は0で あ り,ま たwが ソ ー ス 側 の 単 語 に 存 在 し な け れ ば Σ 甑=ω α1は0で あ る.

3.3CoverageMechanism

Seeら[7]はEIlcoder‑Decoderモ デ ル に お け る 繰 り返 し の 問 題 を 解 決 す る た め に Coverageモ デ ル[15]を 改 善 さ せ た.彼 ら の モ デ ル で は,各Decoderの タ イ ム ス テ ッ プ ま で のAttentionの 分 布 の 合 計 がCoverageベ ク トルctと し て 保 存 さ れ る.

  

ct・ ・ Σat'(331)

ti=0

♂ は タ イ ム ス テ ッ プ ォ ま で に そ れ ぞ れ の 単 語 に 対 して ど れ だ け 注 目 し た か を 示 す.ソ …ス 文 書 の 単 語 に 対 す る 分 布 で あ るcoverageベ ク トル は 以 下 の よ う に 用 い ら れ る.

ε1‑vTtanh佛 ん汁 肱5孟+ω 。cl+う 。) (3.32)

こ こ で,ω 。は 重 み ベ ク トル で あ り,学 習 可 能 パ ラ メ ー タ で あ る 。 彼 ら は 同 じ場 所 へ の 繰 り返 し のAttentionに 対 し て ペ ナ ル テ ィ を 与 え る 目 的 で ,Coverageのmス を 取 り入 れ た 新 し い ロ ス 関 数 を 構 築 し た.

1・SSt‑‑1・gP(ω 芸)+λ Σmin(α1,cl)

i

(3.33)

(21)

λ は 同 じ場 所 へ の 繰 り返 し のAttentionを ど れ だ け 許 容 す る か の パ ラ メ ー タ で あ る.こ れ に よ り,w。clで はAt七entionが 同 じ場 所 を 繰 り返 し指 す こ と を 防 ぐの で, 同 じ内 容 を 出 力 す る こ と を 防 ぐ こ と に 繋 が る.

(22)

第4章 要 約 デ ー タ セ ッ トの構 築

本 研 究 はLivedoorNews1か ら 日 本 語 の 記 事 と要 約 の ペ ア を 収 集 し た.こ の 要 約 は 人 間 の 編 集 者 に よ っ て 書 か れ て お り,3文 で 構 成 さ れ て い る.詳 細 は 後 に 示 す.

本 研 究 は2014年1月 か ら2016年12月 ま で の 期 間 で デ ー タ の 収 集 を 行 い,得 れ た 記 事 と要 約 は 計215,560ペ ア と な っ た.収 集 し た デ ー タ を 分 割 し,ト レ ー ニ ン グ デ ー タ と し て213,160ペ ア,検 証 デ ー タ と し て1,200ペ ア,テ ス トデ ー タ と し て 1,200ペ ア と し た.検 証 デ ー タ と テ ス トデ ー タ は2016年1月 か ら2016年12月 期 間 の も の か ら 毎 月100件 ず っ 抽 出 した.

4.1記 事 の 特 徴

実 際 の 記 事 と要 約 例 を 図4。12図4.23に 示 す.

そ れ ぞ れ の 記 事 に 対 し て,9つ の カ テ ゴ リー(国 内,海 外,IT経 済,芸 能,ス ポ ー ツ,映 画,グ ル メ,女 子,ト レ ン ド)か ら1つ の カ テ ゴ リー が 選 ぼ れ,そ の カ テ ゴ リ ー に 対 す る い くつ か の サ ブ カ テ ゴ リー か ら1つ の サ ブ カ テ ゴ リ ー が 選 ば れ て い る.さ ら に,特 定 の タ グ(キ ー ワ ー ドや キ ー フ レ ー ズ,よ り詳 細 な カ テ ゴ リ ー) が 付 与 さ れ て い る.収 集 し た デ ー タ は ニ ュ ー ス の 記 事 と タ イ トル,抽 象 型 要 約 と よ

り短 い タ イ トル が 存 在 す る.

こ の デ ー タ セ ッ トは 上 記 の よ う な 多 く の 有 用 な 情 報 を 持 つ が,本 研 究 で は 記 事 と 要 約 の み を 用 い る.

1http://news .livedoor.com/

2http://news .livedoor.com/article/detail/14143155/(2018年1月11日 閲 覧) 3http://news .1ivedoor.com/topics/detail/14143155/(2018年1月11日 閲 覧)

4http://news

.1ivedoor.◎om/topics/detai1/12252068/(2018年1月11日 閲 覧),記 事 を 付 録A.1に

示 す.

5http://news .livedoor.com/topics/detail/12244553/(2018年1月11日 閲 覧),記 事 を 付 録A2に 示 す.

6ht七p://news

.1ivedoor.◎01n/topics/detail/12302174/(2018年1月11日 閲 覧),記 事 を 付 録A.3に 示 す.

7http://news .livedoor.com/topics/detail/11098552/(2018年1月11日 閲 覧),記 事 を 付 録A.4に 示 す.

(23)

Sl

S3

図4.3文 書 構 造.左:並 列 タ イ プ.右:直 列 タ イ プ.

マ ク ドナ ル ドHPの 、 各 国 の 違 い を 紹 介 して い る

並 列4日 本 は ア メ リカ と似 て い るが 、 よ り情 報 を 多 く載 せ よ う とい う意 図 が み え る ドイ ツ はバ ラ ンス よ く整 理 整 頓 され 、 フ ラ ンス は モ ダ ン さが 感 じ とれ る とい う ソ ニ ー のVRゴ ー グ ル が 即 完 売 し、 生 産 が 追 い つ か な い 人 気 ぶ りだ と い う 直 列5米 投 資 銀 行 は25年 に、VR・AR関 連 の世 界 市場 が約9兆5000億 円 に な る と予 測

10兆 円 市場 は コ ン ビニ 全 体 の 売 上 高 と同規 模 で、 投 資 家 も注 目 して い る そ う 表4,1"並 列"と"直 列"タ イ プ の 要 約 例.

コ ン ビ ニ3社 の ボ ジ ョ レ ー ・ヌ ー ヴ ォ ー を 飲 み 比 べ て い る

列 挙 型 並 列6 セ ブ ンーイ レ ブ ン は 多 少 渋 味 が 強 く、 フ ァ ミ リー マ ー トは 多 少 酸 味 が 強 い そ う ロ ー ソ ン は後 味 が ス ッキ リ し人 気 が 高 く、 予 約 分 が 完 売 した 店 舗 もあ る と い う ll体 昌 氏 が23日 の 「ジ ョブ チ ュー ン」 で 星 野 仙 一 氏 に殴 られ た 話 を 明 か した 文 分 割 型 直 列7 投 げ終 わ って ベ ン チ裏 に来 い と言 わ れ て 多 少 か わ い が られ ま して 」 と暴 露

顔 が 腫 れ 過 ぎて 降板 した 」 と驚 きの 事 実 を 伝 え た 表4.2列 挙 型 並 列 と文 分 割 型 直 列 タ イ プの 要 約 例.

4.23行 要 約 に対 す る 文 書 構 造 ア ノテ ー シ ョン

LivedoorNewsの 要 約 は3文 で 構 成 さ れ て い る た め,出 力 の 構 造 の 解 析 が 容 易 で あ る.そ こ で,本 研 究 で は 要 約 の 一 部 で あ る検 証 デ ー タ と テ ス トデ ー タ に 対 して 要 約 の 文 書 構 造 に 対 し て 注 釈 付 け を 行 っ た.

そ れ ぞ れ の 要 約 に 対 し て 話 の 流 れ に 対 応 す る 一 つ の タ グ を 付 与 し た.多 く の 要 約 は 並 列 タ イ プ と 直 列 タ イ プ の2つ の 種 類 に 分 け られ る(図4.3)."並 列"と"直 列"

(24)

タ イ プ の 例 を 表4.1に 示 す.最 初 の2文 は2種 類 と も 特 徴 が 似 て お り,1文 目 で は 主 な 出 来 事 に つ い て 記 載 さ れ,2文 目 は1文 目 に 対 す る 追 加 情 報 が 記 述 さ れ て い る.

"並 列"タ イ プ は3文 目 が2文 目 と は 異 な る1文 目 に 対 す る 追 加 情 報 が 書 か れ て い る.一 方,"直 列,'タ イ プ は3文 目 が2文 目 に 対 す る 追 加 情 報 が 書 か れ て い る.つ

ま り,"並 列"タ イ プ は2文 目 と3文 目 に は 特 に 順 序 は な く,"直 列"タ イ プ は2文 目 と3文 目 は 順 序 に は 順 序 が あ る.

2つ の タ グ を ア ノ テ ー シ ョ ン す る 中 で,特 徴 的 な 構 造 を し て い る"列 挙 型 並 列", cc文分 割 型 直 列',を 追 加 し て

,最 終 的 に は4タ イ プ に 分 け た.追 加 し た タ グ の 例 を そ れ ぞ れ 表4.2に 示 す.列 挙 は あ る も の を 紹 介 す る 時 に 要 約 の 中 に 含 ま れ る こ と が 多 い.文 分 割 は 元 々 の 文 が 長 い 場 合 に 要 約 の 中 に 現 れ る.こ れ ら は,主 に ス マ ー ト フ ォ ン で 閲 覧 さ れ る こ と を 想 定 し て コ ン パ ク ト に 情 報 を 提 示 す る 必 要 が あ る LivedoorNewsに 特 徴 的 な 要 約 の 例 で あ る.

4.3ア ノ テ ー シ ョ ン の 結 果 と分 析

ア ノ テ ー シ ョ ン の 結 果 を 表4.3に 示 す.表 の 上 部 は"並 列"と"直 列,,の2種 類 の タ グ の み で ア ノ テ ー シ ョ ン した 結 果 で あ り,下 部 は4種 類 の タ グ で ア ノ テ ー シ ョ ン した 結 果 で あ る.表4.3に 示 す よ う に,検 証 デ ー タ と テ ス トデ ー タ の い ず れ に お い て も,約70%の 要 約 は"並 列,,,残 り は̀̀直 列"の タ グ が 振 ら れ る 結 果 に な っ た.表 4.3で は"列 挙 型 並 列,'に タ グ づ け さ れ た 中 に は 単 に 例 を 並 べ る だ け の 文 で は な い も の が 存 在 し た.

"並 列',と"直 列,'に 共 通 す る 特 徴 と し て

,最 初 の 文 は 主 な 出 来 事 が 記 さ れ て い る.

お お よ そ2文 目 は1文 目 の 内 容 に 対 し て 結 果 の 説 明,詳 細 な 情 報,例 な ど が 書 か れ て い る.

一 方,こ の デ ー タ セ ッ トで は3文 目 は様 々 な 役 割 を し て い る.((並 列,,に タ グ 付 け さ れ た 要 約 で は,3文 目 は1文 目 に 依 存 し て い る 。 一 方 で"直 列,'に タ グ 付 け さ れ た 要 約 で は,3文 目 の 内 容 は2文 目 に依 存 して い る.つ ま り,要 約 シ ス テ ム は3文

目 を 生 成 す る 際 に タ グ に よ っ て1文 目 か2文 目 の ど ち ら に 注 意 を 向 け る か 決 め な け れ ば な ら な い.

本 研 究 で は ア ノ テ ー シ ョ ン す る 中 で 追 加 し た"列 挙 型 並 列,'と"文 分 割 型 直 列"と

(25)

検証 テ ス ト 全 て 並列

直列

912 288

876 324

1,788 612 並列836

列挙型 並列76 直列278 文分割型 直列10

8081,644 68144 320598 414

表4.33行 要 約 に 対 す る 文 書 構 造 ア ノ テ ー シ ョ ン の 結 果.

な る デ ー タ は 少 量 で あ る た め,こ れ ら を そ れ ぞ れ を"並 列',及 び"直 列,'と み な し 実 験 を 行 う(表4.3).

本 節 で 行 な っ た ア ノ テ ー シ ョ ン 結 果 を 元 に,次 章 で は 要 約 構 造 付 き の 検 証 デ ー タ を正 解 デ ー タ と し,ト レ ー ニ ン グ デ ー タ に 対 して 要 約 構 造 自 動 分 類 を行 う.

(26)

ニ ュー ス ト ップ グ ル メ アイ ス ク リー ム 期 間 限定 の イ ペ ン ト ・商 品 注 自 のグ ル メ

ル マ ン ドアイ ス、 つ い に関 東 の1都6県 に上 陸12 月12日 か ら全 国47都 道 府 県 で の販 売 に

ブ ル ボ ン は 、 ル マ ン ドア イ ス 」 を 東 京 都 、 神 奈 川 県 、 千 葉 県 、 埼 玉 県 、 茨 城 県 、 栃 木 県 、 群 馬 県 の コ ン ビ ニ エ ン ス ス トア や 量 販 店 な ど で2 月12日 か ら販 売 す る 。 これ に よ り、 順 次 拡 大 し て き た 販 売 エ リ ア が 全 国 の47都 道 府 県 と な っ た 。

写真拡大

'ゾ

t!燭 署

ル マ ン ドア イ ス 」 は 、 アイ ス ク リー ムの 中 に ミニ タイ プの ク レー プ ク ッキ ー"ル マ ン ド"を ま る 乙 と 入 れ 、 食 べ や す い モ ナ 力 タ イ プ に 仕 上 げ た ス イ ー ツ 。 四 つ 割 り タ イ プ の モ ナ カ に は ル マ ン ドが4本 入 っ て お り、 ル マ ン ドの サ ク サ ク 食 感 を 楽 し む こ と が で き

r7̲レ.s'̲「 編h→ 顧rA.・tN‑一"'rρ 一■r一r一 ツ 嗣n‑4‑Aメrtt'‑」 一 一一'ノrk8暉"一 一r‑.、

図4.1実 際 の 記 事 例

ニ ュ ー ス トッ プ グ ル メ ア イ ス ク リー ム 期 間 限 定 の イ ペ ン ト ・商 品 注 目 の グ ル メ

鵬 鋸016年に新潟

ブ ル ボ ン の 「ル マ ン ドア イ ス 」 が 、2月12日 か ら 関 東 で 販 売 され る

2017年 夏 に新 潟 県 と北 陸3県 で 販 売 さ れ 、 九 州 や 東 北 地 域 な ど へ エ リ ア を拡 大

関 東 地 域 が 加 わ る こ とに よ り、 販 売 エ リア は全 国 の47都 道 府 県 とな っ た

記事 を読む

図4.2実 際 の3行 要 約 例.

(27)

第5章 要 約構 造 分 類 モ デル

本 章 で は,4章 に お い て 作 成 及 び ア ノ テ ー シ ョ ン し た 要 約 構 造 デ ー タ を 用 い た 丘ne‑tuning用 の 文 書 要 約 デ ー タ の 作 成 に つ い て 述 べ る.ま た,2つ の タ イ プ そ れ ぞ れ の デ ー タ を 用 い て 丘ne‑tuningす る た め,2つ の モ デ ル ど ち ら を 出 力 す る か を 判 定 す る た め の 自 動 分 類 器 の 作 成 も 行 う.要 約 構 造 を 捉 え る た め に"並 列"と"直 列"

タ イ プ の デ ー タ をfine‑tuningで そ れ ぞ れ 使 用 す る.し か し,タ イ プ ご と の デ ー タ 量 は 少 量 で あ り,学 習 に 用 い る に は 足 りて い な い.ま た,学 習 用 に 大 量 の デ ー タ に 対 して ア ノ テ ー シ ョ ン を 行 う に は コ ス トが 高 い.そ こ で,本 研 究 で は ア ノ テ ー シ ョ ン した 少 量 の デ ー タ を 学 習 デ ー タ と し て 用 い,タ グ が つ い て な い デ ー タ に 対 し て 自 動 タ グ づ け を 行 う.

5.1要 約 構 造 分 類 モ デ ル

こ こ で は,与 え られ た 要 約 に 対 して"並 列"ま た は"直 列"ラ ベ ル を 推 定 す る モ デ ル に つ い て 説 明 を 行 う.要 約 の 単 語 列 をCCi,出 力 ラ ベ ル をZと す る.本 研 究 で は 要 約 の 情 報 を 捉 え る た め に,双 方 向LSTMを エ ン コ ー ダ と し て 用 い る.エ ン コ ー ドす る こ と に よ っ て 得 ら れ る エ ン コ ー ダ の 隠 れ 状 態 の 系 列 を 尻 と す る.順 方 向 の LSTMの 最 後 の 隠 れ 層(hAo「wα 「d)と 逆 方 向 のLSTMの 最 後 の 隠 れ 層(hlαckω α「d)

を連結 させ た もの を入力系列 の情 報 として持 つベク トル んを作 成す る.

ん 一[ん 義o㌍ω叫 ん9ackwα 「d] (5.11)

こ こ で 作 ら れ た ベ ク トル に 対 し て2種 類 の 線 形 変 換 を 適 用 し,2つ の ラ ベ ル そ れ ぞ れ に2次 元 の ベ ク トル を 構 築 す る.(図5.1).

Ypαrallel=softmax(Wph十bp)(5.12)

ysequence=softmax(1監 ん 十bs)(5・13)

こ こ で,ZlpαTαll。1とy。equ。n。.はそ れ ぞ れ 並 列 と 直 列 に 対 す る2次 元 の ベ ク トル で, 1次 元 目 は対 応 す る ラ ベ ル で な い 確 率,2次 元 目 は 対 応 す る ラ ベ ル で あ る 確 率 を 表 す ・WpとWsは 重 み 行 列 で あ り,bpとbsは2次 元 の バ イ ア ス ベ ク トル で あ る ・

(28)

lParalle且 Sequence

● ● ー 一

㏄ L

hL.↑

ー 国 ー 回

嗣 脚

図5.1分 類 モ デ ル の 説 明 図.

5.2要 約 構 造 に 適 応 さ せ るfine‑tuning

3章 で 先 行 研 究 の 要 約 モ デ ル の 説 明 を 行 っ た.先 行 研 究 で 用 い られ た デ ー タ セ ッ トで は,出 力 の 文 数 が 様 々 で 要 約 の 文 書 構 造 に 着 目 し た ア プ ロ ー チ が あ ま り な い.

し か し,本 研 究 で 構 築 し た デ ー タ セ ッ トで は 要 約 が3文 で あ る こ と と,要 約 の 文 書 構 造 が2種 類 で あ る こ と が4章 で 明 ら か に な っ て い る.

先 行 研 究 の 要 約 モ デ ル を 学 習 し た モ デ ル は"並 列"と"直 列"の ど ち ら の タ イ プ の 要 約 を 出 力 す れ ば 良 い か と い う情 報 を 受 け 取 らず に 学 習 を して い る.そ こ で,ト

レ ー ニ ン グ 済 み の モ デ ル に 対 し てfhユe‑tuningを 適 用 す る こ と で そ れ ぞ れ の タ イ プ に 適 応 し た モ デ ル の 構 築 を 行 う.

は じ め に,全 て の ト レ ー ニ ン グ デ ー タ を 用 い て モ デ ル の 学 習 を 行 う.次 に 各 タ イ プ に 適 し た モ デ ル を 構 築 す る た め に 丘ne‑tUllillgを 行 う.4章 で 説 明 し た 要 約 分 類 モ デ ル で 推 定 さ れ た 各 タ イ プ の デ ー タ を 用 い,タ イ プ ご と に 追 加 学 習 を 行 う.

(29)

5.3記 事 を入 力 と した 自動 分 類 モ デ ル

finetuningに よ り構 築 し た2つ の モ デ ル の ど ち ら を 要 約 に 用 い る か を 決 め る た め,同 様 の ネ ッ ト ワ ー ク を 用 い て 分 類 モ デ ル の 作 成 を 行 う.テ ス トデ ー タ を 分 類 す る 際 に は,正 解 で あ る 要 約 を 入 力 と し て 用 い る こ と が で き な い た め,記 事 を 入 力 デ ー タ とす る.こ こ で 構 築 さ れ た モ デ ル か ら得 ら れ た 分 類 結 果 を 元 に シ ス テ ム 要 約

を 出 力 す る.

(30)

第6章 要約構造 分類実験

本章で は4章 で説 明を行 った要約 の 自動分類の実験 について述べ る.始 めに実験 設 定 を説明 し,そ の後実験結果 について述 べ る.

6.1要 約 を入 力 と した 実 験 設 定

ト レー ニ ン グ デ ー タ と して 要 約 の 学 習 に用 い る 検 証 デ ー タ の1,020件,検 証 デ ー タ と して 検 証 デ ー タ の 残 りの180件,分 類 対 象 は 要 約 の 学 習 に 用 い る トレ ー ニ ン グ デ ー タ を 使 用 す る.

記 事 と要 約 の 単 語 分 割 に は 形 態 素 解 析 エ ン ジ ンMeCabvO.9961を 用 い る.辞 に はIPAdic(v2。7.0)を 使 用 す る.LSTMの 隠 れ 状 態 の 次 元 数 を256次 元,単 語 埋 め 込 み ベ ク トル を256次 元 に 設 定 す る.語 彙 サ イ ズ は2,350で あ り,こ れ ら は 頻 度 2以 上 の も の を 選 択 し て い る.モ デ ル の 学 習 時 にAdagrad[16}を 学 習 率0.01で

い た.

学 習 に 用 い る デ ー タ は"並 列,'タ イ プ が 大 半 を 占 め る た め,ア ン ダ ー サ ン プ リ ン グ を 適 用 し た.学 習 で は 小 さ な デ ー タ を 用 い る た め,閾 値 を 設 け 確 度 の 高 い ラ ベ ル の 獲 得 を 行 う.各 ラ ベ ル の 分 類 の 適 合 率 が0.8以 上 に な る ま で 閾 値 を 調 整 し た.

ま た,5章 で 説 明 し た 分 類 モ デ ル を 用 い て テ ス トデ ー タ を 事 前 に2つ の タ イ プ へ の 分 類 を 行 な っ た.分 類 す る デ ー タ は テ ス トデ ー タ で あ る た め,記 事 を 入 力,2 つ の タ イ プ を 推 定 す る.6章 同 様 の パ ラ メ ー タ 設 定 で モ デ ル の 構 築 を 行 い,テ ス ト デ ー タ を 分 類 した.

6.2実 験 結 果

各 ラ ベ ル に お け る検 証 デ ー タ の 精 度 と要 約 モ デ ル の ト レ ー ニ ン グ デ ー タ に 対 し て 分 類 した 結 果 獲 得 し た デ ー タ 数 を 表6.1に 示 す.今 回 は 適 合 率 を 高 く 設 定 し た た め,再 現 率 は 低 く な っ て い る.並 列 タ イ プ と 直 列 タ イ プ に 分 類 さ れ た 要 約 は そ れ ぞ

1https://github.com/taku910/mecab

図 目次 ユ 3 ユ 2 ユ ・24445 sequence‑t(&gt;sequenceの 概 略 図......文 書 構 造.左:並列タ イ プ.右:直 列 タ イ プ.実 際の 記 事 例....。◆.......。..実際 の3行要 約 例.............分 類モ デ ルの 説明 図...........

参照

関連したドキュメント

It is suggested by our method that most of the quadratic algebras for all St¨ ackel equivalence classes of 3D second order quantum superintegrable systems on conformally flat

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

In this paper, we focus on the existence and some properties of disease-free and endemic equilibrium points of a SVEIRS model subject to an eventual constant regular vaccination

7, Fan subequation method 8, projective Riccati equation method 9, differential transform method 10, direct algebraic method 11, first integral method 12, Hirota’s bilinear method

To address the problem of slow convergence caused by the reduced spectral gap of σ 1 2 in the Lanczos algorithm, we apply the inverse-free preconditioned Krylov subspace

Xiang; The regularity criterion of the weak solution to the 3D viscous Boussinesq equations in Besov spaces, Math.. Zheng; Regularity criteria of the 3D Boussinesq equations in

Next, we prove bounds for the dimensions of p-adic MLV-spaces in Section 3, assuming results in Section 4, and make a conjecture about a special element in the motivic Galois group

We introduce a new hybrid extragradient viscosity approximation method for finding the common element of the set of equilibrium problems, the set of solutions of fixed points of