Deep Learning ×自然言語処理
増村 亮
サーベイ資料
Copyright©2015 NTT corp. All Rights Reserved.
1
ザックリし いけ 、
そ 話 面 そう!
思 うこ
本発表 目的
本日 話題
Deep Learning ×自然言語処理全般
Embedding 最近
Deep Learning ×機械翻訳
Neural Machine Translation 最近
基盤技術編
応用技術編
Copyright©2015 NTT corp. All Rights Reserved.
3
Deep Learning ×自然言語処理全般
Embedding 最近
基盤技術編
Deep Learning ×自然言語処理全般
• Distributed Sentence Representation, Sentence Embedding
• 可変長 系列 固定長ベクトル 表現
• 文 さ 複数文 含 ドキュメントへ
• 系列 系列へ ( 今日 後半 話 )
• Distributed Representation of Word, Word Embedding
• いわゆ Word2Vec
• 単語 意味 あ 固定長ベクトル 表現
ここ数 く聞くフレーズ 言え 、
Distributed Representation ( 散表現 )
Embedding ( 情報 埋 込 )
2 前く い 話題 中心
特 昨 ~最近 話題 中心
本日 こ 範囲
最新 話題
Copyright©2015 NTT corp. All Rights Reserved.
5
Word Embedding 研究
• NN Embedding [Bengio+, Journal of MLR 2003]
• RNN Embedding [Mikolov+, NAACL 2013]
• CBOW, Skip-gram [Mikolov+, NIPS 2013 ]
• GloVe [Pennington+, EMNLP 2014]
教師 し学習
※
NN: Neural Network
RNN: Recurrent NN (not Recursive in this presentation)
ベクトル 向
意味
載 い
Word Sentence 狙い い
Word Embedding 狙い
�
�
[ , , , , , ,…, ]
[ , , , , , ,…, ]
課題視し い :スパース性
=> 1-hot ベクトル 固定長 連続値ベクトル す
Sentence Embedding 狙い
�
� � � �
� � � �
課題視し い :スパース性、可変長性、系列性
=> 可変長 系列 し 情報 固定長 連続値ベクトル す
Embedding
Embedding
Copyright©2015 NTT corp. All Rights Reserved.
7
Sentence Embedding 研究
• Recursive Auto Encoder [Socher+, NIPS 2011]
• Average of Word Vector [Socher+, EMNLP 2013]
• Paragraph Vector [Le and Mikolov, ICML 2014]
• Semi Supervised LSTM [Dai+, Arxiv 201511]
• Recursive NN [Socher+, EMNLP 2013]
• LSTM-RNN [Tai+, ACL 2015]
• CNN [Kalchbrenner+, ACL 2014 ][Kim, EMNLP 2014]
• Tree LSTM [Tai+, ACL 2015][Zhu+, ICML 2015]
教師あ 学習 (Sentence Classification 過程 学習 )
教師 し学習
※
CNN: Convolutional NN
LSTM: Long Short Term Memory
Sentence Embedding 教師あ 学習
CNN 例
RNN or LSTM 例
Recursive NN 例
� � � �
� � � �
softmax
softmax
pooling
convolution
(window size:2)
Word
embedding
Word
embedding
softmax
� � � �
Word
embedding
文 類ㄥ例え Sentiment 類ㄦ う 学習
Copyright©2015 NTT corp. All Rights Reserved.
9
Method Data Dim Tuning
[Zhang+, EMNLP 2015] Word2Vec Other 128 Fine-tuned
[Mou+, EMNLP 2015] Word2Vec In-Domain 300 Fixed
[Lei+, EMNLP 2015] GloVe Other 512 Fixed
[Kim, EMNLP 2014] CBOW Other 300 Fine-tuned
[Liu+, EMNLP 2015] Word2Vec Other 100 Fine-tuned
[Tang+, EMNLP 2015] Skip-Gram In-Domain 200 Fixed
[Zeng+, EMNLP 2015] Skip-Gram In-Domain 50 Fixed
Word Embedding for Sentence Embedding
Sentence Embedding 学習す 際 Word Embedding 必須
=> Word Embedding 自体 事前学習し くこ 多い
Sentence Embedding 学習データ 異 データ
Word Embedding 事前学習し い 場合 Fine-Tuning 必須
Word Embedding 事前学習 方例
Sentence Document へ
• Restaurant Review: 1 ドキュメントあ 9 文、 150 単語
• Movie Review: 1 ドキュメントあ 14 文、 325 単語
• Stanford Sentimental Treebank : 1 文、 均 19 単語
• TREC question Dataset: 1 文、 均 10 単語
Sentence Embedding 扱う範囲
Document Embedding 扱う範囲
1 文、単語数少 い
複数文、単語数多い
Copyright©2015 NTT corp. All Rights Reserved.
11
Document Embedding 研究
• Hierarchical Neural Auto Encoder [Li+, ACL 2015]
教師あ 学習 (Document Classification 過程 学習 )
教師 し学習 ( 言語モデル 含 )
• Hierarchical RNNLM [Li n +, EMNLP 2015]
• Word RNN-Sentence RNN [Tang+, EMNLP 2015]
• Document Context LM [Ji+, Arxiv 201511]
• Large Context LM [Wang and Cho, Arxiv 201511]
• Skip-Thought Vectors [Kiros+, Arxiv 201506]
※
今日 後半 話 大 く関わ 研究 多い 詳細 省く
Document Embedding 教師あ 学習
� � � � � � � � � � � �
softmax
Word
embedding
Sentence
embedding
Pooling
Document
embedding
Word RNN-Sentence RNN 例
文内 単語間
系列性 捉え
文間
系列性 捉え
Copyright©2015 NTT corp. All Rights Reserved.
13
• 単語 文、そし ドキュメントへ
• 今日 話さ 文 最小単位 し 扱う
研究 面 い
Embedding 魅力
Embedding 潮流
• 固定長ベクトル
• Feature Engineering し 特徴 取
基盤技術編
Deep Learning ×機械翻訳
Neural Machine Translation 最近
応用技術編
Copyright©2015 NTT corp. All Rights Reserved.
15
Deep Learning ×機械翻訳
フレーズベース翻訳 拡張
Neural Network Joint Model [Devlin+, ACL 2014]
※ Microsoft 翻訳 搭載
Continuous Space Translation Model [Le+, NAACL 2012]
Recurrent Continuous Translation Model
[Kalchbrenner+, EMNLP 2013]
※原理的 NMT 先駆け
フルニューラルネットワーク 翻訳
Neural Machine Translation
[Cho+, EMNLP 2014][Sutskever+, NIPS 2014]
A B C D <EOS>
X Y Z
X Y
<EOS>
Z
Encoder
(Input を固定長ベクトル化 )
Decoder
(beam search)
( 例 ) Input: A B C D
Output: X Y Z
Neural Machine Translation (NMT)
ニューラルネットワーク
Encoder-Decoder アプローチ 機械翻訳
Encoder Decoder RNN
Copyright©2015 NTT corp. All Rights Reserved.
17
NMT 利点
言語 トークン区 系列 いう以外 、
言語依 特定 知識 必要 い
翻訳問題 直接モデル化可能
• 従来 生成モデルベース デコードし 、
MERT 仮説 リスコアリング
省メモリ 動作可能
NMT 課題
長い ( 入力単語数 多い ) 文 翻訳
=> Attention based NMT [Bahdanau+, ICLR 2015]
未知語 翻訳
=> UNK Replace [Luong+, ACL 2015]
単言語 データ 利用
=> Deep Fusion [Gulcehre+, ACL 2015]
Copyright©2015 NTT corp. All Rights Reserved.
19
A B C D <EOS>
X
X
0
1
A B C D
Attention-based NMT
A B C D <EOS>
X Y
X
次 単語 生成時 Input 側 単語
注目す い 判断
Input 側 隠 層 出力 求
足し合わせ 次 単語 生成 活 す
次 単語
生成
B 要そう
次 単語 生成
有用 情報
い
X
0
1
A B C D
Attention 実例
European 生成す 際
、 europeenne
注目さ 、
自動 対応 取 い
Attention-baed NMT=
自動アライメント し
翻訳し い こ 相当
Copyright©2015 NTT corp. All Rights Reserved.
21
Attention 効果
Attenton 、
長い文章 対し う く翻訳 う
Attention し
Attention あ
UNK Replace
珍しい単語
A BBBB C D <EOS>
X <UNK>
X
0
1
A BBBB C D
未知語記号
通常、入力 珍しい単語 ( 未知語 ) 対し <UNK> 記号 生成
※ NMT 現状語彙サイズ 入力出力 5 万語程度
UNK Replace=
Attention 時 <UNK> 対応す 入力単語 見 け、
入力単語 単純 辞書ベース 置 換え こ
翻訳文 <UNK> 入力文 BBBB 対応す こ 見 け
BBBB <UNK>
Copyright©2015 NTT corp. All Rights Reserved.
23
UNK Replace 効果
文 頻出度 ランク ( 右 いくほ ほ 出現し い単語 含 文 )
UNK Replace あ
UNK Replace し
UNK Replace
手軽 NMT 未知語問題 解決可能
Deep Fusion
A B C D <EOS> X
X Y
単言語データ
作 RNN
隠 層
単言語 RNN
NMT 統合
す 層
パラレルデータ ( 限 あ ) 学習す NMT 、
単言語データ ( 大 集 ) 直接活 すこ い
Deep Fusion=
NMT 単言語データ 構築し RNN ネットワーク内 統合
Copyright©2015 NTT corp. All Rights Reserved.
25
Deep Fusion 効果
Deep Fusion
単言語 リッチ 情報 活 し 性能改善可能
※ Shallow Fusion 対数確率レベル 線形補間
※ パラレルデータ 数 万単語、単言語データ 数十億単語 データ
Retraining based Adaptation [Luong+, IWSLT 2015]
NMT そ 他 工夫
Source Reversing [Sutskever+, NIPS 2014]
Ensemble Modeling [Sutskever+, NIPS 2014]
※ 提案さ いうほ い 工夫 位置 け
Copyright©2015 NTT corp. All Rights Reserved.
27
Source Revering
通常 NMT 入力文 翻訳文 順向 入力
Source Reversing =
入力文 逆向 入 こ 、
文頭 関係 捉え すくす こ
A B C D <EOS>
X Y Z
X Y
<EOS>
Z D C B A <EOS>
X Y Z
X Y
<EOS>
Z
順向 入力 逆向 入力
例え 文頭 A X
対応し い 場合 、
A 情報 活 し すい
Source Reversing 効果
BLEU
Ensemble Modeling
通常 1 回 学習 推定し 単一 NMT モデル 用い
Ensemble Modeling =
初期値 隠 層 大 さ変え 複数 モデル 準備し、
複数 結果 統合 出力
A B C D <EOS> X Y
<EOS>
Z
X Y Z
モデル 1
モデル 2
Ensemble Modeling 効果
1 個 モデル
5
Copyright©2015 NTT corp. All Rights Reserved.
29
Retraining based Adaptation
通常 NMT 、ランダム初期化 対象タスク データ 学習
Retraining based Adaptation =
大 Out-Of-Domain 学習データ 作 NMT
初期モデル し 、対象 Domain 学習データ トレーニング
A B C D <EOS>
X Y Z
X Y
<EOS>
Z
ランダム初期化
大 Out-Of-Domain 学習
少 対象 Domain 学習
Retraining based Adaptation 効果
工程 入
入 い
モントリ ール大 [Jean+, WMT 2015]
• En->Cs, En->De 、従来 SMT 以上
• Cs->En, De->En 、い い
スタンフ ード大 [Luong+, IWSLT 2015]
• En->Ge 、従来 SMT く 向上
• En->Vietnamese (low-resource) 、い い
NMT 現状 到 点
2015 開催さ 評価型ワークショップ 成績
Copyright©2015 NTT corp. All Rights Reserved.