LSTM Autoencoder を用いたマルチモーダル系列データの特徴抽出

(1)

LSTM Autoencoder

を用いた

マルチモーダル系列データの特徴抽出

Feature extraction using LSTM Autoencoder for

multimodal sequential data

上園翔平

1∗

_{小野智司}

1

Shouhei Uezono

1

_{Satoshi Ono}

1

_{鹿児島大学大学院理工学研究科情報生体システム工学専攻}

1

_{Department of Information Science and Biomedical Engineering,}

Graduate School of Science and Engineering, Kagoshima University

Abstract: Recently, deep learning has promoted the rapid progress of various fields such as sound

recognition and image processing. However, most studies use only unimodal feature such as sound or image modality only, and relatively litte attention has been paid to using multiple modalities. This research proposes a deep learning method for feature extraction from multimodal sequential data, which can be applicable various machine learning tasks including missing data reconstruction. Experimental results with an action recognition dataset have shown that the proposed method can extract suﬃcient features to classify actions, and that, however, there was a room for improvement with regard to missing data reconstruction.

1 はじめに

人間は実世界を視覚，聴覚，触覚といったマルチモーダル情報を用いて認識する．これにより，単一のモダリティのみを用いるよりも確実な識別，判断を行うことができる．例えば人間は相手の話を聞くとき，音声のみならず相手の表情や動きにも注目する [1, 2]．音声と共に相手の表情や動きを見ることで，相手の感情など音声のみでは得られない付加的な情報も認識できる．また，音声だけでは判別しづらい似た発音は，補助的に口元の筋肉の動きを見ることで判別しやすくしていることが示されている [3]．機械学習においても同様に，マルチモーダル情報を用いることで，より頑健で安定性の高い識別や判断が可能になることが示されている [4]．特に近年，多様な IoT センサが普及しており，様々な系列データが収集されている [5]．複数のセンサから得られる情報をマルチモーダル系列データとして用い，判断や認識を行う新たな機械学習モデルの必要性が高まっている．一方，近年，深層学習と呼ばれるニューラルネットワークを用いたパターン認識が発展しており，画像認識や音声認識などの分野で目覚ましい成果を挙げてい ∗_{連絡先：鹿児島大学大学院理工学研究科情報生体システム工} 学専攻鹿児島市郡元 1 丁目 21 番 40 号 E-mail: [email protected] る [6, 7]．また，自然言語やセンサなどから得られる時系列データにおいても，深層学習を用いた機械翻訳やパターン認識の性能向上が実現されている [8]．しかし，これまでに提案された手法の多くは，画像のみを用いた画像認識や，音声のみを用いた音声認識といった単一モダリティのみを用いることが多い．画像や音声，センサデータといった複数のモダリティを併用する手法は相対的に少なく，単一モダリティのみを利用する技術と比較すると発展の余地が大きいと考える．本研究では，系列データの特徴抽出を行うことができる深層学習モデルの 1 つである LSTM Autoencoder[9] と，マルチモーダル入力を統合した単一の特徴を抽出できる深層学習モデルの 1 つである Multimodal Vari-ational Autoencoder[10] とを組み合わせることで，マルチモーダル系列データにおける教師なし学習モデル（Multimodal Variational LSTM Autoencoder: MVLAE）

を提案する．これらの組み合わせにより，まず LSTM Autoencoder を用いて時系列を加味した特徴を取得し，次に Multimodal Variational Autoencoder を用いて複数のモダリティを組み合わせた特徴量を抽出できるため，マルチモーダル系列データの特徴抽出が可能となる．このような特徴を生成することにより，識別や回帰に利用できることに加えて，一方のモダリティにおける欠損データの復元を行うことが可能となる．なお，本論文では提案手法を人間の関節の位置座標と人工知能学会研究会資料 SIG-KBS-B802-01

(2)

映像からなるデータセットに応用する．本データセットは，各モダリティの抽象度に大きな差異がある点が特徴である．関節情報は次元数の少ない高度な特徴量であるが，映像情報は次元数の多い生の信号に近い情報である．提案手法により生成された特徴量を用いることで，行動認識や，欠損した関節モダリティの復元を試み，マルチモーダル系列データを対象とした特徴抽出の性能の評価を行う．

2

2.1 Multimodal LSTM autoencoder

（MLAE）

Noguchi らは，マルチモーダル系列データから固定長の特徴量ベクトルを抽出する Multimodal LSTM au-toencoder（MLAE）を提案した [11]．MLAE は，LSTM エンコーダ，デコーダ，Bimodal Deep Autoencoder から構成される．LSTM エンコーダ及びデコーダは各モダリティにつき 1 組ずつ存在し，それぞれの時系列的な特徴を抽出する．Bimodal Deep Autoencoder は， LSTM エンコーダで抽出した特徴量を 1 つに統合し，マルチモーダル系列データ全体の特徴を抽出する．また，MLAE は入力されたマルチモーダル系列データと同一のデータを出力するように学習される．上記の論文では人間の関節の位置座標と，関節を可視化した映像の 2 モダリティが使用され，関節と映像モダリティ間で相互に復元を試みている．

2.2 Multimodal variational autoencoder

（MVAE)

鈴木らは Variational Autoencoder をマルチモーダルに拡張した Multimodal variational autoencoder（MVAE） [10] を提案した．MVAE は，入力層と出力層がモダリティごとに個別に存在し，中間層で共通の層を持つ．これにより，個別に入力された各モダリティの情報は中間層で 1 つのデータに統合される．中間層ではガウス分布の平均と分散が出力され，それぞれの値が個別に層を持つ．学習時は，この平均と分散で表現されるガウス分布から値をサンプリングし，サンプリングした値を出力層に順伝播し，出力が入力と同一になるように学習を行う．上記の論文では，写真コミュニティサイト Flickr から取得された画像と，それに付与されたタグ，ラベルが含まれる MIR Flickr データセットを対象とした実験を行い，MVAE を用いて画像とタグから特徴量を抽出することで，ロジスティック回帰を用いてラベル予測の精度を改善できることを示している．

図 1: Multimodal Variational LSTM Autoencoder の模式図

3 提案手法

3.1 概要

本研究で提案する MVLAE では，MLAE[4] における Bimodal Deep Autoencoder を，より良い特徴が抽出可能な Multimodal Variational Autoencoder に置き換える．従って，MLAE よりも良好なマルチモーダル系列データの特徴が抽出できると考える．特に，中間層をガウス分布で表現することにより，片方のモダリティにおいて欠損が生じた場合の復元等に有効に働くことが期待できる．

3.2 モデルの構造

提案する MVLAE のネットワーク構造は，図 1 に示すように，LSTM エンコーダ，MVAE，LSTM デコーダの 3 つのモジュールで構成される．第 1 のモジュールである LSTM エンコーダは，個々のモダリティを表す系列データから特徴を抽出する役割を持つ．提案手法で使用される LSTM エンコーダは一般的な LSTM[12] であり，各モダリティに対して 1 セットずつ存在し，互いに独立して動作する．LSTM エン コーダの入力は各モダリティ Miの系列データ x(Mi)= {x(Mi) 1 , x (Mi) 2 , . . . x (Mi) T } であり，最後の時刻における 出力 h(Mi) T がモダリティ Mi の系列の特徴量となる． 次のモジュールである MVAE へは，h(Mi) T に加えて LSTM の内部状態 c(Mi) T が渡される．第 2 のモジュールである MVAE は，LSTM エンコーダで算出された特徴量_{h(M1) T , h (M2) T , . . .} を合成し， マルチモーダル系列データ全体の特徴量を算出する． MVAE はモダリティごとに独立した入力層と出力層を持つ．入力された特徴量は中央の隠れ層で合流し，再度出力層で各モダリティに分離される．これにより，全てのモダリティを加味した特徴量を算出できる．MVAE で抽出される特徴量は平均 µϕと分散 σϕ からなるガウ ス分布 Nϕ(µϕ, σϕ) で表現されるが，提案手法では平均

(3)

Algorithm 1 Training phase of the proposed method procedure Training the network

for all modality Mi do ▷ Step 1

Directly connect LSTM encoder and decoder for Mi.

Train the connected LSTM encoder and decoder using unimodal data for Mi.

end for

Train MVAE using the output of the LSTM encoders for all modal data. ▷ Step 2 Insert MVAE between the encoders and the decoders. ▷ Step 3 Train the whole network while missing a part of input data.

end procedure の値 µϕのみを特徴量として使用する．ネットワークの学習時及び推論時には，算出されたガウス分布から値をサンプリングし，出力層へ向けてニューラルネットワークの順方向に信号を伝播させ，出力層で MVAE の入力値_{h(M1) T , h (M2) T , . . .} の復元を試みる．次のモジュー ルへは，復元された出力層の値_{ˆh(M1) T , ˆh (M2) T , . . .} と， 前のモジュールから渡された LSTM エンコーダの内部状態_{c(M1) T , c (M2) T , . . .} を渡す． 第 3 のモジュールである LSTM デコーダは，MVAE で復元された単一モダリティの系列データの特徴量 {ˆh(M1) T , ˆh (M2) T , . . .} を用いて，LSTM エンコーダに入 力された系列データ_{x(M1)_{, x}(M2)_{, . . .}} を復元するた めに使用される．LSTM デコーダで用いる LSTM も一般的な LSTM であり，各モダリティごとに 1 セットずつ存在し，互いに独立して動作する．

3.3 学習と特徴量抽出

提案手法の処理は，学習と特徴量抽出の 2 つのフェーズに大別される．学習フェーズは対象となるデータセットごとに事前に行われ，適切な特徴量を抽出できるようにニューラルネットワークを学習する．特徴量抽出フェーズでは，入力されたマルチモーダル系列データの特徴量を抽出する．学習フェーズの処理をアルゴリズム 1 に示す．提案手法では，提案するネットワークの学習を，LSTM エンコーダと LSTM デコーダの学習，MVAE の学習，及び，モデル全体の学習の 3 つのフェーズに分割して実行する．なお，モデル全体を一度に学習することも理論上は可能であるが，予備実験を行ったものの，適切に学習を行うことが困難であった．まず，第 1 ステップである LSTM エンコーダの学習では，LSTM エンコーダと LSTM デコーダを直接結合し，モダリティごとに独立して LSTM Autoencoder と同様の学習を行う．このとき，LSTM エンコーダの入力と LSTM デコーダの出力が等価となるように学習を行う．次に，第 2 ステップにおいて，学習された LSTM エンコーダを用いて，MVAE を学習する．各モダリティの LSTM エンコーダから出力された系列データの特徴量を入力し，出力層で同じ値を出力するように MVAE を学習する．また，MVAE の学習時は，LSTM エンコーダの重みを固定し，学習を行わないようにする．最後に，これまで学習した LSTM エンコーダと LSTM デコーダ，MVAE を全て結合してモデル全体の学習を行う．このとき，入力するマルチモーダル系列データの各モダリティの一部をランダムに欠落させて学習を行う．これにより，欠落した部分を他のモダリティから補って復元を行うように学習ができると考えられる．推論フェーズでは，学習したモデルのうち，LSTM エンコーダと MVAE のみを使用する．まず，LSTM エンコーダを用いて，各モダリティの系列データの特徴量を得る．次に，これらの系列データの特徴量を MVAE に入力し，MVAE の中間層の値，すなわち各ガウス分 布の平均値 µϕ を取り出し，特徴量とする．

4 実験

提案手法により抽出した特徴量を評価するため，人間の行動認識のデータセットを用いて特徴抽出を行い，抽出した特徴量を用いて，行動の分類，及び，欠落情報の復元の 2 種類の実験を行った．

4.1 データセット

本実験では，人間の行動認識のデータセットである NTU RGB+D [13] を使用した．本データセット内には，関節の位置座標やカラー映像，深度画像，赤外線画像などが含まれており，本研究ではこれらのうち関節の位置座標及びカラー映像を使用した．なお，データセット内には複数の人間が同時に出現するデータや，途中で人間が画角外に移動し，誰も映っていないフレームが含まれるデータも存在するが，本研究ではこのよ

(4)

うなデータを除外し，全フレームにおいて 1 人の人間のみが画角内に含まれるデータのみを用いることとした．関節の位置座標は，25 箇所の関節が含まれており，それぞれが 3 次元の位置座標を持つ時系列データである．関節の位置座標は NTU RGB+D で提案されている手法で正規化を行った．正規化には被験者の移動や回転，被験者による身長の差をキャンセルする処理が含まれる．具体的には，被験者の腰の関節を原点に移動し，右肩と左肩を結ぶ線分が X 軸に平行になるよう回転する座標変換が行われる． カラー映像は 1, 920× 1, 080 画素の解像度であり，各 画素が RGB の 3 チャンネルの値を持つ．画素数が多いため，フレームごとに解像度を 224× 224 にアスペクト比を無視して縮小した後，提案手法のネットワークとは別の事前学習済の畳込みニューラルネットワークを用いて 4,096 次元の特徴量に次元削減する．本実験では， ImageNet を用いて事前学習が行われた VGG16[14] を用い，VGG16 における fc6 層の出力を特徴量として用いることとした．なお，本データセットのカラー映像 は 30fps で構成されているが，本研究では 1/12 に間引 き，2.5fps として使用した．

4.2 実験 1: クラス分類

提案手法による特徴抽出の効果を検証するため，クラス分類を対象として従来手法である MLAE との比較を行う．すなわち，提案手法及び従来手法で抽出した特徴量を，分類用のニューラルネットワークに入力することで行動の分類を行い，精度を比較する． 4.2.1 実験設定 4.1 節で述べた行動認識データセットは，75 次元の関節の位置座標の時系列データと，4096 次元の映像特徴量の時系列データの 2 系統の入力を持つ．このため，提案手法において，LSTM エンコーダ及び LSTM デコーダは 2 セット存在することとなり，それぞれ関節モダリティ，映像モダリティが入力される．本実験において，LSTM エンコーダ及びデコーダは両者とも 1 層の LSTM を使用することとした．関節モダリティの LSTM エンコーダ及び LSTM デコーダは， 入力が 75 次元の系列データ xM1 t （t = 1, . . . , T ），出力 が 75 次元の単一のベクトル hM1 _{である．映像モダリ} ティの LSTM エンコーダは，入力が 4096 次元の系列 データ xM2 t （t = 1, . . . , T ），出力が 1024 次元の単一の ベクトル hM1_{であり，LSTM デコーダは入力が 1024} 次元の単一のベクトル ˆhM1，出力が 4096 次元の系列データ ˆxM2 t （t = 1, . . . , T ）である．データサンプルに おける系列の長さ T は，各データサンプルにより異な る（3≤ T ≤ 25）．各モダリティの系列の特徴量を合成する MVAE は 5 層で構成することとし，第 1 層，第 2 層，第 4 層，及び，第 5 層はモダリティごとに独立して存在する．また，第 3 層は全モダリティで共通して 1 つの層を使用する．第 3 層以外の関節モダリティの層は 75 次元，映像モダリティの層は 1024 次元である．また，第 3 層は 512 次元である．従来手法である MLAE も MVLAE と同様の設定で実験を行う．提案手法及び従来手法によって得られた特徴量を入力とし，クラス分類に使用するニューラルネットワークは，512 次元の特徴量を入力として受け付け，50 クラスのいずれかに分類を行う．このニューラルネットワークは 3 層の全結合層で構成され，第 1 層は 512 次元，第 2 層は 256 次元，第 3 層は 50 次元である．全 43,217 サンプルのうち，39,079 個を学習に，4,138 個を検証に利用した．また，データセットは学習時と検証時の双方に同一の被験者のデータが出現しないよう分割した．特徴抽出モデル及びクラス分類に使用するニューラルネットワークの双方において，学習時には，最適化関数として Adam[15]，バッチサイズは 100，エポック数は 50 とした． 4.2.2 実験結果表 1 に，従来手法と提案手法を用いて分類を行った際の精度を示す．なお，本論文では，全サンプルにおいて正しいクラスに分類されたサンプルの割合（Overall accuracy）を精度とする．表の各行は実験に使用した手法を表し，各列は使用したモダリティを表す．全ての実験設定において，従来手法である MLAE と比較して提案する MVALE の精度が高い傾向がみられた．従って，MVLAE がより良好な特徴を抽出できていると考える．図 2 に，行動分類を行った際の混合行列を示す．先行研究である MLAE にマルチモーダルデータを入力した場合，提案する MVLAE にマルチモーダルデータを入力した場合，及び，MVLAE に関節座標のみを入力した場合において，横軸に予測されたラベル，縦軸に正解ラベル，各要素の色を該当するデータの数をプロットしたグラフである．図 2 より，全ての混同行列において同様のパターンが見られ，誤分類する行動も類似していることがわかる．正しく分類されている行動は， 9 番（立ち上がる），31 番（何かを指差す），43 番（倒れる）など，比較的全身を使う動作が多かった．一方，誤分類が多かった行動は，10 番（拍手）や 11 番（読書をする）など手のみを動かす行動であり，それぞれ 34 番（両手をこする）や 29 番（スマートフォンで遊ぶ）に誤分類される傾向が共通してみられた．

(5)

0 10 20 30 40 Predicted label 0 10 20 30 40 Groundtruth label 0 10 20 30 40 50 60 70 (a) MLAE 0 10 20 30 40 Predicted label 0 10 20 30 40 Groundtruth label 0 10 20 30 40 50 60 70 (b) MVLAE 図 2: 行動分類を行ったときの混合行列表 1: クラス分類における精度の比較従来手法提案手法（MLAE）（MVLAE）分類精度 58.6% 60.8%

4.3 実験 2: 欠損モダリティの復元

マルチモーダルデータから特徴抽出を行う特性を活かして，入力に欠損を含む場合に入力情報の復元を行えるかどうかの検証を行った．本実験では，欠損したデータを前後のデータ及び他モダリティを用いて復元を試みることとし，単一モダリティにおける系列性や，他モダリティとの関連性を考慮した特徴量を抽出できているかを調査する．本実験では，関節座標時系列データのうち，最後の 1 フ レーム x(M1) T ，または，最後の 2 フレームのみ x (M1) T₋₁, x (M1) T を 0 で埋めて欠損させ，このデータの復元を試みた．モデルの構成や学習手法は，実験 1 における特徴量の学習段階と同じ設定とした．誤差関数として，提案手法及び従来手法では Mean squared error，クラス分類に使用するニューラルネットワークでは Softmax cross entropy を使用した．図 3 に，欠損モダリティを復元した際の復元誤差を行動別に示したグラフを示す．縦軸は復元誤差（MSE），横軸は各行動の番号である．また，オレンジ色が先行研究，青色が提案手法の復元誤差を示す．実験結果より，提案手法が先行研究よりも復元誤差が低く，特に，末尾 2 フレームを欠損させた場合では， 49 行動中 39 行動で提案手法が先行研究より小さな誤差で復元を行えたことがわかる．図 4 に，行動番号 5（ものを落とす）における関節座標情報の欠損を復元を行い，可視化した例を示す．図 4a に示した行動は，全動作を平均した行動に近いため，提案する MVLAE を用いて比較的良好な復元を行うことができたものの，他の多くの動作においても同様に，全動作を平均した行動に近い関節座標情報が復元され表 2: 欠損した関節座標情報の平均復元誤差の比較末尾 1 フレームに末尾 2 フレームに欠損を含む場合欠損を含む場合従来手法 9.77× 10−2 1.24× 10−1 （MLAE）提案手法 9.08× 10−2 1.07× 10−2 （MVLAE） 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 1 11 21 31 41 復元誤差 (MSE) 行動の番号 MAE MVAE (a)末尾1フレームを復元する場合 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 1 11 21 31 41 復元誤差 (MSE) 行動の番号 MAE MVAE (b)末尾2フレームを復元する場合図 3: 行動別の平均復元誤差の比較てしまう結果となった．

(6)

(a)正解データ ˆ xM1 1 xˆ M1 2 xˆ M1 3 xˆ M1 4 xˆ M1 5 関節モーダル有り関節モーダル欠落 (b)先行研究を用いて末尾2フレームを復元した結果 ˆ xM1 1 xˆ M1 2 xˆ M1 3 xˆ M1 4 xˆ M1 5 関節モーダル有り関節モーダル欠落 (c)提案手法を用いて末尾2フレームを復元図 4: 欠損した関節モダリティを復元した結果

5 まとめ

本研究では，マルチモーダル系列データの特徴抽出を行う深層学習手法の一手法として MVLAE を提案した．提案手法を用いて関節の位置座標と映像データのマルチモーダル系列データの特徴抽出を行い，この特徴量を用いて行動分類及び欠損モダリティの復元を試みた．実験の結果，先行研究で提案された MLAE と同等以上の精度で行動分類を行える特徴量を獲得できていることを確認した．一方，欠損モダリティの復元は， MLAE よりも誤差が低かったものの，十分な品質の復元を行うことは難しかった．今後は提案手法を他のデータセットを用いて検証する他，より良い特徴量を得るためにモデルの改善を行う必要がある．特に現時点の提案手法は，一度中間層で各モダリティが合成された後，各モダリティごとに個別に復元を行っている．従って，欠損したモダリティを他のモダリティが補って復元を行うことが困難である．このため，改良モデルでは復元時に各モーダル同士で情報を相互に伝達できる結合が必要と考えている．

参考文献

[1] David H. Warren, Robert B. Welch, and Timothy J. McCarthy. The role of visual-auditory “compelling-ness” in the ventriloquism eﬀect: Implications for transitivity among the spatial senses. Perception & Psychophysics, Vol. 30, No. 6, pp. 557–564, Nov 1981. [2] 渡辺桃子,望月登志子. 表情認知における視聴覚情報の相互規定性.感情心理学研究, Vol. 11, No. 2, pp. 53–64, 2004.

[3] Quentin Summerfield. Lipreading and audio-visual speech perception. Phil. Trans. R. Soc. Lond. B, Vol. 335, No. 1273, pp. 71–78, 1992.

[4] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan

Nam, Honglak Lee, and Andrew Y Ng.

Mul-timodal deep learning. In Proceedings of the

28th international conference on machine learning (ICML-11), pp. 689–696, 2011.

[5] Ala Al-Fuqaha, Mohsen Guizani, Mehdi Moham-madi, Mohammed Aledhari, and Moussa Ayyash. In-ternet of things: A survey on enabling technologies, protocols, and applications. IEEE Communications Surveys & Tutorials, Vol. 17, No. 4, pp. 2347–2376, 2015.

[6] Joseph Redmon and Ali Farhadi. Yolo9000: better, faster, stronger. arXiv preprint, 2017.

[7] Chung-Cheng Chiu, Tara N Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J Weiss, Kanishka Rao, Eka-terina Gonina, et al. State-of-the-art speech recogni-tion with sequence-to-sequence models. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4774–4778. IEEE, 2018.

[8] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridg-ing the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.

[9] Nitish Srivastava, Elman Mansimov, and Ruslan Salakhudinov. Unsupervised learning of video rep-resentations using lstms. In International conference on machine learning, pp. 843–852, 2015.

[10] 鈴木雅大,松尾豊. 深層生成モデルを用いたマルチモーダル学習. 人工知能学会全国大会論文集2016年度人工知能学会全国大会(第30回)論文集, pp. 1A3OS27a3–

1A3OS27a3.一般社団法人人工知能学会, 2016.

[11] Wataru Noguchi, Hiroyuki Iizuka, and Masahito Yamamoto. Proposing multimodal integration model using lstm and autoencoder. In Proceedings of the 9th EAI International Conference on Bio-inspired

Information and Communications Technologies

(formerly BIONETICS), pp. 355–362. ICST (Insti-tute for Computer Sciences, Social-Informatics and Telecommunications Engineering), 2016.

[12] Sepp Hochreiter and J¨urgen Schmidhuber. Long

short-term memory. Neural computation, Vol. 9,

No. 8, pp. 1735–1780, 1997.

[13] Amir Shahroudy, Jun Liu, Tian-Tsong Ng, and Gang

Wang. Ntu rgb+ d: A large scale dataset for

3d human activity analysis. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1010–1019, 2016.

[14] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recogni-tion. arXiv preprint arXiv:1409.1556, 2014.

[15] Diederik P Kingma and Jimmy Ba. Adam: A

method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

LSTM Autoencoder を用いたマルチモーダル系列データの特徴抽出