• 検索結果がありません。

LSTM Autoencoder を用いたマルチモーダル系列データの特徴抽出

N/A
N/A
Protected

Academic year: 2021

シェア "LSTM Autoencoder を用いたマルチモーダル系列データの特徴抽出"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

LSTM Autoencoder

を用いた

マルチモーダル系列データの特徴抽出

Feature extraction using LSTM Autoencoder for

multimodal sequential data

上園 翔平

1

小野 智司

1

Shouhei Uezono

1

Satoshi Ono

1

1

鹿児島大学 大学院理工学研究科 情報生体システム工学専攻

1

Department of Information Science and Biomedical Engineering,

Graduate School of Science and Engineering, Kagoshima University

Abstract: Recently, deep learning has promoted the rapid progress of various fields such as sound

recognition and image processing. However, most studies use only unimodal feature such as sound or image modality only, and relatively litte attention has been paid to using multiple modalities. This research proposes a deep learning method for feature extraction from multimodal sequential data, which can be applicable various machine learning tasks including missing data reconstruction. Experimental results with an action recognition dataset have shown that the proposed method can extract sufficient features to classify actions, and that, however, there was a room for improvement with regard to missing data reconstruction.

1

はじめに

人間は実世界を視覚,聴覚,触覚といったマルチモー ダル情報を用いて認識する.これにより,単一のモダ リティのみを用いるよりも確実な識別,判断を行うこ とができる.例えば人間は相手の話を聞くとき,音声 のみならず相手の表情や動きにも注目する [1, 2].音声 と共に相手の表情や動きを見ることで,相手の感情な ど音声のみでは得られない付加的な情報も認識できる. また,音声だけでは判別しづらい似た発音は,補助的 に口元の筋肉の動きを見ることで判別しやすくしてい ることが示されている [3]. 機械学習においても同様に,マルチモーダル情報を 用いることで,より頑健で安定性の高い識別や判断が 可能になることが示されている [4].特に近年,多様な IoT センサが普及しており,様々な系列データが収集 されている [5].複数のセンサから得られる情報をマル チモーダル系列データとして用い,判断や認識を行う 新たな機械学習モデルの必要性が高まっている. 一方,近年,深層学習と呼ばれるニューラルネット ワークを用いたパターン認識が発展しており,画像認 識や音声認識などの分野で目覚ましい成果を挙げてい 連絡先: 鹿児島大学 大学院理工学研究科 情報生体システム工 学専攻 鹿児島市郡元 1 丁目 21 番 40 号 E-mail: [email protected] る [6, 7].また,自然言語やセンサなどから得られる 時系列データにおいても,深層学習を用いた機械翻訳 やパターン認識の性能向上が実現されている [8].しか し,これまでに提案された手法の多くは,画像のみを 用いた画像認識や,音声のみを用いた音声認識といっ た単一モダリティのみを用いることが多い.画像や音 声,センサデータといった複数のモダリティを併用す る手法は相対的に少なく,単一モダリティのみを利用 する技術と比較すると発展の余地が大きいと考える. 本研究では,系列データの特徴抽出を行うことができ る深層学習モデルの 1 つである LSTM Autoencoder[9] と,マルチモーダル入力を統合した単一の特徴を抽出 できる深層学習モデルの 1 つである Multimodal Vari-ational Autoencoder[10] とを組み合わせることで,マ ルチモーダル系列データにおける教師なし学習モデル (Multimodal Variational LSTM Autoencoder: MVLAE)

を提案する.これらの組み合わせにより,まず LSTM Autoencoder を用いて時系列を加味した特徴を取得し, 次に Multimodal Variational Autoencoder を用いて複 数のモダリティを組み合わせた特徴量を抽出できるた め,マルチモーダル系列データの特徴抽出が可能とな る.このような特徴を生成することにより,識別や回 帰に利用できることに加えて,一方のモダリティにお ける欠損データの復元を行うことが可能となる. なお,本論文では提案手法を人間の関節の位置座標と 人工知能学会研究会資料 SIG-KBS-B802-01

(2)

映像からなるデータセットに応用する.本データセッ トは,各モダリティの抽象度に大きな差異がある点が 特徴である.関節情報は次元数の少ない高度な特徴量 であるが,映像情報は次元数の多い生の信号に近い情 報である.提案手法により生成された特徴量を用いる ことで,行動認識や,欠損した関節モダリティの復元 を試み,マルチモーダル系列データを対象とした特徴 抽出の性能の評価を行う.

2

関連研究

2.1

Multimodal LSTM autoencoder

(MLAE)

Noguchi らは,マルチモーダル系列データから固定 長の特徴量ベクトルを抽出する Multimodal LSTM au-toencoder(MLAE)を提案した [11].MLAE は,LSTM エンコーダ,デコーダ,Bimodal Deep Autoencoder か ら構成される.LSTM エンコーダ及びデコーダは各モ ダリティにつき 1 組ずつ存在し,それぞれの時系列的 な特徴を抽出する.Bimodal Deep Autoencoder は, LSTM エンコーダで抽出した特徴量を 1 つに統合し, マルチモーダル系列データ全体の特徴を抽出する.ま た,MLAE は入力されたマルチモーダル系列データと 同一のデータを出力するように学習される.上記の論 文では人間の関節の位置座標と,関節を可視化した映 像の 2 モダリティが使用され,関節と映像モダリティ 間で相互に復元を試みている.

2.2

Multimodal variational autoencoder

(MVAE)

鈴木らは Variational Autoencoder をマルチモーダル に拡張した Multimodal variational autoencoder(MVAE) [10] を提案した.MVAE は,入力層と出力層がモダリ ティごとに個別に存在し,中間層で共通の層を持つ.こ れにより,個別に入力された各モダリティの情報は中 間層で 1 つのデータに統合される.中間層ではガウス 分布の平均と分散が出力され,それぞれの値が個別に 層を持つ.学習時は,この平均と分散で表現されるガ ウス分布から値をサンプリングし,サンプリングした 値を出力層に順伝播し,出力が入力と同一になるよう に学習を行う. 上記の論文では,写真コミュニティサイト Flickr か ら取得された画像と,それに付与されたタグ,ラベル が含まれる MIR Flickr データセットを対象とした実験 を行い,MVAE を用いて画像とタグから特徴量を抽出 することで,ロジスティック回帰を用いてラベル予測 の精度を改善できることを示している.

図 1: Multimodal Variational LSTM Autoencoder の 模式図

3

提案手法

3.1

概要

本研究で提案する MVLAE では,MLAE[4] におけ る Bimodal Deep Autoencoder を,より良い特徴が抽 出可能な Multimodal Variational Autoencoder に置き 換える.従って,MLAE よりも良好なマルチモーダル 系列データの特徴が抽出できると考える.特に,中間 層をガウス分布で表現することにより,片方のモダリ ティにおいて欠損が生じた場合の復元等に有効に働く ことが期待できる.

3.2

モデルの構造

提案する MVLAE のネットワーク構造は,図 1 に示 すように,LSTM エンコーダ,MVAE,LSTM デコー ダの 3 つのモジュールで構成される. 第 1 のモジュールである LSTM エンコーダは,個々 のモダリティを表す系列データから特徴を抽出する役割 を持つ.提案手法で使用される LSTM エンコーダは一 般的な LSTM[12] であり,各モダリティに対して 1 セッ トずつ存在し,互いに独立して動作する.LSTM エン コーダの入力は各モダリティ Miの系列データ x(Mi)= {x(Mi) 1 , x (Mi) 2 , . . . x (Mi) T } であり,最後の時刻における 出力 h(Mi) T がモダリティ Mi の系列の特徴量となる. 次のモジュールである MVAE へは,h(Mi) T に加えて LSTM の内部状態 c(Mi) T が渡される. 第 2 のモジュールである MVAE は,LSTM エンコー ダで算出された特徴量{h(M1) T , h (M2) T , . . .} を合成し, マルチモーダル系列データ全体の特徴量を算出する. MVAE はモダリティごとに独立した入力層と出力層を 持つ.入力された特徴量は中央の隠れ層で合流し,再度 出力層で各モダリティに分離される.これにより,全て のモダリティを加味した特徴量を算出できる.MVAE で抽出される特徴量は平均 µϕと分散 σϕ からなるガウ ス分布 Nϕ(µϕ, σϕ) で表現されるが,提案手法では平均

(3)

Algorithm 1 Training phase of the proposed method procedure Training the network

for all modality Mi do ▷ Step 1

Directly connect LSTM encoder and decoder for Mi.

Train the connected LSTM encoder and decoder using unimodal data for Mi.

end for

Train MVAE using the output of the LSTM encoders for all modal data. ▷ Step 2 Insert MVAE between the encoders and the decoders. ▷ Step 3 Train the whole network while missing a part of input data.

end procedure の値 µϕのみを特徴量として使用する.ネットワークの 学習時及び推論時には,算出されたガウス分布から値を サンプリングし,出力層へ向けてニューラルネットワー クの順方向に信号を伝播させ,出力層で MVAE の入力 値{h(M1) T , h (M2) T , . . .} の復元を試みる.次のモジュー ルへは,復元された出力層の値{ˆh(M1) T , ˆh (M2) T , . . .} と, 前のモジュールから渡された LSTM エンコーダの内部 状態{c(M1) T , c (M2) T , . . .} を渡す. 第 3 のモジュールである LSTM デコーダは,MVAE で復元された単一モダリティの系列データの特徴量 {ˆh(M1) T , ˆh (M2) T , . . .} を用いて,LSTM エンコーダに入 力された系列データ{x(M1), x(M2), . . .} を復元するた めに使用される.LSTM デコーダで用いる LSTM も一 般的な LSTM であり,各モダリティごとに 1 セットず つ存在し,互いに独立して動作する.

3.3

学習と特徴量抽出

提案手法の処理は,学習と特徴量抽出の 2 つのフェー ズに大別される.学習フェーズは対象となるデータセッ トごとに事前に行われ,適切な特徴量を抽出できるよ うにニューラルネットワークを学習する.特徴量抽出 フェーズでは,入力されたマルチモーダル系列データ の特徴量を抽出する. 学習フェーズの処理をアルゴリズム 1 に示す. 提案 手法では,提案するネットワークの学習を,LSTM エ ンコーダと LSTM デコーダの学習,MVAE の学習,及 び,モデル全体の学習の 3 つのフェーズに分割して実 行する.なお,モデル全体を一度に学習することも理 論上は可能であるが,予備実験を行ったものの,適切 に学習を行うことが困難であった. まず,第 1 ステップである LSTM エンコーダの学習 では,LSTM エンコーダと LSTM デコーダを直接結合 し,モダリティごとに独立して LSTM Autoencoder と 同様の学習を行う.このとき,LSTM エンコーダの入 力と LSTM デコーダの出力が等価となるように学習を 行う. 次に,第 2 ステップにおいて,学習された LSTM エン コーダを用いて,MVAE を学習する.各モダリティの LSTM エンコーダから出力された系列データの特徴量 を入力し,出力層で同じ値を出力するように MVAE を 学習する.また,MVAE の学習時は,LSTM エンコー ダの重みを固定し,学習を行わないようにする. 最後に,これまで学習した LSTM エンコーダと LSTM デコーダ,MVAE を全て結合してモデル全体の学習を 行う.このとき,入力するマルチモーダル系列データ の各モダリティの一部をランダムに欠落させて学習を 行う.これにより,欠落した部分を他のモダリティか ら補って復元を行うように学習ができると考えられる. 推論フェーズでは,学習したモデルのうち,LSTM エ ンコーダと MVAE のみを使用する.まず,LSTM エン コーダを用いて,各モダリティの系列データの特徴量 を得る.次に,これらの系列データの特徴量を MVAE に入力し,MVAE の中間層の値,すなわち各ガウス分 布の平均値 µϕ を取り出し,特徴量とする.

4

実験

提案手法により抽出した特徴量を評価するため,人 間の行動認識のデータセットを用いて特徴抽出を行い, 抽出した特徴量を用いて,行動の分類,及び,欠落情 報の復元の 2 種類の実験を行った.

4.1

データセット

本実験では,人間の行動認識のデータセットである NTU RGB+D [13] を使用した.本データセット内に は,関節の位置座標やカラー映像,深度画像,赤外線 画像などが含まれており,本研究ではこれらのうち関 節の位置座標及びカラー映像を使用した.なお,デー タセット内には複数の人間が同時に出現するデータや, 途中で人間が画角外に移動し,誰も映っていないフレー ムが含まれるデータも存在するが,本研究ではこのよ

(4)

うなデータを除外し,全フレームにおいて 1 人の人間の みが画角内に含まれるデータのみを用いることとした. 関節の位置座標は,25 箇所の関節が含まれており, それぞれが 3 次元の位置座標を持つ時系列データであ る.関節の位置座標は NTU RGB+D で提案されてい る手法で正規化を行った.正規化には被験者の移動や 回転,被験者による身長の差をキャンセルする処理が 含まれる.具体的には,被験者の腰の関節を原点に移 動し,右肩と左肩を結ぶ線分が X 軸に平行になるよう 回転する座標変換が行われる. カラー映像は 1, 920× 1, 080 画素の解像度であり,各 画素が RGB の 3 チャンネルの値を持つ.画素数が多い ため,フレームごとに解像度を 224× 224 にアスペクト 比を無視して縮小した後,提案手法のネットワークとは 別の事前学習済の畳込みニューラルネットワークを用 いて 4,096 次元の特徴量に次元削減する.本実験では, ImageNet を用いて事前学習が行われた VGG16[14] を 用い,VGG16 における fc6 層の出力を特徴量として用 いることとした.なお,本データセットのカラー映像 は 30fps で構成されているが,本研究では 1/12 に間引 き,2.5fps として使用した.

4.2

実験 1: クラス分類

提案手法による特徴抽出の効果を検証するため,ク ラス分類を対象として従来手法である MLAE との比 較を行う.すなわち,提案手法及び従来手法で抽出し た特徴量を,分類用のニューラルネットワークに入力 することで行動の分類を行い,精度を比較する. 4.2.1 実験設定 4.1 節で述べた行動認識データセットは,75 次元の 関節の位置座標の時系列データと,4096 次元の映像特 徴量の時系列データの 2 系統の入力を持つ.このため, 提案手法において,LSTM エンコーダ及び LSTM デ コーダは 2 セット存在することとなり,それぞれ関節 モダリティ,映像モダリティが入力される. 本実験において,LSTM エンコーダ及びデコーダは 両者とも 1 層の LSTM を使用することとした.関節モ ダリティの LSTM エンコーダ及び LSTM デコーダは, 入力が 75 次元の系列データ xM1 t (t = 1, . . . , T ),出力 が 75 次元の単一のベクトル hM1 である.映像モダリ ティの LSTM エンコーダは,入力が 4096 次元の系列 データ xM2 t (t = 1, . . . , T ),出力が 1024 次元の単一の ベクトル hM1であり,LSTM デコーダは入力が 1024 次元の単一のベクトル ˆhM1,出力が 4096 次元の系列 データ ˆxM2 t (t = 1, . . . , T )である.データサンプルに おける系列の長さ T は,各データサンプルにより異な る(3≤ T ≤ 25). 各モダリティの系列の特徴量を合成する MVAE は 5 層で構成することとし,第 1 層,第 2 層,第 4 層,及 び,第 5 層はモダリティごとに独立して存在する.ま た,第 3 層は全モダリティで共通して 1 つの層を使用 する.第 3 層以外の関節モダリティの層は 75 次元,映 像モダリティの層は 1024 次元である.また,第 3 層は 512 次元である.従来手法である MLAE も MVLAE と同様の設定で実験を行う. 提案手法及び従来手法によって得られた特徴量を入 力とし,クラス分類に使用するニューラルネットワー クは,512 次元の特徴量を入力として受け付け,50 ク ラスのいずれかに分類を行う.このニューラルネット ワークは 3 層の全結合層で構成され,第 1 層は 512 次 元,第 2 層は 256 次元,第 3 層は 50 次元である. 全 43,217 サンプルのうち,39,079 個を学習に,4,138 個を検証に利用した.また,データセットは学習時と 検証時の双方に同一の被験者のデータが出現しないよ う分割した.特徴抽出モデル及びクラス分類に使用す るニューラルネットワークの双方において,学習時に は,最適化関数として Adam[15],バッチサイズは 100, エポック数は 50 とした. 4.2.2 実験結果 表 1 に,従来手法と提案手法を用いて分類を行った 際の精度を示す.なお,本論文では,全サンプルにおい て正しいクラスに分類されたサンプルの割合(Overall accuracy)を精度とする.表の各行は実験に使用した 手法を表し,各列は使用したモダリティを表す. 全ての実験設定において,従来手法である MLAE と 比較して提案する MVALE の精度が高い傾向がみられ た. 従って,MVLAE がより良好な特徴を抽出できて いると考える. 図 2 に,行動分類を行った際の混合行列を示す.先 行研究である MLAE にマルチモーダルデータを入力し た場合,提案する MVLAE にマルチモーダルデータを 入力した場合,及び,MVLAE に関節座標のみを入力 した場合において,横軸に予測されたラベル,縦軸に正 解ラベル,各要素の色を該当するデータの数をプロッ トしたグラフである.図 2 より,全ての混同行列にお いて同様のパターンが見られ,誤分類する行動も類似 していることがわかる.正しく分類されている行動は, 9 番(立ち上がる),31 番(何かを指差す),43 番(倒 れる)など,比較的全身を使う動作が多かった.一方, 誤分類が多かった行動は,10 番(拍手)や 11 番(読書 をする)など手のみを動かす行動であり,それぞれ 34 番(両手をこする)や 29 番(スマートフォンで遊ぶ) に誤分類される傾向が共通してみられた.

(5)

0 10 20 30 40 Predicted label 0 10 20 30 40 Groundtruth label 0 10 20 30 40 50 60 70 (a) MLAE 0 10 20 30 40 Predicted label 0 10 20 30 40 Groundtruth label 0 10 20 30 40 50 60 70 (b) MVLAE 図 2: 行動分類を行ったときの混合行列 表 1: クラス分類における精度の比較 従来手法 提案手法 (MLAE) (MVLAE) 分類精度 58.6% 60.8%

4.3

実験 2: 欠損モダリティの復元

マルチモーダルデータから特徴抽出を行う特性を活 かして,入力に欠損を含む場合に入力情報の復元を行 えるかどうかの検証を行った.本実験では,欠損した データを前後のデータ及び他モダリティを用いて復元 を試みることとし,単一モダリティにおける系列性や, 他モダリティとの関連性を考慮した特徴量を抽出でき ているかを調査する. 本実験では,関節座標時系列データのうち,最後の 1 フ レーム x(M1) T ,または,最後の 2 フレームのみ x (M1) T−1, x (M1) T を 0 で埋めて欠損させ,このデータの復元を試みた.モ デルの構成や学習手法は,実験 1 における特徴量の学 習段階と同じ設定とした.誤差関数として,提案手法 及び従来手法では Mean squared error,クラス分類に 使用するニューラルネットワークでは Softmax cross entropy を使用した. 図 3 に,欠損モダリティを復元した際の復元誤差を行 動別に示したグラフを示す.縦軸は復元誤差(MSE), 横軸は各行動の番号である.また,オレンジ色が先行 研究,青色が提案手法の復元誤差を示す. 実験結果より,提案手法が先行研究よりも復元誤差 が低く,特に,末尾 2 フレームを欠損させた場合では, 49 行動中 39 行動で提案手法が先行研究より小さな誤 差で復元を行えたことがわかる. 図 4 に,行動番号 5(ものを落とす)における関節座 標情報の欠損を復元を行い,可視化した例を示す.図 4a に示した行動は,全動作を平均した行動に近いため, 提案する MVLAE を用いて比較的良好な復元を行うこ とができたものの,他の多くの動作においても同様に, 全動作を平均した行動に近い関節座標情報が復元され 表 2: 欠損した関節座標情報の平均復元誤差の比較 末尾 1 フレームに 末尾 2 フレームに 欠損を含む場合 欠損を含む場合 従来手法 9.77× 10−2 1.24× 10−1 (MLAE) 提案手法 9.08× 10−2 1.07× 10−2 (MVLAE) 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 1 11 21 31 41 復元誤差 (MSE) 行動の番号 MAE MVAE (a)末尾1フレームを復元する場合 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 1 11 21 31 41 復元誤差 (MSE) 行動の番号 MAE MVAE (b)末尾2フレームを復元する場合 図 3: 行動別の平均復元誤差の比較 てしまう結果となった.

(6)

(a)正解データ ˆ xM1 1 xˆ M1 2 xˆ M1 3 xˆ M1 4 xˆ M1 5 関節モーダル有り 関節モーダル欠落 (b)先行研究を用いて末尾2フレームを復元した結果 ˆ xM1 1 xˆ M1 2 xˆ M1 3 xˆ M1 4 xˆ M1 5 関節モーダル有り 関節モーダル欠落 (c)提案手法を用いて末尾2フレームを復元 図 4: 欠損した関節モダリティを復元した結果

5

まとめ

本研究では,マルチモーダル系列データの特徴抽出 を行う深層学習手法の一手法として MVLAE を提案し た.提案手法を用いて関節の位置座標と映像データの マルチモーダル系列データの特徴抽出を行い,この特 徴量を用いて行動分類及び欠損モダリティの復元を試 みた.実験の結果,先行研究で提案された MLAE と同 等以上の精度で行動分類を行える特徴量を獲得できて いることを確認した.一方,欠損モダリティの復元は, MLAE よりも誤差が低かったものの,十分な品質の復 元を行うことは難しかった. 今後は提案手法を他のデータセットを用いて検証す る他,より良い特徴量を得るためにモデルの改善を行 う必要がある.特に現時点の提案手法は,一度中間層 で各モダリティが合成された後,各モダリティごとに個 別に復元を行っている.従って,欠損したモダリティ を他のモダリティが補って復元を行うことが困難であ る.このため,改良モデルでは復元時に各モーダル同 士で情報を相互に伝達できる結合が必要と考えている.

参考文献

[1] David H. Warren, Robert B. Welch, and Timothy J. McCarthy. The role of visual-auditory “compelling-ness” in the ventriloquism effect: Implications for transitivity among the spatial senses. Perception & Psychophysics, Vol. 30, No. 6, pp. 557–564, Nov 1981. [2] 渡辺桃子,望月登志子. 表情認知における視聴覚情報の 相互規定性.感情心理学研究, Vol. 11, No. 2, pp. 53–64, 2004.

[3] Quentin Summerfield. Lipreading and audio-visual speech perception. Phil. Trans. R. Soc. Lond. B, Vol. 335, No. 1273, pp. 71–78, 1992.

[4] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan

Nam, Honglak Lee, and Andrew Y Ng.

Mul-timodal deep learning. In Proceedings of the

28th international conference on machine learning (ICML-11), pp. 689–696, 2011.

[5] Ala Al-Fuqaha, Mohsen Guizani, Mehdi Moham-madi, Mohammed Aledhari, and Moussa Ayyash. In-ternet of things: A survey on enabling technologies, protocols, and applications. IEEE Communications Surveys & Tutorials, Vol. 17, No. 4, pp. 2347–2376, 2015.

[6] Joseph Redmon and Ali Farhadi. Yolo9000: better, faster, stronger. arXiv preprint, 2017.

[7] Chung-Cheng Chiu, Tara N Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J Weiss, Kanishka Rao, Eka-terina Gonina, et al. State-of-the-art speech recogni-tion with sequence-to-sequence models. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4774–4778. IEEE, 2018.

[8] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridg-ing the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.

[9] Nitish Srivastava, Elman Mansimov, and Ruslan Salakhudinov. Unsupervised learning of video rep-resentations using lstms. In International conference on machine learning, pp. 843–852, 2015.

[10] 鈴木雅大,松尾豊. 深層生成モデルを用いたマルチモー ダル学習. 人工知能学会全国大会論文集2016年度人工 知能学会全国大会(第30回)論文集, pp. 1A3OS27a3–

1A3OS27a3.一般社団法人 人工知能学会, 2016.

[11] Wataru Noguchi, Hiroyuki Iizuka, and Masahito Yamamoto. Proposing multimodal integration model using lstm and autoencoder. In Proceedings of the 9th EAI International Conference on Bio-inspired

Information and Communications Technologies

(formerly BIONETICS), pp. 355–362. ICST (Insti-tute for Computer Sciences, Social-Informatics and Telecommunications Engineering), 2016.

[12] Sepp Hochreiter and J¨urgen Schmidhuber. Long

short-term memory. Neural computation, Vol. 9,

No. 8, pp. 1735–1780, 1997.

[13] Amir Shahroudy, Jun Liu, Tian-Tsong Ng, and Gang

Wang. Ntu rgb+ d: A large scale dataset for

3d human activity analysis. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1010–1019, 2016.

[14] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recogni-tion. arXiv preprint arXiv:1409.1556, 2014.

[15] Diederik P Kingma and Jimmy Ba. Adam: A

method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

図 1: Multimodal Variational LSTM Autoencoder の 模式図

参照

関連したドキュメント

7IEC で定義されていない出力で 575V 、 50Hz

HORS

本節では本研究で実際にスレッドのトレースを行うた めに用いた Linux ftrace 及び ftrace を利用する Android Systrace について説明する.. 2.1

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(a) ケースは、特定の物品を収納するために特に製作しも

第一五条 か︑と思われる︒ もとづいて適用される場合と異なり︑