• 検索結果がありません。

リカレントニューラルネットワークを用いた音楽データの予測と生成

N/A
N/A
Protected

Academic year: 2021

シェア "リカレントニューラルネットワークを用いた音楽データの予測と生成"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 79 回全国大会. 1C-07 リカレントニューラルネットワークを用いた音楽データの予測と生成 武田 敦志 † † 東北学院大学教養学部情報科学科 Double Track Recurrent Unit (DTRU). 1. はじめに 近年、ディープラーニングと呼ばれる多層ニューラル. ネットワークを用いた機械学習の研究が盛んに行われて おり、リカレントニューラルネットワーク(RNN)を活 用することにより音楽データや文章データの予測や生成 が可能となりつつある。特に、Long-Short Term Memory (LSTM)[1] や Gated Recurrent Unit(GRU)[2] を導入 した RNN を用いることにより、LSTM や GRU を導入 していない RNN よりも正確に音楽データを予測するこ とが可能となる [3]。しかし、最新の RNN 技術を用い たとしても、音楽データの予測の精度は不十分であり、 音楽データをより正確に予測する手法が必要である。 そこで、本稿では、LSTM や GRU よりも正確に音楽 データを予測することができる Double Track Recurrent. Unit(DTRU)を提案する。DTRU は、正確な予測を行 うため、RNN の各層が維持する状態値と次層に伝達す る出力値を別々に計算するという特徴を持つ。従来手 法である LSTM や GRU では、状態値を次の層に出力 値として伝達するため、状態値に入出力の関係を含め. Recurrent Sequence Output Sequence 𝒚𝒚(𝑡𝑡) 𝒉𝒉(𝑡𝑡). Update Gate 𝑾𝑾𝑢𝑢𝑢𝑢 𝒙𝒙 𝑡𝑡 + 𝑾𝑾𝑢𝑢𝑢 𝒉𝒉(𝑡𝑡 − 1) + 𝒃𝒃𝑢𝑢. Join Gate 𝑾𝑾𝑗𝑗𝑗𝑗 𝒙𝒙 𝑡𝑡 + 𝑾𝑾𝑗𝑗𝑗 𝒉𝒉(𝑡𝑡 − 1) + 𝒃𝒃𝑗𝑗. Clock Pulse. 𝑎𝑎 sigmoid 1 − 𝑎𝑎. 𝑎𝑎. tanh. tanh. Previous State 𝒉𝒉(𝑡𝑡 − 1). Recurrent Sequence 𝑾𝑾𝑟𝑟𝑥𝑥 𝒙𝒙 𝑡𝑡 + 𝑾𝑾𝑟𝑟ℎ 𝒉𝒉 𝑡𝑡 − 1 + 𝒃𝒃𝑟𝑟. - Input Input sequence: 𝒙𝒙(𝑡𝑡) Recurrent sequence: 𝒉𝒉(𝑡𝑡 − 1). - Output. sigmoid 1 − 𝑎𝑎. Input Sequence 𝑾𝑾𝑠𝑠𝑠𝑠 𝒙𝒙 𝑡𝑡 + 𝒃𝒃𝑠𝑠. - Parameters. sequence: 𝒙𝒙(𝑡𝑡) 図 1:Output DTRU の構造 Input sequence: 𝑾𝑾 Recurrent sequence: 𝒉𝒉(𝑡𝑡). 𝑠𝑠𝑠𝑠 , 𝒃𝒃𝑠𝑠 Recurrent sequence: 𝑾𝑾𝑟𝑟𝑟𝑟 , 𝑾𝑾𝑟𝑟𝑟 , 𝒃𝒃𝑟𝑟 Update gate: 𝑾𝑾𝑢𝑢𝑢𝑢 , 𝑾𝑾𝑢𝑢𝑢 , 𝒃𝒃𝑢𝑢 Join gate: 𝑾𝑾𝑗𝑗𝑗𝑗 , 𝑾𝑾𝑗𝑗𝑗 , 𝒃𝒃𝑗𝑗. あり、入力値と前回の状態値からこれらゲートの値を 計算する。ここで、Join Gate の値は出力値に反映され る状態値の割合であり、Join Gate の値が大きくなると 状態値をより反映させた出力値となる。一方、Update. Gate の値は状態値を更新する割合であり、Update Gate の値が大きくなると状態値をより新しい値に更新する。 時刻 t における状態値 h(t) と出力値 y(t) は h(t) = y(t) =. r(t) ⊙ u(t) + h(t − 1) ⊙ (1 − u(t)) h(t) ⊙ j(t) + i(t) ⊙ (1 − j(t)). となる。ここで、 r(t) は前回の状態値を含む入力値で. る必要があった。一方、提案手法である DTRU では、. あり、i(t) は前回の状態値を含まない入力値である。ま. 状態値と出力値を別々に計算するため、RNN の各層の. た、u(t) は Update Gate の値であり、 j(t) は Join Gate の. 状態値には各層の状態のみを反映させればよい。その. 値である。 r(t)、i(t)、u(t)、 j(t) はそれぞれ. ため、DTRU を導入した RNN を用いることにより、従 来よりも正確に音楽データを予測できると考えられる。 本稿では、DTRU の構成を示し、その計算方法を説 明する。また、音楽データの予測タスクの実験結果よ り、DTRU が従来手法よりも正確に音楽データを予測 できることを示す。さらに、DTRU を用いることによ り、音楽データを生成できることを示す。. 2. r(t) i(t) u(t) j(t). = = = =. Wrx x(t) + Wrh h(t − 1) + br Wix x(t) + bi Wux x(t) + Wuh h(t − 1) + bu W jx x(t) + W jh h(t − 1) + b j. となる。ここで、Wrx 、Wrh 、Wix 、Wux 、Wuh 、W jx 、W jh は結合の重みであり、br 、bi 、bu 、b j はバイアスである。. DTRU では Update Gate の値によって状態値の更新 割合が決定される。そこで、1 か 0 の値 (Clock Pulse) を. Double Track Recurrent Unit(DTRU). DTRU では、RNN の各層の状態値と出力値を正確に 計算するため、これらの値を別々に計算する構造となっ. Update Gate の値に掛けることにより、Clock Pulse が 1 のときにのみ状態値の更新が行われるようにできる。. ている。図 1 に DTRU の構造を示す。DTRU では、時刻. この仕組みを導入することにより、Clockwork RNN[4]. t の入力値 x(t) と前回の状態値 h(t − 1) から、新しい状 態値 h(t) と出力値 y(t) を計算する。また、DTRU では、. などと同様に階層的なデータの学習が可能となる。. 状態値の制御ゲートである Join Gate と Update Gate が. 3 実験と評価 DTRU を用いた RNN を実装し、音楽データの予測タ スクを用いて性能評価を行った。ここでは、音楽データ. A new Recurrent Neural Network for Predicting and Representing Music Data †Atsushi TAKEDA †Department of Information Science, Tohoku Gakuin University. 2-27. として piano-midi.de[5] を用い、64 分の 1 拍子ごとに次 に鳴る音の音階と長さを予測する RNN を構築した。構. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 79 回全国大会. LSTM DTRU (proposal). 0.6. f-measure. 0.5 0.4 0.3 0.2 0.1 0. 図 4: 生成された音楽データの一部 0. 200. 400. epoch. 600. 800. 1000. を予測できることを確認した。 また、上記の性能評価で実装した RNN を用いて音. 図 2: 訓練データに対する F 値. を用いてパラメータの学習を行い、任意の特徴ベクト. LSTM DTRU (proposal). 0.14 0.12 f-measure. 楽データの生成を行った。ここでは、JSB Chorales[5] ルから音楽データを生成した。図 4 に生成された音楽. 0.1. データの一部を示す。実際に使われる和音 (最初の 4 分. 0.08. 音符は c-major) で構成されており、RNN が音階の関係. 0.06. 性を考慮して音楽を生成できることを確認した。. 0.04. 4 まとめ. 0.02 0. 本稿では、LSTM や GRU よりも正確に音楽データ 0. 200. 400. epoch. 600. 800. (DTRU)を提案した。また、実験結果より、DTRU が. 図 3: テストデータに対する F 値. LSTM. DTRU (提案手法). 訓練データ. 0.193. 0.511. テストデータ. 0.063. 0.110. を予測することができる Double Track Recurrent Unit. 1000. 従来手法よりも正確に音楽データを予測できることと、. DTRU が音楽データを生成できることを確認した。. 参考文献. 表 1: LSTM と DTRU の F 値の最高値 築した RNN は Encoder-Decoder 方式 [2] のニューラル ネットワークであり、Encoder と Decoder は中間層が 2 層で各層が 400 ユニットの RNN で構成されている。入 力は 92 次元ベクトル (音階:87+リズム:5) であり、出力 は 2785 次元ベクトル (音階:87× 長さ:32+停止フラグ:1) である。また、Encoder から Decoder に渡される特徴値 は 200 次元ベクトルとした。パラメータの学習は Back. Propagation Through Time(履歴の長さ=128) を用いて行 い、最適化手法として Adam[6](α = 0.0001、β1 = 0.9、. β2 = 0.999) を用いた。上記の条件で音楽データの予測 タスクを行い、DTRU を導入した RNN の訓練データ とテストデータに対する F 値 (f-measure) を計測した。 さらに、比較のための従来手法として、LSTM を導入 した RNN についても同様の計測を行った。 図 2 に訓練データに対する F 値を、図 3 にテストデー タに対する F 値を示す。また、表 1 に訓練データとテ ストデータに対する F 値の最高値を示す。訓練データ・ テストデータともに、DTRU の F 値は LSTM の F 値よ りも高い値となっている。以上より、DTRU を用いた. [1] Felix A. Gers, J¨urgen Schmidhuber, and Fred Cummins. Learning to forget: Continual prediction with lstm. Neural Computation, 12(10):2451–2471, 2000. [2] Kyunghyun Cho, Bart van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder–decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724–1734, 2014. [3] Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. An empirical exploration of recurrent network architectures. In Proceedings of the 32nd International Conference on Machine Learning (ICML15), pages 2342–2350, 2015. [4] Jan Koutn´ık, Klaus Greff, Faustino Gomez, and J¨uergen Schmidhuber. A clockwork rnn. In Proceedings of the 31st International Conference on Machine Learning, pages 1863–1871, 2014. [5] Nicolas Boulanger-lewandowski, Yoshua Bengio, and Pascal Vincent. Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription. In Proceedings of the 29th International Conference on Machine Learning (ICML-12), pages 1159–1166, 2012. [6] Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In the 3rd International Conference on Learning Representations (ICLR 2015), 2015. arXiv:1412.6980.. RNN が LSTM を用いた RNN よりも正確に音楽データ. 2-28. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

「旅と音楽の融を J をテーマに、音旅演出家として THE ROYAL EXPRESS の旅の魅力をプ□デュース 。THE ROYAL

   騒音:伝播 ぱ

試験音再生用音源(スピーカー)は、可搬型(重量 20kg 程度)かつ再生能力等の条件

「1.地域の音楽家・音楽団体ネットワークの運用」については、公式 LINE 等 SNS

英国のギルドホール音楽学校を卒業。1972

セットで新規ご加入いただくと「USEN音楽放送」+「USEN Register」+「USEN光」の 月額利用料を 最大30%割引 します。

工事用車両の走行に伴う騒音・振動の予測地点は、図 8.3-5 に示すとおり、現況調査を実施し た工事用車両の走行ルート沿いである道路端の

予測の対象時点は、陸上競技(マラソン)の競技期間中とした。陸上競技(マラソン)の競 技予定は、 「9.2.1 大気等 (2) 予測 2)