氏 大地
学 専 攻 分 博士 情報学
学 記 番 総研大 第
学 授与の日付 成 9 日
学 授与の要件 複 科学研究科 情報学専攻
学 規則第6条第 該当
学 論 文 題 目
論 文 審 査 委 員 主 査 准教授 貴
教授 藤 い 教授 速水 謙 准教授 山岸 一 教授 猿渡 洋 東京大学
(Separate Form 2)
論 文 の 要 旨
Summary (Abstract) of doctoral thesis contents
In this dissertation, to address a music source separation problem, several optimization algorithms are proposed. Music source separation is a technique to extract or separate specific music sources from an observed mixture signal that contains multiple music instrumental and vocal sounds. There are many feasible applications for this technique, for example, audio remixing by users, automatic music transcription, and musical instrument education. A general audio source separation problem has been investigated for a long time, particularly in the speech signal processing field to reduce background noise and enhance only the speech signal in the observation. Many techniques have been proposed for various recording conditions in the past, and they can roughly be divided into two situations: determined (or overdetermined) and underdetermined cases. In the determined situation, sufficient number of observations (microphones used in the recording) can be utilized for solving the separation problem, whereas the underdetermined situation, which includes monaural observation, basically lacks such multi-dimensional information. Also, presence of external prior information (supervision) such as music scores, source locations, or sound examples of each source in the mixture is another important issue. The source separation techniques without any prior information is often called blind source separation, which is the most difficult but a practical technique.
The objective of this dissertation is to develop an effective optimization algorithm for the music source separation and to achieve satisfactory separation performance. Two main topics are here addressed: determined (and overdetermined) blind source separation and single-channel (underdetermined) semi-supervised source separation. The semi-supervised source separation exploits sound examples of only the target source for the separation, namely, only the target source is extracted from the mixture. In both the topics, an important property of music signals is focused to effectively capture their structures. Since typical music signals consist of limited number of components such as discrete pitches and musical notes and include many reiteration of similar or the same spectral patterns (timbers), the power spectrogram of music signals tends to have a low-rank structure. On the basis of this nature in music signals, for both the topics discussed in this dissertation, a popular algorithm of matrix decomposition called nonnegative matrix factorization (NMF) is exploited for modeling the structure of music signals. By applying NMF to the spectrogram of audio signal, the frequently appearing spectral patterns and their time-varying gains
can be extracted as bases and activations. These components are useful for modeling the audio signals and achieving the source separation.
For the problem of determined blind source separation, independent component analysis (ICA) and its multivariate extension, independent vector analysis (IVA), are traditional and reliable approaches and can provide good separation results particularly for a mixture signal of speech. These approaches estimate spatial demixing filters by assuming that the sources are mutually independent. This assumption is valid in a practical mixture signal and make the separation problem solvable in a fully blind fashion. However, the separation accuracy of ICA and IVA for music signals is not satisfactory. This is because the general music signals frequently contain spectral overlaps and co-occurrences between sources, which result in a harmony of music, and these properties weaken the inherent independence between the sources. Also, the both methods assume only the non-Gaussian source distribution as an unspecific source model and do not utilize any information about the structure in the spectrogram of each source. To solve this problem, in this dissertation, the unified method of NMF and IVA called independent low-rank matrix analysis (ILRMA) is proposed, which performs simultaneous estimation of the spectrogram structure of each source and their spatial demixing filters. The optimization algorithm in ILRMA ensures faster convergence, more stable performance, and better computational efficiency compared with conventional methods including multichannel extension of NMF (MNMF), which is a state-of-the-art method for source separation. Also, theoretical relationships between IVA, MNMF, and ILRMA are revealed, namely, ILRMA is essentially equivalent to MNMF with a constraint for the mixing system, and IVA is also a special case of ILRMA.
For the single-channel semi-supervised source separation task, semi-supervised NMF, which aims to extract only the target source from the mixture, is the most popular approach. In this method, sound examples of the target source are utilized for preparing the supervised bases (spectral dictionary) of the target source. However, when the target source and the other sources in the mixture signal share similar or the same spectral patterns (bases), the separation performance of semi-supervised NMF is degraded because such shared components cannot be separated. This fact means that the supervised bases must be discriminative from the other bases of non-target sources.
On the basis of this fact, in this dissertation, a new training algorithm that provides discriminative supervised bases is proposed for semi-supervised NMF. In this method, other sound examples, which are candidates of the non-target signals in the observed
(Separate Form 2)
mixture, are utilized only for learning which spectral components will be frequently shared between the target and non-target sources.
Furthermore, a new efficient initialization scheme for NMF is proposed. Since an optimization in NMF requires initial values for bases and activations, all the results of applications based on NMF always depend on the initialization. The proposed initialization is based on a maximization of mutual independence between the activations using nonnegative ICA algorithm. The efficacy of the proposed method for several source separation tasks including ILRMA and semi-supervised NMF with discriminative basis training is experimentally confirmed.
博 士 論 文 審 査 結 果 の 要 旨
Summary of the results of the doctoral thesis screening
本 博 士 論 文 は 、 非 負 値 行 列 因 子 分 解 (Nonnegative Matrix Factorization; NMF)という 手 法 に 基 づ く 音 楽 信 号 の 音 源 分 離 の た め の 効 果 的 な 最 適 化 ア ル ゴ リ ズ ム に つ い て 論 じ た も の で あ る 。
第 1 章 で は ま ず 、 背 景 と し て 音 源 分 離 と い う 信 号 処 理 技 術 の 意 義 と 、 本 論 文 の 主 題 で あ る NMF と い う 手 法 の こ れ ま で の研 究 の 流 れ 、 な ら び に本 論 文 の 貢 献 が 簡 潔 に述 べ ら れ てい る 。
第 2 章 で は 、 複 数 の 音 源 信 号 が 混 合 さ れ た 観 測 か ら 元 の 音 源 信 号 を 推 定 す る と い う 、 音 源 分 離 問 題 の 定 義 と 定 式 化 が な さ れ 、 続 い て 独 立 成 分 分 析 を 用 い た 初 期 の 研 究 か ら デ ィ ー プ ニ ュ ー ラ ル ネ ッ ト ワ ー ク を 用 い た 最 新 の 研 究 ま で 、 こ れ ま で の 音 源 分 離 の 先 行 研 究 を 、 マ イ ク 数 と 音 源 数 の 大 小 関 係 、 事 前 情 報 の 有 無 な ど の 観 点 か ら 整 理 し て い る 。 次 に 本 論 文 の 動 機 と し て 、 音 楽 信 号 の 音 源 分 離 の 難 し さ と 音 源 モ デ ル の 重 要 性 が 述 べ ら れ 、 楽 音 の ス ペ ク ト ロ グ ラ ム の 低 ラ ン ク 性 に 着 目 す る と い う ア イ デ ィ ア が 具 体 例 と と も に 示 さ れ て い る 。 第 3 章 で は 、 優 決 定 ( マ イ ク 数 が 音 源 数 と 同 じ 、 も し く は 多 い ) 多 チ ャ ン ネ ル 観 測 で の ブ ラ イ ン ド 音 源 分 離 に 対 し て 、 従 来 の 独 立 成 分 分 析 、 独 立 ベ ク ト ル 分 析 に お け る 音 源 モ デ ル を 拡 張 し 、 楽 音 ス ペ ク ト ロ グ ラ ム の 低 ラ ン ク 性 を 積 極 的 に 活 用 す る 、 独 立 低 ラ ン ク 行 列 分 析 (Independent Low-Rank Matrix Analysis; ILRMA)とい う新 しい ブライ ンド 音源 分離 手 法 を 提 案 し 、 空 間 フ ィ ル タ の 推 定 と NMF 音源モ デル の推 定を交 互に反 復す る効 率的な ア ル ゴ リ ズ ム を 導 出 し て い る 。 次 に 、 実 際 の 音 楽 信 号 の 音 源 分 離 に 適 用 し 、 提 案 法 の ア ル ゴ リ ズ ム の 高 速 性 と 分 離 性 能 の 高 さ を 、 従 来 法 と の 比 較 実 験 に よ り 示 し て い る 。 ま た 、 ス ペ ク ト ロ グ ラ ム の ラ ン ク は フ レ ー ム 分 析 の 窓 長 に も 依 存 す る こ と か ら 、 窓 幅 を 様 々 に 変 え た 場 合 の 分 離 性 能 や 、 音 源 数 よ り 多 く の マ イ ク が 利 用 で き る 場 合 の 拡 張 手 法 に つ い て も 述 べ ら れ て い る 。
第 4 章 で は 、 シ ン グ ル チ ャ ン ネ ル で の 教 師 あ り 音 源 分 離 の 新 し い 学 習 ア ル ゴ リ ズ ム を 提 案 し て い る 。 ま ず 従 来 法 の 問 題 点 と し て 、NMF の目 的 関 数 は 混 合音 ス ペ ク トロ グ ラ ム をど れ だ け よ く 近 似 で き る か を 表 す も の で あ り 、 分 離 性 能 の よ さ を 直 接 的 に 表 現 し て い る わ け で は な い こ と を 指 摘 し 、 こ れ を 改 善 す る た め に 、 適 当 な 妨 害 音 デ ー タ を 前 提 に 分 離 性 能 を 評 価 す る 目 的 関 数 を 定 義 し 、 こ れ を 最 小 化 す る 新 し い 基 底 学 習 ア ル ゴ リ ズ ム を 導 出 し て い る 。 ま た 実 験 に よ り 音 楽 信 号 の 分 離 に お い て 分 離 性 能 が 改 善 で き る こ と を 示 し 、 最 適 な 点 で 反 復 計 算 を と め る た め の 手 法 に つ い て は 今 後 の 課 題 と し て い る 。
第 5 章 で は 、NMF に基 づく音 源分 離に 共通す る重要 な問 題と して 、NMF の反復計 算に お け る 初 期 値 依 存 性 を 取 り 上 げ 、 こ れ に 対 し て 独 立 成 分 分 析 を 用 い た 2 つ の 初 期 値 決 定 法 を 提 案 し て い る 。 ま た 、 ど ち ら の 方 法 も 乱 数 初 期 値 よ り よ い 結 果 を 与 え る こ と を 実 験 的 に 示 し て い る 。 ま た 、 第 3 章 、 第 4 章 で 提 案 し た 手 法 に こ の 初 期 値 決 定 法 を 適 用 し た 場 合 の 効 果 に つ い て 論 じ て い る 。
第 6 章 で は 、 本 論 文 全 体 が ま と め ら れ 、 今 後 行 う べ き 課 題 が 列 挙 さ れ て い る 。
(Separate Form 3)
審 査 会 で は 出 願 者 か ら 論 文 全 体 に つ い て 発 表 が な さ れ 、 そ の 後 の 質 疑 に お い て も 適 切 な 回 答 が な さ れ た 。 本 博 士 論 文 で は 、 音 楽 信 号 の 音 源 分 離 と い う 問 題 に 対 し て 、 楽 音 の ス ペ ク ト ロ グ ラ ム を 非 負 値 行 列 因 子 分 解 に よ り モ デ ル 化 す る と い う 一 貫 し た ア プ ロ ー チ に 基 づ き 、 多 チ ャ ン ネ ル ブ ラ イ ン ド 条 件 、 な ら び に シ ン グ ル チ ャ ン ネ ル 教 師 あ り 条 件 に お い て 、 新 規 で 効 果 的 な 音 源 分 離 ア ル ゴ リ ズ ム を 導 出 し て お り 、当 該 分 野 に 大 き く 貢 献 し て い る 。ま た 、 従 来 手 法 と の 比 較 実 験 に よ り 提 案 法 の 有 用 性 を 示 す に と ど ま ら ず 、 ス ペ ク ト ロ グ ラ ム の 低 ラ ン ク 性 と い う 着 眼 点 の 確 認 か ら 分 離 音 の 品 質 の 主 観 評 価 ま で 、 実 験 的 検 証 が 非 常 に 豊 富 に 行 わ れ て お り 、 論 述 に も 説 得 力 が あ る 。 ま た 、 本 論 文 の 内 容 は 当 該 分 野 の ト ッ プ ジ ャ ー ナ ル に
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka and Hiroshi Saruwatari, "Determined Blind Source Separation Unifying Independent Vector Analysis and Nonnegative Matrix Factorization," IEEE/ACM Trans. Audio, Speech and Language Processing, vol. 24, no.9, pp. 1626-1641, Sept. 2016.
と い う 査 読 付 き ジ ャ ー ナ ル 論 文 と し て す で に 掲 載 さ れ て い る 他 、 出 願 者 が 主 著 者 で あ る 4 編 の 査 読 付 き 国 際 会 議 論 文 が す で に 掲 載 さ れ て い る 。
以 上 よ り 本 論 文 は 、 博 士 学 位 を 与 え る に 十 分 な 水 準 に 達 し て い る と 、 審 査 委 員 全 員 一 致 で 認 め ら れ た 。