第 2 章 研究 I 薬物―標的タンパク質相互作用ネットワークからの副作用の機序
2.2 方法
2.2.3 スパース正準相関分析
正準相関分析により定められる重みベクトルα, β の大部分の要素は0でない。本研究 では、重みベクトルαとβ の要素のうち正の値をとるものを取得し、その要素に該当す る標的タンパク質と副作用キーワードの集合を相関成分として抽出するが、標準のCCA では多くの標的タンパク質や副作用キーワードを相関成分に抽出することになり、結果 的に相関成分の特徴付けを行うのに困難を生じる。実際の応用には、p種の特徴とq種の 特徴のそれぞれで、正準相関係数の最大化に顕著に寄与しているもののみに高い重みを 定め、それ以外の要素には重み0を定めるような「疎」な重みベクトルαとβを見つけ ることが望ましい。このような問題を解決するためにαとβ にスパース性を課す手法が 開発された[70]。この新しい手法はスパース正準相関分析(sparse canonical correlation
analysis; SCCA)と呼ばれる。これに比して、本研究では以降、従来の正準相関分析を
ordinary canonical correlation analysis(OCCA)と呼ぶ事にする。
SCCA では重みベクトルα, βの定め方に新たに式(3)のような条件を課すことによ り、ほとんどの要素には0の重みが与えられる。
(式の導出とアルゴリズム)
αとβにスパース性を課すために、以下のようにL1 正則化の条件を加えて、上記の最大 化問題を考える。
max{αTXTYβ} s.t.
||α||22 = 1, ||β||22 = 1, ||α||1 ≤c1√
p, ||β||1 ≤c2√
q (3)
ここで|| · ||1 は L1 ノルム(ベクトル要素の絶対値の和)であり、c1 と c2 (0< c1 ≤1,
0< c2 ≤1) はスパース性を調整するパラメータである。式(3)は、行列Z = XTY の
ペナルティ付き行列分解(penalized matrix decomposition)に帰着される [70]。 この行列分解の解は複数存在しうるため、反復的に出力するアルゴリズムを用いた。す なわち、
Z(k+1)←Z(k)−dkαkβTk, Z(1) =XTY (4) こ こ で Z(k) は k 回 目 の 入 力 で あ る 。最 終 的 な 出 力 と し て m 個 の 重 み ベ ク ト ル (α1,β1), . . . ,(αm,βm)を得る。
図5は標的タンパク質と副作用キーワードに与えられた重みをOCCAとSCCA で比 較している。OCCA ではほとんどの標的タンパク質と副作用キーワードに非ゼロの重み を与えているのに比べ、SCCAでは限られた数の標的タンパク質と副作用キーワードにの み正の重みが与えられているのが分かる。尚、正準相関分析ではm個の相関成分(CC) を得ることができるが、図5の例では上位8個のCCのみを表示している。
ここで、副作用が未知の薬物について、標的タンパク質プロファイル xnew から潜在 的な副作用プロファイルynew を予測することを考える。予測スコアは、上記で定めた {αk}mk=1 および {βk}mk=1 を用いて、次のように定義した[52]。
ynew =
∑m k=1
βkρkαTkxnew =BΛATxnew (5) ただし、A = [α1, . . . ,αm], B = [β1, . . . ,βm]で、Λは正準相関係数を対角要素とする対 角行列である。
ynew のj 番目の要素が高いスコアを持つ時、この薬物はj 番目(j = 1,2, . . . , q)の副 作用を有すると予測される。
0 500 1000 1500
−0.50.00.5
OCCA weight for target proteins
Target protein index
Weight
CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8
0 500 1000 1500
−0.50.00.5
OCCA weight for side−effects
Side−effect index
Weight
CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8
0 500 1000 1500
−0.50.00.5
SCCA weight for target proteins
Target protein index
Weight
CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8
0 500 1000 1500
−0.50.00.5
SCCA weight for side−effects
Side−effect index
Weight
CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8
図5 OCCAとSCCAの出力の比較
各プロットの横軸は重みベクトルαのインデックス(標的タンパク質に対応)あるい は重みベクトルβのインデックス(副作用キーワードに対応)を示し、縦軸は重みの数 値を示す。図では例としてCC1からCC8までの8つのCCのみを表示している。1 段目. OCCAを適用したときの標的タンパク質の重み(αの値)。2段目. OCCAを 適用したときの副作用キーワードの重み(βの値)。3段目. SCCAを適用したときの 標的タンパク質の重み(αの値)。4段目. SCCAを適用したときの副作用キーワード