• 検索結果がありません。

第 3 章 研究 II 薬物有害事象の疫学データを用いた副作用分類と薬剤疫学的特徴付け 58

3.2 方法

3.2.4 バイクラスタの同定

バイクラスタリングでは一般に、バイクラスタの厳密性とカバレージとの間にトレード オフを伴う。すなわち、バイクラスタの厳密性を上げようとすれば、そのサイズは小さく なり、データ全体に占める割合も低くなる。逆に厳密性を下げればカバレージは上がる が、バイクラスタには多くのノイズが含まれることになる。ここで言う厳密性とは、バイ クラスタ内の数値変動をどれくらい均一にするかの程度をいう。さらには、バイクラスタ リングは教師無しの手法であるため、厳密性を調整するパラメータを最適化する一般的な 枠組みが無い。そのため、データから意味のある情報を抽出するには、バイクラスタの厳 密性とカバレージとのバランスをモニタリングして慎重に行う必要がある。本研究では [32]の手法を採用し、ISAのワークフロー内で使用するパラメータthr.rowthr.colを複 数設定することにした。

まず、3.2.1で作成した、副作用を行、薬物を列とする1,374×1,317行列を行ごとに正 規化した。ここでは、異なる副作用間で数値変動のパターンを比較するために、行ごとに 正規化を行った。次に、行の閾値であるthr.rowを1から5の範囲で0.5刻みに設定し た。列の正規化はせず、そのため行より閾値の幅を広く取り、thr.colは2から20の範囲 で2刻みに設定した。また、開発者の奨励するフィルタリング手法を用いて堅牢なもの

(再現性の高いもの)をフィルタリングした。

thr.rowthr.col の最適値は、バイクラスタのカバレージと厳密性をモニタリング

しながら慎重に決定した。ここでは、全バイクラスタに抽出される副作用の総数と薬 物の総数をカバレージの指標とし thr.rowthr.col を上げ、最終的に行側の閾値を 3≤thr.row 5に、列側の閾値を2≤thr.col 10に決定した(図14)。

異なる複数の閾値を用いてバイクラスタを抽出したため、得られたクラスタは非常に冗 長であった。そのため、ISAアルゴリズムの冗長除去関数を用いて冗長なバイクラスタを 削除した(図15)。このとき、類似度が0.8であるバイクラスタ同士を同一のものと見な した。

02004006008001000

Number of biclusters, DRUGs and REACs at different sets of thr.row and thr.col

1_21_41_61_81_101_121_141_161_181_201.5_21.5_41.5_61.5_81.5_101.5_121.5_141.5_161.5_181.5_202_22_42_62_82_102_122_142_162_182_202.5_22.5_42.5_62.5_82.5_102.5_122.5_142.5_162.5_182.5_203_23_43_63_83_103_123_143_163_183_203.5_23.5_43.5_63.5_83.5_103.5_123.5_143.5_163.5_183.5_204_24_44_64_84_104_124_144_164_184_204.5_24.5_44.5_64.5_84.5_104.5_124.5_144.5_164.5_184.5_205_25_45_65_85_105_125_145_165_185_20 20406080

Number of DRUGs Number of REACs Number of biclusters

Set of thr.row and thr.colParameter grid

2 4 6 8 10 12 14 16 18 20

thr.row (side effect) thr.col (drug)

1.0 2.0 3.0 4.0 5.0

thr.col (drug) thr.row (side effect)

Number of biclusters, drugs and side effects at different sets of thr.col & thr.row

Number of biclusters

Number of drugs Number of side effects

Op#mal  parameters  were  set  to  3  ≤  thr.row  ≤  5  and  2  ≤  thr.col  ≤  10

14 ISAアルゴリズムでのパラメータ最適化1

同定されるバイクラスタの厳密性を調整する2つのパラメータのうち、行のパラメー thr.row1から5の範囲で0.5刻みに設定し、列のパラメータthr.col2から 20の範囲で2刻みに設定した。thr.rowthr.colが取りうる全90通りの数値の組み 合わせのそれぞれに対して、同定されたバイクラスタの数(黒)をプロットした。バ イクラスタ数は各thr.rowの中でthr.colの増加に伴って増減し、その増減パターンは

thr.row3以上で比較的安定する。また、該当するバイクラスタ数に現れる副作用の

総数(赤)と薬物の総数(青)をプロットしたところ、thr.rowが増加するに従って副 作用数が減少する傾向は明らかであるが、それぞれの増減の中で特にthr.col= 10 超える付近で副作用数が急速に減少する。このことから、副作用の総数を保持しながら バイクラスタの厳密性を高めるためのパラメータの最適値として、3 ≤thr.row 5 2≤thr.col≤10と定めた。

02004006008001000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 100150200250300 Number of biclusters, DRUGs and REACs

at different thr.similarity

Number of DRUGs Number of REACs Number of biclusters

Thr.similarity

Number of biclusters, drugs and side effects at different sets of thr.similarity

thr.similarity

Number of drugs Number of side effects Number of biclusters

Op#mal  parameter  was  set  to  thr.similarity  =  0.8

15 ISAアルゴリズムでのパラメータ最適化2

バイクラスタの厳密性を調整する2つのパラメータであるthr.rowthr.colを複数の 値で設定したために、冗長なバイクラスタが同定された。冗長性の尺度として、バイク ラスタ間の類似性スコアthr.similarityを定め、thr.similarity 0.1から0.9の範囲 で調整した。そのときのバイクラスタの数(黒)と、該当する副作用の総数(赤色)お よび薬物の総数(青)をプロットした。副作用の総数と薬物の総数をできるだけ多く保 持しながら冗長バイクラスタを削除する必要があるため、バイクラスタの数が急速に増 加するthr.similarity = 0.8 を最適な類似度スコアと定めた。