ケモインフォマティクス用語集 44 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/
1 分子イメージング いちぶんしいめ
ーじんぐ
Single-molecule imaging
注目する分子を蛍光プローブでラベルし、局所的な 照明光により励起して高感度カメラで撮像すること で、プローブ1 分子からの微弱な蛍光を背景光に埋 もれさせることなく、高いコントラストでイメージ ングする手法。プローブには蛍光色素のほか、ラベ ルする分子と遺伝子的に融合させることができる蛍 光蛋白質も用いられている。細胞底面膜などガラス 基板に近い領域を観る場合、エバネッセント光が照 明として適しており、150 - 200 nm までの高さにあ る分子のみ励起できる。使用されるカメラは現在、 EMCCD、あるいは sCMOS が主流となっている。
上皮成長因子受容体 じょうひせいち
ょういんしじゅようたい
Epidermal
Growth Factor Receptor(EGFR)
マウスの唾液腺から発見された上皮成長因子(EGF) の受容体として、1978 年にヒト癌細胞株で同定され た。いずれも、神経成長因子(NGF)の発見によっ てノーベル賞を受賞した Stanley Cohen らの業績で ある。EGFR は細胞膜に局在する 1 回膜貫通蛋白質 であり、リガンドは細胞外ドメインに結合し、チロ シンリン酸化酵素およびリン酸化領域が細胞内ドメ インにある。二量体のリン酸化はリガンドの結合に よって促進され、細胞内のシグナル伝達経路を活性 化し、増殖のほか、分化、遊走、細胞死など様々な 細胞応答を引き起こす。また、異常な細胞増殖が引 き起こされている癌細胞の多くで、EGFR の変異体 や過剰発現が見られている。
データ駆動科学 でーたくどうかがく
Data-driven science
特に物性研究や材料研究で行われる科学計測で得ら れるデータを起点として、最新の情報科学を用いて 新しい学理構築を目指す科学的研究方法。計測デー タには理論計算と異なり誤差やノイズが重畳するが、 ノイズまでも解析する過学習をさける情報量規準の 考え方が鍵となる。
ベ イ ズ 分 光 べ い ず ぶ ん こ う
Bayesian spectroscopy
科学計測で得られる様々なスペクトルのスペクトル 分解にベイズ推定の枠組みを導入したもの。ベイズ 自由エネルギーを情報量規準として用いることによ り、計測データを説明する物理モデルの選択が可能 で、分解された全てのスペクトル・パラメータの事 後確率分布を評価できる。
レプリカ交換モンテカルロ法 れぷり
か こ う か ん も ん て か る ろ ほ う
Replica-exchange Monte Carlo
method
スペクトル分解では、多数のパラメータを含む物理 モデルでスペクトルを解析するが、パラメータが非 線形で含まれるため、誤差関数はパラメータ空間で 多数の極小値をとり、大域的最適解を探索するのは 困難である。レプリカ交換モンテカルロ法は、その 問題を解決する方法で、ベイズ擬逆温度が異なる複 数のレプリカを用意し、パラメータの状態を事後確 率分布比で確率的に交換して、広いパラメータ空間 を効率よく高速に探索できる。
XAI えっくすえーあい
Explainable Artificial Intelligence の略記号。得られた 予測結果や予測値を算出する過程が人間によって説 明可能な機械学習モデルを指す。部分的最小二乗回 帰 や LASSO 回帰(Least Absolute Shrinkage and Selection Operator)などの線形モデルが XAI の一種 である。モデルが解釈可能なだけではなく、モデル 作成に用いる記述子も後で解釈ができるよう工夫す る必要がある。また、一般的にモデルの精度と解釈 性はトレードオフの関係にある。
フィンガープリント
Fingerprint
指紋という意味の英単語で、ケモインフォマティクケモインフォマティクス用語集
C ICSJ Bulletin Vol.38 (2020) 45 ス分野では分子中の様々な部分構造の有無を0 or 1 で表現した数百~数千次元のベクトルを表す。化合 物ごとに固有のベクトルを持ち、似た化合物は似た ベクトルとなるため化合物同士の類似度を評価する 指標としてよく用いられる。部分構造の定義の仕方 は種類ごとに様々である。例えば Morgan フィンガ ープリントや ECFP4 は中心原子と任意の半径によ って部分構造を定義し、MACCS Keys は化学構造デ ータベースに由来する部分構造が予め定められてい る。
変数選択 へんすうせんたく
機械学習モデルの精度を向上させるため、モデル構 築に用いる変数を必要なもののみに絞る手法。変数 選択の方法として、LASSO 回帰や Boruta などが挙 げられる。LASSO 回帰は L1 正則化項によって標準 回帰係数が0 の変数が多くなるように立式される回 帰手法である。LASSO 回帰で係数が 0 となった変数 を削除して再度機械学習モデルを作成する。Boruta はランダムフォレストに基づいて変数の重要性のラ ンクを付け、物性との相関が低くモデルに重要でな い変数を探索、削除するアルゴリズムのライブラリ ーである。初めに、元の説明変数をランダムに並び 替えた意味の無い変数でデータの説明変数を倍にす る。その後、ランダムフォレストでモデルを構築し、 ランダムに並び替えられた変数よりも重要度が下回 った変数を削除して再度機械学習モデルを構築する。
GAP じーえーぴー
Group Additive Property の略記号。高分子などの大き な系の性質を小さな系の足し合わせで表現する手法。 例として、モノマーや高分子のガラス転移温度や溶 解度パラメータ(SP 値)などの物性を部分構造ごと に経験的に定められたパラメータの足し合わせで推 算する原子団寄与法が挙げられる。近年では、高分 子の記述子をモノマーの記述子を組成で重み付けし た特徴量ベクトルで表現し物性に対する機械学習モ デルを構築する研究も報告されている。