用語集

(1)

ケモインフォマティクス用語集 44 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/



_{1 分子イメージングいちぶんしいめ}

ーじんぐ

Single-molecule imaging

注目する分子を蛍光プローブでラベルし、局所的な照明光により励起して高感度カメラで撮像することで、プローブ1 分子からの微弱な蛍光を背景光に埋もれさせることなく、高いコントラストでイメージングする手法。プローブには蛍光色素のほか、ラベルする分子と遺伝子的に融合させることができる蛍光蛋白質も用いられている。細胞底面膜などガラス基板に近い領域を観る場合、エバネッセント光が照明として適しており、150 - 200 nm までの高さにある分子のみ励起できる。使用されるカメラは現在、 EMCCD、あるいは sCMOS が主流となっている。



_{上皮成長因子受容体じょうひせいち}

ょういんしじゅようたい

Epidermal

Growth Factor Receptor(EGFR)

マウスの唾液腺から発見された上皮成長因子（EGF）の受容体として、1978 年にヒト癌細胞株で同定された。いずれも、神経成長因子（NGF）の発見によってノーベル賞を受賞した Stanley Cohen らの業績である。_{EGFR は細胞膜に局在する 1 回膜貫通蛋白質} であり、リガンドは細胞外ドメインに結合し、チロシンリン酸化酵素およびリン酸化領域が細胞内ドメインにある。二量体のリン酸化はリガンドの結合によって促進され、細胞内のシグナル伝達経路を活性化し、増殖のほか、分化、遊走、細胞死など様々な細胞応答を引き起こす。また、異常な細胞増殖が引き起こされている癌細胞の多くで、EGFR の変異体や過剰発現が見られている。



_{データ駆動科学でーたくどうかがく}

Data-driven science

特に物性研究や材料研究で行われる科学計測で得られるデータを起点として、最新の情報科学を用いて新しい学理構築を目指す科学的研究方法。計測データには理論計算と異なり誤差やノイズが重畳するが、ノイズまでも解析する過学習をさける情報量規準の考え方が鍵となる。



ベイズ分光べいずぶんこう

Bayesian spectroscopy

科学計測で得られる様々なスペクトルのスペクトル分解にベイズ推定の枠組みを導入したもの。ベイズ自由エネルギーを情報量規準として用いることにより、計測データを説明する物理モデルの選択が可能で、分解された全てのスペクトル・パラメータの事後確率分布を評価できる。



レプリカ交換モンテカルロ法れぷり

かこうかんもんてかるろほう

Replica-exchange Monte Carlo

method

スペクトル分解では、多数のパラメータを含む物理モデルでスペクトルを解析するが、パラメータが非線形で含まれるため、誤差関数はパラメータ空間で多数の極小値をとり、大域的最適解を探索するのは困難である。レプリカ交換モンテカルロ法は、その問題を解決する方法で、ベイズ擬逆温度が異なる複数のレプリカを用意し、パラメータの状態を事後確率分布比で確率的に交換して、広いパラメータ空間を効率よく高速に探索できる。



_{XAI えっくすえーあい}

Explainable Artificial Intelligence の略記号。得られた予測結果や予測値を算出する過程が人間によって説明可能な機械学習モデルを指す。部分的最小二乗回帰や _{LASSO 回帰（Least Absolute Shrinkage and} Selection Operator）などの線形モデルが XAI の一種である。モデルが解釈可能なだけではなく、モデル作成に用いる記述子も後で解釈ができるよう工夫する必要がある。また、一般的にモデルの精度と解釈性はトレードオフの関係にある。



フィンガープリント

Fingerprint

指紋という意味の英単語で、ケモインフォマティク

(2)

ケモインフォマティクス用語集

C ICSJ Bulletin Vol.38 (2020) 45 ス分野では分子中の様々な部分構造の有無を0 or 1 で表現した数百～数千次元のベクトルを表す。化合物ごとに固有のベクトルを持ち、似た化合物は似たベクトルとなるため化合物同士の類似度を評価する指標としてよく用いられる。部分構造の定義の仕方は種類ごとに様々である。例えば _{Morgan フィンガ} ープリントや _{ECFP4 は中心原子と任意の半径によ} って部分構造を定義し、_{MACCS Keys は化学構造デ} ータベースに由来する部分構造が予め定められている。



変数選択へんすうせんたく

機械学習モデルの精度を向上させるため、モデル構築に用いる変数を必要なもののみに絞る手法。変数選択の方法として、_{LASSO 回帰や Boruta などが挙} げられる。_{LASSO 回帰は L1 正則化項によって標準} 回帰係数が0 の変数が多くなるように立式される回帰手法である。LASSO 回帰で係数が 0 となった変数を削除して再度機械学習モデルを作成する。Boruta はランダムフォレストに基づいて変数の重要性のランクを付け、物性との相関が低くモデルに重要でない変数を探索、削除するアルゴリズムのライブラリーである。初めに、元の説明変数をランダムに並び替えた意味の無い変数でデータの説明変数を倍にする。その後、ランダムフォレストでモデルを構築し、ランダムに並び替えられた変数よりも重要度が下回った変数を削除して再度機械学習モデルを構築する。



GAP じーえーぴー

Group Additive Property の略記号。高分子などの大きな系の性質を小さな系の足し合わせで表現する手法。例として、モノマーや高分子のガラス転移温度や溶解度パラメータ（SP 値）などの物性を部分構造ごとに経験的に定められたパラメータの足し合わせで推算する原子団寄与法が挙げられる。近年では、高分子の記述子をモノマーの記述子を組成で重み付けした特徴量ベクトルで表現し物性に対する機械学習モデルを構築する研究も報告されている。



_{反応条件最適化はんのうじょうけん}

さいてきか

Reaction condition

optimization

化学反応において、所望の反応を実現したり、高収率、選択性の反応を進行させたりするために、適当な実験条件を探索していくこと。一般的に、化学反応は多くの実験条件を含み、多変量の最適化になるため多くの試行錯誤を要求される。コンピュータと数理的なアルゴリズムに基づいてこれを効率的、合理的に選択していく取り組みが多く行われている。



ワンホットベクター One-hot vector

実数で表現することができない変数を数値的に表現するために、_{0 と 1 からなるベクトルに変換した値} のこと。情報科学において一般的に使われる手法のひとつである。ひとつの変数に対して、オブジェクトの数の次元のベクトルを用意し、該当するオブジェクトには1の値を与え、その他の値は0 で埋める。これによって、ひとつの値のみ 1、残りは 0 のベクトルが生成されることから one-hot vector と呼ばれる。データを one-hot vector へ変換する操作は、 one-hot encoding とも呼ばれる。



_{過適合かてきごう Overfitting}

機械学習において、学習データに過剰にフィットした関数を構築すること。過適合を起こしたデータは未知データに対する予測性能が低いため、過適合を避ける必要がある。一般に、過適合を起こしやすい条件として、学習データが少ない、変数の次元が高い、非線形性が高いアルゴリズムの適用などが挙げられる。各機械学習アルゴリズムには、過適合を避けるための工夫がなされているが、データの数や変数の次元は、用いるデータセットに左右されるため、機械学習を用いる場合は適用するデータの性質にも注意する必要がある。

用語集



1 分子イメージング いちぶんしいめ