• 検索結果がありません。

用語集

N/A
N/A
Protected

Academic year: 2021

シェア "用語集"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

ケモインフォマティクス用語集 44 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/

1 分子イメージング いちぶんしいめ

ーじんぐ

Single-molecule imaging

注目する分子を蛍光プローブでラベルし、局所的な 照明光により励起して高感度カメラで撮像すること で、プローブ1 分子からの微弱な蛍光を背景光に埋 もれさせることなく、高いコントラストでイメージ ングする手法。プローブには蛍光色素のほか、ラベ ルする分子と遺伝子的に融合させることができる蛍 光蛋白質も用いられている。細胞底面膜などガラス 基板に近い領域を観る場合、エバネッセント光が照 明として適しており、150 - 200 nm までの高さにあ る分子のみ励起できる。使用されるカメラは現在、 EMCCD、あるいは sCMOS が主流となっている。

上皮成長因子受容体 じょうひせいち

ょういんしじゅようたい

Epidermal

Growth Factor Receptor(EGFR)

マウスの唾液腺から発見された上皮成長因子(EGF) の受容体として、1978 年にヒト癌細胞株で同定され た。いずれも、神経成長因子(NGF)の発見によっ てノーベル賞を受賞した Stanley Cohen らの業績で ある。EGFR は細胞膜に局在する 1 回膜貫通蛋白質 であり、リガンドは細胞外ドメインに結合し、チロ シンリン酸化酵素およびリン酸化領域が細胞内ドメ インにある。二量体のリン酸化はリガンドの結合に よって促進され、細胞内のシグナル伝達経路を活性 化し、増殖のほか、分化、遊走、細胞死など様々な 細胞応答を引き起こす。また、異常な細胞増殖が引 き起こされている癌細胞の多くで、EGFR の変異体 や過剰発現が見られている。

データ駆動科学 でーたくどうかがく

Data-driven science

特に物性研究や材料研究で行われる科学計測で得ら れるデータを起点として、最新の情報科学を用いて 新しい学理構築を目指す科学的研究方法。計測デー タには理論計算と異なり誤差やノイズが重畳するが、 ノイズまでも解析する過学習をさける情報量規準の 考え方が鍵となる。

ベ イ ズ 分 光 べ い ず ぶ ん こ う

Bayesian spectroscopy

科学計測で得られる様々なスペクトルのスペクトル 分解にベイズ推定の枠組みを導入したもの。ベイズ 自由エネルギーを情報量規準として用いることによ り、計測データを説明する物理モデルの選択が可能 で、分解された全てのスペクトル・パラメータの事 後確率分布を評価できる。

レプリカ交換モンテカルロ法 れぷり

か こ う か ん も ん て か る ろ ほ う

Replica-exchange Monte Carlo

method

スペクトル分解では、多数のパラメータを含む物理 モデルでスペクトルを解析するが、パラメータが非 線形で含まれるため、誤差関数はパラメータ空間で 多数の極小値をとり、大域的最適解を探索するのは 困難である。レプリカ交換モンテカルロ法は、その 問題を解決する方法で、ベイズ擬逆温度が異なる複 数のレプリカを用意し、パラメータの状態を事後確 率分布比で確率的に交換して、広いパラメータ空間 を効率よく高速に探索できる。

XAI えっくすえーあい

Explainable Artificial Intelligence の略記号。得られた 予測結果や予測値を算出する過程が人間によって説 明可能な機械学習モデルを指す。部分的最小二乗回 帰 や LASSO 回帰(Least Absolute Shrinkage and Selection Operator)などの線形モデルが XAI の一種 である。モデルが解釈可能なだけではなく、モデル 作成に用いる記述子も後で解釈ができるよう工夫す る必要がある。また、一般的にモデルの精度と解釈 性はトレードオフの関係にある。

フィンガープリント

Fingerprint

指紋という意味の英単語で、ケモインフォマティク

(2)

ケモインフォマティクス用語集

C ICSJ Bulletin Vol.38 (2020) 45 ス分野では分子中の様々な部分構造の有無を0 or 1 で表現した数百~数千次元のベクトルを表す。化合 物ごとに固有のベクトルを持ち、似た化合物は似た ベクトルとなるため化合物同士の類似度を評価する 指標としてよく用いられる。部分構造の定義の仕方 は種類ごとに様々である。例えば Morgan フィンガ ープリントや ECFP4 は中心原子と任意の半径によ って部分構造を定義し、MACCS Keys は化学構造デ ータベースに由来する部分構造が予め定められてい る。

変数選択 へんすうせんたく

機械学習モデルの精度を向上させるため、モデル構 築に用いる変数を必要なもののみに絞る手法。変数 選択の方法として、LASSO 回帰や Boruta などが挙 げられる。LASSO 回帰は L1 正則化項によって標準 回帰係数が0 の変数が多くなるように立式される回 帰手法である。LASSO 回帰で係数が 0 となった変数 を削除して再度機械学習モデルを作成する。Boruta はランダムフォレストに基づいて変数の重要性のラ ンクを付け、物性との相関が低くモデルに重要でな い変数を探索、削除するアルゴリズムのライブラリ ーである。初めに、元の説明変数をランダムに並び 替えた意味の無い変数でデータの説明変数を倍にす る。その後、ランダムフォレストでモデルを構築し、 ランダムに並び替えられた変数よりも重要度が下回 った変数を削除して再度機械学習モデルを構築する。

GAP じーえーぴー

Group Additive Property の略記号。高分子などの大き な系の性質を小さな系の足し合わせで表現する手法。 例として、モノマーや高分子のガラス転移温度や溶 解度パラメータ(SP 値)などの物性を部分構造ごと に経験的に定められたパラメータの足し合わせで推 算する原子団寄与法が挙げられる。近年では、高分 子の記述子をモノマーの記述子を組成で重み付けし た特徴量ベクトルで表現し物性に対する機械学習モ デルを構築する研究も報告されている。

反応条件最適化 はんのうじょうけん

さ い て き か

Reaction condition

optimization

化学反応において、所望の反応を実現したり、高収 率、選択性の反応を進行させたりするために、適当 な実験条件を探索していくこと。一般的に、化学反 応は多くの実験条件を含み、多変量の最適化になる ため多くの試行錯誤を要求される。コンピュータと 数理的なアルゴリズムに基づいてこれを効率的、合 理的に選択していく取り組みが多く行われている。

ワンホットベクター One-hot vector

実数で表現することができない変数を数値的に表現 するために、0 と 1 からなるベクトルに変換した値 のこと。情報科学において一般的に使われる手法の ひとつである。ひとつの変数に対して、オブジェク トの数の次元のベクトルを用意し、該当するオブジ ェクトには1の値を与え、その他の値は0 で埋める。 これによって、ひとつの値のみ 1、残りは 0 のベク トルが生成されることから one-hot vector と呼ばれ る。データを one-hot vector へ変換する操作は、 one-hot encoding とも呼ばれる。

過適合 かてきごう Overfitting

機械学習において、学習データに過剰にフィットし た関数を構築すること。過適合を起こしたデータは 未知データに対する予測性能が低いため、過適合を 避ける必要がある。一般に、過適合を起こしやすい 条件として、学習データが少ない、変数の次元が高 い、非線形性が高いアルゴリズムの適用などが挙げ られる。各機械学習アルゴリズムには、過適合を避 けるための工夫がなされているが、データの数や変 数の次元は、用いるデータセットに左右されるため、 機械学習を用いる場合は適用するデータの性質にも 注意する必要がある。

参照

関連したドキュメント

25 法)によって行わ れる.すなわち,プロスキー変法では,試料を耐熱性 α -アミラーゼ,プロテ

に転換し、残りの50~70%のヘミセルロースやリグニンなどの有用な物質が廃液になる。パ

に転換し、残りの50~70%のヘミセルロースやリグニンなどの有用な物質が廃液になる。パ

しかしマレーシア第2の都市ジョージタウンでの比率 は大きく異なる。ペナン州全体の統計でもマレー系 40%、華人系

微小粒子状物質は、大気中に浮遊する粒径が2.5μm

微小粒子状物質は、大気中に浮遊する粒径が2.5μm

市社協キャラクター「おおつ ひまり ん」の積極的な活用と広報誌紙面の表

クを共有するスライスどうしが互いに 影響を及ぼさない,分離度の高いスラ