私くしにとって、生涯の指針となっている木村先生の教え
1. 想定外の発見の重要性
à unsupervised data mining for big data2. 技術への信頼と技術開発の重要性。
2D gel
à
BLSOM
2D gel 遺伝子の時代 コドン BLSOM ゲノムの時代 オリゴヌレオチドtRNA
の
二次元
分離:
Methods in Enzymology
長さに依存する分離
長
さ
に
依
存
し
な
い
分
離
米国での
Post Doc
の時代
想定外の
高分離能
Uure Hinf Bhal Bsub Syne Hpyl Tpal Xfas Xfas Vcho Ecol Nmen Nmen Paer Drad Halo Mtub Aper Mthe Aaeo Tmar Paby Phor Chla Cjej Aful Mjan Bbur Buch Rpro 0 0 199 0 111 i j
29種類の原核⽣物の約6万遺伝子の
コドン使用頻度のBLSOM
想像を遙かに超える分離能であった。実体験
からその能力を
知った。
生命科学分野の大半の
big dataに適用可能。
非線形写像
漁師の網でかつゴムのように伸び縮 みする。一番近い網の結び目に帰属 後に、ゴムの伸び縮みを無くす。 X2 X1 XM X2 X1 XM SequencesLinear projection(ex, PCA) Non-linear projection(SOM)
線形写像
ある平面に対して垂直に移動 して、一番近い格子点へ帰属。
多次元空間
のデータをその遠近関係を十分
PCA
ヒト
,
コウモリ
,
トリ
の
miRNA
の
7mer
のBLSOM
進化学的に(たぶん機能的にも)近い配列を集める:
自己組織化
細胞A 細胞B 細胞C 細胞D 細胞E 細胞F 細胞G 細胞H Chr1 10kb 断片 各染 色体 のテロ メア か ら断片 化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
ヒストンのメチル化やアセチル化
の数値に着目すれば、そ
れらの状態が細胞で異なるゲノム部位が
BLSOMで細胞別
にクラスター化
する。
特定の転写因子の結合レベル
の数値に着目すれば、
その転写因子の結合が細胞で異なるゲノム部位が
BLSOM
で細胞別にクラスター化
する。
各断片での
DNase sensitivity level
の数値に着目
DNase sensitivityが細胞で異なるゲノム部位が
BLSOMで細胞別にクラスター化
する。
各染⾊体の特定領域(21q22.11内の約45kb)での
ヒストンのメ
チル化やアセチル化
レベルや
DNase sensitivity
レベルや
特定の転
写因⼦の結合
レベルが表⽰されている。
数値データも取得可能。
2003
(1%)
& 2007:
ENCODE
project
ヒト
DNAの百科事典
あらゆる機能要素類をゲノム上にマッピングしようという計画
DNase
で切れやすい場所
転写制御エレメント
計算機予測と実験的検証
転写RNA
(protein-coding & noncoding RNA) 遺伝子としては、noncodingが多い?
ゲノムの3D配置
Histone修飾
DNAメチル化
AA AC AD AE AF AG AH AI 2連アミノ酸 タンパク質 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
機能カテゴリ
(COG)別に高い頻度で分
離
していた。
11にグループ化させた3連続アミノ酸
頻度を⽤いた⽅が分離能が良い。
アミノ酸配列全⻑を⽤いるよりも、
Window (200 aaに断⽚化)を設けた⽅が分
離能が良い。
BLSOMによるオリゴぺプチド組成
によるアミノ酸配列解析。
BLSOMは生命科学分野の多様な問題
に適用可能である。
オリゴペプタイド頻度に基づくBLSOMによる
タンパク
質の機能推定法
の確立
タンパク質の
2連や3連アミノ酸 (オリゴペプタイド)
の使用頻度
に関する
BLSOMを行うと、
タンパク質は機能ごとに分離
する傾
向を示した。
Dipep-FL Dipep-W200S50 Tri11-W200S50 得られたSOMマップ上にて、単一のCOGが分類されている点を赤、2つのCOGの場 合、薄い赤、3つ以上の場合、青とした際の分類結果の分布図。 ●アミノ酸配列全長を用いるよりも、Window (断片化)を設けた方が分離能が良い。 ●2連続アミノ酸頻度・集約6アミノ酸の4連続アミノ酸頻度を用いるよりも11にグ ループ化させた3連続アミノ酸頻度を用いた方が分離能が良い。 Tetra6-W200S50
オリゴペプタイド頻度でのアミノ酸
配列解析の際の条件の検討
1. 解析に使用するアミノ酸組成の検討
• 2連続アミノ酸頻度 • アミノ酸組成を組成別に集約させた2連続 or 3連続頻度 (*下記参照)。 • アミノ酸の集約について • アミノ酸の特徴に基づき、11のグループに集約を行った。1, Val, Leu, Ile(分枝アミノ酸 ); 2, Thr, Ser(ヒドロキシアミノ酸 ); 3, Asn, Gln (酸アミドアミノ酸 ); 4, Glu, Asp (酸性アミノ酸 ); 5, Lys, Arg, His(塩 基性アミノ酸); 6, Tyr, Phe, Trp (芳香族アミノ酸); 7, Met, 8, Pro, 9, Cys, 10, Ala, 11, Gly.
• アミノ酸の組成に基づき、6のグループに集約を行った場合。
1, Val, Leu, Ile, Met; 2, Tyr, Phe, Trp; 3, Pro, Ala, Gly, Ser, Thr; 4, Asn, Gln, Glu, Asp; 5, Lys, Arg, His; 6, Cys
2. 解析に用いるアミノ酸配列長についての検討
• アミノ酸配列の全長を用いるか。
便利な
データベース
や
ソフト類
EmEditor
多様な生物種の合計で約3万のmiRNA配列
出来そうもない課題
に、AIと共に知恵を出し合いながら挑戦する。miRNAは生命科学で重要な研究対象であり、社会的にも重要と思われている。
無理だと思える様な課題を与えて際に、AIはどの様に
学習をして行くのか、
学習の中間過程を覗いてみる
。
7
6
C型肝炎ウイルス
の増殖には
ヒト
miRNA
が必要である。
miR-122 miR-1226merの組成
でみれば、
HCVのこの局所部位と
miR-122とは
3 種類の
6mer
が相補的な関係
にある。
ヒトの 2500miRNA (約20mer)を 分類しておく Ebola, Flu, Zika, Dengue ウイルスゲノム由来の 20mer (両鎖)全体 この様な曖昧さのある相補性は6,7,8や9mer 等の部分的な相補性の高さで評価できる。
AI-guided
search for interactions of
disease
viral RNAs
with
host miRNAs
X2 X1 XM X2 X1 XM Sequences
Linear projection:PCA Non-linear projection(SOM)
ヒトmiRNAの6mer組成のPCA 初期状態 機械学習 AIは学習の過 程も教えてく れる
ヒトの 2500miRNA(約 20mer)を分類し ておく ヒトインフルエンザウ イルスゲノム由来の 主要な4万の約 20mer (両鎖)合体 させてBLSOM学 習
機械学習を続けると
ウイルス由来
の
特定の20merと
miRNA
との対で
数個
の明瞭に孤立したクラスター
を形成。
6mer∼10mer組成のいずれのBLSOMでも FluとmiRNAがクラスターを形成する対を 検出。0 0.2 0.4 0.6 0.8 1 1930 1950 1970 1990 2010 ヒトのmiRNAがウイルスの増殖 に役立つとしても、ヒトの miRNA側が、トリから侵入した ばかりのウイルスに最適な配列 を提供していない可能性が高い? TCCAGTGACTGTTGATGGAG TCCAGTAACTGTTGATGGAG TCCAGTAAATGTTGATGGAG TCCAGTGTATGTTGATGGAG 下線:ヒトmiRNA 下線:トリmiRNA 0 0.2 0.4 0.6 0.8 1 1930 1940 1950 1960 1970 1980 1990 2000 2010
UCCAGUG
UA
UGUUGAUGGAG
1934 major:
トリmiRNA (11/11)UCCAGU
A
A
A
UGUUGAUGGAG
1978 majorUCCAGU
A
ACUGUUGAUGGAG
1983 majorUCCAGUG
AC
UGUUGAUGGAG
1995以降 major:
ヒトmiRNA (11/11)(UCCA
A
UGACUGUUGAUGGAG)
2006と2007 minorで2008に消えた。22.2 22.7 23.2 23.7 1930 1950 1970 1990 2010 32.4 32.9 33.4 1930 1940 1950 1960 1970 1980 1990 2000 2010 18.6 19.1 19.6 1930 1950 1970 1990 2010 23.6 24.1 24.6 1930 1950 1970 1990 2010 C% G% U% A%