人工知能補足_池村

(1)

私くしにとって、生涯の指針となっている木村先生の教え

1. 想定外の発見の重要性

à unsupervised data mining for big data

2. 技術への信頼と技術開発の重要性。

2D gel

à

BLSOM

2D gel 遺伝子の時代 コドン BLSOM ゲノムの時代 オリゴヌレオチド

(2)

tRNA

の

二次元

分離：

Methods in Enzymology

長さに依存する分離

長

さ

に

依

存

し

な

い

分

離

米国での

_{Post Doc}

の時代

想定外の

高分離能

(3)

Uure Hinf Bhal Bsub Syne Hpyl Tpal Xfas Xfas Vcho Ecol Nmen Nmen Paer Drad Halo Mtub Aper Mthe Aaeo Tmar Paby Phor Chla Cjej Aful Mjan Bbur Buch Rpro 0 0 199 0 111 i j

２９種類の原核⽣物の約６万遺伝子の

コドン使用頻度のBLSOM

想像を遙かに超える分離能であった。実体験

からその能力を

知った。

生命科学分野の大半の

big dataに適用可能。

(4)

非線形写像

漁師の網でかつゴムのように伸び縮みする。一番近い網の結び目に帰属後に、ゴムの伸び縮みを無くす。 X2 X1 XM X2 X1 XM Sequences

Linear projection(ex, PCA) Non-linear projection(SOM)

線形写像

ある平面に対して垂直に移動して、一番近い格子点へ帰属。

多次元空間

のデータをその遠近関係を十分

(5)

PCA

ヒト

,

コウモリ

,

トリ

の

miRNA

の

7mer

のBLSOM

進化学的に（たぶん機能的にも）近い配列を集める：

自己組織化

(6)

細胞A 細胞B 細胞C 細胞D 細胞E 細胞F 細胞G 細胞H Chr1 10kb 断片各染色体のテロメアから断片化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

ヒストンのメチル化やアセチル化

の数値に着目すれば、そ

れらの状態が細胞で異なるゲノム部位が

BLSOMで細胞別

にクラスター化

する。

特定の転写因子の結合レベル

の数値に着目すれば、

その転写因子の結合が細胞で異なるゲノム部位が

BLSOM

で細胞別にクラスター化

する。

各断片での

DNase sensitivity level

の数値に着目

DNase sensitivityが細胞で異なるゲノム部位が

BLSOMで細胞別にクラスター化

する。

(7)

各染⾊体の特定領域（21q22.11内の約45kb）での

ヒストンのメ

チル化やアセチル化

レベルや

DNase sensitivity

_レベルや

_特定の転

写因⼦の結合

レベルが表⽰されている。

数値データも取得可能。

(8)

２００３

（１％）

＆２００７：

ＥＮＣＯＤＥ

ｐｒｏｊｅｃｔ

ヒト

_{DNAの百科事典}

あらゆる機能要素類をゲノム上にマッピングしようという計画

(9)

DNase

で切れやすい場所

転写制御エレメント

計算機予測と実験的検証

転写ＲＮＡ

（protein-coding & noncoding RNA) 遺伝子としては、_noncodingが多い？

ゲノムの3D配置

Histone修飾

DNAメチル化

(10)

(11)

(12)

(13)

(14)

AA AC AD AE AF AG AH AI 2連アミノ酸タンパク質 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

機能カテゴリ

_{(COG)別に高い頻度で分}

離

していた。

11にグループ化させた3連続アミノ酸

頻度を⽤いた⽅が分離能が良い。

アミノ酸配列全⻑を⽤いるよりも、

Window (200 aaに断⽚化)を設けた⽅が分

離能が良い。

BLSOMによるオリゴぺプチド組成

によるアミノ酸配列解析。

(15)

BLSOMは生命科学分野の多様な問題

に適用可能である。

オリゴペプタイド頻度に基づくBLSOMによる

タンパク

質の機能推定法

の確立

タンパク質の

2連や3連アミノ酸 (オリゴペプタイド)

の使用頻度

に関する

_{BLSOMを行うと、}

タンパク質は機能ごとに分離

する傾

向を示した。

(16)

Dipep-FL _{Dipep-W200S50} Tri11-W200S50 得られたSOMマップ上にて、単一のCOGが分類されている点を赤、２つのCOGの場合、薄い赤、3つ以上の場合、青とした際の分類結果の分布図。 ●アミノ酸配列全長を用いるよりも、Window (断片化)を設けた方が分離能が良い。 ●2連続アミノ酸頻度・集約6アミノ酸の4連続アミノ酸頻度を用いるよりも11にグループ化させた3連続アミノ酸頻度を用いた方が分離能が良い。 Tetra6-W200S50

(17)

オリゴペプタイド頻度でのアミノ酸

配列解析の際の条件の検討

1. 解析に使用するアミノ酸組成の検討

• 2連続アミノ酸頻度 • アミノ酸組成を組成別に集約させた2連続 or 3連続頻度 (*下記参照)。 • アミノ酸の集約について • アミノ酸の特徴に基づき、11のグループに集約を行った。

1, Val, Leu, Ile(分枝アミノ酸 ); 2, Thr, Ser(ヒドロキシアミノ酸 ); 3, Asn, Gln (酸アミドアミノ酸 ); 4, Glu, Asp (酸性アミノ酸 ); 5, Lys, Arg, His(塩 基性アミノ酸); 6, Tyr, Phe, Trp (芳香族アミノ酸); 7, Met, 8, Pro, 9, Cys, 10, Ala, 11, Gly.

• アミノ酸の組成に基づき、6のグループに集約を行った場合。

1, Val, Leu, Ile, Met; 2, Tyr, Phe, Trp; 3, Pro, Ala, Gly, Ser, Thr; 4, Asn, Gln, Glu, Asp; 5, Lys, Arg, His; 6, Cys

2. 解析に用いるアミノ酸配列長についての検討

• アミノ酸配列の全長を用いるか。

(18)

便利な

データベース

や

ソフト類

EmEditor

(19)

(20)

(21)

(22)

多様な生物種の合計で約３万のmiRNA配列

出来そうもない課題

に、AIと共に知恵を出し合いながら挑戦する。

miRNAは生命科学で重要な研究対象であり、社会的にも重要と思われている。

無理だと思える様な課題を与えて際に、AIはどの様に

学習をして行くのか、

学習の中間過程を覗いてみる

。

(23)

7 ₆

C型肝炎ウイルス

の増殖には

ヒト

_miRNA

が必要である。

miR-122 miR-122

6merの組成

でみれば、

HCVのこの局所部位と

miR-122とは

3 種類の

6mer

が相補的な関係

にある。

(24)

ヒトの 2500miRNA （約20mer)を分類しておく Ebola, Flu, Zika, Dengue ウイルスゲノム由来の 20mer (両鎖）全体 この様な曖昧さのある相補性は6,7,8や9mer 等の部分的な相補性の高さで評価できる。

AI-guided

search for interactions of

disease

viral RNAs

with

host miRNAs

(25)

X2 X1 XM X2 X1 XM Sequences

Linear projection：_PCA _{Non-linear projection(SOM)}

ヒトmiRNAの6mer組成のPCA 初期状態 機械学習 AIは学習の過程も教えてくれる

(26)

ヒトの 2500miRNA（約 20mer)を分類しておくヒトインフルエンザウイルスゲノム由来の主要な４万の約 20mer (両鎖）合体させてBLSOM学習

機械学習を続けると

ウイルス由来

_の

特定の20merと

miRNA

_との対で

数個

の明瞭に孤立したクラスター

_を形成。

6mer∼10mer組成のいずれのBLSOMでも FluとmiRNAがクラスターを形成する対を 検出。

(27)

0 0.2 0.4 0.6 0.8 1 1930 1950 1970 1990 2010 ヒトのmiRNAがウイルスの増殖 に役立つとしても、ヒトの miRNA側が、トリから侵入した ばかりのウイルスに最適な配列 を提供していない可能性が高い? TCCAGTGACTGTTGATGGAG TCCAGTAACTGTTGATGGAG TCCAGTAAATGTTGATGGAG TCCAGTGTATGTTGATGGAG 下線：ヒトmiRNA 下線：トリmiRNA 0 0.2 0.4 0.6 0.8 1 1930 1940 1950 1960 1970 1980 1990 2000 2010

(28)

UCCAGUG

UA

UGUUGAUGGAG

1934 major

:

トリmiRNA (11/11)

UCCAGU

A

UGUUGAUGGAG

1978 major

UCCAGU

A

ACUGUUGAUGGAG

1983 major

UCCAGUG

AC

UGUUGAUGGAG

1995以降 major

:

ヒトmiRNA (11/11)

(UCCA

A

UGACUGUUGAUGGAG)

2006と2007 minorで2008に消えた。

22.2 22.7 23.2 23.7 1930 1950 1970 1990 2010 32.4 32.9 33.4 1930 1940 1950 1960 1970 1980 1990 2000 2010 18.6 19.1 19.6 1930 1950 1970 1990 2010 23.6 24.1 24.6 1930 1950 1970 1990 2010 C% G% U% A%