• 検索結果がありません。

人工知能補足_池村

N/A
N/A
Protected

Academic year: 2021

シェア "人工知能補足_池村"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

私くしにとって、生涯の指針となっている木村先生の教え

1. 想定外の発見の重要性

à unsupervised data mining for big data

2. 技術への信頼と技術開発の重要性。

2D gel

à

BLSOM

2D gel 遺伝子の時代 コドン BLSOM ゲノムの時代 オリゴヌレオチド

(2)

tRNA

二次元

分離:

Methods in Enzymology

長さに依存する分離

米国での

Post Doc

の時代

想定外の

高分離能

(3)

Uure Hinf Bhal Bsub Syne Hpyl Tpal Xfas Xfas Vcho Ecol Nmen Nmen Paer Drad Halo Mtub Aper Mthe Aaeo Tmar Paby Phor Chla Cjej Aful Mjan Bbur Buch Rpro 0 0 199 0 111 i j

29種類の原核⽣物の約6万遺伝子の

コドン使用頻度のBLSOM

想像を遙かに超える分離能であった。実体験

からその能力を

知った。

生命科学分野の大半の

big dataに適用可能。

(4)

非線形写像

漁師の網でかつゴムのように伸び縮 みする。一番近い網の結び目に帰属 後に、ゴムの伸び縮みを無くす。 X2 X1 XM X2 X1 XM Sequences

Linear projection(ex, PCA) Non-linear projection(SOM)

線形写像

ある平面に対して垂直に移動 して、一番近い格子点へ帰属。

多次元空間

のデータをその遠近関係を十分

(5)

PCA

ヒト

,

コウモリ

,

トリ

miRNA

7mer

のBLSOM

進化学的に(たぶん機能的にも)近い配列を集める:

自己組織化

(6)

細胞A 細胞B 細胞C 細胞D 細胞E 細胞F 細胞G 細胞H Chr1 10kb 断片 各染 色体 のテロ メア か ら断片 化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

ヒストンのメチル化やアセチル化

の数値に着目すれば、そ

れらの状態が細胞で異なるゲノム部位が

BLSOMで細胞別

にクラスター化

する。

特定の転写因子の結合レベル

の数値に着目すれば、

その転写因子の結合が細胞で異なるゲノム部位が

BLSOM

で細胞別にクラスター化

する。

各断片での

DNase sensitivity level

の数値に着目

DNase sensitivityが細胞で異なるゲノム部位が

BLSOMで細胞別にクラスター化

する。

(7)

各染⾊体の特定領域(21q22.11内の約45kb)での

ヒストンのメ

チル化やアセチル化

レベルや

DNase sensitivity

レベルや

特定の転

写因⼦の結合

レベルが表⽰されている。

数値データも取得可能。

(8)

2003

(1%)

& 2007:

ENCODE

project

ヒト

DNAの百科事典

あらゆる機能要素類をゲノム上にマッピングしようという計画

(9)

DNase

で切れやすい場所

転写制御エレメント

計算機予測と実験的検証

転写RNA

(protein-coding & noncoding RNA) 遺伝子としては、noncodingが多い?

ゲノムの3D配置

Histone修飾

DNAメチル化

(10)
(11)
(12)
(13)
(14)

AA AC AD AE AF AG AH AI 2連アミノ酸 タンパク質 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

機能カテゴリ

(COG)別に高い頻度で分

していた。

11にグループ化させた3連続アミノ酸

頻度を⽤いた⽅が分離能が良い。

アミノ酸配列全⻑を⽤いるよりも、

Window (200 aaに断⽚化)を設けた⽅が分

離能が良い。

BLSOMによるオリゴぺプチド組成

によるアミノ酸配列解析。

(15)

BLSOMは生命科学分野の多様な問題

に適用可能である。

オリゴペプタイド頻度に基づくBLSOMによる

タンパク

質の機能推定法

の確立

タンパク質の

2連や3連アミノ酸 (オリゴペプタイド)

の使用頻度

に関する

BLSOMを行うと、

タンパク質は機能ごとに分離

する傾

向を示した。

(16)

Dipep-FL Dipep-W200S50 Tri11-W200S50 得られたSOMマップ上にて、単一のCOGが分類されている点を赤、2つのCOGの場 合、薄い赤、3つ以上の場合、青とした際の分類結果の分布図。 ●アミノ酸配列全長を用いるよりも、Window (断片化)を設けた方が分離能が良い。 ●2連続アミノ酸頻度・集約6アミノ酸の4連続アミノ酸頻度を用いるよりも11にグ ループ化させた3連続アミノ酸頻度を用いた方が分離能が良い。 Tetra6-W200S50

(17)

オリゴペプタイド頻度でのアミノ酸

配列解析の際の条件の検討

1. 解析に使用するアミノ酸組成の検討

• 2連続アミノ酸頻度 • アミノ酸組成を組成別に集約させた2連続 or 3連続頻度 (*下記参照)。 • アミノ酸の集約について • アミノ酸の特徴に基づき、11のグループに集約を行った。

1, Val, Leu, Ile(分枝アミノ酸 ); 2, Thr, Ser(ヒドロキシアミノ酸 ); 3, Asn, Gln (酸アミドアミノ酸 ); 4, Glu, Asp (酸性アミノ酸 ); 5, Lys, Arg, His(塩 基性アミノ酸); 6, Tyr, Phe, Trp (芳香族アミノ酸); 7, Met, 8, Pro, 9, Cys, 10, Ala, 11, Gly.

• アミノ酸の組成に基づき、6のグループに集約を行った場合。

1, Val, Leu, Ile, Met; 2, Tyr, Phe, Trp; 3, Pro, Ala, Gly, Ser, Thr; 4, Asn, Gln, Glu, Asp; 5, Lys, Arg, His; 6, Cys

2. 解析に用いるアミノ酸配列長についての検討

• アミノ酸配列の全長を用いるか。

(18)

便利な

データベース

ソフト類

EmEditor

(19)
(20)
(21)
(22)

多様な生物種の合計で約3万のmiRNA配列

出来そうもない課題

に、AIと共に知恵を出し合いながら挑戦する。

miRNAは生命科学で重要な研究対象であり、社会的にも重要と思われている。

無理だと思える様な課題を与えて際に、AIはどの様に

学習をして行くのか、

学習の中間過程を覗いてみる

(23)

7

6

C型肝炎ウイルス

の増殖には

ヒト

miRNA

が必要である。

miR-122 miR-122

6merの組成

でみれば、

HCVのこの局所部位と

miR-122とは

3 種類の

6mer

が相補的な関係

にある。

(24)

ヒトの 2500miRNA (約20mer)を 分類しておく Ebola, Flu, Zika, Dengue ウイルスゲノム由来の 20mer (両鎖)全体 この様な曖昧さのある相補性は6,7,8や9mer 等の部分的な相補性の高さで評価できる。

AI-guided

search for interactions of

disease

viral RNAs

with

host miRNAs

(25)

X2 X1 XM X2 X1 XM Sequences

Linear projectionPCA Non-linear projection(SOM)

ヒトmiRNAの6mer組成のPCA 初期状態 機械学習 AIは学習の過 程も教えてく れる

(26)

ヒトの 2500miRNA(約 20mer)を分類し ておく ヒトインフルエンザウ イルスゲノム由来の 主要な4万の約 20mer (両鎖)合体 させてBLSOM学 習

機械学習を続けると

ウイルス由来

特定の20merと

miRNA

との対で

数個

の明瞭に孤立したクラスター

を形成。

6mer∼10mer組成のいずれのBLSOMでも FluとmiRNAがクラスターを形成する対を 検出。

(27)

0 0.2 0.4 0.6 0.8 1 1930 1950 1970 1990 2010 ヒトのmiRNAがウイルスの増殖 に役立つとしても、ヒトの miRNA側が、トリから侵入した ばかりのウイルスに最適な配列 を提供していない可能性が高い? TCCAGTGACTGTTGATGGAG TCCAGTAACTGTTGATGGAG TCCAGTAAATGTTGATGGAG TCCAGTGTATGTTGATGGAG 下線:ヒトmiRNA 下線:トリmiRNA 0 0.2 0.4 0.6 0.8 1 1930 1940 1950 1960 1970 1980 1990 2000 2010

(28)

UCCAGUG

UA

UGUUGAUGGAG

1934 major

:

トリmiRNA (11/11)

UCCAGU

A

A

A

UGUUGAUGGAG

1978 major

UCCAGU

A

ACUGUUGAUGGAG

1983 major

UCCAGUG

AC

UGUUGAUGGAG

1995以降 major

:

ヒトmiRNA (11/11)

(UCCA

A

UGACUGUUGAUGGAG)

2006と2007 minorで2008に消えた。

22.2 22.7 23.2 23.7 1930 1950 1970 1990 2010 32.4 32.9 33.4 1930 1940 1950 1960 1970 1980 1990 2000 2010 18.6 19.1 19.6 1930 1950 1970 1990 2010 23.6 24.1 24.6 1930 1950 1970 1990 2010 C% G% U% A%

参照

関連したドキュメント

「技術力」と「人間力」を兼ね備えた人材育成に注力し、専門知識や技術の教育によりファシリ

第4 回モニ タリン グ技 術等の 船 舶建造工 程へ の適用 に関す る調査 研究 委員 会開催( レー ザ溶接 技術の 船舶建 造工 程への 適

はじめに

`XML' framework, and must deˆne the identity of the word over the name-space in the RDF (Resource Description Framework) ˆle corresponding to the datasheet. Once such the deˆnition

人間は科学技術を発達させ、より大きな力を獲得してきました。しかし、現代の科学技術によっても、自然の世界は人間にとって未知なことが

縄 文時 代の 遺跡と して 真脇 遺跡 や御 経塚遺 跡、 弥生 時代 の遺 跡とし て加 茂遺

パターン No.1:平穏な海域で AP オートモードで、舵角 2 度、1 分間に 2 回発生 パターン No.2:やや外乱の多い時、オートモードで、舵角 5 度、1 分間に

機関室監視強化の技術開発,および⾼度なセ キュリティー技術を適用した陸上監視システム の開発を⾏う...