• 検索結果がありません。

ゲノムの大規模データを 解析する

N/A
N/A
Protected

Academic year: 2021

シェア "ゲノムの大規模データを 解析する"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

ゲノムの大規模データを 解析する

転写制御領域の解読と設計

矢田 哲士

九州工業大学大学院情報工学研究院

ytetsu@bio.kyutech.ac.jp

(2)

研究グループ

鈴木 穰

(東大・新領域)

入江 拓磨

(東大・新領域)

谷口 丈晃

(三菱総研)

(3)

Our data (Irie et al. in prep.)

ヒトプロモーター

( ∼ 1,100-nt) EF1a1,GAPDH,DDX5

39,000

28,000

16,000 muts / wt

突然変異率: 1.64, 1.59, 1.82 %

置換

(92%),挿入 (1%),欠失 (7%)

を導入

HEK293

での転写強度を測定

(4)

なぜ

EF1a1

GAPDH

DDX5

(IHGC 2001)

GC

含量: 59.3, 64.9, 63.3 %

TATA box

HEK293

で強い転写活性

(5)

導入された変異のスペクトル

(EF1a1

プロモーター

)

2 3 4 5 6

A>CA>GA>TA>- C>AC>GC>TC>- G>AG>CG>TG>- T>AT>CT>GT>-

log10(# of degree)

Substitutions & deletions

0 1 2 3 4

1 2 3 4 5

log10(# of degree)

Insertion length

(6)

導入された変異の位置的な分布

(EF1a1

プロモーター

)

1 2 3 4 5

0 100 200 300 400 500 600 700 800 900 1000 1100

log10(# of mutations)

Position

Ins Del Sub

(7)

転写強度のダイナミックレンジ

(EF1a1

プロモーター

)

0.00 0.05 0.10 0.15 0.20

0.0 1.0 2.0 3.0 4.0 5.0

Frequency

Transcriptional strength mut

wt

(8)

Quantitative sequence-activity modeling (QSAM) (Jonsson 1993)

log Y = B + ∑

b , i

A bi X bi

A

bi 位置

i

の塩基

b

の転写への寄与

X

bi 位置

i

の塩基が

b

ならば

1

,そうでなければ

0

B

転写のベースライン

(9)

説明変数の選択

LASSO (Tibshirani 1996)

Least-square linear regression problem with regularization by the l

1

-norm

min

( β

0

,β ) ∈R

p+1

 

 1 2N

N

i = 1

(y i − β 0x T

i β ) 2 + λ P( β )

 



where

P( β ) = ||β|| l

1

=

p

j = 1

j |

(10)

BOLASSO (BOotstrap LASSO)

各変数が選択される頻度から、各々の回 帰への寄与を推定

(Bach 2008)

選択頻度の高い変数から順に、回帰に関 連のあるものを決定

(Rohart 2011)

帰無仮説:

i

番目以降の変数は関連がない 帰無仮説が棄却される限り

i

を増やす

(11)

回帰モデルの導出

粗視モデル

構造化

微視モデル

TFBS

各位置における塩基,欠失,挿入配列長の 転写強度への寄与

スペーサー

野生型のスペーサー配列長との差

(絶対値)

転写強度への寄与

(12)

転写強度の回帰モデル

(EF1a1

プロモーター

)

(13)

アノテーションと比べる

(EF1a1

プロモーター

)

TATA

EFP1 EFP2

TSS

Sp1

Sp1 Sp1

(14)

転写強度の回帰モデルの性能

Model Promoter # of

R

param.

EF1a1 314 0.655 GAPDH 254 0.649 DDX5 116 0.606

†10分割クロス検定

EF1a1 GAPDH DDX5

(15)

転写強度を高める

(EF1a1

プロモーター

)

ATGTCGTGTA

ACGACATGTA

TFBS Str. Score

Core Matrix Seq.

V$CPHX 01 − 0.985 0.650 agTGATGtcgtgta V$GRE C + 0.952 0.789 gtgatgtcgtGTACTg V$SP100 04 + 0.928 0.886 gaTGTCGtgtactgg V$RHOX11 01 + 0.904 0.745 aaagtGATGTcgtgtac

TFBS Str. Score

Core Matrix Seq.

V$CREB1 Q6 − 1.000 0.952 agTGACGacatg V$IRX2 01 + 1.000 0.915 tgacgACATGtactggc V$IRX2 01 − 1.000 0.907 gtgacgaCATGTactgg V$GRE C + 0.952 0.852 gtgacgacatGTACTg

(16)

野生型配列を改変する

(EF1a1

プロモーター

)

ATGTCGTGTA

0. wt

1. − 250T>C 2. − 248T>A 3. − 246G>A

4. − 250T>C, − 248T>A 5. − 250T>C, − 246G>A 6. − 248T>A, − 246G>A

7. − 250T>C, − 248T>A, − 246G>A

Luciferase reporter assay

(17)

転写強度は高められたか?

(EF1a1

プロモーター

)

0.8 1.0 1.2 1.4 1.6

wild type -250T>C-248T>A-246G>A

-250T>C,-248T>A-250T>C,-246G>A-248T>A,-246G>A -250T>C,-248T>A,-246G>A

Relative transcriptional activity

Promoters

(18)

実験結果を説明できるか?

(EF1a1

プロモーター

)

Obs. Calc. # TFBS Score Promoter 1.00 1.05 — V$SP100 04 0.89 wt 1.21 1.18 907 V$SP100 04 0.95 −250T>C 1.24 1.28 330 V$CREB1 Q6 0.98 −248T>A 1.40 1,28 389 V$CREB1 Q6 0.93 −246G>A

1.20 1.42 9 V$CREB1 Q6 0.94 −250T>C,−248T>A 1.51 1.41 7 V$CREB1 Q6 1.00 −250T>C,−246G>A 0.85 1.51 1 V$IRX2 01 0.92 −248T>A,−246G>A

1.37 1.65 0 V$CREB1 Q6 0.95 −250T>C,−248T>A,−246G>A

(19)

転写強度を高める(2)

(EF1a1

プロモーター

)

GGTGGGGGA

GGTGGGGGC

TFBS Str. Score

Core Matrix Seq.

V$IK Q5 + 1.000 0.894 tggGGGAGaa

V$MUSCLEINI B − 1.000 0.877 ttcccgaGGGTGggggagaac V$GRE C − 1.000 0.801 gAGAACcgtatataag V$TATA 01 − 0.936 0.884 gagaaccgTATATaa V$HELIOSA 02 + 0.853 0.873 tggGGGAGaac

TFBS Str. Score

Core Matrix Seq.

V$EGR1 Q6 + 1.000 0.953 gtGGGGGcga

V$MUSCLEINI B − 1.000 0.890 ttcccgaGGGTGggggcgaac V$TATA 01 − 0.936 0.885 gcgaaccgTATATaa V$MYB 05 + 0.881 0.855 gggcgaaCCGTAtataa

(20)

GCGCGGGGTAAACTGGGAA

GCGCGGTGTAAACTGGGAA

TFBS Str. Score

Core Matrix Seq.

V$CHCH 01 + 1.000 0.989 CGGGGt V$E2F Q6 01 − 1.000 0.838 aggTGGCGcggg V$ZFP161 04 − 1.000 0.748 gaaggtgGCGCGgg V$HOXD12 01 + 1.000 0.715 gcgcgggGTAAActggg

TFBS Str. Score

Core Matrix Seq.

V$TBX5 01 + 1.000 0.886 cgcGGTGTaaac V$E2F Q6 01 − 1.000 0.838 aggTGGCGcggt V$ZFP161 04 − 1.000 0.751 gaaggtgGCGCGgt V$HOXD12 01 + 1.000 0.716 gcgcggtGTAAActggg V$RHOX11 01 + 0.910 0.905 ggcgcGGTGTaaactgg

(21)

転写強度は高められたか?(2)

(EF1a1

プロモーター

)

0.8 1.0 1.2 1.4 1.6

wild type -211A>C -268G>T

Relative transcriptional activity

Promoters

(22)

TFBS

は交換できるか?

TATA boxes EF1a1

GAPDH

DDX5

(23)

まとめ

大規模な変異型プロモーターの塩基配列 と転写強度を同時に測定

ヒト

GC-rich

プロモーターの転写強度を 推定する回帰モデルを導出

回帰モデルに基づいたプロモーター配列 の改変に成功

(24)

次のステップ

GC-r ich

AT -r ich

√ — TATA-containing

— — TATA-less

ゲノムワイド,組織(培養)細胞ワイド メチル化,ヒストン修飾,

クロマチン構造

参照

関連したドキュメント

WAV/AIFF ファイルから BR シリーズのデータへの変換(Import)において、サンプリング周波 数が 44.1kHz 以外の WAV ファイルが選択されました。.

メイン プログラムウィンドウでの作業 [スタート] → [すべてのプログラム] → [Acronis] → [PrivacyExpert] → [Acronis Pricacy Expert

LLVM から Haskell への変換は、各 LLVM 命令をそれと 同等な処理を行う Haskell のプログラムに変換することに より、実現される。

図 3.1 に RX63N に搭載されている RSPI と簡易 SPI の仕様差から、推奨する SPI

・少なくとも 1 か月間に 1 回以上、1 週間に 1

① Google Chromeを開き,画面右上の「Google Chromeの設定」ボタンから,「その他のツール」→ 「閲覧履歴を消去」の順に選択してください。.

生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・

図表の記載にあたっては、調査票の選択肢の文言を一部省略している場合がある。省略して いない選択肢は、241 ページからの「第 3