• 検索結果がありません。

講座:森林遺伝育種のデータ解析方法(実践編4)ゲノミック予測

N/A
N/A
Protected

Academic year: 2021

シェア "講座:森林遺伝育種のデータ解析方法(実践編4)ゲノミック予測"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

概 要

 ゲノミックセレクション (genomic selection; GS) は Meuwissen et al.(2001)によって提唱された、全ゲノム 情報に基づく育種手法である。発表当時、マーカー支 援選抜 (marker assisted selection; MAS) のジェノタイピ ングコストを下げることを目指す方向性が主流であっ たため、多数座における遺伝子型を利用するGS は現実 的でないと考える向きもあった。しかしその後、大量 の一塩基多型 (single nucleotide polymorphism; SNP) マー カー情報を取得するハードルが下がり、実現可能な手 法となった (Meuwissen 2007)。GS 研究は家畜育種で先 行し、現在、乳牛や肉牛では交配する雄牛・雌牛の選 択にGS が利用されている。作物や林木でも近年研究例 が増加しており、GS による育種の高速化が期待されて いる。  GS を行うためには、多数個体の表現型と、ゲノム 上に高密度に配置されたゲノムワイドマーカー (通常 はSNP)遺伝子型を用いてゲノミック予測 (genomic prediction; GP)モデルを作成する。GP により遺伝子型 情報からゲノミック育種価(GEBV)が得られるため、 訓練集団でGP モデルを作成しておくことにより、評価 集団から遺伝子型のみで(表現型情報なしで)優良個 体の選抜、つまりGS を行うことが可能になる。  GP のモデル化手法としては様々なものが提案されて いる。本稿では 1 )遺伝子型と表現型の関係性を直接 モデル化する手法と、2 )遺伝子型を個体間の近縁関 係に置き換えてから表現型との関係性をモデル化する BLUP (Best Linear Unbiased Prediction)法に基づく手法、 の大きく2 つに整理して、それぞれを順に解説する。 1 )遺伝子型と表現型の関係性をモデル化する手法  ここでは、高密度なゲノムワイドマーカーのうち、 対象形質の原因遺伝子と連鎖不平衡の状態にあるマー カーの遺伝子型によって表現型を説明するモデルを考 える。これを理解するためには、重回帰モデルをイメー ジするとわかりやすい。つまり、個々の遺伝子型 (AA、 Aa、aa)を数値 (例えば 1、0、–1) に置き換えたものを 説明変数とし、これらを線型結合することによって目 的変数である表現型値を表すモデルを作成する。この とき、それぞれのSNP の効果は回帰係数で表現される。 こうした線形回帰モデルによって遺伝子型と表現型を 関係付けることができる。しかし、実際のGP で使用す る遺伝子座数は、少ない場合でも数千、多い場合は10 万を超えるため、説明変数の数がサンプル数よりも格 段に多くなる。つまり、本講座の松下 (2020) の解説に ある“large P, small N” P >> N) 問題が生じる。このよ うな場合、固定効果モデル (通常の重回帰分析) では単 純に解くことができない。これを解決するためにいく つかの方法が提案されている。  そのひとつとして、SNP の効果を変量効果とする線 形混合モデルに基づく方法がある。前回、武津(2021) が解説したとおり、従来の育種においてはBLUP 法に よって育種価を求めるが、ここでは個々のSNP の効果 を求めることになる。そして全てのSNP 効果の線形結 合によってGEBVが得られる。この手法はrrBLUP(ridge regression BLUP)あるいは SNP-BLUP と呼ばれる。そ の名が示すとおり、SNP 効果の解は、次に述べる Ridge 回帰のものと同一の式で表される(ただし通常、罰則 項にかかる正則化パラメータの求め方は異なる)。  P >> N 問題に対処する手法としては、Ridge や Lasso といった正則化回帰の適用がある。前掲の松下(2020) の解説にあるとおり、正則化回帰では回帰モデルに罰 則項を加えて過適合を防ぐ。Ridge 回帰は回帰係数(こ こではSNP 効果)が正規分布に従うとして、Lasso 回 帰では一部の説明変数の効果を0 にすることによって 制約をかける。またGP モデルには、BayesA および B (Meiwissen et al. 2001) や BayesC や C π (Habier et al.

【解 説】講 座

森林遺伝育種のデータ解析方法(実践編

4)ゲノミック予測

岡 裕 一 郎

*, 1 * E-mail: [email protected] 1 ひらおか ゆういちろう 静岡県立農林環境専門職大学生産環境経営学部 森林遺伝育種 第 10 巻(2021) 121 120

(2)

2011)等の Bayesian alphabet と呼ばれる各種ベイズ回帰 も用いられる。このうちBayesA および C は全ての SNP に効果があると仮定するが、その他の手法では一部の回 帰係数を0 にして効果のないものとする。また、効果 のあるSNP の効果については SNP ごとにそれぞれのモ デル化手法によって異なる事前分布を仮定するが、全 てのSNP 効果の分散が等しいとするもの (BayesC およ びC π)や、SNP ごとに分散が異なるとするもの(BayesA およびB)がある。これら回帰モデルのうち、回帰係数 の一部を0 にする Lasso 回帰や BayesB および C πは説 明変数として用いるSNP を選択していることになる。  回帰モデルによる手法とは別に、ランダムフォレス トやサポートベクターマシンといった機械学習(松下 (2019)で解説)による手法も用いられる。優性効果や エピスタシスといった遺伝子の非相加効果がある場合 は、こうした機械学習により遺伝子型と表現型の非線 形な関係をモデル化できるため有効と考えられる(郭・ 岩田 2018)。 2 )BLUP 法に基づく手法  前回の武津(2021)の解説のとおり、BLUP 法では個 体の変量効果(育種価)は系譜情報から作成した相加 的血縁行列(A 行列;additive relationship matrix)によっ て互いに関係づけられ、その分散共分散が推定される。 次に説明する2 つの手法は、この BLUP 法をベースに したもので、遺伝子型情報は個体間の関係性を表す行 列の作成に用いられる。

 個体の遺伝子型情報がある場合、ゲノム関係行列 (G 行 列;genomic relationship matrix ま た は realized

relationship matrix;VanRaden 2008) を求めることができ る。具体的には、各SNP 遺伝子座における遺伝子型(1、 0、–1) と遺伝子頻度を使って計算する。この G 行列を A 行列のかわりに用いる BLUP 法を GBLUP (genomic BLUP)という。GBLUP で用いる G 行列は、A 行列 では考慮できないメンデリアンサンプリングといった アレルの共有状態の情報を含むため、その予測精度は ABLUP より向上すると期待される。なお、GBLUP と 前述のrrBLUP とはモデルの組み立て方は異なるが、両 者は統計学的に同義となる (VanRaden 2008)。つまり、 両者で同じGEBV が得られる。  さらに、G 行列と A 行列を融合した H 行列を作成し、 A 行列のかわりに用いる HBLUP(hybrid BLUP)がある (またはssGBLUP;single-step GBLUP ともいう)。この 手法では遺伝子型情報を持つ個体と持たない個体を一 緒に解析し、系譜情報上は無関係な家系間の関係性を 明らかにしてGEBV を求めることができる。HBLUP は ABLUP と GBLUP の中間的な手法であり、遺伝子型情 報が全くない場合はABLUP、全個体の遺伝子型情報が ある場合はGBLUP となる。林木では系譜情報が既知で ある検定林の一部の個体をジェノタイピングすること で実行可能であるため、HBLUP の有効性は高いと考え られる(岩田2019)。 どの手法を使うか  以上のようにGP のモデル化手法は多様であり、そ れぞれ前提とするモデルによってその特徴は様々であ る。林木育種で対象となる形質は成長、材質、着花性、 病害虫抵抗性等があるが、それぞれの形質の表現型に 対して遺伝子がどう関与するかによってモデル化手法 を選択できる。例えば効果の小さい多数の量的遺伝子 座(quantitative trait loci; QTL)の関与が想定され、分散 成分の多くを相加的遺伝分散が占めるような形質では、 全てのSNP が効果を持つとしてモデル化する rrBLUP (GBLUP)や BayesA 等が適していると考えられる。ま た、少数のQTL が関与している形質については、効果 のあるSNP を選択する Lasso 回帰や BayesB 等の手法の 当てはまりが良いと期待される。遺伝子の非相加効果 がある場合は、前述のとおり機械学習が良いであろう。 しかし、実際のデータに対して適用すると、形質によ る手法間の差異はあまり見られないことが多い(岩田 2019)。そのひとつの要因として、SNP の密度が十分で ないため、1 つの QTL を 1 つの SNP で説明できず、多 くのSNP が QTL の説明に必要となっている状況が考え られる(Meuwissen et al. 2016)。こうした場合、たとえ少 数遺伝子で決定する形質であっても、SNP を選択する 手法がGBLUP などよりも優位にならない可能性がある (Meuwissen et al. 2016)。  したがって、適切なモデル化手法を選択するには、 データセットごとに複数のモデルを適用し、それぞれ の予測精度を比較して最良のものを見出す必要がある。 モデルの予測精度を評価するためには、通常、n 分割交 差検証(n-fold cross-validation)が用いられる(松下(2019) の解説を参照)。具体的には1 つのデータセットをラン ダムにn 分割し、1 つを検証集団、残りの n–1 を訓練集 団としてGP モデルを作成し、検証集団を予測する。こ れをn 分割分行い、検証集団における表現型値と予測 値の相関係数や残差平方和を予測精度とする。 ソフトウェア  GP モデルの作成には多くの R のパッケージが利用可 森林遺伝育種 第 10 巻(2021) 121 120

(3)

能である。例えばrrBLUP や GBLUP は rrBLUP パッケー ジ、正則化回帰にはglmnet パッケージ、ベイズ回帰は BGLR パッケージで実行可能である。 より詳しく勉強する場合には  GP を含む全ゲノム情報を利用した育種全般について 学びたい場合は、細谷・菊池(2016)が比較的平易に 書かれた解説として良い。またMeuwissen et al.(2016) ではGP モデルの基本的な考え方が示されており理解し やすい。武津(2021)も紹介していた広岡(2010)に はGBLUP や HBLUP についてわかりやすく書かれてい る。また、松田ら(2013)では GBLUP、HBLUP とと もにBayesian alphabet のそれぞれの手法を解説している。 岩田(2019)は最近の林木における GS の研究動向をレ ビューしており、それぞれの既往研究で使用されてい るモデル化手法について網羅している。 用語集 正則化パラメータ:正則化回帰モデルにおいて罰則項 (正則化項)の強さを決定する係数。正則化パラメー タを決定する方法として、Mallows’ Cp規準や交差 検証法がある(鈴木2018)。rrBLUP において正則化 パラメータは残差分散とSNP 効果の分散の比とな り(VanRaden 2008)、制限付き最尤法(REML 法) 等で推定する。 引用文献 武津英太郎(2021)森林遺伝育種のデータ解析方法(実 践編3)BLUP 法.森林遺伝育種 10: 49–53 郭 威・岩田洋佳(2018)ゲノミックセレクションおよ びハイスループットフェノタイピングを用いた作物 育種の効率化・高速化.光合成研究28: 1–14

Habier D, Fernando RL, Kizilkaya K, Garrick DJ (2011) Extension of the bayesian alphabet for genomic selection. BMC Bioinformatics 12: 186

広岡博之(2010)家畜の育種価推定の変遷-選抜指 数法からゲノム選抜法まで-.The Journal of Animal Genetics 38: 93–98 細谷 将・菊池 潔(2016)これからの水産育種 : ゲノ ム予測による新たな育種の取り組み.水産育種46: 1–14 岩田洋佳(2019)林木のゲノミック選抜: 現状と展望 . 森林遺伝育種8: 32–39 松田洋和・谷口幸雄・祝前博明(2013)代表的なゲノ ム育種価予測法と生物学的知識を用いたアプローチ の現状.The Journal of Animal Genetics 41: 93–99 松下通也(2019)森林遺伝育種のデータ解析方法(基

礎編3)機械学習.森林遺伝育種 8: 200–201

松下通也(2020)森林遺伝育種のデータ解析方法(実 践編2)正則化回帰(Lasso 回帰・Ridge 回帰).森 林遺伝育種9: 135–136

Meuwissen T (2007) Genomic selection : marker assisted selection on a genome wide scale. Journal of Animal Breeding and Genetics 124: 321–322

Meuwissen TH, Hayes BJ, Goddard ME (2001) Prediction of total genetic value using genome-wide dense marker maps. Genetics 157: 1819–1829

Meuwissen T, Hayes B, Goddard M (2016) Genomic selection: A paradigm shift in animal breeding. Animal Frontiers 6: 6–14

鈴木大慈(2018)過学習と正則化.応用数理 28: 28–33 VanRaden PM (2008) Efficient methods to compute genomic

predictions. Journal of Dairy Science 91: 4414–4423 森林遺伝育種 第 10 巻(2021)

123 122

参照

関連したドキュメント

12 Kajinami K, et al : Genetically-determined mildtype of familial hypercholesterolemia including normocholesterolemic patients : FH-Tonami-2 Circulation 80 : 11-278, 1989.. 13

[r]

その産生はアルドステロン合成酵素(酵素遺伝 子CYP11B2)により調節されている.CYP11B2

 ヒト interleukin 6 (IL-6) 遺伝子のプロモーター領域に 結合する因子として同定されたNF-IL6 (nuclear factor for IL-6 expression) がC/EBP β である.C/EBP

今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると

第四章では、APNP による OATP2B1 発現抑制における、高分子の関与を示す事を目 的とした。APNP による OATP2B1 発現抑制は OATP2B1 遺伝子の 3’UTR

ADAR1 は、Z-DNA 結合ドメインを2つ持つ ADAR1p150 と、1つ持つ ADAR1p110 が.

マーカーによる遺伝子型の矛盾については、プライマーによる特定遺伝子型の選択によって説明す