講座：森林遺伝育種のデータ解析方法（実践編4）ゲノミック予測

(1)

概　要

　ゲノミックセレクション（genomic selection; GS）は Meuwissen et al.（2001）によって提唱された、全ゲノム情報に基づく育種手法である。発表当時、マーカー支援選抜（marker assisted selection; MAS）のジェノタイピングコストを下げることを目指す方向性が主流であったため、多数座における遺伝子型を利用する_{GS は現実} 的でないと考える向きもあった。しかしその後、大量の一塩基多型_{（single nucleotide polymorphism; SNP）マー} カー情報を取得するハードルが下がり、実現可能な手法となった_{（Meuwissen 2007）。GS 研究は家畜育種で先} 行し、現在、乳牛や肉牛では交配する雄牛・雌牛の選択にGS が利用されている。作物や林木でも近年研究例が増加しており、GS による育種の高速化が期待されている。　GS を行うためには、多数個体の表現型と、ゲノム上に高密度に配置されたゲノムワイドマーカー（通常は_{SNP）遺伝子型を用いてゲノミック予測（genomic} prediction; GP）モデルを作成する。GP により遺伝子型情報からゲノミック育種価（_{GEBV）が得られるため、} 訓練集団でGP モデルを作成しておくことにより、評価集団から遺伝子型のみで（表現型情報なしで）優良個体の選抜、つまりGS を行うことが可能になる。　GP のモデル化手法としては様々なものが提案されている。本稿では 1 ）遺伝子型と表現型の関係性を直接モデル化する手法と、2 ）遺伝子型を個体間の近縁関係に置き換えてから表現型との関係性をモデル化する BLUP （Best Linear Unbiased Prediction）法に基づく手法、の大きく_{2 つに整理して、それぞれを順に解説する。} 1 ）遺伝子型と表現型の関係性をモデル化する手法　ここでは、高密度なゲノムワイドマーカーのうち、対象形質の原因遺伝子と連鎖不平衡の状態にあるマーカーの遺伝子型によって表現型を説明するモデルを考える。これを理解するためには、重回帰モデルをイメージするとわかりやすい。つまり、個々の遺伝子型（AA、 Aa、aa）を数値（例えば 1、0、–1）に置き換えたものを説明変数とし、これらを線型結合することによって目的変数である表現型値を表すモデルを作成する。このとき、それぞれのSNP の効果は回帰係数で表現される。こうした線形回帰モデルによって遺伝子型と表現型を関係付けることができる。しかし、実際のGP で使用する遺伝子座数は、少ない場合でも数千、多い場合は₁₀ 万を超えるため、説明変数の数がサンプル数よりも格段に多くなる。つまり、本講座の松下_{（2020）の解説に} ある“large P, small N” （P >> N）問題が生じる。このよ うな場合、固定効果モデル（通常の重回帰分析）では単純に解くことができない。これを解決するためにいくつかの方法が提案されている。　そのひとつとして、SNP の効果を変量効果とする線形混合モデルに基づく方法がある。前回、武津（2021）が解説したとおり、従来の育種においては_{BLUP 法に} よって育種価を求めるが、ここでは個々のSNP の効果を求めることになる。そして全ての_{SNP 効果の線形結} 合によってGEBVが得られる。この手法はrrBLUP（ridge regression BLUP）あるいは SNP-BLUP と呼ばれる。その名が示すとおり、SNP 効果の解は、次に述べる Ridge 回帰のものと同一の式で表される（ただし通常、罰則項にかかる正則化パラメータの求め方は異なる）。　P >> N 問題に対処する手法としては、Ridge や Lasso といった正則化回帰の適用がある。前掲の松下（2020）の解説にあるとおり、正則化回帰では回帰モデルに罰則項を加えて過適合を防ぐ。_{Ridge 回帰は回帰係数（こ} こではSNP 効果）が正規分布に従うとして、Lasso 回帰では一部の説明変数の効果を_{0 にすることによって} 制約をかける。またGP モデルには、BayesA および B （_{Meiwissen et al. 2001）や BayesC や C π （Habier et al.}

【解　説】講　座

森林遺伝育種のデータ解析方法（実践編

4）ゲノミック予測

平

岡　裕一郎

*, 1 *_{E-mail: [email protected]} 1_{ひらおかゆういちろう　静岡県立農林環境専門職大学生産環境経営学部} 森林遺伝育種第 10 巻（2021） 121 120

(2)

2011）等の Bayesian alphabet と呼ばれる各種ベイズ回帰も用いられる。このうち_{BayesA および C は全ての SNP} に効果があると仮定するが、その他の手法では一部の回帰係数を0 にして効果のないものとする。また、効果のあるSNP の効果については SNP ごとにそれぞれのモデル化手法によって異なる事前分布を仮定するが、全てのSNP 効果の分散が等しいとするもの（BayesC およびC π）や、SNP ごとに分散が異なるとするもの（BayesA および_{B）がある。これら回帰モデルのうち、回帰係数} の一部を0 にする Lasso 回帰や BayesB および C πは説明変数として用いる_{SNP を選択していることになる。} 　回帰モデルによる手法とは別に、ランダムフォレストやサポートベクターマシンといった機械学習（松下（2019）で解説）による手法も用いられる。優性効果やエピスタシスといった遺伝子の非相加効果がある場合は、こうした機械学習により遺伝子型と表現型の非線形な関係をモデル化できるため有効と考えられる（郭・岩田 2018）。 2 ）BLUP 法に基づく手法　前回の武津（2021）の解説のとおり、BLUP 法では個体の変量効果（育種価）は系譜情報から作成した相加的血縁行列（A 行列；additive relationship matrix）によって互いに関係づけられ、その分散共分散が推定される。次に説明する2 つの手法は、この BLUP 法をベースにしたもので、遺伝子型情報は個体間の関係性を表す行列の作成に用いられる。

　個体の遺伝子型情報がある場合、ゲノム関係行列（G 行列；genomic relationship matrix または realized

relationship matrix；VanRaden 2008）を求めることができる。具体的には、各_{SNP 遺伝子座における遺伝子型（1、} 0、–1）と遺伝子頻度を使って計算する。この G 行列を A 行列のかわりに用いる BLUP 法を GBLUP （genomic BLUP）という。GBLUP で用いる G 行列は、A 行列では考慮できないメンデリアンサンプリングといったアレルの共有状態の情報を含むため、その予測精度は ABLUP より向上すると期待される。なお、GBLUP と前述のrrBLUP とはモデルの組み立て方は異なるが、両者は統計学的に同義となる（VanRaden 2008）。つまり、両者で同じGEBV が得られる。　さらに、G 行列と A 行列を融合した H 行列を作成し、 A 行列のかわりに用いる HBLUP（hybrid BLUP）がある（またはssGBLUP；single-step GBLUP ともいう）。この手法では遺伝子型情報を持つ個体と持たない個体を一緒に解析し、系譜情報上は無関係な家系間の関係性を明らかにしてGEBV を求めることができる。HBLUP は ABLUP と GBLUP の中間的な手法であり、遺伝子型情報が全くない場合はABLUP、全個体の遺伝子型情報がある場合はGBLUP となる。林木では系譜情報が既知である検定林の一部の個体をジェノタイピングすることで実行可能であるため、HBLUP の有効性は高いと考えられる（岩田2019）。どの手法を使うか　以上のようにGP のモデル化手法は多様であり、それぞれ前提とするモデルによってその特徴は様々である。林木育種で対象となる形質は成長、材質、着花性、病害虫抵抗性等があるが、それぞれの形質の表現型に対して遺伝子がどう関与するかによってモデル化手法を選択できる。例えば効果の小さい多数の量的遺伝子座（quantitative trait loci; QTL）の関与が想定され、分散成分の多くを相加的遺伝分散が占めるような形質では、全てのSNP が効果を持つとしてモデル化する rrBLUP （GBLUP）や BayesA 等が適していると考えられる。また、少数の_{QTL が関与している形質については、効果} のあるSNP を選択する Lasso 回帰や BayesB 等の手法の当てはまりが良いと期待される。遺伝子の非相加効果がある場合は、前述のとおり機械学習が良いであろう。しかし、実際のデータに対して適用すると、形質による手法間の差異はあまり見られないことが多い（岩田 2019）。そのひとつの要因として、SNP の密度が十分でないため、1 つの QTL を 1 つの SNP で説明できず、多くのSNP が QTL の説明に必要となっている状況が考えられる（Meuwissen et al. 2016）。こうした場合、たとえ少数遺伝子で決定する形質であっても、SNP を選択する手法が_{GBLUP などよりも優位にならない可能性がある} （Meuwissen et al. 2016）。　したがって、適切なモデル化手法を選択するには、データセットごとに複数のモデルを適用し、それぞれの予測精度を比較して最良のものを見出す必要がある。モデルの予測精度を評価するためには、通常、n 分割交 差検証（n-fold cross-validation）が用いられる（松下（2019） の解説を参照）。具体的には1 つのデータセットをランダムにn 分割し、1 つを検証集団、残りの n–1 を訓練集 団としてGP モデルを作成し、検証集団を予測する。これをn 分割分行い、検証集団における表現型値と予測 値の相関係数や残差平方和を予測精度とする。ソフトウェア　GP モデルの作成には多くの R のパッケージが利用可森林遺伝育種第 10 巻（2021） 121 120

(3)

能である。例えばrrBLUP や GBLUP は rrBLUP パッケージ、正則化回帰には_{glmnet パッケージ、ベイズ回帰は} BGLR パッケージで実行可能である。より詳しく勉強する場合には　GP を含む全ゲノム情報を利用した育種全般について学びたい場合は、細谷・菊池（_{2016）が比較的平易に} 書かれた解説として良い。またMeuwissen et al.（2016）では_{GP モデルの基本的な考え方が示されており理解し} やすい。武津（2021）も紹介していた広岡（2010）には_{GBLUP や HBLUP についてわかりやすく書かれてい} る。また、松田ら（2013）では GBLUP、HBLUP とともにBayesian alphabet のそれぞれの手法を解説している。岩田（2019）は最近の林木における GS の研究動向をレビューしており、それぞれの既往研究で使用されているモデル化手法について網羅している。用語集正則化パラメータ：正則化回帰モデルにおいて罰則項（正則化項）の強さを決定する係数。正則化パラメータを決定する方法として、Mallows’ C_p規準や交差検証法がある（鈴木2018）。rrBLUP において正則化パラメータは残差分散とSNP 効果の分散の比となり（VanRaden 2008）、制限付き最尤法（REML 法）等で推定する。引用文献武津英太郎（2021）森林遺伝育種のデータ解析方法（実践編_{3）BLUP 法．森林遺伝育種 10: 49–53} 郭威・岩田洋佳（2018）ゲノミックセレクションおよびハイスループットフェノタイピングを用いた作物育種の効率化・高速化．光合成研究28: 1–14

Habier D, Fernando RL, Kizilkaya K, Garrick DJ （2011） Extension of the bayesian alphabet for genomic selection. BMC Bioinformatics 12: 186

広岡博之（2010）家畜の育種価推定の変遷－選抜指数法からゲノム選抜法まで－．The Journal of Animal Genetics 38: 93–98 細谷将・菊池潔（2016）これからの水産育種 : ゲノム予測による新たな育種の取り組み．水産育種_46: 1–14 岩田洋佳（_{2019）林木のゲノミック選抜: 現状と展望 .} 森林遺伝育種8: 32–39 松田洋和・谷口幸雄・祝前博明（2013）代表的なゲノム育種価予測法と生物学的知識を用いたアプローチの現状．The Journal of Animal Genetics 41: 93–99 松下通也（2019）森林遺伝育種のデータ解析方法（基

礎編3）機械学習．森林遺伝育種 8: 200–201

松下通也（_{2020）森林遺伝育種のデータ解析方法（実} 践編2）正則化回帰（Lasso 回帰・Ridge 回帰）．森林遺伝育種_{9: 135–136}

Meuwissen T （2007） Genomic selection : marker assisted selection on a genome wide scale. Journal of Animal Breeding and Genetics 124: 321–322

Meuwissen TH, Hayes BJ, Goddard ME （2001） Prediction of total genetic value using genome-wide dense marker maps. Genetics 157: 1819–1829

Meuwissen T, Hayes B, Goddard M （2016） Genomic selection: A paradigm shift in animal breeding. Animal Frontiers 6: 6–14

鈴木大慈（2018）過学習と正則化．応用数理 28: 28–33 VanRaden PM （2008） Eﬃcient methods to compute genomic

predictions. Journal of Dairy Science 91: 4414–4423 森林遺伝育種第 10 巻（2021）

123 122

講座：森林遺伝育種のデータ解析方法（実践編4）ゲノミック予測

【解 説】講 座

森林遺伝育種のデータ解析方法（実践編

4）ゲノミック予測

平

岡 裕 一 郎

【解　説】講　座

岡　裕一郎