GWAS和GS的结合:SSGWAS的应用

满血复活。注意:这个blupf90的新功能,貌似有点问题,好几个人测试显示SSGWAS结果P-value不显示。还未坐实,待我测试后公布。


小编寄语

一直以来,GWAS和GS一直是分家的,各搞各的,交叉很少。两者都是基于统计分析,GWAS重点在于找到显著性的SNP位点,找到关联性状的基因。GS的重点在于计算个体的育种值,进行排名选择。

基因组选择基于BLUP的方法(GBLUP,SSGBLUP)省略了SNP效应的估算,直接计算育种值(BLUP),随着基因组选择在育种中广泛的实施,GS和GWAS的结合变得更有意义:

  • GWAS得到的显著性位点,不同的群体的结构以及效应大小,都影响MAS(分子标记辅助育种)的应用。

  • GWAS分析中,需要个体都要有基因型信息,而实际育种中,有大量仅有系谱关系的表型数据,这些数据可以通过一步法(single-step)应用到基因组选择中,但是GWAS分析一直是个难点。

  • GWAS分析中,虽然可以通过PCA或者群体结构作为固定因子矫正模型,但是动物育种中有很多成熟的模型,比如母体效应,永久环境效应,可以放到随机效应中。

  • 如果可以在一步法中,应用GWAS,将特定群体的位点挖掘出来,用于特定群体的MAS,实践意义非常大。

blupf90软件在2014年就提出了SSGWAS,但是只能计算SNP的效应值,没有办法计算SNP的P-value,下面这篇文章介绍他们的团队对软件进行了升级,使得preGSf90模块可以计算SNP的P-value。这样,就可以在动物育种中使用了,特别是有大量系谱信息和一部分基因型信息以及大量表型信息的育种群体,基于GS和SSGWAS的MAS在特定群体的选择更具前景!

1. 文献

https://gsejournal.biomedcentral.com/track/pdf/10.1186/s12711-019-0469-3

在这里插入图片描述

2. 摘要

背景

一步法(SSGBLUP)在基因组育种中广泛应用,SSGWAS在此框架下一直没有显著性检验,我们的目的在于开发SSGWAS的显著性检验(p-value),并且在实际数据中进行了测试。

Single-step genomic best linear unbiased prediction (SSGBLUP) is a comprehensive method for
genomic prediction. Point estimates of marker efects from SSGBLUP are often used for genome-wide association
studies (GWAS) without a formal framework of hypothesis testing. Our objective was to implement p-values for singlemarker GWAS studies within the single-step GWAS (SSGWAS) framework by deriving computational algorithms and
procedures, and by applying these to a large beef cattle population

方法

P-values were obtained based on the prediction error (co)variances for single nucleotide polymorphisms
(SNPs), which were obtained from the prediction error (co)variances of genomic predictions based on the inverse of
the coefcient matrix and formulas to estimate SNP efects.

结果

Computation of p-values took a negligible time for a dataset with almost 2 million animals in the pedigree
and 1424 genotyped sires, and no infation of statistics was observed. The SNPs that passed the Bonferroni threshold
of 10−5.9 were the same as those that explained the highest proportion of additive genetic variance, but even at the
same signifcance levels and efects, some of them explained less genetic variance due to lower allele frequency

结论

The use of a p-value for SSGWAS is a very general and efcient strategy to identify quantitative trait
loci (QTL). It can be used for complex datasets such as those used in animal breeding, where only a proportion of the
pedigreed animals are genotyped.

3. `EMMAX` VS `SSGWAS`

EMMAX框架:

  • 依赖于单标记作为固定因子回归分析的混合线性模型框架,代表软件EMMAX,需要所有个体都有基因型和表型,这在动物育种中不现实

  • 一些性状是限性性状,无法直接利用,需要调整值,比如公牛产奶量,使用De-regression value,使用其进行GWAS分析,丧失信息,不准确,特别是测序个体中包括公牛和它的后代,会重复计算(double-counting)

  • 单个SNP回归分析时,如果都要估算方差组分,使用的REML会很慢

SSGWAS框架:

  • 将估算方差组分和考虑群体结构同时进行(SSGBLUP方法),使用系谱数据和基因型数据,表型数据。

  • 使用SSGBLUP可以同时计算育种值和SNP效应值,而且有文献已经证明GBLUP和单位点GWAS(EMMAX)是等价的,

  • SSGWAS框架可以将测序个体和非测序个体合并一起进行分析,这应用价值非常大

4. SSGWAS算法框架

第一步:构建H矩阵

在这里插入图片描述


第二步:构建混合线性方程组


第三步:计算系数矩阵稀疏逆矩阵

第四步:求解方程组


第五步:计算育种值


第六步:计算SNP效应值

第七步:计算标准误

第八步:计算SNP的P-value

5. 结果


6. 软件操作

使用blupf90家族中的preGSf90程序,计算p-value时使用的参数是OPTION snp_p_value。软件下载:
http://nce.ads.uga.edu/html/projects/programs/Linux/64bit/

在这里插入图片描述


线性混合模型学习笔记1

线性混合模型学习笔记2

线性混合模型学习笔记3

线性混合模型学习笔记4

线性混合模型学习笔记5


点击阅读原文,下载软件。



个人微信:添加请备注:姓名+单位


本文分享自微信公众号 - 育种数据分析之放飞自我(R-breeding)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部