文档章节

GWAS基因芯片数据预处理:质量控制(quality control)

o
 osc_y8yehimr
发布于 2019/03/20 11:38
字数 597
阅读 25
收藏 0
ind

精选30+云产品,助力企业轻松上云!>>>

一、数据为什么要做质量控制

比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异。但即便这样,我们在做GWAS时也要去除一些可能引起偏差的因素。

这种因素主要有:群体结构、个体间存在血缘关系、技术性操作。

 

二、怎么看数据是否需要进行质量控制

下面分别为样本和SNP位点在数据中的直方图,当数据不在绝大多数的分布当中时,我们会倾向于认为那是测序、人工操作等其他方面造成的误差,而非该个体的真实情况,因此是需要将这些样本和位点过滤掉的。

这个阈值的设定并没有一个金标准,可参考往年发表的文献的常用阈值。

 

1、样本过滤阈值的设定

 

2、SNP过滤阈值的设定

三、怎么进行质量控制

质量控制包括两个方向,一个是样本的质量控制,一个是SNP的质量控制

 

1、样本的质量控制

样本的质量控制包括:缺失率、杂合性、基因型性别和记录的性别是否一致。

 

1)检测缺失率,通常情况下,将样本缺失率大于5%的个体去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

  

 

2)检测杂合性

plink --bfile file --het --make-bed --out file_het

  

 

3) 检测性别不一致的个体

plink --bfile file --check-sex --make-bed --out file_checksex

  

 

4)去除不符合的样本

将1-3)获得不符合的样本去除

plink --bfile file --remove removesample.txt --make-bed --out file_qcsample

  

removesample.txt的格式如下:

FID IID 

ASN ind1

ASN ind2

 

2、SNP位点的质量控制

SNP位点的质量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium

其命令见如下:

plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp

  

--hwe指的是不符合哈温伯格平衡的SNP位点,P值小于0.00001;

--geno指的是基因型缺失率大于2%的样本;

--maf指的是次等位基因频率低于1%的SNP位点;

 

 

最后,会得出干净的SNP和样本。

 

 

 

文中图片出处:

https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

 

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。

暂无文章

Pycharm文件打开方式

Pycharm修改文件默认打开方式 新下载了一个Pycharm,建了个小demo,期间产生了一个sqlite3文件,由于是第一次打开,就弹出选择打开方式的对话框,手一块直接点了个Text,然后就乱码了: 那我...

osc_fi9eaftu
14分钟前
8
0
微信域名检测中反应速度的重要性

随着微信域名检测的普及,越来越多的人重视这方面有个客户是这样跟我说的,他现在用的那个检测有频率限制 最快只能一秒检测一个, 并发多的时候是不能边跳转边检测的, 只能写到计划任务里面...

mkapi01
15分钟前
18
0
状压dp大总结1 [洛谷]

前言 状态压缩是一种\(dp\)里的暴力,但是非常优秀,状态的转移,方程的转移和定义都是状压\(dp\)的难点,本人在次总结状压dp的几个题型和例题,便于自己以后理解分析状态和定义方式 状态压缩...

osc_s28jz759
16分钟前
17
0
aspnet core 2.1中使用jwt从原理到精通一

目录 原理; 根据原理使用C#语言,生成jwt; 自定义验证jwt; 使用aspnetcore 中自带的类生成jwt; 学有所得 了解jwt原理; 使用C#轻松实现jwt生成和验证 原理 jwt对所有语言都是通用的,只要...

osc_1ls4yaq1
18分钟前
6
0
github上DQN代码的环境搭建,及运行(Human-Level Control through Deep Reinforcement Learning)conda配置

最近师弟在做DQN的实验,由于是强化学习方面的东西,正好和我现在的研究方向一样于是我便帮忙跑了跑实验,于是就有了今天的这个内容。 首先在github上进行搜寻,如下图: 发现第一个星数最多...

osc_252iaxru
19分钟前
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部