GWAs(Genome Wide Association studies,全基因组关联分析),即通过对群体的SNPs数据(genetic marker)和表型间的关联分析,目前常用于遗传病学研究、基因功能验证、目的基因筛选等方面的研究。GWAs分析总体流程较为复杂,包括诸多数据准备和过滤工作,其大体流程(不包括二进制文件的转化)如下。
一、质控质检
1、控制检出率
在最初的二进制文件中,存在着缺失SNPs数据的个体和缺失个体数据的SNPs,在进行分析之前需要去除这些数据。这一过程称为控制检出率(Calling Rate or Missingness)。
2、剔除性别不一致
在二进制数据中,个体的性别信息存在表型~基因型的冲突(Sex Discrepancy),即在基因型数据中表现为一性别,而在表型中记录为另一性别。为了实验结果的准确性,需剔除或修正(根据基因型)数据。
3、剔除低MAF数据
次等位基因(Minor Allele,MA),即在给定的群体中,其基因频率第二高的基因,其出现的频率即为次等位基因频率(Minor All