返回博客列表
🛠️技术教程12 min

GWAS 分析入门:从表型到候选基因的完整流程

GWASRStatisticsWorkflowSoybean

什么是 GWAS?

全基因组关联分析(Genome-Wide Association Study, GWAS)通过检测全基因组范围内的 SNP 标记与目标性状之间的关联信号,定位控制性状的候选基因。相比传统连锁分析,GWAS 具有分辨率高、周期短、无需构建遗传群体等优势。

一、实验设计

材料选择

  • 自然群体:选择遗传多样性丰富的种质资源,一般不少于 200 份
  • 表型鉴定:多环境、多年重复试验,确保表型数据可靠
  • 基因型检测:全基因组测序(推荐深度 5-15×)或 SNP 芯片

注意事项

群体结构是 GWAS 假阳性的主要来源之一。建议在分析前对群体结构进行评估,并在模型中进行校正。

二、分析流程

数据质控

# 使用 PLINK 进行 SNP 质控
plink --vcf raw.vcf \
  --maf 0.05 \
  --geno 0.1 \
  --hwe 0.0001 \
  --recode vcf \
  --out qc

关键质控参数:

  • MAF > 0.05:低频变异统计功效低
  • 缺失率 < 10%:避免缺失数据过多
  • HWE P > 0.0001:过滤基因分型错误

群体结构分析

使用 ADMIXTURE 或 PCA 评估群体结构:

# R 语言 PCA 分析
pca <- prcomp(genotype_matrix, scale = TRUE)
# 前 3-5 个主成分作为协变量纳入模型

关联分析模型

混合线性模型(MLM)

最常用的 GWAS 模型,公式如下:

$$ y = Xβ + Sα + Qv + Zu + e $$

其中:

  • $Xβ$:固定效应(如年份、地点)
  • $Sα$:SNP 标记效应(待估)
  • $Qv$:群体结构协变量
  • $Zu$:亲缘关系随机效应
  • $e$:残差

使用 GAPIT 进行 GWAS 分析

# 安装并加载 GAPIT
library(GAPIT)

# 运行 GWAS
myGAPIT <- GAPIT(
  Y = phenotype,       # 表型数据
  G = genotype,        # 基因型数据
  PCA.total = 3,       # PC 数量
  model = "MLM",       # 模型选择
  SNP.MAF = 0.05       # MAF 阈值
)

三、结果解读

Manhattan 图

Manhattan 图是展示 GWAS 结果的标准方式:

-log10(p) | 8 | * 6 | * * * 4 | * * * * * * * * * 2 | * * * * * * * * * * * * 0 +------------------------→ 染色体位置

超过 Bonferroni 校正阈值($0.05/N$,$N$ 为 SNP 数量)的信号视为显著关联。

LD 衰减分析

显著 SNP 周围区域进行 LD 分析,确定候选区间。通常以显著 SNP 为中心,取 LD 衰减距离(如 $r^2 > 0.6$)范围内的基因。

四、候选基因挖掘

基因注释

  • ANNOVAR / SnpEff 注释
  • 关注非同义突变(missense)、移码突变等

功能验证

  1. 表达分析:qRT-PCR 或转录组数据验证候选基因表达
  2. 单倍型分析:不同单倍型与表型的关联
  3. 转基因验证:CRISPR/Cas9 敲除或过表达

小结

GWAS 分析是一个系统性的工作,从实验设计到候选基因验证,每一步都需要严谨的把控。对于初学者,建议先跑通标准流程,再根据具体研究对象逐步优化参数。


本文涉及的软件和工具:PLINK 1.9, GAPIT R package, ADMIXTURE, Haploview