🛠️技术教程12 min

GWAS 分析入门：从表型到候选基因的完整流程

2026年5月8日

GWASRStatisticsWorkflowSoybean

什么是 GWAS？

全基因组关联分析（Genome-Wide Association Study, GWAS）通过检测全基因组范围内的 SNP 标记与目标性状之间的关联信号，定位控制性状的候选基因。相比传统连锁分析，GWAS 具有分辨率高、周期短、无需构建遗传群体等优势。

一、实验设计

材料选择

自然群体：选择遗传多样性丰富的种质资源，一般不少于 200 份
表型鉴定：多环境、多年重复试验，确保表型数据可靠
基因型检测：全基因组测序（推荐深度 5-15×）或 SNP 芯片

注意事项

群体结构是 GWAS 假阳性的主要来源之一。建议在分析前对群体结构进行评估，并在模型中进行校正。

二、分析流程

数据质控

# 使用 PLINK 进行 SNP 质控
plink --vcf raw.vcf \
  --maf 0.05 \
  --geno 0.1 \
  --hwe 0.0001 \
  --recode vcf \
  --out qc

关键质控参数：

MAF > 0.05：低频变异统计功效低
缺失率 < 10%：避免缺失数据过多
HWE P > 0.0001：过滤基因分型错误

群体结构分析

使用 ADMIXTURE 或 PCA 评估群体结构：

# R 语言 PCA 分析
pca <- prcomp(genotype_matrix, scale = TRUE)
# 前 3-5 个主成分作为协变量纳入模型

关联分析模型

混合线性模型（MLM）

最常用的 GWAS 模型，公式如下：

$$ y = Xβ + Sα + Qv + Zu + e $$

其中：

$Xβ$：固定效应（如年份、地点）
$Sα$：SNP 标记效应（待估）
$Qv$：群体结构协变量
$Zu$：亲缘关系随机效应
$e$：残差

使用 GAPIT 进行 GWAS 分析

# 安装并加载 GAPIT
library(GAPIT)

# 运行 GWAS
myGAPIT <- GAPIT(
  Y = phenotype,       # 表型数据
  G = genotype,        # 基因型数据
  PCA.total = 3,       # PC 数量
  model = "MLM",       # 模型选择
  SNP.MAF = 0.05       # MAF 阈值
)

三、结果解读

Manhattan 图

Manhattan 图是展示 GWAS 结果的标准方式：

-log10(p)
    |
  8 |         *
  6 |     *   *     *
  4 |   * * * * * * * * *
  2 | * * * * * * * * * * * *
  0 +------------------------→ 染色体位置

超过 Bonferroni 校正阈值（$0.05/N$，$N$ 为 SNP 数量）的信号视为显著关联。

LD 衰减分析

显著 SNP 周围区域进行 LD 分析，确定候选区间。通常以显著 SNP 为中心，取 LD 衰减距离（如 $r^2 > 0.6$）范围内的基因。

四、候选基因挖掘

基因注释

ANNOVAR / SnpEff 注释
关注非同义突变（missense）、移码突变等

功能验证

表达分析：qRT-PCR 或转录组数据验证候选基因表达
单倍型分析：不同单倍型与表型的关联
转基因验证：CRISPR/Cas9 敲除或过表达

小结

GWAS 分析是一个系统性的工作，从实验设计到候选基因验证，每一步都需要严谨的把控。对于初学者，建议先跑通标准流程，再根据具体研究对象逐步优化参数。

本文涉及的软件和工具：PLINK 1.9, GAPIT R package, ADMIXTURE, Haploview