3.7 群体联合突变检测

该步将收集每个样本的GVCF文件(或已经合并完成的大规模群体的GVCF文件),对SNP和INDEL位点生成联合分型结果用于后续过滤。这种群体联合分型的方法提升了复杂位点突变检测的灵敏度,最终产生所有样本在所有位点的基因分型矩阵,对于下游分析十分关键。该步的执行效率较高,样本一旦添加至队列便可在任何时刻重新参与分析,因此从根本上解决了通常所说的”N+1”问题。

该步包含两个阶段:

  1. 将单个样本的GVCF数据导入GenomicsDB数据库;

  2. gtx vcgtx wgs 已经分型的一个和多个样本再次进行联合分型。

针对该分析,GTX.CAT™ 提供了较GATK更为高效的命令集合{ gi, genotype_gvcfs , joint }。其中 joint 子命令将两个阶段合二为一,直接基于原始GVCF的合并结果进行联合分型,避免了数据库引入的冗余IO操作,对于家系分析等小样本场景运行更加高效。