3.8.2 候选突变检测

同胚系突变检测算法HaplotypeCaller一样,gtx mutect2 通过对突变活跃区的单倍型局部组装来进行体细胞SNVs和INDELs的识别。具体来说,对于一个显示有体细胞变异迹象的区域,gtx mutect2 会丢弃该区域已有的比对信息,通过重新组装该区域的reads产生候选变异单倍型集合,然后基于Pair-HMM算法将每条read与每个单倍型进行比对来计算似然性矩阵。最后,应用贝叶斯体细胞似然模型来计算等位基因是体细胞变异与测序错误的对数几率。

输入

  • 预处理之后的肿瘤或正常样本比对BAM文件

  • 参考基因组FASTA文件

输出

  • 输出VCF文件

示例命令

  • 肿瘤-正常配对模式

给定配对的正常样本,gtx mutect2 只会生成体细胞突变结果,程序会在算法早期阶段基于已有证据自动过滤明显的胚系突变,以节省计算资源。当突变的状态模棱两可时,gtx mutect 会输出该突变,交由下游过滤工具 gtx filter 做进一步评估及过滤。

gtx mutect2 \
  -r reference.fa \
  -i tumor.bam \
  -i normal.bam \
  --normal-sample normal_sample_name \
  --germline-resource af-only-gnomad.vcf.gz \
  --panel-of-normals pon.vcf.gz \
  -o somatic.vcf.gz

gtx mutect2 同时生成名为 [output vcf].stats 的统计文件。在上例中,统计文件为 somatic_vcf.gz.stats 并且与突变文件 somatic.vcf.gz 位于同一目录,该统计文件为过滤工具 gtx filter 的必需输入。

gtx mutect2 同时支持对同一个体的多个肿瘤和正常样本进行联合突变检测。与上例唯一区别在于,参数 -i--normal-sample 需要针对其他样本输入多次。

gtx mutect2 \
  -r reference.fa \
  -i tumor1.bam \
  -i tumor2.bam \
  -i normal1.bam \
  -i normal2.bam \
  --normal-sample normal1_sample_name \
  --normal-sample normal2_sample_name \
  --germline-resource af-only-gnomad.vcf.gz \
  --panel-of-normals pon.vcf.gz \
  -o somatic.vcf.gz
  • Tumor-only模式

该模式只适用于单一类型样本,如肿瘤或正常样本。如需创建PON,可在此模式下对每个正常样本进行分析,然后使用 gtx pon 生成PON。

gtx mutect2 \
  -r reference.fa \
  -i sample.bam \
  -o single_sample.vcf.gz

对肿瘤样本进行突变检测,可在此模式下使用PON和胚系突变信息进行检测。

gtx mutect2 \
  -r reference.fa \
  -i sample.bam \
  --germline-resource af-only-gnomad.vcf.gz \
  --panel-of-normals pon.vcf.gz \
  -o single_sample.vcf.gz

注解

  • 线粒体模式暂不支持。

  • gtx mutect2 无需胚系突变信息资源文件和正常样本Panel(PoN)也可以运行,但建议同时指定这两项。程序会对匹配正常样本和PoN的位点进行预过滤。

参数列表

-h, --help

打印帮助信息并退出

-r

参考基因组FASTA文件

-i

输入排序标重后BAM文件

-o

输出VCF文件

-t, --threads

线程数,默认为系统CPU数目

-L, --intervals

基因组区间,支持BED,interval_list格式文件作为输入, 也可以为字符串格式如”chr:start-end”, 可指定多次

--max-mnp-distance

合并距离小于该选项指定阈值的点突变为MNP

--normal-sample

正常样本名称,可指定多次

--f1r2-tar-gz

统计read方向信息,输出tar.gz文件,作为后续 gtx learn 的输入,用于学习测序的方向性偏好模型

--panel-of-normals

正常样本位点VCF文件

--germline-resource

包含等位基因频率的胚系测序群体VCF文件

--tmp-dir

临时文件输出目录

--pcr-indel-model

PCR indel模型,可选项为{AGGRESSIVE,CONSERVATIVE,HOSTILE,NONE}, 默认为 CONSERVATIVE

--min-base-quality-score

变异检测最低质量值阈值,默认为10

--interval-padding

指定区间两端的扩展长度, 默认为0

--alleles

对给定VCF文件中所包含的位点强制进行分型,不考虑样本是否包含对应突变