3.5 胚系突变检测

胚系突变检测是基于比对结果的分析,将比对结果与参考基因组进行比较,找出相同位点或区域内和参考基因组基因型不一样的位点或区域,并给出这些位点或区域的详细信息。突变检测是重测序研究的重点,突变检测结果是临床医学、遗传学、关联分析、物种进化等各领域研究的基础。针对胚系短变异检测,GTX.CAT™提供的子命令 gtx vc 重新实现了GATK HaplotypeCaller的数学模型,通过对突变活跃区域的单倍型组装实现对SNP和INDELs同时进行分型。在GVCF模式下,gtx vc 生成的GVCF文件可用于后续对多个样本进行高效联合分型,样本一旦被测序,即可进行快速增量处理,使得大规模队列研究成为可能。

输入

  • 参考基因组FASTA文件

  • 输入BAM文件

  • 碱基质量校正表(可选)

重要

BAM文件头中必须包含READ GROUP信息。

输出

  • VCF文件或GVCF文件

  • 当输出gz压缩格式的VCF/GVCF文件时,会同时生成其tabix索引文件。对于其他输出中包含VCF/GVCF的 gtx 子命令亦是如此。

注解

  • 无法使用一条命令同时生成VCF和GVCF。

示例命令

# call variant in VCF mode from base quality recalibrated BAM file
gtx vc \
   -r hg19.fa \
   -i in.dedup.bqsr.bam \
   -o out.vcf
# perform on-the-fly BQSR and variant calling, output compressed VCF
gtx vc \
   -r hg19.fa \
   -i in.dedup.bam \
   --bqsr in.bam.grp \
   -o out.vcf.gz
# call variants in GVCF mode
gtx vc \
   -r hg19.fa \
   -i in.dedup.bqsr.bam \
   -o out.g.vcf.gz \
   -g

如需将GVCF转为VCF,请使用 gtx genotype_gvcfs

参数列表

-r, --reference

参考基因组FASTA文件

-i, --bam

输入排序标重后BAM文件

-o, --output

输出VCF文件

-t, --threads

线程数,默认为CPU数目

-L, --intervals

基因组区间,支持BED, interval_list文件,字符串格式如’chr:start-end’

--bqsr

输入碱基质量校正表用于碱基质量在线校正

-m, --max-mnp-distance

合并距离小于该选项指定阈值的点突变为MNP

-g, --gvcf

输出GVCF文件

--tmp-dir

临时文件输出目录

--pcr-indel-model

PCR indel模型,可选项为{AGGRESSIVE,CONSERVATIVE,HOSTILE,NONE}, 默认为 CONSERVATIVE

--standard-min-confidence-threshold-for-calling

The minimum phred-scaled confidence threshold at which variants should be called. default [30]

--min-pruning

Minimum support to not prune paths in the graph. default [2]

--min-base-quality-score

变异检测最低质量值阈值,默认为10

--interval-padding

指定区间两端的扩展长度, 默认为0

--dont-use-soft-clipped-bases

Do not analyze soft clipped bases in the reads.

--alleles

对给定VCF文件中所包含的位点强制进行分型,不考虑样本是否包含对应突变

--ploidy

Determines the ploidy number of the sample being processed. default [2]

-h, --help

打印此帮助信息