3.5 胚系突变检测
胚系突变检测是基于比对结果的分析,将比对结果与参考基因组进行比较,找出相同位点或区域内和参考基因组基因型不一样的位点或区域,并给出这些位点或区域的详细信息。突变检测是重测序研究的重点,突变检测结果是临床医学、遗传学、关联分析、物种进化等各领域研究的基础。针对胚系短变异检测,GTX.CAT™提供的子命令 gtx vc
重新实现了GATK HaplotypeCaller的数学模型,通过对突变活跃区域的单倍型组装实现对SNP和INDELs同时进行分型。在GVCF模式下,gtx vc
生成的GVCF文件可用于后续对多个样本进行高效联合分型,样本一旦被测序,即可进行快速增量处理,使得大规模队列研究成为可能。
- 输入
参考基因组FASTA文件
输入BAM文件
碱基质量校正表(可选)
重要
BAM文件头中必须包含READ GROUP信息。
- 输出
VCF文件或GVCF文件
当输出gz压缩格式的VCF/GVCF文件时,会同时生成其tabix索引文件。对于其他输出中包含VCF/GVCF的
gtx
子命令亦是如此。
注解
无法使用一条命令同时生成VCF和GVCF。
- 示例命令
# call variant in VCF mode from base quality recalibrated BAM file
gtx vc \
-r hg19.fa \
-i in.dedup.bqsr.bam \
-o out.vcf
# perform on-the-fly BQSR and variant calling, output compressed VCF
gtx vc \
-r hg19.fa \
-i in.dedup.bam \
--bqsr in.bam.grp \
-o out.vcf.gz
# call variants in GVCF mode
gtx vc \
-r hg19.fa \
-i in.dedup.bqsr.bam \
-o out.g.vcf.gz \
-g
如需将GVCF转为VCF,请使用 gtx genotype_gvcfs 。
- 参数列表
- -r, --reference
参考基因组FASTA文件
- -i, --bam
输入排序标重后BAM文件
- -o, --output
输出VCF文件
- -t, --threads
线程数,默认为CPU数目
- -L, --intervals
基因组区间,支持BED, interval_list文件,字符串格式如’chr:start-end’
- --bqsr
输入碱基质量校正表用于碱基质量在线校正
- -m, --max-mnp-distance
合并距离小于该选项指定阈值的点突变为MNP
- -g, --gvcf
输出GVCF文件
- --tmp-dir
临时文件输出目录
- --pcr-indel-model
PCR indel模型,可选项为{AGGRESSIVE,CONSERVATIVE,HOSTILE,NONE}, 默认为 CONSERVATIVE
- --standard-min-confidence-threshold-for-calling
The minimum phred-scaled confidence threshold at which variants should be called. default [30]
- --min-pruning
Minimum support to not prune paths in the graph. default [2]
- --min-base-quality-score
变异检测最低质量值阈值,默认为10
- --interval-padding
指定区间两端的扩展长度, 默认为0
- --dont-use-soft-clipped-bases
Do not analyze soft clipped bases in the reads.
- --alleles
对给定VCF文件中所包含的位点强制进行分型,不考虑样本是否包含对应突变
- --ploidy
Determines the ploidy number of the sample being processed. default [2]
- -h, --help
打印此帮助信息