3.6 胚系突变检测全流程

对于WGS/WES数据,如果分步执行上述 gtx 子命令,需要频繁读写中间BAM文件,产生很多不必要的IO操作,进而延长了分析时间。因此,GTX.CAT™将序列比对和突变检测整合成一条完整的工作流,提供 gtx wgs 一键式命令来完成从原始FASTQ到VCF/GVCF的分析。此处通过示例介绍 gtx wgs 的具体用法。

输入

  • 参考基因组FASTA文件

  • read1的FASTQ文件

  • read2的FASTQ文件(可选)

重要

运行时必须通过 -R 选项指定Read Group信息。

输出

  • 排序并标重后的BAM文件(可选)

  • 比对统计指标文件

  • 标重统计指标文件

  • 碱基质量校正表(可选)

  • VCF文件或GVCF文件

示例命令

# gtx wgs takes hg19.fa as the reference genome, in1.fq and in2.fq as input sequencing reads and
# saves the variants calling results to output.vcf in current directory.
gtx wgs \
   -t 4 \
   -o output.vcf \
   -b output.bam \
   -R '@RG\tID:S1\tSM:S1' \
   hg19.fa \
   in1.fq \
   in2.fq
参数列表

gtx wgs 的参数继承自 gtx align, gtx bqsrgtx vc

  • 继承自 gtx align 的参数:-R, -A, -B, -O, -E, -t, -K, -U, -k, -Y, -M, -C

  • 继承自 gtx bqsr 的参数:–bqsr, –known-sites

  • 继承自 gtx vc 的参数:-o, -L, -g, –max-mnp-distance

-b

输入排序标重后BAM文件

--metric

标重统计指标文件

--tmp-dir

临时文件目录

--pcr-indel-model

PCR indel模型,可选项为{AGGRESSIVE,CONSERVATIVE,HOSTILE,NONE}, 默认为 CONSERVATIVE

--standard-min-confidence-threshold-for-calling

The minimum phred-scaled confidence threshold at which variants should be called. default [30]

--min-pruning

Minimum support to not prune paths in the graph. default [2]

--min-base-quality-score

变异检测最低质量值阈值,默认为10

--interval-padding

指定区间两端的扩展长度, 默认为0

--dont-use-soft-clipped-bases

Do not analyze soft clipped bases in the reads.

--alleles

对给定VCF文件中所包含的位点强制进行分型,不考虑样本是否包含对应突变

--ploidy

Determines the ploidy number of the sample being processed. default [2]