3.8.1 创建正常样本Panel

创建正常样本Panel(PoN)的子命令为 gtx pon。该工具以tumor-only模式下由 gtx mutect2 生成的多个正常样本的突变集合为输入,将多个样本的位点整理成一个只包含位点信息的VCF文件。PoN捕捉了常见的人为引入的错误,gtx mutect2 后续使用该Panel在位点水平对突变进行过滤。

输入

  • GenomicsDB工作目录或包含突变的VCF文件

  • 参考基因组FASTA文件

输出

  • VCF文件

示例命令

步骤1. 在tumor-only模式下对每个正常样本运行 gtx mutect2

gtx mutect2 \
  -r reference.fa \
  -i normal1.bam \
  --max-mnp-distance 0 \
  -o normal1.vcf.gz

步骤2. 基于正常样本突变数据创建GenomicsDB数据库

gtx gi \
   -r reference.fa \
   --genomicsdb-workspace-path pon_db \
   -v normal1.vcf.gz \
   -v normal2.vcf.gz \
   -v normal3.vcf.gz

步骤3. 运行 gtx pon 合并整理多个正常样本的突变集合

gtx pon \
  -r reference.fa \
  -v gendb://pon_db \
  -o pon.vcf.gz
参数列表

-h, --help

打印帮助信息并退出

-v, --variant

包含变异的VCF文件

-o, --output

输出VCF文件

-r, --reference

参考基因组FASTA文件

-t, --threads

线程数,默认为系统CPU数目

--tmp-dir

临时文件输出目录

-L, --intervals

基因组区间,支持BED,interval_list格式文件作为输入, 也可以为字符串格式如”chr:start-end”, 可指定多次

--min-sample-count

包含变异位点的样本数大于该选项指定阈值时,才会将变异位点纳入PoN, 默认为2

--max-germline-probability

跳过胚系概率大于此阈值的基因型,默认为0.5

--germline-resource

包含等位基因频率信息的胚系突变群体VCF文件