3.8.1 创建正常样本Panel
创建正常样本Panel(PoN)的子命令为 gtx pon
。该工具以tumor-only模式下由 gtx mutect2
生成的多个正常样本的突变集合为输入,将多个样本的位点整理成一个只包含位点信息的VCF文件。PoN捕捉了常见的人为引入的错误,gtx mutect2
后续使用该Panel在位点水平对突变进行过滤。
- 输入
GenomicsDB工作目录或包含突变的VCF文件
参考基因组FASTA文件
- 输出
VCF文件
- 示例命令
步骤1. 在tumor-only模式下对每个正常样本运行 gtx mutect2
gtx mutect2 \
-r reference.fa \
-i normal1.bam \
--max-mnp-distance 0 \
-o normal1.vcf.gz
步骤2. 基于正常样本突变数据创建GenomicsDB数据库
gtx gi \
-r reference.fa \
--genomicsdb-workspace-path pon_db \
-v normal1.vcf.gz \
-v normal2.vcf.gz \
-v normal3.vcf.gz
步骤3. 运行 gtx pon
合并整理多个正常样本的突变集合
gtx pon \
-r reference.fa \
-v gendb://pon_db \
-o pon.vcf.gz
- 参数列表
- -h, --help
打印帮助信息并退出
- -v, --variant
包含变异的VCF文件
- -o, --output
输出VCF文件
- -r, --reference
参考基因组FASTA文件
- -t, --threads
线程数,默认为系统CPU数目
- --tmp-dir
临时文件输出目录
- -L, --intervals
基因组区间,支持BED,interval_list格式文件作为输入, 也可以为字符串格式如”chr:start-end”, 可指定多次
- --min-sample-count
包含变异位点的样本数大于该选项指定阈值时,才会将变异位点纳入PoN, 默认为2
- --max-germline-probability
跳过胚系概率大于此阈值的基因型,默认为0.5
- --germline-resource
包含等位基因频率信息的胚系突变群体VCF文件