3.8.5 过滤体细胞突变

gtx mutect2 的体细胞变异似然模型假设序列错误是独立的,gtx filter 则考虑了错误之间的相关性,即单个位点的所有支持变异的序列可能来源于某些常见的错误来源。该方法通过设置若干硬过滤器来检测比对错误,方向性偏好,PCR错误,胚系突变及污染等生成的噪音。此外,该过滤通过对整个SNV和INDEL的突变率及癌症的等位基因频谱进行贝叶斯建模来优化 gtx mutect2 输出的体细胞变异对数似然质量值,通过自动设置阈值来最大化Fscore, 以获得最优的体细胞变异检测特异性和灵敏度。

基于序列上下文过滤artifacts, 请指定参数 --orientation-bias-artifact-priors 一次或多次。此输入由 gtx learn 生成。

给定 --contmination-table 污染表格文件(由 gtx calc 生成),程序会基于污染做进一步过滤,table文件可以包含一个或多个肿瘤样本。gtx calc 还可接受一个或多个–tumor-segmentation文件(由 gtx calc 生成)作为输入。

输入

  • 体细胞突变VCF文件

  • 参考基因组FASTA文件

  • 污染表格文件(可选)

  • 噪音先验概率tar.gz文件(可选)

输出

  • 过滤后的VCF文件

  • 过滤前的VCF文件

示例命令

gtx filter \
  -r reference.fasta \
  -v somatic.vcf.gz \
  --contamination-table contamination.table \
  --orientation-bias-artifact-priors artifacts_prios.tar.gz \
  --tumor-segmentation segments.tsv \
  -o filtered.vcf.gz
参数列表

-h, --help

打印帮助信息并退出

-r, --reference

参考基因组FASTA文件

-v, --variant

包含变异的VCF文件

-o, --output

过滤后的VCF文件

--tmp-dir

临时文件输出目录

--contamination-table

包含交叉污染信息的表格文件

--tumor-segmentation

gtx calc 生成的包含胚系杂合位点肿瘤片段次要等位基因比例的表格

--stats

gtx mutect2 生成的统计文件

--threshold-strategy

后验概率阈值优化方法,支持OPTIMAL_F_SCORE/FALSE_DISCOVERY_RATE/CONSTANT, 默认为OPTIMAL_F_SCORE

--initial-threshold

第一轮迭代的初始错误概率阈值, 默认为0.1

--f-score-beta

F score的beta值,当阈值优化策略为OPTIMAL_F_SCORE时用于平衡灵敏度和特异性,默认为1.0

--false-discovery-rate

FDR最大阈值,默认为0.05

--orientation-bias-artifact-priors

包含先验错误概率的一个或多个tar.gz文件,用于read方向过滤模型,每个肿瘤样本一个table文件

--filtering-stats

输出过滤统计文件