3.8.5 过滤体细胞突变
gtx mutect2
的体细胞变异似然模型假设序列错误是独立的,gtx filter
则考虑了错误之间的相关性,即单个位点的所有支持变异的序列可能来源于某些常见的错误来源。该方法通过设置若干硬过滤器来检测比对错误,方向性偏好,PCR错误,胚系突变及污染等生成的噪音。此外,该过滤通过对整个SNV和INDEL的突变率及癌症的等位基因频谱进行贝叶斯建模来优化 gtx mutect2
输出的体细胞变异对数似然质量值,通过自动设置阈值来最大化Fscore, 以获得最优的体细胞变异检测特异性和灵敏度。
基于序列上下文过滤artifacts, 请指定参数 --orientation-bias-artifact-priors
一次或多次。此输入由 gtx learn 生成。
给定 --contmination-table
污染表格文件(由 gtx calc 生成),程序会基于污染做进一步过滤,table文件可以包含一个或多个肿瘤样本。gtx calc
还可接受一个或多个–tumor-segmentation文件(由 gtx calc
生成)作为输入。
- 输入
体细胞突变VCF文件
参考基因组FASTA文件
污染表格文件(可选)
噪音先验概率tar.gz文件(可选)
- 输出
过滤后的VCF文件
过滤前的VCF文件
- 示例命令
gtx filter \
-r reference.fasta \
-v somatic.vcf.gz \
--contamination-table contamination.table \
--orientation-bias-artifact-priors artifacts_prios.tar.gz \
--tumor-segmentation segments.tsv \
-o filtered.vcf.gz
- 参数列表
- -h, --help
打印帮助信息并退出
- -r, --reference
参考基因组FASTA文件
- -v, --variant
包含变异的VCF文件
- -o, --output
过滤后的VCF文件
- --tmp-dir
临时文件输出目录
- --contamination-table
包含交叉污染信息的表格文件
- --tumor-segmentation
由
gtx calc
生成的包含胚系杂合位点肿瘤片段次要等位基因比例的表格- --stats
gtx mutect2
生成的统计文件- --threshold-strategy
后验概率阈值优化方法,支持OPTIMAL_F_SCORE/FALSE_DISCOVERY_RATE/CONSTANT, 默认为OPTIMAL_F_SCORE
- --initial-threshold
第一轮迭代的初始错误概率阈值, 默认为0.1
- --f-score-beta
F score的beta值,当阈值优化策略为OPTIMAL_F_SCORE时用于平衡灵敏度和特异性,默认为1.0
- --false-discovery-rate
FDR最大阈值,默认为0.05
- --orientation-bias-artifact-priors
包含先验错误概率的一个或多个tar.gz文件,用于read方向过滤模型,每个肿瘤样本一个table文件
- --filtering-stats
输出过滤统计文件