3.8.3.1 获取Pileup信息
gtx gps
用来统计给定位点支持参考等位基因和候选等位基因的reads数目,结果文件将作为 gtx calc 的输入用于计算样本间交叉污染。
- 输入
参考基因组FASTA文件
肿瘤BAM文件
常见胚系突变VCF文件,如gnomAD资源,其中INFO字段需包含群体等位基因频率(AF)注释信息
#CHROM POS ID REF ALT QUAL FILTER INFO
chr6 29942512 . G C 2974860 PASS AF=0.063
注解
该资源文件必须仅包含两等位SNP位点, 可以只取VCF的前8列。
基因组区间文件,支持BED格式和interval_list格式
- 输出
Pileup表格文件,
gtx gps
将结果输出为如下所示包含6列的表格,其中字段alt_count
和allele_frequency
对应胚系突变中突变等位基因的数目及频率。
<contig> <position> <ref_count> <alt_count> <other_alt_count allele_frequency>
eg: chr6 29942512 9 0 0 0.063
- 示例命令
gtx gps \
-i tumor.bam \
-v common_biallelic.vcf.gz \
-L common_biallelic.bed \
-o tumor.pileups.table
gtx gps \
-i normal.bam \
-v common_biallelic.vcf.gz \
-L common_biallelic.interval_list \
-o normal.pileups.table
尽管基因组区间及位点信息文件(-L
)和变异资源文件(-v
)所包含SNP位点通常是一样的,但情况并非总是如此。例如:
gtx gps \
-i normal.bam \
-v gnomad.vcf.gz \
-L common_snps.interval_list \
-o normal.pileups.table
尝试获取常见SNP位点的pileup信息并输出gnomAD中存在的位点。需注意的是, 位点信息可以是变异的一个子集,变异也可以是位点的一个子集,或者两者只是部分相交。对以上所有情况程序仅输出两者相交的位点的pileup统计信息。位点和变异信息不同的一个常见的应用场景:变异资源文件是一个很大的VCF文件,而位点是从VCF中提取的的一个区间列表子集所生成的interval_list或BED文件。
- 参数列表
- -h, --help
打印帮助信息并退出
- -r, --reference
参考基因组FASTA文件
- -i, --input
包含Reads比对信息的BAM/SAM/CRAM文件
- -v, --variant
包含突变位点和等位基因频率的VCF文件
- -o, --output
输出table文件
- -L, --intervals
基因组区间,支持BED,interval_list格式文件作为输入, 也可以为字符串格式如”chr:start-end”, 可指定多次
- -t, --threads
线程数,默认为系统CPU数目
- --tmp-dir
临时文件输出目录
- --min-mapping-quality
最小比对质量值,默认为50
- --minimum-population-allele-frequency
最小群体等位基因频率,该值越小,结果准确性越高,速度越慢, 默认为0.01
- --maximum-population-allele-frequency
最大群体等位基因频率, 默认为0.2