3.8.3.1 获取Pileup信息

gtx gps 用来统计给定位点支持参考等位基因和候选等位基因的reads数目,结果文件将作为 gtx calc 的输入用于计算样本间交叉污染。

输入

  • 参考基因组FASTA文件

  • 肿瘤BAM文件

  • 常见胚系突变VCF文件,如gnomAD资源,其中INFO字段需包含群体等位基因频率(AF)注释信息

列表 3.8.1 常见两等位突变位点VCF文件示例
#CHROM       POS     ID      REF     ALT     QUAL    FILTER  INFO
chr6 29942512        .       G       C       2974860 PASS    AF=0.063

注解

该资源文件必须仅包含两等位SNP位点, 可以只取VCF的前8列。

  • 基因组区间文件,支持BED格式和interval_list格式

输出

  • Pileup表格文件,gtx gps 将结果输出为如下所示包含6列的表格,其中字段 alt_countallele_frequency 对应胚系突变中突变等位基因的数目及频率。

<contig>    <position>      <ref_count>     <alt_count>     <other_alt_count allele_frequency>
eg: chr6    29942512        9       0       0       0.063
示例命令

gtx gps \
-i tumor.bam \
-v common_biallelic.vcf.gz \
-L common_biallelic.bed \
-o tumor.pileups.table
gtx gps \
-i normal.bam \
-v common_biallelic.vcf.gz \
-L common_biallelic.interval_list \
-o normal.pileups.table

尽管基因组区间及位点信息文件(-L)和变异资源文件(-v)所包含SNP位点通常是一样的,但情况并非总是如此。例如:

gtx gps \
-i normal.bam \
-v gnomad.vcf.gz \
-L common_snps.interval_list \
-o normal.pileups.table

尝试获取常见SNP位点的pileup信息并输出gnomAD中存在的位点。需注意的是, 位点信息可以是变异的一个子集,变异也可以是位点的一个子集,或者两者只是部分相交。对以上所有情况程序仅输出两者相交的位点的pileup统计信息。位点和变异信息不同的一个常见的应用场景:变异资源文件是一个很大的VCF文件,而位点是从VCF中提取的的一个区间列表子集所生成的interval_list或BED文件。

参数列表

-h, --help

打印帮助信息并退出

-r, --reference

参考基因组FASTA文件

-i, --input

包含Reads比对信息的BAM/SAM/CRAM文件

-v, --variant

包含突变位点和等位基因频率的VCF文件

-o, --output

输出table文件

-L, --intervals

基因组区间,支持BED,interval_list格式文件作为输入, 也可以为字符串格式如”chr:start-end”, 可指定多次

-t, --threads

线程数,默认为系统CPU数目

--tmp-dir

临时文件输出目录

--min-mapping-quality

最小比对质量值,默认为50

--minimum-population-allele-frequency

最小群体等位基因频率,该值越小,结果准确性越高,速度越慢, 默认为0.01

--maximum-population-allele-frequency

最大群体等位基因频率, 默认为0.2