3.7.3 一步法联合分型

gtx joint 命令用于一个和多个样本的一步联合分型。该工具直接从原始GVCF中读取数据,利用GenomicsDB的合并功能生成合并的GVCF记录后, 在内存中直接进行联合分型,原始GVCF数据并未实际导入GenomicsDB数据库。该IO优化避免了:

  1. 写突变数据到GenomicsDB的后端存储系统 TileDB

  2. 从GenomicsDB读取合并后的GVCF

因此,较两步法联合分型更为高效。

小技巧

推荐使用该方式对家系样本进行联合分型。

输入

  • 一个或多个GVCF文件,或样本名称映射TSV文件

  • 参考基因组FASTA文件

输出

  • VCF结果文件

示例命令

# multiple GVCFs as input
gtx joint \
   -v A.g.vcf.gz \
   -v B.g.vcf.gz \
   -v C.g.vcf.gz \
   -o output.vcf.gz
# sample name map file as input
gtx joint \
  --sample-name-map  sample_gvcf_map.tsv \
  -o output.vcf.gz

关于样本映射文件的格式请参考 gtx gi

参数列表

-h, --help

打印帮助信息并退出

-r, --reference

参考基因组FASTA文件

-v, --variant

待导入GenomicsDB数据库的GVCF文件

-s, --sample-name-map

样本映射文件

-o, --output

存储突变结果的文件路径

--tmp-dir

临时文件输出目录

-L, --intervals

基因组区间,支持BED, interval_list格式文件,也可以输入字符串格式如’chr:start-end’, 可指定多次

--keep-combined-raw-annotations

指定该选项将保留原始的注释信息,如AS_SB_TABLE, 适用于等位基因特有的注释信息

--max-genotype-count

单个位点允许的最大分型数目,默认为1024

--include-non-variant-sites

输出包含基因组非突变位点

-t, --threads

线程数,默认为CPU个数