3.7.3 一步法联合分型
gtx joint
命令用于一个和多个样本的一步联合分型。该工具直接从原始GVCF中读取数据,利用GenomicsDB的合并功能生成合并的GVCF记录后, 在内存中直接进行联合分型,原始GVCF数据并未实际导入GenomicsDB数据库。该IO优化避免了:
写突变数据到GenomicsDB的后端存储系统
TileDB
;从GenomicsDB读取合并后的GVCF
因此,较两步法联合分型更为高效。
小技巧
推荐使用该方式对家系样本进行联合分型。
- 输入
一个或多个GVCF文件,或样本名称映射TSV文件
参考基因组FASTA文件
- 输出
VCF结果文件
- 示例命令
# multiple GVCFs as input
gtx joint \
-v A.g.vcf.gz \
-v B.g.vcf.gz \
-v C.g.vcf.gz \
-o output.vcf.gz
# sample name map file as input
gtx joint \
--sample-name-map sample_gvcf_map.tsv \
-o output.vcf.gz
关于样本映射文件的格式请参考 gtx gi 。
- 参数列表
- -h, --help
打印帮助信息并退出
- -r, --reference
参考基因组FASTA文件
- -v, --variant
待导入GenomicsDB数据库的GVCF文件
- -s, --sample-name-map
样本映射文件
- -o, --output
存储突变结果的文件路径
- --tmp-dir
临时文件输出目录
- -L, --intervals
基因组区间,支持BED, interval_list格式文件,也可以输入字符串格式如’chr:start-end’, 可指定多次
- --keep-combined-raw-annotations
指定该选项将保留原始的注释信息,如AS_SB_TABLE, 适用于等位基因特有的注释信息
- --max-genotype-count
单个位点允许的最大分型数目,默认为1024
- --include-non-variant-sites
输出包含基因组非突变位点
- -t, --threads
线程数,默认为CPU个数