3.7.1 GVCFs导入GenomicsDB数据库

GenomicsDB 采用优化的数据存储系统来存储和检索稀疏数组。相对整个参考基因组来说,基因突变数据具有天然的稀疏性。关于GenomicsDB的更多细节请参考 GenomicsDB wikigtx gi 提供与GATK GenomicsDBImport工具相同的功能用于对多个样本的GVCF进行合并。

输入

  • 一个或多个GVCF文件

  • 参考基因组FASTA文件

输出

  • GenomicsDB工作目录

示例命令

gtx gi \
  -v data/gvcfs/mother.g.vcf.gz \
  -v data/gvcfs/father.g.vcf.gz \
  -v data/gvcfs/son.g.vcf.gz \
  --genomicsdb-workspace-path my_database
gtx gi \
   --sample-name-map cohort.sample_map \
   --genomicsdb-workspace-path my_database

样本映射文件为TSV格式,示例如下,使用此选项可使程序避免多次读取GVCFs头信息来获取样本名称。

列表 3.7.1 样本映射文件示例
sample1    sample1.g.vcf.gz
sample2    sample2.g.vcf.gz
sample3    sample3.g.vcf.gz

将新样本导入已存在的GenomcisDB数据库。在增量导入模式下,无需指定基因组区间信息,因为该信息已在初次导入时写入数据库,增量导入亦支持样本映射文件作为输入。

gtx gi \
-v data/gvcfs/mother.g.vcf.gz \
-v data/gvcfs/father.g.vcf.gz \
-v data/gvcfs/son.g.vcf.gz \
--genomicsdb-update-workspace-path my_database

重要

  • 输入的GVCF文件中单个基因组位置不能包含多条记录。

  • 选项 --genomicsdb-workspace-path 需指向未创建目录或空目录。

  • 选项 --genomicsdb-update-workspace-path 需指向已存在的GenomicsDB工作目录。

  • --genomicsdb-workspace-path--genomicsdb-update-workspace-path 必须指定其一。

  • 建议在使用选项–genomicsdb-update-workplace-path导入新样本数据之前, 先对已有GenomicsDB工作目录进行备份。如果增量导入失败,数据库将处于数据不一致或数据不完整的状态。

参数列表

-h, --help

打印此帮助信息

-v, --variant

待导入GenomicsDB数据库的GVCF文件

-g, --genomicsdb-workspace-path

GenomicsDB工作目录

-u, --genomicsdb-update-workspace-path

已存在的GenomicsDB工作目录,用于增量导入

-t, --threads

线程数,默认为系统CPU数目

-L, --intervals

基因组区间信息,支持BED, interval_list格式文件作为输入,也可以输入字符串格式如’chr:start-end’

-r, --reference

参考基因组FASTA文件

-s, --sample-name-map

样本映射文件

--disable-partition

禁用分块

--consolidate

当导入多批数据时,GenomicsDB会为每一批数据建立一个片段,当导入批次太多时,GenomicsDB读入器会打开约20x于批次数量的文件, 这将导致GenomicsDB内部消耗更多资源来维护每个片段的信息,使用此选项可将所有片段整合成一个,潜在提高读性能