3.7.1 GVCFs导入GenomicsDB数据库
GenomicsDB 采用优化的数据存储系统来存储和检索稀疏数组。相对整个参考基因组来说,基因突变数据具有天然的稀疏性。关于GenomicsDB的更多细节请参考 GenomicsDB wiki 。gtx gi
提供与GATK GenomicsDBImport工具相同的功能用于对多个样本的GVCF进行合并。
- 输入
一个或多个GVCF文件
参考基因组FASTA文件
- 输出
GenomicsDB工作目录
- 示例命令
gtx gi \
-v data/gvcfs/mother.g.vcf.gz \
-v data/gvcfs/father.g.vcf.gz \
-v data/gvcfs/son.g.vcf.gz \
--genomicsdb-workspace-path my_database
gtx gi \
--sample-name-map cohort.sample_map \
--genomicsdb-workspace-path my_database
样本映射文件为TSV格式,示例如下,使用此选项可使程序避免多次读取GVCFs头信息来获取样本名称。
sample1 sample1.g.vcf.gz
sample2 sample2.g.vcf.gz
sample3 sample3.g.vcf.gz
将新样本导入已存在的GenomcisDB数据库。在增量导入模式下,无需指定基因组区间信息,因为该信息已在初次导入时写入数据库,增量导入亦支持样本映射文件作为输入。
gtx gi \
-v data/gvcfs/mother.g.vcf.gz \
-v data/gvcfs/father.g.vcf.gz \
-v data/gvcfs/son.g.vcf.gz \
--genomicsdb-update-workspace-path my_database
重要
输入的GVCF文件中单个基因组位置不能包含多条记录。
选项
--genomicsdb-workspace-path
需指向未创建目录或空目录。选项
--genomicsdb-update-workspace-path
需指向已存在的GenomicsDB工作目录。--genomicsdb-workspace-path
和--genomicsdb-update-workspace-path
必须指定其一。建议在使用选项–genomicsdb-update-workplace-path导入新样本数据之前, 先对已有GenomicsDB工作目录进行备份。如果增量导入失败,数据库将处于数据不一致或数据不完整的状态。
- 参数列表
- -h, --help
打印此帮助信息
- -v, --variant
待导入GenomicsDB数据库的GVCF文件
- -g, --genomicsdb-workspace-path
GenomicsDB工作目录
- -u, --genomicsdb-update-workspace-path
已存在的GenomicsDB工作目录,用于增量导入
- -t, --threads
线程数,默认为系统CPU数目
- -L, --intervals
基因组区间信息,支持BED, interval_list格式文件作为输入,也可以输入字符串格式如’chr:start-end’
- -r, --reference
参考基因组FASTA文件
- -s, --sample-name-map
样本映射文件
- --disable-partition
禁用分块
- --consolidate
当导入多批数据时,GenomicsDB会为每一批数据建立一个片段,当导入批次太多时,GenomicsDB读入器会打开约20x于批次数量的文件, 这将导致GenomicsDB内部消耗更多资源来维护每个片段的信息,使用此选项可将所有片段整合成一个,潜在提高读性能