v4.0.x
版本说明
提醒
v4.0.x版本可免费使用压缩及解压功能,当使用达到6个月或压缩量(按压缩后统计)达到1TB时,软件将停止提供压缩功能,解压功能可继续使用,需要重新下载才可以重新使用压缩功能。
下载与安装
下载地址
访问GTX.Zip官方网站,点击下载软件即可获取当前所有可用版本的软件下载地址,用户可以根据操作系统选择相应的安装包下载。
安装方法
使用方式示例
压缩fastq(.gz)
- 普通压缩
gtz a.fastq(.gz)
不使用-r指定参考基因组时,将对该fastq文件进行普通压缩,普通压缩压缩率相比高倍压缩大部分情况下会降低。
- 高倍压缩
gtz a.fastq(.gz) -r hg19.fa(.gz)
-r参数用于指定a.fastq(.gz)对应物种的参考基因组文件,参考基因组文件支持fasta与fasta.gz格式。注意:压缩完成后的文件,解压时不再需要参考基因组文件。
- 多文件压缩
gtz a.fastq(.gz) b.fastq(.gz) (-r hg19.fa(.gz))
将多个fastq文件压缩成一个gtz格式的压缩文件,可指定参考基因组使用高倍压缩压缩其中的fastq文件
- 不打包fasta文件
gtz a.fastq(.gz) -r hg19.fa(.gz) -n
使用-n选项,生成的目标gtz文件会更小(但是对于大文件,影响相对较小),但是解压时需要指定对应的参考基因组。
- 指定输出文件名
gtz a.fastq(.gz) -r hg19.fa(.gz) -o b.fastq.gtz
-o参数指定输出文件名,注意是小写字母o。
- 压缩完成后解压校验
gtz a.fastq(.gz) -r hg19.fa(.gz) -v
存档时指定-v参数可以在压缩完成后测试解压来保证文件的可靠性,但是压缩时内部已有MD5校验,常规使用时不需要加该参数。
- 限定资源压缩
gtz a.fastq(.gz) -r hg19.fa(.gz) -p 4
-p参数指定压缩时所使用的线程数,这里-p 4表示整个压缩过程只会使用4个线程,该功能在计算资源不够的时候非常实用。
- 修改默认缓存路径
gtz a.fastq(.gz) -r hg19.fa(.gz) -m /path/cache/
-m参数可以修改默认缓存路径。当使用了-r指定了参考基因组时,会将参考基因组转换为相应的二进制文件,然后将其缓存到默认路径(~/.config/GTZ_Cache),以便在下次压缩指定了相同的参考基因组时,可以直接从缓存路径读取数据,这种处理相对较快。如果有要需要时(比如/home空间不够)可以使用该参数。
压缩bam
- 普通压缩
gtz a.bam
不使用-r指定参考基因组时,将对该bam文件进行普通压缩,普通压缩压缩率相比高倍压缩大部分情况下会降低。
- 高倍压缩
gtz a.bam -r hg19.fa(.bz2)
-r参数用于指定a.bam对应物种的参考基因组文件,参考基因组文件支持fasta与fasta.bz2格式。注意:使用上述命令压缩完成后的文件,解压时不再需要参考基因组文件。
压缩非fastq(.gz)/bam文件
- 普通压缩
gtz a.b
普通压缩模式可以压缩任何格式的文件。
解压缩
- 解压fastq.gtz文件(默认压缩方式不需要fasta)
gtz -d a.fastq.gtz
解压普通压缩或者默认情况下带参考基因组高倍压缩的gtz文件,不需要参考基因组文件。
- 解压带fasta压缩的fastq.gtz文件,需要指定fasta
gtz -d a.fastq.gtz -r hg19.fa(.gz)
如果使用高倍压缩并指定了参考基因组,且使用了-n参数,那么解压时需要指定压缩时所使用的参考基因组。
- 解压bam.gtz文件
gtz -d a.bam.gtz
gtz -d a.bam.gtz -s
默认情况下bam.gtz解压成bam文件,如果需要解压成sam文件,需要带参数-s。如果该bam.gtz解压需要指定参考基因组可以通过-r指定,参考fastq的解压即可。
- 解压到指定路径
gtz -d a.fastq.gtz -O /path/out/
-O参数指定解压文件的输出目录,注意是大写字母O。
- 限定资源解压
gtz -d a.fastq.gtz -p 4
-p参数同样适用于解压,这里-p 4表示解压时只使用4个线程。
命令行参数说明
参数 |
说明 |
-i, --info |
获取gtz文件的信息 |
-f, --force |
强制覆盖输出文件,与-a互斥 |
-r <path>, --ref <path> |
指定参考基因组文件用于压缩或解压数据,可以提升压缩性能,支持.fasta格式与.fasta.gz格式 |
-p <int>, --thread <int> |
指定线程数,默认为cpu的逻辑核数 |
-m <path>, --cache-path <path> |
指定参考基因组转换成二进制格式的缓存路径,默认的缓存路径是~/.config/GTZ_Cache |
--version |
显示版本信息 |
-h, --help |
显示帮助信息 |
参数 |
说明 |
-a, --append |
追加文件到已存在的gtz文件中,与-f互斥 |
-o <file>, --output <file> |
指定压缩后输出的gtz文件名 |
-n, --not-pack-ref |
指定该选项后,不再将参考基因组中的必要信息打包至gtz文件,能够减小gtz文件的大小,但是解压时需要通过-r参数指定压缩时所使用的参考基因组来解压 |
-v, --verify |
指定该选项后,压缩完成后会对生成的gtz文件进行解压测试,保证生成的gtz能够解压 |
-l <int>, --level <int> |
[1-5]为快速压缩模式,[6-9]为高压缩率模式,默认为6 |
参数 |
说明 |
-d, --decompress |
解压模式 |
-x <file>, --extract <file> |
指定一个文件从gtz文件中解压,这个参数可以重复指定多次 |
-O <path>, --out-dir <path> |
指定解压文件的保存路径 |
-s, --to-sam |
将原始文件为BAM或SAM的gtz文件解压成SAM |
-z, --to-gz |
将原始文件为fastq或fastq.gz的gtz文件解压成fastq.gz |
-l <int>, --level <int> |
当解压成fastq.gz格式时,可以通过该参数设置gz的压缩等级,范围为[0-9],默认为4 |