跳转至

v4.0.x

版本说明

提醒

v4.0.x版本可免费使用压缩及解压功能,当使用达到6个月或压缩量(按压缩后统计)达到1TB时,软件将停止提供压缩功能,解压功能可继续使用,需要重新下载才可以重新使用压缩功能。

下载与安装

下载地址

访问GTX.Zip官方网站,点击下载软件即可获取当前所有可用版本的软件下载地址,用户可以根据操作系统选择相应的安装包下载。

安装方法
  1. 下载.tar.gz格式的安装包
  2. 使用'tar -zxvf xxx.tar.gz(实际安装包文件名)'命令解压.tar.gz格式的安装包
  3. 根据需求选择以下方式中的一种
    1. 使用root用户或sudo命令运行解压出来的.run安装程序,安装所有用户共享的GTX.Zip
    2. 使用当前用户运行解压出来的.run安装程序,安装仅当前用户可用的GTX.Zip
  1. 下载.tar.gz格式的安装包
  2. 使用'tar -zxvf xxx.tar.gz(实际安装包文件名)'命令解压.tar.gz格式的安装包
  3. 根据需求选择以下方式中的一种
    1. 使用root用户或sudo命令运行解压出来的.run安装程序,安装所有用户共享的GTX.Zip
    2. 使用当前用户运行解压出来的.run安装程序,安装仅当前用户可用的GTX.Zip
  1. 下载.tar.gz格式的安装包
  2. 使用'tar -zxvf xxx.tar.gz(实际安装包文件名)'命令解压.tar.gz格式的安装包
  3. 使用root用户或sudo命令运行解压出来的.run安装程序,安装所有用户共享的GTX.Zip

使用方式示例

压缩fastq(.gz)
  • 普通压缩
    gtz a.fastq(.gz)
    不使用-r指定参考基因组时,将对该fastq文件进行普通压缩,普通压缩压缩率相比高倍压缩大部分情况下会降低。
  • 高倍压缩
    gtz a.fastq(.gz) -r hg19.fa(.gz)
    -r参数用于指定a.fastq(.gz)对应物种的参考基因组文件,参考基因组文件支持fasta与fasta.gz格式。注意:压缩完成后的文件,解压时不再需要参考基因组文件。
  • 多文件压缩
    gtz a.fastq(.gz) b.fastq(.gz) (-r hg19.fa(.gz))
    将多个fastq文件压缩成一个gtz格式的压缩文件,可指定参考基因组使用高倍压缩压缩其中的fastq文件
  • 不打包fasta文件
    gtz a.fastq(.gz) -r hg19.fa(.gz) -n
    使用-n选项,生成的目标gtz文件会更小(但是对于大文件,影响相对较小),但是解压时需要指定对应的参考基因组。
  • 指定输出文件名
    gtz a.fastq(.gz) -r hg19.fa(.gz) -o b.fastq.gtz
    -o参数指定输出文件名,注意是小写字母o。
  • 压缩完成后解压校验
    gtz a.fastq(.gz) -r hg19.fa(.gz) -v
    存档时指定-v参数可以在压缩完成后测试解压来保证文件的可靠性,但是压缩时内部已有MD5校验,常规使用时不需要加该参数。
  • 限定资源压缩
    gtz a.fastq(.gz) -r hg19.fa(.gz) -p 4
    -p参数指定压缩时所使用的线程数,这里-p 4表示整个压缩过程只会使用4个线程,该功能在计算资源不够的时候非常实用。
  • 修改默认缓存路径
    gtz a.fastq(.gz) -r hg19.fa(.gz) -m /path/cache/
    -m参数可以修改默认缓存路径。当使用了-r指定了参考基因组时,会将参考基因组转换为相应的二进制文件,然后将其缓存到默认路径(~/.config/GTZ_Cache),以便在下次压缩指定了相同的参考基因组时,可以直接从缓存路径读取数据,这种处理相对较快。如果有要需要时(比如/home空间不够)可以使用该参数。
压缩bam
  • 普通压缩
    gtz a.bam
    不使用-r指定参考基因组时,将对该bam文件进行普通压缩,普通压缩压缩率相比高倍压缩大部分情况下会降低。
  • 高倍压缩
    gtz a.bam -r hg19.fa(.bz2)
    -r参数用于指定a.bam对应物种的参考基因组文件,参考基因组文件支持fasta与fasta.bz2格式。注意:使用上述命令压缩完成后的文件,解压时不再需要参考基因组文件。
压缩非fastq(.gz)/bam文件
  • 普通压缩
    gtz a.b
    普通压缩模式可以压缩任何格式的文件。
解压缩
  • 解压fastq.gtz文件(默认压缩方式不需要fasta)
    gtz -d a.fastq.gtz
    解压普通压缩或者默认情况下带参考基因组高倍压缩的gtz文件,不需要参考基因组文件。
  • 解压带fasta压缩的fastq.gtz文件,需要指定fasta
    gtz -d a.fastq.gtz -r hg19.fa(.gz)
    如果使用高倍压缩并指定了参考基因组,且使用了-n参数,那么解压时需要指定压缩时所使用的参考基因组。
  • 解压bam.gtz文件
    gtz -d a.bam.gtz
    gtz -d a.bam.gtz -s
    默认情况下bam.gtz解压成bam文件,如果需要解压成sam文件,需要带参数-s。如果该bam.gtz解压需要指定参考基因组可以通过-r指定,参考fastq的解压即可。
  • 解压到指定路径
    gtz -d a.fastq.gtz -O /path/out/
    -O参数指定解压文件的输出目录,注意是大写字母O。
  • 限定资源解压
    gtz -d a.fastq.gtz -p 4
    -p参数同样适用于解压,这里-p 4表示解压时只使用4个线程。

命令行参数说明

参数 说明
-i, --info 获取gtz文件的信息
-f, --force 强制覆盖输出文件,与-a互斥
-r <path>, --ref <path> 指定参考基因组文件用于压缩或解压数据,可以提升压缩性能,支持.fasta格式与.fasta.gz格式
-p <int>, --thread <int> 指定线程数,默认为cpu的逻辑核数
-m <path>, --cache-path <path> 指定参考基因组转换成二进制格式的缓存路径,默认的缓存路径是~/.config/GTZ_Cache
--version 显示版本信息
-h, --help 显示帮助信息
参数 说明
-a, --append 追加文件到已存在的gtz文件中,与-f互斥
-o <file>, --output <file> 指定压缩后输出的gtz文件名
-n, --not-pack-ref 指定该选项后,不再将参考基因组中的必要信息打包至gtz文件,能够减小gtz文件的大小,但是解压时需要通过-r参数指定压缩时所使用的参考基因组来解压
-v, --verify 指定该选项后,压缩完成后会对生成的gtz文件进行解压测试,保证生成的gtz能够解压
-l <int>, --level <int> [1-5]为快速压缩模式,[6-9]为高压缩率模式,默认为6
参数 说明
-d, --decompress 解压模式
-x <file>, --extract <file> 指定一个文件从gtz文件中解压,这个参数可以重复指定多次
-O <path>, --out-dir <path> 指定解压文件的保存路径
-s, --to-sam 将原始文件为BAM或SAM的gtz文件解压成SAM
-z, --to-gz 将原始文件为fastq或fastq.gz的gtz文件解压成fastq.gz
-l <int>, --level <int> 当解压成fastq.gz格式时,可以通过该参数设置gz的压缩等级,范围为[0-9],默认为4