3.1 参考基因组索引构建

在进行DNA序列比对之前,需要对参考基因序列创建索引文件。预创建参考基因序列索引可以提升比对效率,节省比对时间。

gtx index 支持构建两种类型的索引文件:一种是哈希表的索引文件,用于对种子k-mer序列进行快速定位;一种是类似BWA-MEM或BWA-MEM2的FM-index索引文件。基于哈希表的索引文件可以更加高效定位序列,但会牺牲比对的灵敏度。此外,gtx index 还支持为甲基化比对创建索引文件。

小技巧

对同一参考基因组,仅需构建一次参考基因组索引。

输入

  • 参考基因组FASTA文件

输出

  • Hash table索引文件

  • BWA索引文件

  • 模拟亚硫酸氢盐转化后的参考基因组FASTA文件

小技巧

  • v2.0.0版本以前,默认情况下同时生成BWA索引和hash table索引。

  • 2.0.0版本以后,默认情况下只生成BWA索引。如需构建hash table索引,请指定选项 --disable-bwa-index

示例命令

gtx index reference.fasta
# build index for DNA methylation mapping
gtx index --bs-seq reference.fasta
参数列表

-f

强制覆盖原有index文件

-h

打印帮助信息

--disable-gtx-index

禁止构建Hash-table索引, 自v2.0.0版本后废弃

--disable-bwa-index

禁止构建BWA索引

--bs-seq

针对甲基化比对构建参考基因组索引

--tmp-dir

创建索引时使用的临时目录