3.1 参考基因组索引构建
在进行DNA序列比对之前,需要对参考基因序列创建索引文件。预创建参考基因序列索引可以提升比对效率,节省比对时间。
gtx index
支持构建两种类型的索引文件:一种是哈希表的索引文件,用于对种子k-mer序列进行快速定位;一种是类似BWA-MEM或BWA-MEM2的FM-index索引文件。基于哈希表的索引文件可以更加高效定位序列,但会牺牲比对的灵敏度。此外,gtx index
还支持为甲基化比对创建索引文件。
小技巧
对同一参考基因组,仅需构建一次参考基因组索引。
- 输入
参考基因组FASTA文件
- 输出
Hash table索引文件
BWA索引文件
模拟亚硫酸氢盐转化后的参考基因组FASTA文件
小技巧
v2.0.0版本以前,默认情况下同时生成BWA索引和hash table索引。
2.0.0版本以后,默认情况下只生成BWA索引。如需构建hash table索引,请指定选项
--disable-bwa-index
。
- 示例命令
gtx index reference.fasta
# build index for DNA methylation mapping
gtx index --bs-seq reference.fasta
- 参数列表
- -f
强制覆盖原有index文件
- -h
打印帮助信息
- --disable-gtx-index
禁止构建Hash-table索引, 自v2.0.0版本后废弃
- --disable-bwa-index
禁止构建BWA索引
- --bs-seq
针对甲基化比对构建参考基因组索引
- --tmp-dir
创建索引时使用的临时目录