3.2 序列比对、排序及标重

DNA序列比对是进行突变检测的基础,业界常用的短序列比对软件是BWA-MEM。gtx align 从头重新实现了BWA-MEM的算法,利用软件工程技术优化加速比对过程,与原版BWA相比,运行速度提升~2倍。

序列标重对每个样本识别实验环节人为引入的可能来自同一DNA模板的测序序列,这些序列不是独立观测到的,不能反映DNA文库的真实情况,对于来自同一冗余集的read序列,程序只会保留其中一条代表序列,将其余序列打上重复标记,这样后续突变检测时会自动忽略这些打上标记的序列。在这个阶段,read的比对记录需要按照参考基因组坐标进行排序,以方便后续其他预处理步骤。

gtx align 通过将比对,排序和标重整合成一条工作流,减少中间BAM文件的生成来节省程序运行时间。程序在排序和标重后会对比对结果进行简单质控,生成相应统计指标文件。

输入

  • 参考基因组FASTA文件

  • FASTQ文件

  • FASTQ2文件(可选)

输出

  • 按基因组位置排序后的BAM文件

  • 比对统计文件

  • 标重统计文件

示例命令

默认情况下, gtx align 优先采取精准BWA模式进行序列比对,因此选项 --bwa 自v2.0.0之后废弃。

gtx align \
  -t 4    \
  -R '@RG\tID:rgid\tSM:sample' \
  reference.fasta  \
  input.1.fq \
  input.2.fq

如需采用hash table index进行序列比对,您需将以下文件 reference.fasta, reference.fai, reference.tbl 放置到新的目录下。

mkdir -p /index/new_dir
ln -sf /path_of_ref/reference.fa  /index/new_dir
ln -sf /path_of_ref/reference.fai  /index/new_dir
gtx index --disable-bwa-index /index/new_dir/reference.fa  # create hash table index
gtx align -R '@RG\tID:id\t:SM:sample' \
   /index/new_dir/reference.fa \
   input.1.fq \
   input.2.fq

Alt-aware比对可以提升突变检测的准确性。如需进行alt-aware比对, 您需要将SAM格式的alt索引文件 [reference].alt 文件放到reference相同目录下。

参数列表

-o

输出BAM文件

-R

Read group信息,格式如’@RG\tID:foo\tSM:bar’

-A

匹配得分,默认为1

-B

错配罚分,默认为4

-O

gap开启罚分,默认为6

-E

gap扩展罚分,默认为1

-U

read不配对时的罚分,默认为17

-k

最小种子序列长度,默认为19

-Y

对supplementary比对采用柔性裁剪,保留原始序列信息

-M

Read为split比对时,将比对较短的记录标记为secondary比对

-C

将FASTQ注释tag追加到SAM输出中

-t, --threads

线程数,默认为CPU核数

-K

每个数据块包含的碱基数目,默认为10000000

--bwa

BWA精准比对模式,该选项自v2.0.0后废弃

--bs-seq

比对WGBS/RRBS数据,对于RRBS数据比对,请同时指定 --disable-mark-duplicate 参数

--disable-mark-duplicate

禁用标记重复

--tmp-dir

临时文件输出目录

-h

打印帮助信息