3.2 序列比对、排序及标重
DNA序列比对是进行突变检测的基础,业界常用的短序列比对软件是BWA-MEM。gtx align
从头重新实现了BWA-MEM的算法,利用软件工程技术优化加速比对过程,与原版BWA相比,运行速度提升~2倍。
序列标重对每个样本识别实验环节人为引入的可能来自同一DNA模板的测序序列,这些序列不是独立观测到的,不能反映DNA文库的真实情况,对于来自同一冗余集的read序列,程序只会保留其中一条代表序列,将其余序列打上重复标记,这样后续突变检测时会自动忽略这些打上标记的序列。在这个阶段,read的比对记录需要按照参考基因组坐标进行排序,以方便后续其他预处理步骤。
gtx align
通过将比对,排序和标重整合成一条工作流,减少中间BAM文件的生成来节省程序运行时间。程序在排序和标重后会对比对结果进行简单质控,生成相应统计指标文件。
- 输入
参考基因组FASTA文件
FASTQ文件
FASTQ2文件(可选)
- 输出
按基因组位置排序后的BAM文件
比对统计文件
标重统计文件
- 示例命令
默认情况下, gtx align
优先采取精准BWA模式进行序列比对,因此选项 --bwa
自v2.0.0之后废弃。
gtx align \
-t 4 \
-R '@RG\tID:rgid\tSM:sample' \
reference.fasta \
input.1.fq \
input.2.fq
如需采用hash table index进行序列比对,您需将以下文件 reference.fasta, reference.fai, reference.tbl
放置到新的目录下。
mkdir -p /index/new_dir
ln -sf /path_of_ref/reference.fa /index/new_dir
ln -sf /path_of_ref/reference.fai /index/new_dir
gtx index --disable-bwa-index /index/new_dir/reference.fa # create hash table index
gtx align -R '@RG\tID:id\t:SM:sample' \
/index/new_dir/reference.fa \
input.1.fq \
input.2.fq
Alt-aware比对可以提升突变检测的准确性。如需进行alt-aware比对, 您需要将SAM格式的alt索引文件 [reference].alt
文件放到reference相同目录下。
- 参数列表
- -o
输出BAM文件
- -R
Read group信息,格式如’@RG\tID:foo\tSM:bar’
- -A
匹配得分,默认为1
- -B
错配罚分,默认为4
- -O
gap开启罚分,默认为6
- -E
gap扩展罚分,默认为1
- -U
read不配对时的罚分,默认为17
- -k
最小种子序列长度,默认为19
- -Y
对supplementary比对采用柔性裁剪,保留原始序列信息
- -M
Read为split比对时,将比对较短的记录标记为secondary比对
- -C
将FASTQ注释tag追加到SAM输出中
- -t, --threads
线程数,默认为CPU核数
- -K
每个数据块包含的碱基数目,默认为10000000
- --bwa
BWA精准比对模式,该选项自v2.0.0后废弃
- --bs-seq
比对WGBS/RRBS数据,对于RRBS数据比对,请同时指定
--disable-mark-duplicate
参数- --disable-mark-duplicate
禁用标记重复
- --tmp-dir
临时文件输出目录
- -h
打印帮助信息